找运维专家,远程,兼职
一、核心任职资格
-
本科及以上学历,计算机科学与技术、软件工程、数据科学等相关专业,5年以上大数据领域运维经验,其中3年以上大规模分布式集群(100节点以上)运维实战经验;
-
持有云计算厂商高级认证(如AWS Certified DevOps Engineer、阿里云ACP/ACE、华为云HCIACP/HCIACE)或大数据相关高级认证(如Cloudera CCA Spark & Hadoop Developer)者优先;
-
具备金融、互联网、政务等大型企业核心业务系统大数据运维经验,熟悉高并发、高可用场景下的运维架构设计与落地。
二、技术技能要求
(一)分布式大数据技术栈
-
精通Hadoop生态系统(HDFS、YARN、MapReduce)、Spark、Flink、HBase、Hive、Kafka、Zookeeper等核心组件的部署、配置、调优与故障排查;
-
熟练掌握分布式存储(如Ceph、GlusterFS)、分布式计算框架的性能优化,能解决数据倾斜、资源争抢、任务积压等复杂问题;
-
了解ClickHouse、Elasticsearch、Presto等OLAP/搜索引擎的运维特性,具备多引擎混合部署与协同优化能力。
(二)运维工具与自动化能力
-
熟练使用Shell、Python、Golang等至少一种编程语言,能独立开发运维脚本、自动化工具(如集群巡检、故障自愈、部署流水线);
-
精通容器化与编排技术,深入理解Docker、Kubernetes原理,具备基于K8s的大数据集群部署、调度、扩缩容实战经验;
-
掌握监控告警体系搭建,熟练使用Prometheus、Grafana、Zabbix、ELK Stack等工具,能设计全链路监控方案并实现告警精准触达;
-
熟悉CI/CD流程与工具(Jenkins、GitLab CI、ArgoCD),能落地大数据组件的自动化部署、版本升级与回滚机制。
(三)底层架构与安全能力
-
具备服务器硬件、网络、存储等基础设施运维基础,了解Linux内核调优、网络参数配置(如TCP/IP、DNS、负载均衡);
-
精通大数据平台安全策略,包括权限管理(Kerberos、Ranger)、数据加密(传输/存储)、合规审计(如等保三级)、漏洞修复等;
-
了解云原生架构(如Serverless、微服务),具备公有云/私有云/混合云环境下大数据平台部署与运维经验。
三、工作经验与项目要求
-
主导过至少1个大型大数据平台从0到1的搭建或重构,负责集群规划、容量评估、性能优化,支撑TB/PB级数据存储与计算;
-
具备丰富的故障应急处理经验,能快速定位并解决集群宕机、数据丢失、任务阻塞等重大问题,有完善的应急预案制定经验;
-
参与过大数据平台自动化运维体系建设,包括运维平台开发、脚本自动化、监控告警标准化等,显著提升运维效率;
-
有跨团队协作经验,能与数据开发、算法、业务团队高效配合,提供稳定可靠的大数据底层支撑。
四、核心能力与素质要求
-
技术钻研能力:持续关注大数据、云计算、运维自动化等领域新技术,具备独立解决复杂技术问题的能力;
-
风险管控意识:具备敏锐的风险识别能力,能提前预判潜在问题并制定防范措施,保障平台7×24小时稳定运行;
-
沟通协调能力:逻辑清晰,表达准确,能有效推进跨部门协作,快速响应业务需求并提供技术解决方案;
-
责任心与抗压性:工作严谨细致,有强烈的责任心,能承受业务高峰期、故障处理等场景下的工作压力;
-
团队协作与分享:乐于分享技术经验,推动团队技术能力提升,具备带领小团队开展运维工作的潜力。


8


可以长期兼职,偶尔有突发的事故需要去现场的可以 配合, 离郑州近的, 可以考虑一下