我们是一个AI算力相关的创业团队,团队中有前大厂AI技术负责人(合伙人),现招募一个对AI算力方向感兴趣,具有创业心态的全职K8S|Nomad(AI算力调度平台DevOps工程师),根据能力可提供灵活的薪资+股权激励组合。
岗位职责:
一、容器调度系统开发、维护
1.基于 HashiCorp Nomad 开发企业级容器调度平台,支持 AI 工作负载的动态调度
2.设计和实现 Nomad Job 模板系统,支持多种 AI 模型和应用的快速部署
3.开发 Nomad Client 与 Server 集群的监控、管理和自动化运维功能
4.优化 Nomad 调度算法,实现基于 GPU 资源的智能分配和优先级调度
二、具备Kubernetes 生态开发经验
1.设计和开发 Kubernetes Operator,实现 AI 推理服务的自动化部署和扩缩容
2.开发自定义 CRD(Custom Resource Definitions)支持 AI 模型生命周期管理
3.实现 Kubernetes 与 Nomad 的混合调度方案,根据工作负载特性选择最优调度器
4.开发 Helm Charts 和部署工具,简化复杂 AI 应用的部署流程
三、容器运行时与镜像管理
1.开发企业级私有镜像仓库(Harbor)的集成和管理功能
2.实现容器镜像的安全扫描、版本管理和分发优化
3.开发支持 GPU 的容器运行时扩展,优化 AI 工作负载的容器启动速度
4.设计 Air-gapped 环境下的镜像同步和更新机制
四、平台 API 与 SDK 开发
1.设计和开发容器调度平台的 RESTful API,支持任务提交、监控、管理等功能
2.开发多语言 SDK(Go、Python、Java),方便开发者集成调度平台
3.实现 WebSocket API 支持实时任务状态推送和容器日志流
4.开发 CLI 工具,提供命令行方式的集群管理和任务操作
五、监控与可观测性
1。基于 Prometheus + Grafana 开发集群监控和告警系统
2.实现分布式链路追踪,监控任务调度的全链路性能
3.开发自定义 Metrics 采集器,监控 GPU 使用率、模型推理延迟等 AI 特有指标
4.设计日志聚合和分析系统,支持容器日志的实时查询和问题排查
岗位要求:
一、核心技术栈:
1.熟悉 HashiCorp Nomad:理解 Nomad 架构、Job 定义、调度策略、集群管理
2.Kubernetes :熟练掌握 K8s 、Controller 开发、Operator 模式、CRD 开发
3.容器技术实践:Docker等容器运行时的原理和调优
4.Go或Java 语言开发:2年以上 Go或Java开发经验,熟悉 Kubernetes client-go、Nomad API 开发 三者之一即可
二、基础设施开发:
1.熟悉 etcd、Consul 等分布式存储和服务发现机制
2.掌握 gRPC、RESTful API 设计和微服务架构
3.了解 Istio、Linkerd 等 Service Mesh 技术
4.熟悉 Terraform、Ansible 等 Infrastructure as Code 工具
三、AI/ML 工作负载优化:
1.理解 GPU 资源调度和 NVIDIA Device Plugin 开发
2.熟悉 CUDA、TensorRT 等 GPU 编程和优化技术
3.了解 Kubeflow、MLflow 等 ML 平台的架构和实现
4.有大规模 AI 推理服务部署和优化经验
四、系统和网络:
1.精通 Linux 系统编程和内核调优
2.熟悉容器网络(CNI、Flannel、Calico)和存储(CSI、Ceph、NFS)
3.掌握负载均衡(MetalLB、HAProxy、Nginx)和服务网格技术
4.了解安全加固(RBAC、Network Policy、Pod Security)
必须具备:
1.从零搭建过 Kubernetes 集群(kubeadm、k3s 或二进制部署)或 有Nomad 生产环境部署和开发经验更佳
2.开发过 Kubernetes Controller 或 Operator
3.参与过容器调度系统的架构设计和性能优化
加分项:
1.对AI具有强烈的兴趣和好奇心
2.深度理解容器调度算法(Bin Packing、Gang Scheduling)
3.熟悉 eBPF 在容器监控和网络中的应用
4.有自建 Homelab 集群的丰富实践经验
5.对 Serverless(Knative、OpenFaaS)有深入研究
最后修改于
你好,看了介绍,自己的工作经历和技术栈高度匹配
欢迎联系!
已联系
还在招吗?
还在的,更新了下JD
欢迎投递
请问你们最终用的是k3s还是nomad呢,感觉你们更加倾向nomad
你好 可以远程分布式吗?
十年以上的SRE,5年以上Devops,望联系
欢迎联系,有devops,容器生产经验