社区帖子招聘【成都全职】【分布式AI算力平台】【股权激励】K8S|Nomad(AI算力调度平台DevOps工程师)

头像
Nemo
230阅读10评论

我们是一个AI算力相关的创业团队,团队中有前大厂AI技术负责人(合伙人),现招募一个对AI算力方向感兴趣,具有创业心态的全职K8S|Nomad(AI算力调度平台DevOps工程师),根据能力可提供灵活的薪资+股权激励组合。
岗位职责:
一、容器调度系统开发、维护
1.基于 HashiCorp Nomad 开发企业级容器调度平台,支持 AI 工作负载的动态调度
2.设计和实现 Nomad Job 模板系统,支持多种 AI 模型和应用的快速部署
3.开发 Nomad Client 与 Server 集群的监控、管理和自动化运维功能
4.优化 Nomad 调度算法,实现基于 GPU 资源的智能分配和优先级调度

二、具备Kubernetes 生态开发经验
1.设计和开发 Kubernetes Operator,实现 AI 推理服务的自动化部署和扩缩容
2.开发自定义 CRD(Custom Resource Definitions)支持 AI 模型生命周期管理
3.实现 Kubernetes 与 Nomad 的混合调度方案,根据工作负载特性选择最优调度器
4.开发 Helm Charts 和部署工具,简化复杂 AI 应用的部署流程

三、容器运行时与镜像管理
1.开发企业级私有镜像仓库(Harbor)的集成和管理功能
2.实现容器镜像的安全扫描、版本管理和分发优化
3.开发支持 GPU 的容器运行时扩展,优化 AI 工作负载的容器启动速度
4.设计 Air-gapped 环境下的镜像同步和更新机制

四、平台 API 与 SDK 开发
1.设计和开发容器调度平台的 RESTful API,支持任务提交、监控、管理等功能
2.开发多语言 SDK(Go、Python、Java),方便开发者集成调度平台
3.实现 WebSocket API 支持实时任务状态推送和容器日志流
4.开发 CLI 工具,提供命令行方式的集群管理和任务操作

五、监控与可观测性
1。基于 Prometheus + Grafana 开发集群监控和告警系统
2.实现分布式链路追踪,监控任务调度的全链路性能
3.开发自定义 Metrics 采集器,监控 GPU 使用率、模型推理延迟等 AI 特有指标
4.设计日志聚合和分析系统,支持容器日志的实时查询和问题排查

岗位要求:
一、核心技术栈:
1.熟悉 HashiCorp Nomad:理解 Nomad 架构、Job 定义、调度策略、集群管理
2.Kubernetes :熟练掌握 K8s 、Controller 开发、Operator 模式、CRD 开发
3.容器技术实践:Docker等容器运行时的原理和调优
4.Go或Java 语言开发:2年以上 Go或Java开发经验,熟悉 Kubernetes client-go、Nomad API 开发 三者之一即可

二、基础设施开发:
1.熟悉 etcd、Consul 等分布式存储和服务发现机制
2.掌握 gRPC、RESTful API 设计和微服务架构
3.了解 Istio、Linkerd 等 Service Mesh 技术
4.熟悉 Terraform、Ansible 等 Infrastructure as Code 工具

三、AI/ML 工作负载优化:
1.理解 GPU 资源调度和 NVIDIA Device Plugin 开发
2.熟悉 CUDA、TensorRT 等 GPU 编程和优化技术
3.了解 Kubeflow、MLflow 等 ML 平台的架构和实现
4.有大规模 AI 推理服务部署和优化经验

四、系统和网络:
1.精通 Linux 系统编程和内核调优
2.熟悉容器网络(CNI、Flannel、Calico)和存储(CSI、Ceph、NFS)
3.掌握负载均衡(MetalLB、HAProxy、Nginx)和服务网格技术
4.了解安全加固(RBAC、Network Policy、Pod Security)

必须具备:
1.从零搭建过 Kubernetes 集群(kubeadm、k3s 或二进制部署)或 有Nomad 生产环境部署和开发经验更佳
2.开发过 Kubernetes Controller 或 Operator
3.参与过容器调度系统的架构设计和性能优化

加分项:
1.对AI具有强烈的兴趣和好奇心
2.深度理解容器调度算法(Bin Packing、Gang Scheduling)
3.熟悉 eBPF 在容器监控和网络中的应用
4.有自建 Homelab 集群的丰富实践经验
5.对 Serverless(Knative、OpenFaaS)有深入研究

最后修改于

招聘类型:
职业:
工作方式:
城市:
需消耗电量 5
收藏
举报
精选评论
头像
等级0

你好,看了介绍,自己的工作经历和技术栈高度匹配

  1. base就在成都
  2. 熟悉Devops整个流程,搭建过完整的Devops体系。
  3. 多年K8s生产使用经验。
    欢迎联系!
头像
等级0

有k8s大规模生产落地经验、有 devops 平台设计开发经验、有云原生架构经验、熟悉各大云平台使用 欢迎交流我来帮你搞定基础设施

头像
等级1

欢迎联系,有devops,容器生产经验

头像
等级5

请问你们最终用的是k3s还是nomad呢,感觉你们更加倾向nomad

头像
等级1

你好 可以远程分布式吗?

头像
等级0

十年以上的SRE,5年以上Devops,望联系

版块详情

社区帖子招聘

24k 帖子
180k 评论
1k 关注
非主流的工作机会在这里更受欢迎~
版主
远程全职推荐

扫码下载应用

下载APP以便及时收到回复或进展