各位大佬好,我是 SoulPaw 项目的负责人。目前正切入宠物情绪翻译赛道,旨在利用 2026 年成熟的多模态大模型实现“降维打击”。
项目概况:
1. 核心逻辑: 调取 Gemini 1.5 Pro / GPT-4o 的多模态 API,实现视频流(肢体语言)+ 音频流(叫声频率)的情绪语义映射。
2. 技术栈要求:
• 前端:Flutter / React Native (一套代码多端发布)
• 后端:熟悉 FastAPI 或 Node.js,有 LLM 接口调用及 Prompt Engineering 经验。
• 熟悉 TTS 语音合成接口集成。
3. 目前状态: PRD 已定稿,UI 稿设计中。
4. 合作方式: 兼职开发,按里程碑付费。
我们寻找的人:
• 独立完成过至少一款 AI 应用上线;
• 对多模态 AI 交互有热忱,不是单纯的“搬砖工”;
• 能够给非技术出身的我提供架构建议。
报酬: 首个 MVP 版本预算:4万 - 6万(可根据技术实力面议)。
代码需全额交付,后续可长期维护或转化为技术合伙人。
招聘类型:
职业:
工作方式:
城市:
领域:


8


全栈,目前有自己的ai大模型接口中转站,非常熟练大模型对接,15年开发定制软件经验,完全可以对接
最近半年做了3个半项目, 一个iOS, 两个macOS应用, 其中一个macOS就是多模态AI应用. 还在打磨, 没上线. 可以提供试用. 欢迎沟通
8年人工智能算法经验 + python后端, React前端代码可以vibe coding编程
6年futter开发,时间充裕,已有相关经验。 希望tg联系
6年futter开发,时间充裕,有多个独立上线项目,可以联系我
个人说明:https://eleduck.com/posts/yGf4Vg
7年C#全栈工程师,有AIGC方向的打印机相关经验。
报名
全栈 滴滴
这个项目我做过,目前你说的这两个gemini 和4o我都在用,包括tts,其中遇到的一些问题,例如ttfb的问题,也都处理过
流数据涉及到分包粘包
ai前端开发可以联系
AI agent开发,可联系
全栈开发可以联系