社区帖子招聘【硬核兼】全栈能力,嵌入工程师,音视频底层 + Gemini Live API 多模态打样 (POV 视觉方向)

头像
137****3859
139阅读4评论

【核心任务】

硬件调通:实现 App 稳定调取外置 UVC 摄像头流。

AI 集成:对接 Google Gemini Multimodal Live API (WebSocket),实现实时视频帧发送与语音回传。

屏幕联动:利用 MediaProjection 权限抓取手机屏幕(如导航/订单界面),实现“外部视角+手机内部屏幕”双流识别。

后台运行:确保在手机锁屏或切换到第三方 App 时,AI 语音交互不断线。

【对你的期待】

精通 Android ios原生开发,有处理 UVC 驱动或 Camera2 接口的实战经验。

熟悉音视频推流(WebRTC/WebSocket)及图像压缩处理。

对大模型 API 接入有经验者优先。

能够接受“快速迭代、小步快跑”的打样逻辑,UI 只要能用就行,重点在底层逻辑稳定性。

【合作方式】

性质:远程兼职,项目制交付。

周期:预计 1-2 周内跑通 MVP 流程。

预算:专项协调,如全栈¥8000 - ¥12000(根据实现质量和进度可谈,支持阶段性分批支付)。

招聘类型:
职业:
工作方式:
城市:
需消耗电量 5
收藏
举报
精选评论
头像
等级0

我看了你的需求,这个 MVP 实际上是 「系统级视频采集 + 实时多模态流 + 后台保活」三块耦合在一起,
如果不拆阶段,很容易 1–2 周跑不通。

我这边一般是以技术负责人身份,先帮你把 MVP 路线和风险点拆清楚,再决定具体实现方式。
想先确认下:你们现在是偏 Android 单端验证,还是要 iOS 同步考虑?

头像
等级0

感觉要求很高,但是如果你不记时间成本的话,我觉得你可以联系我试试

版块详情

社区帖子招聘

25k 帖子
184k 评论
1k 关注
非主流的工作机会在这里更受欢迎~
版主
远程全职推荐

扫码下载应用

下载APP以便及时收到回复或进展