招聘&找人长期项目第一阶段:智能知识库RAG系统基座

头像
天高云飞
249阅读6评论

【长期项目第一阶段】招聘远程技术伙伴:
搭建本地化、可扩展的智能知识库RAG系统基座
一、 项目概述
我正在进行一个长期、分阶段的个人项目,旨在构建一个完全本地化、自主可控的智能知识库与AI智能体基础平台。项目遵循“积木式”部署原则,确保每一阶段都坚实可靠。
现诚聘一位技术伙伴,负责完成第一阶段(数据基石)的核心平台搭建。本阶段的核心目标是:​基于我已准备好的本地环境,构建一个高性能、可扩展的RAG系统基础架构,实现对本地知识文件的自动化处理与智能检索。​ 此平台将作为未来接入各类数据源和AI能力的通用基座。

​二、 您的任务(第一步:核心平台搭建)​
为保障专业性,第一阶段明确拆分为两步。​您本次负责的是至关重要的第一步——打造一个“干净”且强大的核心平台。​
核心任务:​

  1. ​环境集成与部署​:在我已配置好的WSL2/Docker和Ollama环境上,使用Docker Compose部署PostgreSQL、向量数据库(如ChromaDB)等必需服务。

  2. ​核心数据管道开发:开发文件监听服务,实现对我指定文件夹内新增PDF/TXT文件的**全自动处理(包括文本提取、智能分块、使用我本地Ollama中的模型进行向量化、并存入向量数据库)。

  3. ​RAG检索功能实现:构建RAG检索核心,并提供一个简易的Web查询界面(如Gradio/Streamlit),支持自然语言问答,并能返回答案及原文引用。

  4. ​预留标准化接口:为第二步(由数据专家对接Tushare API)设计并预留清晰的数据接入接口。
    第二步说明(由您提供支持,但不需您开发)​​:核心平台验收后,将由Tushare官方数据专家依据您设计的接口,独立完成金融数据接入。您需提供必要的接口文档与技术咨询。

三、 项目现状与您的优势*

环境已就绪,起步更高效:我的电脑已成功安装并配置好 ​Docker、WSL2 和 Ollama。Ollama中已拉取 ​Llama3.1:8b, Qwen2.5:7b等开源模型,GPU(RTX 5060 Ti)加速可用。您无需配置基础AI环境,可专注于核心业务逻辑开发。

需求明确,技术路径清晰:本项目是一个标准的本地RAG系统构建,不涉及初期搭建复杂知识图谱。我们采纳了宝贵建议,将重点放在构建高质量、易扩展的数据管道上。

四、 我们对技术实现的要求
架构​:追求稳定、可扩展。请使用成熟的技术栈。
数据质量​:系统应支持对入库内容进行管理,为构建“高质量知识库”打好基础。
本地化:所有服务必须运行在本地环境中。
*技术栈参考:Python, FastAPI, Docker Compose, PostgreSQL, ChromaDB,利用现有Ollama模型提供Embedding和LLM能力。

五、 交付物与验收标准

  1. ​交付物:
    完整的项目源代码与详细注释。
    键部署的Docker Compose脚本。
    完整的系统部署、运维和API接口文档(特别是为第二步预留的接口说明)。
    一个稳定运行的系统。

  2. ​验收标准(您的“考试题”)​​:
    我将提供一份系统从未见过的PDF文档。放入监听文件夹后,我能在您提供的Web界面中用自然语言提问(例如:“文档中提到的XX技术方案的具体优势是什么?”),系统需在秒级内返回精准答案,并清晰标注原文出处。

六、 项目预算、时间与合作方式
预算范围*:3500元(可基于您的技术方案和细节协商)
预计工期​:2周
工作方式:远程协作,定期沟通进度。

七、 我期待的合作伙伴
希望您是一位:
有RAG系统、数据管道构建或类似基础架构项目经验的技术专家。
理解“搭积木”的重要性,注重代码质量、系统稳定性和文档完整性。
沟通顺畅,能精准理解需求并提出专业建议。我需完全认同并遵循项目基于Python/Ollama/ChromaDB的技术选型,谢绝提议更换至其他技术栈。

本项目是长期合作的第一块基石,第一阶段合作顺利,将直接进入后续智能体工作流、Web应用等阶段的开发。

最后修改于

招聘类型:
需消耗电量 5
收藏
举报
精选评论
头像
等级1

10 年全栈开发经验,多个 rag 项目开发者。欢迎联系

头像
等级1

多个rag项目主导角色经历,欢迎联系

头像
等级0

应征者需完全认同并遵循项目基于Python/Ollama/ChromaDB的技术选型,谢绝提议更换至其他技术栈。

头像
等级0

编辑非常认真负责
几千的试水灵活也设计得很合理

头像
等级1

10年开发经验,经历phpcms,java springboot,大数据hive,spark,cdh到如今go+vue全栈;感兴趣可电联,国内首位ABCD自动化开发布道者;国内4线的成本,1线的服务