在做 LLM 微调 的过程中,你是否也遇到过这些痛点:
-
想做 SFT,却找不到专业、可靠的 instruction 数据;
-
想搞 DPO,却缺少高质量的偏好对(chosen/rejected);
-
人工标注成本高、效率低,协作时标准还不统一。
为了解决这些问题,我做了一个开源项目 👉 DatasetLoom
它的目标是帮助大家建立一个 可验证、可协作、可溯源 的数据生产闭环,而不是盲目“全自动”。
🚀 核心功能
-
上传文档(PDF / Word / Markdown / TXT)
-
自动语义分块,保留上下文完整性
-
用自定义 Prompt 生成问答,支持多模型并行输出
-
内置 AI 自动评分(事实性、逻辑性、安全性等维度)
-
所有回答均可追溯到原文段落,点击即可验证
-
一键导出 SFT 或 DPO 格式,可直接用于 Llama Factory、HuggingFace 等训练框架
除此之外,还支持:
-
构建 对话数据集
-
支持 RAG 场景
🛠️ 使用方式
-
已开源,支持 Docker 一键部署,开箱即用
🙌 邀请交流
如果你也在为 训练数据集构建 头疼,欢迎来试试 DatasetLoom。
👉 点个 ⭐ 就是对我最大的支持!
也欢迎提 Issue、提建议,一起把工具打磨得更好。