独立产品【开源分享】DatasetLoom:高质量 LLM 微调数据集构建工具

头像
🐏🐏🐏
20阅读0评论

在做 LLM 微调 的过程中,你是否也遇到过这些痛点:

  • 想做 SFT,却找不到专业、可靠的 instruction 数据;

  • 想搞 DPO,却缺少高质量的偏好对(chosen/rejected);

  • 人工标注成本高、效率低,协作时标准还不统一。

为了解决这些问题,我做了一个开源项目 👉 DatasetLoom
它的目标是帮助大家建立一个 可验证、可协作、可溯源 的数据生产闭环,而不是盲目“全自动”。

🚀 核心功能

  1. 上传文档(PDF / Word / Markdown / TXT)

  2. 自动语义分块,保留上下文完整性

  3. 用自定义 Prompt 生成问答,支持多模型并行输出

  4. 内置 AI 自动评分(事实性、逻辑性、安全性等维度)

  5. 所有回答均可追溯到原文段落,点击即可验证

  6. 一键导出 SFT 或 DPO 格式,可直接用于 Llama Factory、HuggingFace 等训练框架

除此之外,还支持:

  • 构建 对话数据集

  • 支持 RAG 场景

🛠️ 使用方式

🙌 邀请交流

如果你也在为 训练数据集构建 头疼,欢迎来试试 DatasetLoom。
👉 点个 ⭐ 就是对我最大的支持!
也欢迎提 Issue、提建议,一起把工具打磨得更好。

收藏
举报
精选评论
empty
暂无数据
版块详情

独立产品

1k 帖子
3k 评论
574 关注
请真诚分享你的个人作品的创作灵感、开发经验、运营过程等;不得只罗列产品功能来借机营销
版主
远程老司机/游牧旅居中/电鸭社区站长
远程全职推荐

扫码下载应用

下载APP以便及时收到回复或进展