1.需求简介
之前在社区发过“以图识图”的大任务,发现太难了,没人能接,现在把任务拆成两步,第一步先从美国专利文件PDF文档里面抽取图片,精度要求95%以上,剩下的实在不行再人工抽取。
2.实现过程
目前尝试了几种方法
(1)深度学习,人工标注、训练样本,然后识别剩余的文档,我们尝试了400份,这是目前效果最好的方法,我们会完成1万份样本的人工标注,合作者专心负责深度学习算法;
(2)根据图片信息分布密度裁剪,比如某个区域的像素比较集中,可以裁为一张图片,但是这种效果不太好;
(3)根据FIG字样来识别。每张图片下方会有FIG字样,识别这些字体,就可以检测到图片所在位置,再根据这些位置裁剪图片。难点:大部分FIG字体能在公共字体库找到,有些匹配不到,需要用深度学习方法识别这些字体。
3.数据处理量
存量有80万份文档,已经下载好,平均每份6张图片,每天会更新几百分新文档进来。后续需要让算法自动处理+长期维护,维护费用按市场价付费;
4.数据处理时间:2-4个月
5.数据处理报酬:现金3万RMB作为一次性开发的报酬,后期维护和代码升级按照市场价付费;也可以加入公司成为长期技术合伙人,享有股权;
6.说明:最好有相关项目经验,减少重新学习时间;链接里是测试数据,链接:https://pan.baidu.com/s/1xPBy__7t7jrTBkcHFgNRJA 提取码:j5c8
7.测试过数据,有把握的同学请联系
三万块钱就想做这种项目? 你加个零试试吧
不好意思,团队经费有限,请不起大牛,只能来社区碰碰运气
没别的意思,你自己描述也知道用到需要做什么 大概怎么实现 做这类人的人工资都挺高的 你这点钱都不够支撑前期研究投入 有这方面成果的不可能三万块就卖给你哈 这个注定是徒劳无功的 研发投入与产出收益不正比例
所以说是碰碰运气啊
你这pdf本身已经是图片格式了啊
有些pdf页面里面有多张图,要拆开
找大学生手工截图会不会更快?
80万*6张=480万,截到猴年马月,每天还有更新的
你好,我目前只会截图这种笨方法,请问可以做吗?
要是2个月内能截完也可以啊
3万美金估计差不多🤪
3万美金我帮你做
再加点钱我给你弄