招聘&找人【长期兼职,3万RMB+长期维护工资】从PDF文档里抽取图片

头像
林民币
476阅读13评论

1.需求简介
之前在社区发过“以图识图”的大任务,发现太难了,没人能接,现在把任务拆成两步,第一步先从美国专利文件PDF文档里面抽取图片,精度要求95%以上,剩下的实在不行再人工抽取。

2.实现过程
目前尝试了几种方法
(1)深度学习,人工标注、训练样本,然后识别剩余的文档,我们尝试了400份,这是目前效果最好的方法,我们会完成1万份样本的人工标注,合作者专心负责深度学习算法;
(2)根据图片信息分布密度裁剪,比如某个区域的像素比较集中,可以裁为一张图片,但是这种效果不太好;
(3)根据FIG字样来识别。每张图片下方会有FIG字样,识别这些字体,就可以检测到图片所在位置,再根据这些位置裁剪图片。难点:大部分FIG字体能在公共字体库找到,有些匹配不到,需要用深度学习方法识别这些字体。

3.数据处理量
存量有80万份文档,已经下载好,平均每份6张图片,每天会更新几百分新文档进来。后续需要让算法自动处理+长期维护,维护费用按市场价付费;

4.数据处理时间:2-4个月

5.数据处理报酬:现金3万RMB作为一次性开发的报酬,后期维护和代码升级按照市场价付费;也可以加入公司成为长期技术合伙人,享有股权;

6.说明:最好有相关项目经验,减少重新学习时间;链接里是测试数据,链接:https://pan.baidu.com/s/1xPBy__7t7jrTBkcHFgNRJA 提取码:j5c8

7.测试过数据,有把握的同学请联系

招聘类型:
组队合伙
职业:
开发
工作方式:
同城驻场线上兼职远程工作全职坐班
城市:
海外武汉长沙苏州郑州南京其他厦门西安成都杭州深圳广州上海北京
需消耗电量 5
收藏
举报
加载中…
精选评论
头像
等级0

三万块钱就想做这种项目? 你加个零试试吧

不好意思,团队经费有限,请不起大牛,只能来社区碰碰运气

没别的意思,你自己描述也知道用到需要做什么 大概怎么实现 做这类人的人工资都挺高的 你这点钱都不够支撑前期研究投入 有这方面成果的不可能三万块就卖给你哈 这个注定是徒劳无功的 研发投入与产出收益不正比例

头像
等级0

你这pdf本身已经是图片格式了啊

有些pdf页面里面有多张图,要拆开

头像
等级3

找大学生手工截图会不会更快?

80万*6张=480万,截到猴年马月,每天还有更新的

头像
等级0

你好,我目前只会截图这种笨方法,请问可以做吗?

要是2个月内能截完也可以啊

头像
等级2

3万美金估计差不多🤪

头像
等级0