logo
【该文在 2021-09-16T18:53:19.407+08:00 时间 被 林民币 用户隐藏】

招聘【长期兼职,3万RMB+长期维护工资】从PDF文档里抽取图片

头像
林民币
475阅读13评论18 天前

1.需求简介
之前在社区发过“以图识图”的大任务,发现太难了,没人能接,现在把任务拆成两步,第一步先从美国专利文件PDF文档里面抽取图片,精度要求95%以上,剩下的实在不行再人工抽取。

2.实现过程
目前尝试了几种方法
(1)深度学习,人工标注、训练样本,然后识别剩余的文档,我们尝试了400份,这是目前效果最好的方法,我们会完成1万份样本的人工标注,合作者专心负责深度学习算法;
(2)根据图片信息分布密度裁剪,比如某个区域的像素比较集中,可以裁为一张图片,但是这种效果不太好;
(3)根据FIG字样来识别。每张图片下方会有FIG字样,识别这些字体,就可以检测到图片所在位置,再根据这些位置裁剪图片。难点:大部分FIG字体能在公共字体库找到,有些匹配不到,需要用深度学习方法识别这些字体。

3.数据处理量
存量有80万份文档,已经下载好,平均每份6张图片,每天会更新几百分新文档进来。后续需要让算法自动处理+长期维护,维护费用按市场价付费;

4.数据处理时间:2-4个月

5.数据处理报酬:现金3万RMB作为一次性开发的报酬,后期维护和代码升级按照市场价付费;也可以加入公司成为长期技术合伙人,享有股权;

6.说明:最好有相关项目经验,减少重新学习时间;链接里是测试数据,链接:https://pan.baidu.com/s/1xPBy__7t7jrTBkcHFgNRJA 提取码:j5c8

7.测试过数据,有把握的同学请联系

招聘类型:
组队合伙
专业领域:
开发
工作方式:
全职坐班线上兼职同城驻场远程工作
城市:
广州海外其他苏州郑州长沙武汉南京深圳杭州成都西安厦门上海北京
职位:
国内远程工作
需消耗电量 5
加载中…
精选评论
头像
17 天前鸭霸

三万块钱就想做这种项目? 你加个零试试吧

不好意思,团队经费有限,请不起大牛,只能来社区碰碰运气

16 天前鸭霸

没别的意思,你自己描述也知道用到需要做什么 大概怎么实现 做这类人的人工资都挺高的 你这点钱都不够支撑前期研究投入 有这方面成果的不可能三万块就卖给你哈 这个注定是徒劳无功的 研发投入与产出收益不正比例

所以说是碰碰运气啊

头像
15 天前151****2860

你好,我目前只会截图这种笨方法,请问可以做吗?

要是2个月内能截完也可以啊

头像
16 天前瑞好

3万美金估计差不多🤪

3万美金我帮你做

头像
17 天前Pnyx

找大学生手工截图会不会更快?

80万*6张=480万,截到猴年马月,每天还有更新的

头像
17 天前北风

你这pdf本身已经是图片格式了啊

有些pdf页面里面有多张图,要拆开

头像

再加点钱我给你弄