logo

招聘寻找Python大佬编写处理25000份pdf文本提取工作的通用解决方案

头像
一步之遥
550阅读25评论

工作要求

原文档

需求:输出txt文档

问题:调用PyPDF包提取出来的文字格式,标题被切割,错误格式如下,
3.3.3 委托他人代为申
若申请人委托他人代为申请保险金,受委托人还应提供申请人亲笔签字的
请保险金
理赔授权委托书、受委托人的法定有效身份证明等相关证明文件。

目标格式
3.3.3 委托他人代为申 请保险金
若申请人委托他人代为申请保险金,受委托人还应提供申请人亲笔签字的 理赔授权委托书、受委托人的法定有效身份证明等相关证明文件。

本工作酬劳3000元,如果可以处理更加复杂的文档格式:表格、图片、图表等,可以商定价格。
如果对AI理解深刻,具有AI相关的经验,团队非常乐意聘请成兼职、全职或者顾问。

招聘类型:
外包零活
职业:
开发
工作方式:
线上兼职远程工作
需消耗电量 5
加载中…
精选评论
头像

帮楼主测试了下PyPDF和这个文档 没有发现楼主说的问题

使用的是:

from pypdf import PdfReader

reader = PdfReader("example.pdf")
page = reader.pages[3]
print(page.extract_text())

上文output:

'                                                             百年福寿两全 保险(分红型) 条款  \n 4 / 8 \n 受益人身故在先。  \n受益人故意造成被保险人身故、伤残、疾病的,或者故意杀害被保险人未\n遂的,该受益人丧失受益权。  \n除另有约定外,  身故给付 以外的保险金的受益人为被保险人本人。  \n   \n3.2 保险事故通知  请您、被保险人、 受益人或其他有权领取保险金的人 在知道 保险事故[11.4]\n发生之日起 5日内通知我们 ,否则您、被保险人、受益人 或其他有权领取保\n险金的人 需承担由于延迟通知致使我们增加的勘查、检验等费用, 因不\n可抗力[11.5]导致的通知延迟除外 。 \n如果您、被保险人、受益人或其他有权领取保 险金的人故意或者因重大过\n失在知道保险事故发生之日起 5日内未通知我们,致使保险事故的性质、原\n因、伤害程度等难以确定的,我们对无法确定的部分,不承担给付保险金\n的责任,但我们通过其他途径已经及时知道或者应 当及时知道保险事故发\n生的除外。  \n   \n3.3 保险金申请  申请各项保险金时, 申请人[11.6]应提供相关证明文件和资料。  \n   \n3.3.1 身故给付 申请                                                                    申请人申请 身故给付 时,应提供下列证明文件和资料:  \n(1)理赔申请书;  \n(2)保险合同;  \n(3)申请人的 法定有效身份证明[11.7]及关系证明 ; \n(4)公安部门或医疗机构出具的死亡证明文件 ; \n(5)被保险人的户籍注销证 明和殡葬证明; \n(6)被保险人被宣告死亡的,需提供人民法院的宣告死亡判决书;  \n(7)申请人所能提供的与确认保险事故的性质、原因等有关的其他证明和\n资料。 \n保险金作为被保险人的遗产时, 必须提供 证明合法继承权的相关权利文件。  \n   \n3.3.2 其他保险金 申请                                                         申请人申请 其他保险金时,应提供下列证明文件和资料:  \n(1)申请书;  \n(2)保险合同;  \n(3)被保险人 的户籍证明及法定有效身份证明;  \n(4)申请人的法定有效 身份证明及关系证明;  \n(5)能够确认被保险人生存的其他证明材料。  \n   \n3.3.3 委托他人代为申\n请保险金  \n                                                                若申请人委托他人代为申请保险金, 受委 托人还应提供 申请人亲笔签字的\n理赔授权委托书、 受委托人的 法定有效身份证明 等相关证明文件。  \n3.3.4 提供补充材料  \n                                                                以上保险金申请的证明和资料不完整的,我们将一次性通知申请人补充提\n供有关的证明和资料 ,但出现不可预知的新情况除外 。 \n   \n3.4  保险金给付                                                                   (1)我们收到被保险人或者受益人的给付保险金的请求后,应当及时作出\n核定;情形复杂的,应当在 30日内作出核定,但合同另有约定的除\n外。我们应当将核定结果通知被 保险人或者受益人;对属于保险责任\n的,在与被 保险人或者受益人达成 给付保险金的协议后 10日内,履\n行给付保险金义务。 本合同对给付保险金的期限有约定的, 我们应当\n按照约定履行给付保险金义务。   '

你这个是左右结构的文档么?

? 左右结构?
文档应该和你图中是完全同一个文档.

头像

需求不复杂(如果仅仅修改你提及的地方,会比较容易实现),但是需要提供通用解决方案(不清楚通用的具体含义,难道是所有这样的错误,即使不提供位置,也能智能处理)。并没有那么简单。

不限方式,只要自动提取出来的文档不出现帖子中描述的问题,任务就算完成了。感谢您的关注

如果是这样,那请问现在问题解决了吗

感谢您的关注,如果问题没有解决,我会联系您。

头像

chatgpt pdf插件咯

头像英语俱乐部成员

可以试试

已经联系上了一位小伙伴,如果没有处理好,我会再联系您

头像

可以试试,你这个主要是格式的问题

头像

俺这会python 试试 有些难度

头像

还需要招人吗。可以接单

头像

有文档解析经验,需要可联系

头像

已经有人接单处理过了。单子已经结束了

头像

PyPDF2、pdfminer、tika 可以用这3个库一起做

头像

你的需求就简单的把图片的转换成文字格式的吗?

还有没有其他的附加要求

头像

如果现在还有需求可以联系