招聘&找人寻找Python大佬编写处理25000份pdf文本提取工作的通用解决方案

头像
一步之遥
673阅读26评论

工作要求

原文档

需求:输出txt文档

问题:调用PyPDF包提取出来的文字格式,标题被切割,错误格式如下,
3.3.3 委托他人代为申
若申请人委托他人代为申请保险金,受委托人还应提供申请人亲笔签字的
请保险金
理赔授权委托书、受委托人的法定有效身份证明等相关证明文件。

目标格式
3.3.3 委托他人代为申 请保险金
若申请人委托他人代为申请保险金,受委托人还应提供申请人亲笔签字的 理赔授权委托书、受委托人的法定有效身份证明等相关证明文件。

本工作酬劳3000元,如果可以处理更加复杂的文档格式:表格、图片、图表等,可以商定价格。
如果对AI理解深刻,具有AI相关的经验,团队非常乐意聘请成兼职、全职或者顾问。

招聘类型:
外包零活
职业:
开发
工作方式:
线上兼职远程工作
需消耗电量 5
收藏
举报
加载中…
精选评论
头像
等级1

帮楼主测试了下PyPDF和这个文档 没有发现楼主说的问题

使用的是:

from pypdf import PdfReader

reader = PdfReader("example.pdf")
page = reader.pages[3]
print(page.extract_text())

上文output:

'                                                             百年福寿两全 保险(分红型) 条款  \n 4 / 8 \n 受益人身故在先。  \n受益人故意造成被保险人身故、伤残、疾病的,或者故意杀害被保险人未\n遂的,该受益人丧失受益权。  \n除另有约定外,  身故给付 以外的保险金的受益人为被保险人本人。  \n   \n3.2 保险事故通知  请您、被保险人、 受益人或其他有权领取保险金的人 在知道 保险事故[11.4]\n发生之日起 5日内通知我们 ,否则您、被保险人、受益人 或其他有权领取保\n险金的人 需承担由于延迟通知致使我们增加的勘查、检验等费用, 因不\n可抗力[11.5]导致的通知延迟除外 。 \n如果您、被保险人、受益人或其他有权领取保 险金的人故意或者因重大过\n失在知道保险事故发生之日起 5日内未通知我们,致使保险事故的性质、原\n因、伤害程度等难以确定的,我们对无法确定的部分,不承担给付保险金\n的责任,但我们通过其他途径已经及时知道或者应 当及时知道保险事故发\n生的除外。  \n   \n3.3 保险金申请  申请各项保险金时, 申请人[11.6]应提供相关证明文件和资料。  \n   \n3.3.1 身故给付 申请                                                                    申请人申请 身故给付 时,应提供下列证明文件和资料:  \n(1)理赔申请书;  \n(2)保险合同;  \n(3)申请人的 法定有效身份证明[11.7]及关系证明 ; \n(4)公安部门或医疗机构出具的死亡证明文件 ; \n(5)被保险人的户籍注销证 明和殡葬证明; \n(6)被保险人被宣告死亡的,需提供人民法院的宣告死亡判决书;  \n(7)申请人所能提供的与确认保险事故的性质、原因等有关的其他证明和\n资料。 \n保险金作为被保险人的遗产时, 必须提供 证明合法继承权的相关权利文件。  \n   \n3.3.2 其他保险金 申请                                                         申请人申请 其他保险金时,应提供下列证明文件和资料:  \n(1)申请书;  \n(2)保险合同;  \n(3)被保险人 的户籍证明及法定有效身份证明;  \n(4)申请人的法定有效 身份证明及关系证明;  \n(5)能够确认被保险人生存的其他证明材料。  \n   \n3.3.3 委托他人代为申\n请保险金  \n                                                                若申请人委托他人代为申请保险金, 受委 托人还应提供 申请人亲笔签字的\n理赔授权委托书、 受委托人的 法定有效身份证明 等相关证明文件。  \n3.3.4 提供补充材料  \n                                                                以上保险金申请的证明和资料不完整的,我们将一次性通知申请人补充提\n供有关的证明和资料 ,但出现不可预知的新情况除外 。 \n   \n3.4  保险金给付                                                                   (1)我们收到被保险人或者受益人的给付保险金的请求后,应当及时作出\n核定;情形复杂的,应当在 30日内作出核定,但合同另有约定的除\n外。我们应当将核定结果通知被 保险人或者受益人;对属于保险责任\n的,在与被 保险人或者受益人达成 给付保险金的协议后 10日内,履\n行给付保险金义务。 本合同对给付保险金的期限有约定的, 我们应当\n按照约定履行给付保险金义务。   '

你这个是左右结构的文档么?

? 左右结构?
文档应该和你图中是完全同一个文档.

头像
等级0

需求不复杂(如果仅仅修改你提及的地方,会比较容易实现),但是需要提供通用解决方案(不清楚通用的具体含义,难道是所有这样的错误,即使不提供位置,也能智能处理)。并没有那么简单。

不限方式,只要自动提取出来的文档不出现帖子中描述的问题,任务就算完成了。感谢您的关注

如果是这样,那请问现在问题解决了吗

头像英语俱乐部成员
等级0

可以试试

已经联系上了一位小伙伴,如果没有处理好,我会再联系您

头像
等级0

chatgpt pdf插件咯

感谢您的关注,如果问题没有解决,我会联系您。

头像
等级6

可以试试,你这个主要是格式的问题

头像
等级1

你的需求就简单的把图片的转换成文字格式的吗?

还有没有其他的附加要求

头像
等级0

还需要招人吗。可以接单

头像
等级0

如果现在还有需求可以联系

头像
等级0

我特别擅长这些,以前是做自动化办公的……其他人看到可以找我哈

头像
等级5

俺这会python 试试 有些难度

头像
等级1

已经有人接单处理过了。单子已经结束了

头像
等级0

有文档解析经验,需要可联系

头像
等级0

PyPDF2、pdfminer、tika 可以用这3个库一起做