工作要求:
问题:调用PyPDF包提取出来的文字格式,标题被切割,错误格式如下,
3.3.3 委托他人代为申
若申请人委托他人代为申请保险金,受委托人还应提供申请人亲笔签字的
请保险金
理赔授权委托书、受委托人的法定有效身份证明等相关证明文件。
目标格式:
3.3.3 委托他人代为申 请保险金
若申请人委托他人代为申请保险金,受委托人还应提供申请人亲笔签字的 理赔授权委托书、受委托人的法定有效身份证明等相关证明文件。
本工作酬劳3000元,如果可以处理更加复杂的文档格式:表格、图片、图表等,可以商定价格。
如果对AI理解深刻,具有AI相关的经验,团队非常乐意聘请成兼职、全职或者顾问。
招聘类型:
外包零活
职业:
开发
工作方式:
线上兼职远程工作
帮楼主测试了下PyPDF和这个文档 没有发现楼主说的问题
使用的是:
感谢提供的方案
上文output:
好玩吗
你这个是左右结构的文档么?
? 左右结构?
文档应该和你图中是完全同一个文档.
希望可以加你一个微信
需求不复杂(如果仅仅修改你提及的地方,会比较容易实现),但是需要提供通用解决方案(不清楚通用的具体含义,难道是所有这样的错误,即使不提供位置,也能智能处理)。并没有那么简单。
不限方式,只要自动提取出来的文档不出现帖子中描述的问题,任务就算完成了。感谢您的关注
如果是这样,那请问现在问题解决了吗
可以试试
已经联系上了一位小伙伴,如果没有处理好,我会再联系您
chatgpt pdf插件咯
有批量的解决方案?
可以联系我
感谢您的关注,如果问题没有解决,我会联系您。
可以试试,你这个主要是格式的问题
你的需求就简单的把图片的转换成文字格式的吗?
还有没有其他的附加要求
备份
还需要招人吗。可以接单
如果现在还有需求可以联系
我特别擅长这些,以前是做自动化办公的……其他人看到可以找我哈
俺这会python 试试 有些难度
已经有人接单处理过了。单子已经结束了
有文档解析经验,需要可联系
PyPDF2、pdfminer、tika 可以用这3个库一起做