最近做了一个自己的小产品 Manga Translator,主要是想解决一个很具体的问题:很多时候想看一部漫画、韩漫或者 webtoon,但现成熟肉不一定有,普通 OCR 或翻译工具虽然能把字翻出来,但一旦脱离原图排版,阅读体验就会很割裂。所以我一直想做一个更贴近“直接读漫画”这件事本身的工具,不只是把文字提出来翻译,而是尽量把原页面的阅读流、气泡位置和整体结构保留下来。
真正开始做之后才发现,这类产品麻烦的地方其实不只是翻译质量,更多难点在前后处理。比如漫画里经常有竖排文字、异形气泡、字体风格很夸张、背景和对白粘连、同一页里字号差异很大,这些都会直接影响 OCR 识别和后续排版恢复。很多时候文字识别本身没太大问题,但翻译后的长度一变化,怎么把内容重新放回图里、又不让页面显得突兀,反而成了更难的一步。做的过程中也反复在速度、成本和效果之间做取舍,因为如果只是 demo 跑得好,其实没太大意义,真正上线后还是要考虑用户上传一页图能不能在合理时间内拿到一个“能读”的结果。
技术上目前主要是围绕图片上传、OCR、翻译、结果生成这条链路在做,前端和后端都尽量保持轻量,方便快速迭代。到现在最大的感受是,漫画翻译并不是一个单纯的文本翻译问题,而是一个“文本理解 + 图像处理 + 阅读体验”叠加在一起的问题。对用户来说,最终在意的也不是模型名字多高级,而是这页漫画能不能顺畅看下去。
现在这个产品已经做了一个可用版本,站点是 Manga Translator。目前我自己感觉在常见页面上的效果还可以,但复杂场景还有很多可以继续优化的地方。发出来也想听听大家的真实反馈:如果你们平时会看生肉漫画,最不能忍的翻译工具问题是什么?是 OCR 不准、排版太乱,还是整体速度太慢?我最近也在持续迭代这块,挺想看看大家更在意哪一类问题。



8

