17 条回复  ·  1901 次点击
xomix 小成 2025-7-24 09:25:03
@Sh1xin 对,所以我说你的 ai 要提前介入,场景检测框之前能不能让 ai 拆成不同的图片然后再 ocr ?
Sh1xin 楼主 初学 2025-7-24 09:28:36
@test00001 gemini 不是开源的,没法私有化部署,不考虑。之前也试过直接发给 GPT O3 模型,识别效果特别好。可惜没法私有化部署。直接把图片发送给 gemma 3 27b 的话,识别的文字错误率太高,不可用
Ipsum 初学 2025-7-24 09:31:14
不怕出事,就用 wx 的那个 ocr 。训练得很好。
xinyu391 小成 2025-7-24 09:32:57
可以用我司的 文档解析服务 支持 图片,pdf (扫描档,电子档),公式,表格等。 https://www.textin.com/market/detail/xparse
visper 小成 2025-7-24 09:36:37
yolo 训练,识别出框,然后通过框把图片截图出来再给 paddleocr.
hmxxmh 初学 2025-7-24 09:40:12
pdf 的试一下 minerU 和 docing, 图片用 yolov8+ppocr
SanjinGG 小成 2025-7-24 09:43:52
自己优化,要不就买商用的
fannheyward 小成 2025-7-24 09:46:22
https://github.com/chatdoc-com/OCRFlux 识别效果和准确率都非常好
12
返回顶部