飞社-令人惊奇的创意工作者社区-程序员私有化部署 OCR 解决方案请教

xomix

@Sh1xin 对，所以我说你的 ai 要提前介入，场景检测框之前能不能让 ai 拆成不同的图片然后再 ocr ？

Sh1xin

@test00001 gemini 不是开源的，没法私有化部署，不考虑。之前也试过直接发给 GPT O3 模型，识别效果特别好。可惜没法私有化部署。直接把图片发送给 gemma 3 27b 的话，识别的文字错误率太高，不可用

Ipsum

不怕出事，就用 wx 的那个 ocr 。训练得很好。

xinyu391

可以用我司的文档解析服务支持图片，pdf （扫描档，电子档），公式，表格等。 https://www.textin.com/market/detail/xparse

visper

yolo 训练，识别出框，然后通过框把图片截图出来再给 paddleocr.

hmxxmh

pdf 的试一下 minerU 和 docing, 图片用 yolov8+ppocr

SanjinGG

自己优化，要不就买商用的

fannheyward

https://github.com/chatdoc-com/OCRFlux 识别效果和准确率都非常好