百度AI团队PaddleOCR 3.1版:OCR技术的革新

AI ToolBox
AI ToolBox
2025年7月8日

三大核心功能全新进化

百度AI团队正式推出PaddleOCR 3.1版本,在多语种识别、复杂文档翻译以及大模型连接能力方面完成重要突破。该版本现已支持37种语言文本识别,平均识别精度提升超过30%,同时新增文档翻译产线与MCP服务器功能,为开发者打造高效AI应用提供强有力的技术支撑。

图片

覆盖37种语言,识别准确率显著提升

针对全球化场景下的语言多样性需求,PaddleOCR 3.1引入PP-OCRv5多语种模型,涵盖法语、西班牙语、俄语等37种语言识别能力。通过深度整合文心4.5多模态大模型的视觉与文本理解技术,系统能够自动完成高置信度文本检测与数据标注,有效缓解多语种数据稀缺问题。

实测数据显示,新模型在拉丁语系及东斯拉夫语言场景中表现尤为出色,识别准确率整体提升超30%。以韩文为例,识别错误率由8.7%大幅下降至2.1%;面对俄文复杂排版文档,解析速度实现2倍提升

智能文档翻译产线问世

基于PP-StructureV3文档解析引擎与文心大模型的深度融合,PaddleOCR 3.1创新推出PP-DocTranslation翻译产线。这一工具具备智能识别PDF、图片中表格、公式、手写文字等复杂元素的能力,并能将其转换为Markdown格式后执行多语言翻译。

面向法律、医疗等专业领域,系统特别提供术语对照表上传功能,确保"关键词汇"的翻译更加精准统一。某跨国药企的实际应用表明,药品说明书翻译效率提升40%,专业术语一致性高达99.2%。

MCP服务器降低开发门槛

为简化AI应用开发流程,PaddleOCR 3.1同步上线MCP(Model Context Protocol)服务器功能。该功能支持通过标准化协议将OCR能力无缝接入各类下游应用。开发者仅需简单几步即可搭建MCP服务,借助本地Python库、飞桨星河社区或自托管方式快速调用图像文字识别、文档版面分析等核心功能。