王磊:AI 时代物流行业的 OCR 应用
欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~
OCR 是人工智能里面非常重要的基础能力之一。腾讯云人工智能产品总监王磊,结合物流场景解读了OCR技术。“OCR文本识别能够优化物流行业流程,解放人力降低成本。”
腾讯云人工智能产品总监王磊
王磊介绍,OCR文本识别存在三大挑战。其一是文本是由多个文字拼接组成,没有明显边界,文本框内除了笔画,其余部分均是背景,给文本识别特征提取带来难度;其二是文本是由若干汉字、英文或标点符号混合在一起,长度变化大,由于网络感知野受限,定位BOXES本身困难;其三是如果BOXES贴合精度不够,会直接导致后续的文字识别错误。腾讯优图实验室为OCR识别搭建了四层处理系统,并配备三大引擎。一是运单的版式识别引擎,可以对运单的版式进行分类;二是运单的字段定位引擎;三是运单的字段识别引擎。
为了解决这些问题,腾讯优图实验室在文本检测技术方进行了深度优化,提出了Compact Inception,通过设计合理的网络结构来提升各尺度的文字检测/提取能力。同时引入RNN多层自适应网络和Refinement结构来提升检测完整性和准确性。
在文本识别方面,经过大量实验和实践,腾讯优图实验室对主流CNN+RNN+CTC方法进行了改进和创新:对CNN加入了横向非对称卷积和综合多种尺度感受野的特征,增强了网络对多尺度字体的支持。对RNN加入了Attention机制。Attention机制的加入,可以在所有特征块的基础上,得到每一个特征块在全局中的权重信息。简单的理解,当决定当前字是几个形似字中的哪一个时,该字所处的上下文位置和语义相关性是更具有决定意义的,甚至会比图像信息本身更重要。可以有效提升整行识别的准确率。性能上则通过网络轻量化设计和裁剪、矩阵计算优化、通道优化、GPU/CPU的定向优化等技术,保证了实际应用落地。现在腾讯云OCR能够做到7×24小时提供识别服务,每张运单5秒钟可以完成;识别准确率达到91%,并且整个识别流程不需要人工深度参与,极大的降低用户隐私泄露的风险。
相关推荐
识别手写快递单、听懂人话的小微...腾讯云公布了哪些大动作?
欢迎关注腾讯云技术社区,更多技术干货等着你。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义