OCR:不可忽视的智能基础

  如今在纷繁复杂的金融领域,利用各种证件的OCR技术结合数据分析,对于提升金融行业尤其是互联网金融整体业务流程的效率,降低客户的人力成本,收效显著。

  什么是OCR?如何利用?等一系列问题随之浮出水面。如今我们不得不正视这样一个事实:人们每天都被文字包围,像办公文件、上课板书、商品介绍等都是由文字组成的,并且这些文字在某一程度上也是语音交互的基础,而这其中关乎一个关键技术——OCR (Optical Character Recognition),光学字符识别。

  什么是OCR

  OCR是指光学设备(扫描仪、数码相机等)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,其本质就是利用光学设备去捕获图像并识别文字,将人眼的能力延伸到机器上。此概念是在1929年由德国科学家Tausheck最先提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。

  在20世纪50年代,IBM就开始利用OCR技术实现各类文档的数字化;到了80年代,平板扫描仪的诞生更是让OCR进入了商用阶段。但不管是哪个阶段,那时的OCR设备对于文字背景的要求非常之高,也需要很好的成像质量。

  OCR的工作原理

  一般来讲,OCR的工作原理包括四个部分,分别是:影像输入,通过光学设备将图片转入计算机后,系统会对图片进行一些处理,包括字符格式的分离、二值化处理、图像降噪、倾斜校正、文字特征抽取等,以提升图片的精确度;对比识别,根据字符的不同特征,将之与数据库进行对比,并利用对比后的识别文字与其可能的相似候选字,根据前后的识别文字找出最合乎逻辑的词,再作出更正,以加强比对的正确性;人工校正,目前为止还没有一款软件的文字识别是百分之百的,所以还需要用户亲自校正,确保输出的准确性;影像输出到txt、doc、exl等格式。

  现实中,OCR的发展其实已经相当完善,不过随着人们需求的变更,此种OCR已经不能满足人们的要求,而在当前自然环境OCR是人们最为关注的新点。

  自然环境OCR进展

  相比于传统的OCR,自然环境OCR最难的部分在于文本检测(将文字从图片中提取出来),因为它具有极大的多样性和明显的不确定性。例如文字中包含多种语言,每种语言含有多种字母,每个字母又可以有不同的大小、字体、颜色、亮度、对比度、排列和对齐方式等;因拍摄图像的随意性,文字区域还可能会产生变形、模糊断裂等现象。

  另外,背景也是一大干扰因素,例如文字区域附近有非常复杂的纹理;非文字区域有着跟文字区域非常相似的纹理,比如窗户、树叶、栅栏、砖墙等。

  文本检测首先要从图像中切割出可能存在的文字,即候选连通区域,目前被采取最多的方法是MSER(最大平稳极值区域)。

  当然也有团队在此基础上开发出了自己的一套算法,例如微软研究院在传统检测方法ER(极值区域)和MSER基础之上采用了对比极值区域CER(Contrasting Extremal Region),CER是与周围的背景有一定对比度的极值区域,在低对比度的图像上比MSER效果更好,而且获得的候选连通区域数量远小于ER,提高了算法的效率。并且,为了提高所获得连通区域的质量,微软又增加一个算法环节去增强CER。最后采取了一套基于浅层神经网络的文字/非文字分类算法,进一步提高了对于连通区域字符的辨认率。

  OCR的应用前景

  不管是传统OCR,还是自然环境OCR,其参与者还是不少的。在国内,涉足OCR的企业主要有汉王、文通、百度等,国外的像ABBYY、IRIS、Google、微软等。此外,市面上也有不少OCR产品,传统的OCR产品有尚书、汉王等,自然环境OCR的有百度翻译、Google翻译,实用性相当不错。

  论起OCR的应用前景,仅看其隶属于计算机视觉领域的一个分支,再联系到当前人工智能的发展,其前景可想而知。除了翻译、智能购物以外,OCR未来最大的发展潜力在于人机交互。

  众所周知,人机交互一直是研究者追求的东西,但是目前也仅仅做到了语音交互和肢体交互。文字代表了人类的所有智慧与思想,如果机器人能够进行文字识别,那将能够进一步获取知识、学习人类,进而与人类进行更为自然的交互,或是协助人类工作,提高效率。

  佚名

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: