热门搜索 :
考研考公
您的当前位置:首页正文

场景图像中文字提取算法介绍

来源:伴沃教育
信息技术 ・185・ 场景图像中文字提取算法介绍 刘春辉 (兰州大学信息科学与工程学院,甘肃兰州730000) 摘环节的技术。最后总结了一些常用方法的效果。 关键词:文本检测;文本定位;文本识别 1概述 要:介绍了场景图像中常用的文本定位和识别算法,分别从分布和综合方面进行介绍。同时介绍了文本定位验证、分割和识别 、文字具有很强的表述力,能够随时交流信息。在图像中嵌入文 本,更容易得到人们的关注,更容易传达信息。然而,在实际的运用 中,由于多种因素图像中的文本很难被检测识别。在图像中,文本的 类型可以分为图形文本和场景文本。图形文本指的是灵活覆盖于图 像上的机器打印的文本,例如视频截图的字幕或网页邮件中出现的 文字;场景文本指的是自然环境中物体上的文本,例如广告牌的文 字,也包括纸面文字。 2文本提取方法介绍 图像文本检测和识别主要使用分步法和综合法。如图1(a)所示, 分步法分成两个部分:检测部分和识别部分,这两部分通过前馈通 图像 字符串 反i囊 (a) 字符串 (b) 道进行连接。相反的,综合法以识别单词为目标,检测部分和识别部 分通过字母分级或者联合优化策略分享信息,如图1(b)所示[11。 图1文本检测和识别使用的两个方法论:(a)分步法(b)综合法 2.1分步法。分步法主要分为四个步骤:定位、验证、分割和识 本特征区分方法。 别。定位步骤粗略地获得文本候选区域,验证步骤进一步将之前得 3.3文本分割。通常使用文本二值化、文本行分割或字符分割等 到的区域划分为文本区域和非文本区域,分割步骤是将文本区域分 方法进行文本分割。文本二值化就是通过二值化方法将图像中文本 割成字符区域,识别步骤是将之前分割得到的字符区域图像转化成 和背景进行区分。常用的算法包括白适应阈值,条件随机场模型,然 字符。 率模型或聚类。行分割的是将有多条文本行的区域分割成多个单行 文献【2]提出用卷积神经网络训练大量的原始像素值,局部响应 的文本区域,对于水平方向呈现的文本,可以使用投影轮廓分析方 最大的部分作为潜在文本。循迹环节用于确定文本的开始和结束位 法。一般可以使用可适应的形态学方法和聚类方法可以用来分割字 置。根据最短路径原则进行分割,最后通过语言模型提高准确率。 符。 文献[3】提出首先根据文本字符的形状、占有比率、密度等文本 3.4文本识别。该环节所做的是将图像中的文本区域转化为字 在文本字符字体一致的前提下,可以使用简单的 特征对决策树进行训练,然后使用训练后的决策树过滤原始图像, 符串。字符识别中,反之可以使用无监督学习方法,特征 过滤后得到的像素点组成连通域,使用以层次聚类算法为核心的多 分类器和文本特征进行识别,区分池方法、图像矫正算法或者可变模来矫正字符。 向链中用决策树验证连通域。 2.2综合法。综合法的核心是字符分类响应,关键是共享检测识 4评估效果 在ICDAR’03竞赛中,基于笔画宽度的文本方法在场景文本检 别模型。通过训练带有梯度方向直方图和近邻取样分类器的字符模 CDAR’1 1的场景文本竞赛中,基于最 型,使用多尺度移动窗口分类法来获得字符响应,通过非极大值抑 测中取得了很好的效果。在I制方法定位候选字符。将候选字符和字符的位置作为输入,在词典 大稳定极值区域的检测方法和学习过的连通域分析模型取得了不 错的效果。在ICDAR’13的场景文本竞赛中,基于最大稳定极值区 中找到一个最佳的匹配字。  文献[4]提出将无监督特征学习方法与卷积神经网络结合的方 域和多种文本特征的识别方法取得了不错的成绩。5结论 法。使用基于滑动窗口字符分类法的卷积神经网络,得到相应的字 本文描述了图像中文本检测和识别相关的问题,它分析了目前 符响应,从而确定候选文本行的位置。接着将带有字符间距的字符 常用的方法,根据不同标准进行分类,并且阐明了最具代表性方法 响应和使用定向搜索算法的词典相配合进行单词识别。  2.3方法论对比。分步法运用粗到精的策略,在粗定位环节能过 的效果。参考文献 滤掉大部分背景可以保证计算效率。整合法优化检测和识别环节, 降低背景和低分辨率造成的影响。 [1]Q Ye,D Doermann Text Detection and Recognition in Imagery: A Survey.IEEE Transactions on Pattern Analysis&3提取步骤方法介绍 1480一l500. 3.1文本定位。通常使用连通域分析和滑动窗口分类法进行图 ligence.2015,37(7):Machine Intel- 21K.Elagouni,C.Garcia,and P.Sbillot,“A comprehensive neurM 像文本定位。文本特征主要有文本的颜色、边界、笔画和纹理等特 『based approach for text recognition in videos using natural lan— 征。连通域分析是一种类似于图形的算法,在实现过程中,使用结构 ng,”in Proc.ACM Con ̄Muhimedia Retireval,201 1. 模式识别方法确定文本区域。使用统计学模型有利于提高效率。滑 guage processi31c.Yao,X.Zhang,X.Bai,W.Liu,Y.Ma,and Z.Tu,”Detect— 动窗口分类方法通过条件随机场、形态学操作或者图形方法可以进 『ng texts of arbitrary orientations in natural images.”in Proc.IEEE 步地将字符分类响应为正的候选文本区域正组成文本区域,该方 i一法简单,适应性广。 Int.Conf.Comput.Vis.Pattern Recognit.,2012,PP.1083-1090. 4IT.Wang,D.J.wu,A.Coates,and A.Y.Ng,”End—to—end text 3.2文本验证。该环节主要依据文本的整体特征对候选文本区 『recognition with convolution neural networks.”in Proc.IEEE Int. 域进行验证,主要可以通过基于知识的方法和特征区分方法来实 tern Recognit.,2012,PP.3304—3308. 现。可以使用文本颜色,尺寸和空间一致性的先验知识实现文本的 Con ̄Pat验证。验证过程中要用到文本特征的阈值,比如说文字大小、高度和 宽度,像素点的灰度值和梯度值,字符间距等。而小波,局部二值模 式和梯度直方图纹理描述,高博笔画和混合特征是较常用的文本文 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top