Paragraph text segmentation into lines with Recurrent Neural Networks(阅读笔记)

less than 1 minute read

Published:

This is an original article. Please indicate reference if reproduced.

摘要

在整个文本识别系统中,文本行作为作为最初的处理过程是十分重要的。目前用于定位文本行的方法,大多是依靠图像处理的经验,采用基于启发式规则的调整。在一定的约束条件下,他们会取得很好的效果,比如背景是要大致统一的。作者提出了基于机器学习的处理过程来定位文本行。作者的主要动机是希望能够处理残损的文档,或者拥有多种布局和字符的文本流。受到最近几年用于文本识别模型的启发,文中所述工作使用了RNN(Recurrent Neural Networks)。RNN模型是一种时间序列模型,所以在本任务中,可以将由文本行组成的序列看做是在多数利用RNN的文本识别任务中的字符序列。相比于其他数据驱动下的方法,作者所提方法的关键优点在于,不需要为训练数据标注行边界,只需要给出每段中包含文本行的个数。实验结果显示,该方法可以得到与传统方法相似,甚至更好的结果,且只需要较少的工程量和参数调整。

传统方法介绍

  1. 在水平方向的投影直方图上寻找最小值[1]Text line segmentation of historical arabic documents.
  2. 应用形态学或者模糊的方法将属于同一行的字符混合到一起[2]A steerable directional local profile technique for extraction of handwritten arabic text lines,[3]A morphological approach for text-line segmentation in handwritten documents.
  3. 寻找连接文本页左右两边的最短路径[4]Handwritten text line segmentation by shredding text into its lines.
  4. 抽取文本的部分,通过霍夫变换寻找匹配直线,并将他们组合在一起[5]Text line and word segmentation of handwritten documents.sweep-line也属于这一类[6]Text line detection in corrupted and damaged historical manuscripts.

这些方法对于特定的任务表现很好,但是对于具有复杂图像变换和复杂背景的文本缺少通用性。

本文中方法介绍

文中这一部分说的不是很详细,特别是在细节上,按我的理解来吧

输入:文本中,一个段落的连续几行像素(如上图所示的一个文本段落,文中并没有说明要定位段落,而是分割行,所以段落在训练时时直接给出的)
输出:与输入相对应的预测值(line or interline)

网络结构:

LayerFilter sizeNumber of hidden unitsNumber of free parameters
(1)LSTM 2360
(2)Convolution2$\times$46384
(3)LSTM 105400
(4)Convolution2$\times$4206400
(5)LSTM 50121000
(6)Linear 3603

如下是示意图,红框表示段落,红框左侧的一列字母,“I”表示line,“b”表示interline或者blank。