文本检测和识别技术处于一个学科交叉点,其技术演进不断受益于计算机视觉处理和自然语言处理两个领域的技术进步。 它既需要使用视觉处理技术来提取图像中文字区域的图像特征向量,又需要借助自然语言处理技术来解码图像特征向量为文字结果。 从公开论文中可以看到,起源于图像分类、检测、语义分割等视觉处理任务的各个基础网络(backbone network),纷纷被征用来提取图像中文字区域的特征向量。