Facebook研究人员提出了一个大规模图像文本提取和识别系统——Rosetta.doc
《Facebook研究人员提出了一个大规模图像文本提取和识别系统——Rosetta.doc》由会员分享,可在线阅读,更多相关《Facebook研究人员提出了一个大规模图像文本提取和识别系统——Rosetta.doc(6页珍藏版)》请在三一文库上搜索。
1、Facebook研究人员提出了一个大规模图像文本提取和识别系统Rosetta【导读】OCR(Optical Character Recognition),也称光学字符识别,是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入的一种技术。其实大家都在应用这项技术快递单号的扫描识别、火车票的验证等等。最近,Facebook 研究人员提出了一个大规模图像文本提取和识别系统Rosetta。接下来 AI科技大本营就为大家解读一下这个 OCR 界的最新神器。摘要在本文中,我们提出了一个可部署、可扩展的光学字符识别 (O
2、CR) 系统,称之为 Rosetta,用于处理 Facebook 上每天上传的图片。对于 Facebook 这样社交网络中的互联网用户而言,通过图像内容共享实现对图像及其包含文字的理解,已经成为信息沟通的一种主要方式,这对促进搜索和推荐应用来说也是至关重要的。这里, 我们提出 Rosetta 系统结构,这是一种有效的建模技术用于检测和识别图像中的文本。通过进行大量的评估实验,我们解释了这种实用系统是如何用于构建 OCR 系统,以及如何在系统的开发期间部署特定的组分。简介人们在 Facebook 等社交网络中的信息共享主要是通过一些视觉媒体,如图片和视频等。在过去的几年里,每天上传到社交媒体平台
3、上的照片数量成倍增长,这对大量视觉信息的处理技术提出了挑战。图像理解的主要挑战之一是将有关图像中的文本信息检索出来,这也称为光学字符识别 (OCR),这是一个将电子图像中的字体,绘图或场景文本转化为机器编码文本的过程。从图像中获取这样的文本信息是非常重要的,这也能促进许多不同的现实应用,如图像搜索和推荐等。在光学字符识别任务中,给定一张图像,我们的 OCR 系统能够正确地提取所覆盖或嵌入的文本图片。这种任务所面临的挑战主要是来自一些潜在的字体、语言、词典和其他语言变体,包括特殊的符号,非字典单词或图像中的 URL,email ID 等特定信息。此外,图像的质量往往也会随着自然场景图像中文字的出
4、现而变化不同的背景。另一方面,社交网络上每天上传的图像数量都是庞大的,对于如此大量的图片进行处理也是目前这项任务所要面临的一大挑战。我们想要在图像上传的同时,实时地进行 OCR 处理,这需要我们花费大量的时间对系统的组件进行优化。总的说来,我们希望建立一个强大而准确的 OCR 系统,来实时处理每天上传的数亿张图像。本文,我们提出一种可扩展的 OCR 系统 Rosetta,为 Facebook 日常网络社交提供支持。我们的 OCR 系统分为文本检测和文本识别两个阶段:基于 Faster-RCNN 模型,在文本检测阶段我们的系统能够检测出图像内包含文本的区域;采用基于全卷积网络的字符识别模型,在文
5、本识别阶段我们的系统能够处理检测到的位置并识别出文本的内容。下图1展示了 Rosetta 系统的检测识别效果。图1 使用 Rosetta 系统进行 OCR 文本识别。首先,基于 Faster-RCNN 模型检测出单词的位置,并采用全卷积模型生成每个单词的转路信息。方法我们的 OCR 系统 Rosetta 主要包含两个阶段:检测和识别阶段。在检测阶段,我们的系统能够检测出图像中可能包含文字的矩形区域。在识别阶段,我们对每个检测到的区域,使用全卷积神经网络模型,识别并转录该区域的单词,实现文本识别。两阶段的处理过程有几大好处,包括解耦训练处理、部署并更新检测和识别模型的能力,并行地运行文本识别,独
6、立地支持不同语言的文本识别等。下图2详细说明我们系统的流程。图2 两阶段模型的结构。第一阶段是基于 Faster-RCNN 模型进行单词检测。第二阶段使用具有 CTC 损失的全卷积模型进行单词识别。这两个模型是独立训练的。文本检测模型文本检测阶段,我们采用最先进的 Faster-RCNN 目标检测网络。简而言之,Faster-RCNN 通过一个全卷积神经网络和区域建议网络 (RPN) 同时实现目标的检测和识别:学习表征一张图像的卷积特征映射并生成 k 个高可能性的文本建议区域候选框及其置信度得分,随后按置信度分数排序这些候选框并利用非极大值抑制 (NMS) 算法得到最有希望的检测区域,再从候选
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Facebook 研究人员 提出 一个 大规模 图像 文本 提取 识别 系统 Rosetta
链接地址:https://www.31doc.com/p-3251394.html