2018-07-17 13:28

让机器阅读图片上的文字,怎么实现的?

虎嗅注:拍照搜题、名片信息自动归类,你知道这些神奇功能是如何实现的吗?其实实现原理没有那么深奥,主要涉及到 OCR 技术,也就是所谓的光学字符识别。今天这则短视频为大家讲解一下原理,相信看完了之后,你对人工智能的了解能轻松超过全世界 99% 的人类。


以下是视频文字稿:



拍下快递单就能自动填充单号,拍下名片信息就能自动归类,拍下题目就能得到答案,这些方便的功能,都是 OCR 的功劳。



OCR(Optical Character Recognition)中文名叫“光学字符识别”,是指将带有文字的图像进行分析处理,获取其中的文字信息。对于机器来说图片只是一连串像素值,正是 OCR 给了机器阅读文字的能力。



想要识别图片中的文字,总共分几步?


首先是找到图片中文字的位置,校正文字的方向,再对图片进行二值化处理,切割并识别它们。对于得到的文字,有时还要进行语义纠错,才能输出最后的结果。


在提取图片中的文字信息之外,OCR 能帮我们完成许多更有趣的应用。



与机器翻译、 AR 相结合,就能实时将摄像头拍摄到的文字,翻译成你能读懂的语言;



整理购物小票太繁琐?拍下照片机器就能将它们整理归类,自动记账



不仅如此,理解图片中的文字还能提升图像识别的准确率,像是商品包装上的文字就能为商品细粒度识别提供不少帮助。



不过手写文字、多语言混合文本、混合排列文本,仍是 OCR 需要解决的难题。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定