从优秀到卓越，玩瞳图像识别算法的现状与未来

今年暑假，众多的儿童机器人给孩子们带了全新AI绘本辅助阅读体验，“这个神奇的功能是怎么实现的呢？”在整个AI绘本辅助阅读功能中，图像识别算法是其中最为关键的技术之一。

早在去年这个时候，玩瞳VisionTalk的图像识别算法横空出世，经过一年的钻研和发展，到如今已经身经百战，赢得了众多客户的信任和良好口碑。

从绘本识别到书本识别——VisionTalk的图像识别算法

经过一年的打磨和成长，玩瞳的图像识别算法已在市场上处于领先地位，其特点可以概括为：识别精准，响应快速，容量超大，易于扩展，持续迭代。

今天我们就从更专业的角度来看看玩瞳VisionTalk的AI慧读平台中的图像识别算法。

1、识别精准

精准鲁棒的识别，支持不同的硬件结构和不同的使用场景。我们模拟用户在各种使用场景对各种主流绘本和K12书籍进行了充分的测试。这些场景包括办公室，客厅，彩色儿童房，台灯下，阳台，商场等。

对于玩瞳推荐的硬件结构，识别准确率达到了惊人的99.5%。对于一般性设备，如各式各样的手机和平板，识别准确率依然高达98%。

2、响应快速

0.2秒的超快速识别速度给用户一种秒翻识别的体验。为了在整个系统上达到如此快的响应速度，我们主要做了以下三点优化：

a、直接优化云端算法的识别速度，尤其是在大并发下的识别速度。当前玩瞳的客户众多，也给我们的识别服务带来了巨大的压力，但经过持续不断的算法速度优化，我们的响应速度依然稳定快速。

b、对待传输的图像进行了极致的压缩，减小网络传输的数据量。同时优化云端算法，使其能稳定识别压缩后较模糊的图像。

c、大力提高识别算法的鲁棒性，使其能稳定识别翻页过程中的遮挡图像，从而准确地预测出用户即将翻到的页面，最终达到翻书后即开始进行语音播放的效果。

3、容量超大

超大容量云端图库，当前已经支持约5万本绘本，未来很快将超过10万本。支持更多的绘本看似只需要制作更多的内容，实际上也需要准确快速的图像识别算法支撑。

当图像库变大后，一般来说识别准确率和速度都会受到影响。但从当前我们的模拟测试来看，10万本的数据量还远未触摸到识别算法的瓶颈。

4、易于扩展

玩瞳将整体考虑离线训练算法和在线识别算法的特点，设计合理的图像模型结构，不仅支持快速的图书训练和增量部署，而且在共享玩瞳公共绘本库的同时支持用户自定义私有绘本库。

图像识别算法的未来发展

现阶段，玩瞳的图像识别算法已经在市场上得到验证，在业界处于遥遥领先的地位，赢得了众多客户良好的口碑。在未来的N年里，玩瞳依然会持续不断的迭代优化我们的图像识别算法。

图像识别算法即将迎来下一个突破：显著提升以文字为主书籍的识别准确率。该突破带来的意义将是书籍教辅的准确快速识别。

针对以文字为主的这类书籍图像，由于不同硬件的光学成像、图像分辨率限制、以及算法原理本身等各方面的原因，导致了目前市场上翻读应用中几乎所有的图像识别算法失效。玩瞳自主研发的文字图像识别算法体系，对于最困难的这类图像的识别现已取得重大突破，已经将竞争对手远远的甩在身后。

玩瞳VisionTalk持续致力于AI视觉技术赋能儿童教育，将我们的解决方案应用在更丰富的交互模式上，满足客户更加个性化的需求，玩瞳的图像识别算法必将从优秀走向卓越。

深圳市玩瞳科技有限公司VisionTalk成立于2015年，是一家经深圳市政府认证的高新技术企业。公司专注于实体学习桌面的视觉图像分析，并应用于机器辅助的阅读、作业和学习。

公司目前拥有数十项各类专利，并拥有全球最大的儿童出版物图像训练库。公司新推出的“智能慧读平台”赋能产业链，低成本、高效率、个性化地帮助企业开发或升级阅读机器人。已经成功在故事机/机器人、儿童出版、儿童内容等行业得到应用。

时代谷