Google 语音输入离线实时输出文字，仅占 80M

Google 语音输入离线实时输出文字，仅占 80MB！然而……

者 | 琥珀

出品 | AI科技大本营（公众号id：rgznai100）

谷歌语音输入法可离线识别啦！

这次出手的，又是谷歌 AI 团队。刚刚，他们为旗下的一款手机输入法 Gboard （不要跟谷歌拼音输入法搞混了啊~）上线了新功能：离线语音识别。目前这一新功能，只能在其自家的产品 Pixel 系列手机上使用。

广大已经下载或正在赶往下载路上的 Pixel 圈外人士，包括 iOS 用户可能都会失望了。

他们是这样描述这款新功能的配置的：端到端、全神经、本地部署的语音识别系统。

在其最近的论文 “Streaming End-to-End Speech Recognition for Mobile Devices” 中，他们提出了一种基于 RNN-T（RNN transducer）的训练模型。

它非常紧凑，可满足在手机上部署。这意味着不会出现太多网络延迟或紊乱，即使用户处于脱机状态，这款语音识别系统也始终可用。该模型始终以字符级工作，因此即便你说话，它也会逐个字符地输出单词，就好像有人在实时键入并准确在虚拟键盘听写出你说的话。

例如，下面两张图片中展示的是在听写系统中输入相同句子时的情况展示：左侧为服务器端，右侧为本地端。哪边的语音识别体验更好呢？

总结起来就是，“离线状态下，没有任何延迟。”这也是谷歌此次亮出的大杀器。

发生延迟是因为你的语音数据必须从手机传输到服务器上，解析完成后再返回。这可能需要几毫秒甚至几秒的时间。万一语音数据包在以太网中丢失，则需要更长的时间。

将语音转换成毫秒级的文本需要相当多的计算力。这不只简单是听到声音然后写一个单词那么简单，而是需要理解一个人讲话的含义，以及背后涉及的很多有关语言和意图的上下文语境。

在手机上是可以做到这一点的，但如此的话，又会很损耗电池电量。

语音识别模型简史

一般来讲，语音识别系统由几个部分组成：将音频片段（通常为 10 毫秒帧）映射到音素的声学模型、将音素连接起来形成单词的发声模型，以及一个表达给定模型的语言模型。在早期系统，这些组件是相对独立优化的。

2014 年左右，研究人员开始专注于训练单个神经网络，将输入音频波形直接映射到输出句子。通过在给定一系列音频特征的情况下生成一系列单词或字形来学习模型，这种 sequence-to-sequence 的方法促使了 attention-based 和 listen-attend-spell（LAS）模型的诞生。虽然这些模型在准确性方面表现出极大的前景，但它们通常会检查整个输入序列，并且在输入时不允许输出，这是实时语音转录的必要特征。

同时，一种称为 connectionist temporal classification（CTC）的技术有助于减少当时识别系统的延时问题。这对于后来创建 RNN-T 架构是一次重要的里程碑，也被看作是 CTC 技术的一次泛化。

（编者注：CTC，其全称为 Connectionist Temporal Classfication，由 Graves 等人于 2006 年提出，用于训练递归神经网络（RNN）以解决时序可变的序列问题。它可用于在线手写识别或识别语音音频中音素等任务。发展到如今，CTC 早已不是新名词，它在工业界的应用十分成熟。例如，在百度近日公布的在线语音识别输入法中，其最新语音模型在 CTC 的基础上还融合了 Attention 等新技术。）

何为RNN-T？

RNN-T 是一种不采用注意力机制的 sequence-to-sequence 模型。与大多数 sequence-to-sequence 模型（通常需要处理整个输入序列（在语音识别中即是波形）以产生输出句子）不同，RNN-T 会连续处理输入样本和流输出符号。

输出符号是字母表的字符。RNN-T 会逐个输出字符，并在适当的位置输入空格。它通过反馈循环执行此操作，该训练将模型预测的符号反馈到其中以预测下一个符号。如下图所示。

用输入音频样本 x 和预测符号 y 表示 RNN-T。预测符号（Softmax 层的输出）通过预测网络反馈到模型中。

有效训练这样的模型已经很困难，但随着新开发的训练技术进一步将单词错误率降低了 5%，它的计算强度变得更高。为了解决这个问题，研究人员开发了一个并行实现过程，因此 RNN-T 损失功能可以在 Google Cloud TPU v2 上大批量运行。训练中实现了大约 3 倍的加速。

离线识别

在传统的语音识别引擎中，声学、发声和语音模型组合成一个大的图搜索（search graph），其边缘用语音单元及其概率标记。

当语音波形呈现给识别系统时，“解码器”在给定输入信号的情况下会搜索图中相似度最高的路径，并读出该路径所采用字序列。

通常，解码器采用基础模型的有限状态传感器（Finite State Transducer, FST）表示。

然而，尽管有复杂的解码技术，图搜索仍很困难，因为生产模型几乎有 2GB 大小。这可不是在移动电话上想托管就可以实现的，因此这种方法需要在线连接才能正常使用。

为了提高语音识别的有效性，研究人员尝试直接在设备上托管新模型以避免通信网络的延迟和固有的不可靠性。

因此，端到端的方法不需要在大型解码器图上进行搜索。相反，解码器包括通过单个神经网络的集束搜索（beam search）。

RNN-T 与传统的基于服务器端的模型具有相同的精度，但前者只有 450MB，而且更加智能地使用参数和打包信息。但即便在如今的智能手机上，450MB 还是占用了很大的空间，例如通过大型网络是信号传播可能会很慢。

因此，研究人员通过使用参数量化和混合内核技术进一步减小了模型大小。这项技术早在 2016 年就已发布，并在 TensorFlow Lite 版本中提供公开的模型优化工具包。

模型量化相对于训练的浮点模型提供 4 倍压缩，在运行时实现了 4 倍加速，这使得 RNN-T 比单核上的实时语音运行得更快。压缩后，最终模型大小只占 80MB。

效果如何？

谷歌公开这一新功能后，TechCrunch 评论称，“鉴于 Google 的其他产品几乎没有是离线工作的，那么你会在离线状态下写一封电子邮件吗？当然，在网络条件不好的情况下，这款应用新功能可能会解决了用户痛点，但显然，这还是有点讽刺（鸡肋）。”

而这也一度吸引来了 HackerNews 上不少用户评论，他们也将部分矛头指向了所谓的“离线功能”：

“离线功能虽然不是最主要的吸引力，但正如本文中提到的，延迟问题的减少是巨大的。他们可能没有提及的是对隐私问题的影响。不过，用户一般不会离线处理事物，但如果需要来回的稳定数据包流，连接网络也是很麻烦的问题。”

不过，经过尝试后的用户还是非常看好：“我只是将我的 Pixel1 代切换到飞行模型，并尝试了语音输入。果然，它的离线工作速度很快！这令人非常印象深刻（我之前尝试过，但过去它只能理解一些特殊的短语。）有多好方法可以实现这一功能呢，但我认为任何应用都能从这次语音的改进中受益。“

为此，笔者也特意下载了 Gboard、讯飞、百度三家语音输入法，试看它们在飞行模式下的效果如何。

Round 1：

Gboard：目前非 Pixel 手机中离线语音尚无法使用，且针对某些机型甚至不支持语音。不过，打字还是比较丝滑流畅的。

Round 2：

讯飞：可下载离线语音包，不过在正常网络通畅情况下，语音识别的速度和准确性还是相当高的。

Round 3：

百度：也可下载离线语音，无网络连接状态下，语音识别效果还是可以的。

不知国内经常使用讯飞、百度输入法的小伙伴们，看到这一消息有何想法？欢迎留言。

参考：https://ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html

（本文为AI科技大本营原创文章，转载请WeChat联系 1092722531）

击上方关注，All in AI中国

作者——Devin Coldewey

如今，语音识别已经成为每一部智能手机的必备功能。问题也就随之产生，无论你的语音是否被正确识别，你都要花费数毫秒乃至数秒的时间等待Siri、Alexa或谷歌根据你的语音，抓取数据、做出反馈结果，如果你就语音被错误的识别/解释，那就会花费更多的时间去处理这个过程。现在，我们可能不会有这种烦恼了，谷歌最新的语音识别功能支持完全离线工作（https://ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html），消除了等待的时间——当然，你的语音依旧会存在被"误解"的情况。

首先，之所以会出现延迟，是因为你的语音，或者说你语音中的一些"关键字"必须从你的手机传输到进行这项服务的服务器上，然后在服务器上进行分析，并在短时间内发回。这其中就造成了几毫秒乃至几秒钟的等待。如果你的语音在以太中丢失了，则需要更长的时间。

为什么不直接在设备上进行语音识别呢？不止一个公司提出了这样的想法，但是将语音转换成毫秒级的文本需要相当大的计算能力。这不像听一个单词然后写一个单词那么简单，而是要求语音识别系统在具体的语境中，一个单词一个单词地准确理解某一个人说话的真正意图。

当然，如果不考虑现实因素，你的手机可以做到这一点。但它不会比把"关键字"发送到云端快多少，而且它可能会耗尽你的电量。随着该领域的稳步发展，实现这一目标似乎并不远。在谷歌的最新产品中，人们通过使用Pixel让梦想成为可能。

谷歌通过先进的技术手段，创建了一个足够小而有效的模型，并把他安装在手机上(它的大小只有80MB)。能够识别和转录你说的话，不需要等到你说完一个句子才去想你说的是"their"还是"there"——它会在你说完句子的时候立马做出判断。

但仍然存在问题。它只支持Gboard，谷歌的Keyboard APP。它只适用于Pixels，且暂时只能识别美式英语。所以在某种程度上而言，这只是相关研究的一个开始。

"考虑到行业的趋势以及专业硬件和算法的不断改进,我们希望这项技术可以支持更多的语言，以及在更广泛的领域得到应用"谷歌相关人士表示到。要实现这个目标，本地化工作就迫在眉睫。

让语音识别更灵敏，并支持离线工作，这是发展的潮流。但考虑到谷歌的其他产品几乎都无法离线工作，这就有点好笑。比如说，你是否打算在离线时开始关于共享文档的工作？或者写一封电子邮件？进行实时的计量转换？这时，你需要的无疑是一个良好的网络连接！也许你会说，离线语音识别会比断断续续的网络连接好很多，但这无疑也是种讽刺。

能家居这几年来迅猛发展，而全屋智能语音交互场景大概率会成为未来智能家居的大趋势。

在科幻作品里我们基本看不到人们在家里需要打开什么开关，只需要说句话，灯光，电视，风扇就自动打开。虽然现在也有很多产品可以做到这点，不过一般都是需要网络的支持，只要网络稍微差点便分分钟从“人工智能”变成“人工智障”。而且如果真的实现了全屋语音交互，那传统的开关便略显多余了。所以现在市面上的智能家居全屋语音交互一般都是使用触碰开关。

触摸开关属于一种智能开关。它主要是通过人体的部位，如胳膊、手指接近触碰开关时便会产生信号，触碰开关里面的芯片就会传递指令，以此实现开关，而且因为是使用芯片控制，可以编程调控，灵活性非常高。同时还有响应速度快，容易清洁等优点。不过触碰开关最大的优点还是安全性高，全封闭的设计使得安全性大大提升。而且其一般所设置的位置也决定了触摸开关是非常好的语音接受器。

对于一些有复杂使用场景的产品，设备需要保持联网确实也是无奈之举，但其实有一些使用场景比较单一，功能比较简单的智能家具，还有必要保持联网吗？说到这里，就得提起国内一家专注人工智能技术的企业，它就是来自成都的启英泰伦（chipintelli）

启英泰伦于2015年成立于成都高新区，是一家专注于人工智能语音芯片及提供配套应用解决方案的国家高新技术企业。今年年中启英泰伦还入选成都高新区瞪羚企业。

这家搞人工智能的企业，就特立独行地推出了一款叫“AI智能语音触摸开关”的产品，它是一款能够通过语音交互就能实现对灯具，风扇遥控，且能够完美替代传统开关的智能语音产品。

不像传统开关。触摸开关柔光LED指示灯能在深夜给你指引方向。

可能你想了解，它离线的情况下，怎么做到其他家的语音控制功能？厉害就厉害在这里，“AI智能语音触摸开关”拥有内置AI智能语音指令库，实现自然生活交互。

任意设置开关名称：厨房灯，厕所灯，宝莲灯，想叫什么叫什么。

95%识别准确率，超快反应速度。功能多样。

“AI智能语音触摸开关”，不但能在离线下正常使用，还支持多达数十种的操作指令，足以满足各种各样的使用需求~

对于需要深入参与到我们日常生活中的产品，肯定需要足够简洁易用，“AI智能语音触摸开关”极其简单的设置过程，无需联网，无需装APP，最适合给家人以及懒得动手的小伙伴们。目前，启英泰伦正在研发第三款人工智能语音芯片，同时具有在线和离线两种功能。

据启英泰伦官网介绍，他们是行业首家同时掌握人工智能语音算法、芯片设计、语音数据处理及训练引擎、软硬件产品应用方案开发全技术链企业，可为用户提供一站式Turnkey服务。此外，围绕人工智能语音识别技术，启英泰伦已应用和在研的约有300种家电，产品包括电冰箱、空调、微波炉、晾衣杆等，合作方包括美的、长虹、海尔等家电企业。

https://biz.ingdan.com/home/plan_detail-28.html

END

助力供应链创新，关注【硬蛋供应链】

在线咨询

上一篇：javascript操作cookie
下一篇：闲鱼PC网页版强势回归：重塑二手交易新体验，聊天功能

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

Google 语音输入离线实时输出文字，仅占 80M

您的项目需求