语音识别技术并不是一项新兴的技术,并且技术门槛也不算太高。物联网市场潜力巨大应用众多,在繁多的应用中智能家居或许能优先落地。不过,除了物联网标准和观念阻碍智能家居的发展,手机作为目前首要的入口也大大影响了体验。语音识别并不是一项新兴的技术,但在智能家居甚至人工智能领域或许能大展身手
语音交互应该做什么?
王砚峰认为,语音落地的产品,首先不应该是所谓的“中控”,因为“中控”不是具体的产品;也不是所谓“机器人”,因为目前的助手机器人不能帮人们解决任何实际需求和问题;他表示,“任何夸大人工智能在客厅产品中作用的行为都是耍流氓。
王砚峰对客厅中的语音应用提出了两个标准:好产品和丰富的内容。他表示比如亚马逊Echo就是好产品,首先它本身是一个好的音箱,并且适应美国家庭用户的消费文化和习惯,那在美国就属于好的产品。
语音要在好产品上产生价值,就需要丰富的消费内容资源。仅仅作为控制器的语音对设备带来的增值不大,而当涉及内容查询以及更多交互时,才是语音最有价值的使用场景,“语音识别做耳朵,语义理解是大脑,智能家居上要让语音有自然交互,需要更灵敏的耳朵以及更聪明的大脑。”王砚峰指出。
怎么让语音交互做的更好?
如何让语音交互做的更好?王砚峰认为要训练语音识别这一“更灵敏的耳朵”,需要大规模的优质语音训练数据和深度学习的技术能力积累,而搜狗在这一点上有着巨大的优势。据他介绍,搜狗拥有中国互联网上最大的语音语料:作为国内第一大语音输入应用,搜狗输入法每天语音输入频次达到1.4亿次,产生11.7万小时的语料规模,比当前国内任何语音技术团队使用的训练语料都要大。另一方面,深度学习的技术不断推动语音识别错误率的下降。从2013年开始,借助深度神经网络和海量用户数据,搜狗输入法的线上错误率在过去几年中累积下降了超过60%。
借助语料数据的“燃料”和深度学习的“发动机”,目前搜狗输入法语音识别准确率已超过97%。对于以当前技术水平无法实现的剩下的3%,王砚峰指出,“这叫语音识别最后一公里问题”。他随后介绍了搜狗输入法今年推出了语音修改功能,借助自身的词库、拆字库和用户语料,以及知识图谱的支持,如今用户错误率已经降低了80%,有效解决了语音识别“最后一公里”的问题。
而对于更聪明的“大脑”,王砚峰表示,传统的通用语音助手不如场景化的专用语音交互更具实用性。他指出,通用语音助手难以解决用户多种多样的问题,因而面临使用体验较差、屡遭用户诟病的窘境;而搜狗通过借助多轮对话、技术图谱等实现技术能力提升,并将使用场景明确化以降低问题难度,“对话能力、知识图谱跟具体的场景结合起来,语音交互的处理能力、智能性、实用性就可以好很多。”
对于智能家居产品来说语音交互应当能从本质上实现智能家居的让生活更简便的愿景。对消费者来说,有一天能够通过语音而不是无尽的app和遥控器实现对智能家居产品的操作,那将是一件多么美好的事。想像一下,一句“我觉得现在有点热,温度稍微调低点。”便能实现空调的温度调节,和找到遥控器再通过遥控按键将温度调低,哪种更智能、更方便简直显而易见。