新智元作者:王嘉俊 王婉婷 张巨岩
圣诞前夕,新智元盘点了全球最好人机交互技术(来自 Gartner 技术曲线),并把它们分为五大类:
1、科技诞生的促动期(On the Rise)
2、过高期望的峰值(At the Peak)
3、泡沫化的低谷期(Sliding Into the Trough)
4、稳步爬升的光明期(Climbing the Slope )
5、实质生产的高峰期(Entering the Plateau)
注:技术成熟度曲线又叫技术循环曲线,或者直接叫做炒作周期,是指新技术、新概念在媒体上曝光度随时间的变化曲线。
从 PC 到互联网再到移动互联网,IT 产业的快速发展背后是基础设施和核心技术的进步。但我们也注意到,一项技术真正改变人类生活,还是来自人机交互模式的创新。
回顾过去我们姑妄言之,未来 5 年 IT 产业的核心推动力,来自于人机交互的变革。
谈到人机交互,我们总能想到一些经典的例子:例如乔布斯推出的 iPod,让音乐真正可以成为便携之物;而后又推出了触控式的 iPhone,完全颠覆了过去键盘式手机的模式。这背后当然有乔布斯偏执的天才艺术家气质,但不可否认的是,iPhone 成功的背后是各种传感器价格大幅下降,触控技术的成熟和3G、4G 网络的普及。而现在,语音技术的突破更带动智能人机交互的发展,科大讯飞在语音识别和合成技术上有强大的国际竞争力,连续 10 年蝉联 Blizzard Challenge 英语合成国际评测第一,语音合成、语音识别和自然语言理解技术全球第一。
iPhone 和 iPod 的成功,我们认为是核心技术的成熟、在产品进行用户体创新以及天才领导人物共同作用的结果。
不过这也提出启示:未来的伟大产品,很可能也是这样的模式。我们认为在知识产权和核心数据变得越发重要的时代,下一个巨头级企业,一定是在核心技术上能掌握主导权,然后产品上的用户体验上小步快跑,快速迭代。
回到人机交互的变革,我们面临着万物互联的时代。手机、可穿戴设备、智能家居等,我们要处理各种各样的设备、信息和数据。在这个过程中,我们认为未来核心的人机交互,是以语音交互为主,触摸手势为辅,依托于人工智能技术,能够智能的和你稀缺的注意力资源进行互动。
科大讯飞的发展历程和我们谈到的核心技术突破 + 产品上用户体验创新有很多相同之处。
科大讯飞总裁刘庆峰在接受采访时提到:
“创新应该为大波浪+小波浪,也就是核心源头技术突破+用户体验微创新。换言之,中国人工智能的发展,一定要用核心技术的突破。如果掌握不了主导权,产业越大风险越大。”
“在推动人类未来需要什么样的技术?我觉得未来最核心的是两条;一条是谁能够在用户界面中提供自然便捷的方式?第二,谁能理解我们的需求?抓住这两条才能有效的布局未来发展。”
科大讯飞研究院院长胡郁表示说,“我们不是一家跟风的企业,我们只是在等待一个机会,用技术和实力去争取自己的话语权。我们也希望向世界证明,中国的企业依靠核心技术创新和系统技术创新也可以赢得应有的尊重。”
下周一(12 月 21 日14:30-16:30)是科大讯飞的年度发布会,有国际前沿重量级的人机交互产品发布。我们看到深耕语音技术的科大讯飞,在产品的用户体验上也下足了功夫。新智元邀请您参加 2015 科大讯飞年度发布会的微信群直播,这次直播由新智元主办,让我们一起探秘语音和人工智能的现状和未来趋势。
以下是新智元对 33 项人机交互技术进行的详细梳理,文末有发布会参加方式。
虚拟个人助理 Virtual Personal Assistants
虚拟个人助理是一种软件形式的助理,可以为你完成一些工作或是提供一些服务。这些工作和服务依赖于用户输入信息、位置信息、以及从各种网络资源中获取信息的能力(比如天气情况、路况、新闻、股价、用户日程、商品零售价等等)。Apple的Siri、Google的Google Now、Amazon Echo、微软的Cortana、三星的S Voice、黑莓的Assistant、HTC的Hidi、Facebook的M等等都有虚拟个人助理的功能。
生物声学传感 Bioacoustic Sensing
生物声学是一个生物学和声学交叉的领域。生物声学传感的应用之一就是皮肤输入(skinput),这种微软研究院开创的技术通过生物声学来定位手指点击到的皮肤位置。整合微型投影仪(pico-projector)以后,它能够在人类身体表面投影出可以直接操作的、图形式的用户界面。人们总是希望设备能够越来越小的同时操作界面不要随之缩小,皮肤输入为这样的目标提供了一种很有潜力的方法。
步态识别 Gait Recognition
步态识别是一种生物测量学的技术,测量身体的移动、生物力学、肌肉运动等等方面。运用步态识别的方法,可以根据每个人独特的步态将他与其他人区分开,所以可以作为一种非侵入式、无需对方配合的识别方法。在一定的距离上也可以完成对人类的步态识别,这就让它非常适合用来在犯罪现场辨别嫌疑人。医疗领域同样可以用到步态识别,比如,通过对于步态的识别可以在帕金森症和多发性硬化症等病症的早期阶段就将它们鉴别出来。
脑机接口 Brain-Computer Interface
脑机接口是在人或动物的大脑与外部设备间建立直接的信息交换通路。脑机接口通常直接与辅助、增强、或是修复人类的认知和感觉运动能力联系在一起。脑机接口领域的研究主要关注神经义肢(neuroprosthetics)的应用,目标在于修复受损的听力、视力、以及运动能力。大脑皮层的可塑性让来自植入式义肢的信号可以被大脑当作自然产生的信号来处理。脑机接口未来在中风恢复、意识障碍(Disordersof Consciousness)等方面有许多应用前景。
增强人类能力 Human Augmentation
增强人类能力指的是任何运用自然或是人工的方法来克服人类能力局限性的努力。这一方面现有的技术在生理方面有提升肌体表现的药物、强力的外骨骼、器官移植等等,在精神方面有强化认知等能力的药物、计算机和互联网等让人类的行动更有效率的工具等等。未来将会出现的技术包括成熟的人类基因编辑、基因治疗、脑机接口、神经植入装置等等,意识上传、外部大脑皮层(exocortex)等技术也并非没有可能。
立体显示 Volumetric Displays
立体显示是指形成一个物体的3D影像,与传统屏幕上用深浅的效果在2D平面模拟3D图像是不同的。绝大多数(如果不是全部的话)立体显示不是采用自由立体技术(autostereoscopic),就是采用多视点技术(automultiscopic),以此创造出裸眼可见的3D影像。立体显示在人机交互中有广阔的应用前景,有一些对于用立体显示进行人机交互在速度和准确度上的优势、创造全新的图形交互界面、用立体显示增强医疗应用等方面的研究。
非医疗用途的植入式芯片 Chip Implants for Nonmedical Applications
植入式芯片是一种装在硅酸盐玻璃中的集成芯片识别装置或是射频识别收发装置。通常植入的芯片会包含唯一的识别ID,可以用来与外部数据库里的信息(比如个人身份、医疗记录、联系信息等)相连。在未来,如果植入式芯片带有GPS功能,那么就能准确地捕捉到这个人所在位置的经纬度、海拔高度、他的移动速度以及移动方向。这将让定位失踪者、逃犯等成为可能。但是,也有人指出,这种技术可能会带来政治压迫,因为政府能够通过植入式芯片来追踪和迫害人权运动者、劳工维权人士、政治对手等;而罪犯也能利用它来跟踪并骚扰那些受害者,奴隶主们可能会用它来防止奴隶逃跑,那些虐待儿童的人也可能用它来确定孩子们的位置、然后实施绑架。
电震动 Electrovibration
电震动现象可以被追溯到1954年的意外发现。当时的研究者们报告说,覆盖着一层薄绝缘层的导电表面,通电后,当干燥的手指在表面上滑动时会有一种独特的橡胶触感。电震动效应通过给手指上的触觉接收神经以错误的信号来达到效果。现在,基于电震动的原理,已经有人开发出了力反馈触摸屏,能够为触摸屏提供类似实体按键的触觉反馈。这种技术还有可能为盲人带来全新的阅读设备。
智能机器人 Smart Robots
到目前为止,在世界范围内还没有一个统一的智能机器人定义。大多数专家认为智能机器人至少要具备以下三个要素:一是感觉要素,用来认识周围环境状态;二是运动要素,对外界做出反应性动作;三是思考要素,根据感觉要素所得到的信息,思考出采用什么样的动作。智能机器人根据其智能程度的不同,又可分为三种:工业机器人、初级智能机器人和高级智能机器人。工业机器人,它只能死板地按照人给它规定的程序工作;初级智能机器人,具有象人那样的感受,识别,推理和判断能力。高级智能机器人除了包括初级机器人的能力外通过学习,总结经验来获得修改程序的原则,这种机器人拥有一定的自动规划能力,能够自己安排自己的工作。这种机器人不需要人的照料,完全独立的工作,故称为高级自律机器人。
情感探测/识别 Emotion Detection / Recognition
情感识别是一种辨别人类情感的过程,大部分时候是辨别面部表情(当然,声音的声调、速度、强度等参数也能表达情感)。人类的情感识别能力是自动加工的,而计算机识别情感的能力也有了一些例子,比如软银的情感机器人Pepper。对于陪伴型机器人而言,情感的探测识别将是不可或缺的能力之一;除此之外,情感识别也能帮助广告商和内容商更有效率地进行传播,就像Affectiva做的那样。
肌肉计算机接口 Muscle-Computer Interface
肌肉计算机接口是一种无需通过直接操作物理设备(比如鼠标、键盘等等)就能获取人类输入的信息的技术。这种交互技术可以直接感受到人类的肌肉电活动并进行解码,让人们在忙着其它事务的时候也能进行信息输入。比如,将信号接收器放在你前臂上的话——这些肌肉控制着你手指的运动——它就能准确地探测到你手指的运动,而软件可以将这些信号转换为手指的姿势,让计算机像理解常规的键盘输入、鼠标输入、触屏输入一样理解手指的运动意味着什么。
量化自我 Quantified Self
量化自我指的是运用科技来获取一个人每日生活的各种数据,包括输入(inputs,比如,吃掉的食物、周围的空气质量),状态(states,比如,情绪、唤醒水平、血氧含量),以及表现(包括精神上和身体上的表现)。这种通过可穿戴设备达到的自我监控和自我感知,也被称为记录生命日志(lifelogging)。它让人们能够通过量化指标来了解自身,也让数据收集变得更廉价、更便利。睡眠质量监控、情绪监控、以及体重监控都是常见的用途。
用户体验平台 UXPs
用户体验平台(user experienceplat form)整合一系列技术来为用户和一组应用程序——或是内容、服务、其它用户等——提供一种交互。一个用户体验平台包括门户、混搭工具(mashup tools)、内容管理、搜索、丰富互联网应用程序(RIA)工具、数据分析、合作、社交等元素。它可以是一套产品,也可以是一个单独的产品。用户体验平台将会为网站、移动端应用程序、以及未来新出现的渠道创造出高效、高忠诚度的用户体验。
柔性显示器 Flexible Display
柔性显示器是一种可弯曲的显示器,不同与传统电子设备上平板式的显示器。它主要用两种方式实现:电子纸(electronic paper),或是有机发光二极体(OLED)。最近几年,无数电子消费品制造商都对柔性显示器流露出浓厚的兴趣,尝试将这种技术应用在电子阅读器、移动电话、以及其它电子产品上,比如诺基亚和三星都展出过柔性显示屏的概念手机。
语音到语音翻译 Speech-to-Speech Translation
语音到语音翻译就是用计算机系统实现持不同语言的说话人之间的话语翻译的过程。由于语音识别技术和口语理解技术的提高,语音翻译研究越来越倾向于探索真实对话场景下自然口语风格的话语翻译技术,因此,语音翻译一般又称口语翻译(Spoken language translation, SLT),或对话翻译(Spoken dialogue translation)。语音翻译需要让电脑克服复杂多变的口语输入,复杂的工作环境与含有错误信息的字符串的输入,国际上相应领域的系统有CMU的JANUS-III,日本ATR的MATRIX,德国Verbnobil系统,商业系统有Transclick、SpeechGear、AppTek、Spoken Translation公司的相应产品等。
机器学习 Machine Learning
机器学习是计算机科学中从人工智能的模式识别和计算学习理论(computational learning theory)中演化出的一个子领域,用算法来从数据中进行学习、最终能够对数据做预测。这些算法通过从输入的样例数据中建立起模型来作出数据驱动的预测或是决策。微软剑桥研究院院长Christopher M. Bishop认为机器学习和模式识别“是对同一个领域的两种角度的称呼”机器学习被应用在许多难以设计和编写明显算法(explicit algorithms)的任务中,包括垃圾邮件过滤、光学字符识别、搜索引擎、以及计算机视觉。
可穿戴设备 Wearables
可穿戴设备指的是融合了计算机技术和高级电子技术的衣物和饰品。可穿戴设备主要有两种应用方向:个人应用,或者是商务应用。无论是哪一种应用方向,在功能上一般属于健康状况跟踪、导航、媒体设备、交流工具等等中的一种。可穿戴设备的持有量正在迅速增长:智能腕带已经成为一种相当普及的产品,而智能手表市场也已有三星、Apple、华为等公司介入。
眼动控制 Gaze Control
眼动控制指的是一个人通过移动眼睛的注视点来影响电脑的行动。这包括了测量用户视觉注视点的角度或位置(通常用摄像头完成),以及从一些可用的、投射到这些位置的功能中进行选择。一些研究表明眼动控制可以应用于控制无人机、绘画软件等活动;瑞典的眼动仪器生产商Tobii也推出了可以用眼动控制的windows 8 系统——相比与单纯的触屏控制,触屏和眼动控制的结合让用户能够更容易地操控计算机,比如通过眨眼来代替按下鼠标键。