去年十月份,马云成立阿里巴巴达摩院,三年拿出1000亿布局前沿技术的研究,并对它提出三个要求,“活得要比阿里巴巴长”、“服务全世界至少20亿人口”、“面向未来用科技解决未来的问题”。
在过去的9个月中,阿里达摩院也陆续传出来自各方的技术大牛加盟;公布了正在研发中的AI芯片Ali-NPU;研发出量子电路模拟器“太章”,率先实现81量子比特(40层)的模拟;应用在上海地铁站的语音购票等消息,但整个达摩院(正如其名)还隐匿在云雾中。
日前,达摩院的业务终于揭开面纱,四大业务板块公诸于众。
一、围绕人、物、空间推动机器视觉落地
阿里达摩院机器智能技术实验室资深算法专家谢宣松分享了计算机视觉在产业中的应用,主要围绕人(医疗视觉)、物(行业视觉)、空间(城市大脑)、设计(视觉生成)几个维度来展开。谢宣松谈到,围绕人、物、空间来做一些机器视觉,目的是协助人提高效率。
第一种是诊断内容肉眼可分辨,正常&故障样本充足,对漏报有一定的容忍度。这种场景就很适合机器来做,比如对铁路螺母是否松动的监测。第二种是人肉眼难以发现,可根据情况用机器视觉作为代替。第三种是故障样本极少,但造成事故的结果又很严重,这时可以用机器视觉辅助人工检测。
限定了边界后,就可以寻找技术落地的场景了,比如阿里基于视频分析,可以自动进行钢圈安全监测,实测精度在95%以上;再比如通过目标检测和行为分析,对猪的疫情等进行预警,前一段阿里云用AI养猪种瓜,也是风靡互联网圈。
阿里是以电商起家的,广告需求广泛存在于淘宝商户中,尤其是双十一这样的购物节设计需求大量存在。阿里特意构建了设计知识图谱,通过视觉生成来生成广告效果图。
其中最典型的应用就是鲁班系统在淘宝中的应用。谢宣松谈到,双十一天猫、淘宝上大量的banner图片,其中很大一部分都是系统自动自动生成的。比如去年双十一用AI产图2.5亿张,累计产图10亿张。身为设计师的你看到这一结果是否会亚历山大呢?
二、量子计算中长期的布局
时下火热的一个概念就是量子计算,因为量子计算机一旦取得突破,在算力上就会远远高于经典计算机,从而带来算力革命,但这一现象短期内很难发生。
正如阿里达摩院量子实验室的量子科学家徐华所言,通用量子计算机发展前路漫漫,近期我们期待可以解决特定问题的量子芯片,以及针对量子系统进行模拟的量子芯片。
今年3月份,谷歌提出72个比特的芯片方案。而后5月份,阿里量子实验室团队基于阿里的计算能力,实现了81量子比特的模拟。但徐华总结到,目前的量子霸权象征意义大于实际意义,因为本身解决不是通用计算问题,只能算是技术发展过程当中的一个个里程碑。
三、机器翻译
阿里国际化的生命线机器翻译是利用计算机将一种自然语言专为为另一转自然语言的过程。这项技术已经有60年的历史,但在最近30年才可以使用。
阿里达摩院机器智能技术实验室研究员葛妮瑜分享了他们在机器翻译技术中的探索与应用,她将机器翻译称为阿里国际化的生命线,因为阿里国际电商、即时通讯(钉钉)、旅游(飞猪)等场景存在大量的翻译需求。
与谷歌的通用神经机器翻译不同的是,阿里的机器翻译更加聚焦在国际电商、即时通讯、旅游上,采用神经网络机器翻译(NMT)、统计机器翻译(SMT)等多模型结合的方式进行翻译,目前已覆盖21种语言,48个翻译方向。
葛妮瑜介绍,目前阿里机器翻译服务100+业务场景,日均调用7.5亿次,全年翻译字符数超过120万亿,应用于电商平台、物流、支付、云计算、社交等。
四、推行业语音识
别语音识别是一种常见的将语音转换为文字的技术,目前各家做语音识别的公司都号称通用语音识别准确率达到95%以上,但是在细分场景、特殊领域中,这一识别率会大大下降。
阿里达摩院机器智能技术实验室高级算法专家雷鸣分享到,得益于更强大的计算能力,以及更多更真实的数据,语音识别正在快速发展,并且工业界正在成为创新的主流。
目前谷歌、微软、百度等都采用通用识别的技术,与其不同的是,阿里则重点布局了行业语音识别、IoT语音识别和新零售语音识别。
在具体应用方面,阿里的语音技术已经广泛应用在家庭、车载、公共空间。比如家庭的智能音箱,上汽荣威RX5中的车载语音交互技术。