初探计算机视觉的三个源头、兼谈人工智能 - 技术天地 - 产业资讯 -AGV产业联盟官方网站 -新战略机器人网-工业、服务、AGV机器人产业资讯传播者
您所在的位置:首页 >> 技术天地 >>正文
分享34K

初探计算机视觉的三个源头、兼谈人工智能

发布时间: 2016-11-23 09:11:30 来源:新战略机器人网

核心提示: 计算机视觉是一个domain, 它有很多问题要研究, 就像物理学。 而机器学习基本是一个方法和工具,就像数学和统计学。 这个名词的兴起应该还是最近的事情, 在我看来,是来自于两股人马。

谈话人:杨志宏   视觉求索公众号编辑朱松纯   加州大学洛杉矶分校UCLA统计学和计算机科学教授

 时间: 2016年10月 

 : 朱教授,你在计算机视觉领域耕耘20余年,获得很多奖项, 是很资深的研究人员。近年来你又涉足认知科学、机器人和人工智能。受 《视觉求索公众号》编辑部委托,我想与你探讨一下计算机视觉的起源,这个学科是什么时候创建的, 有哪些创始和代表人物。兼谈一下目前热门的人工智能。

: 好, 我们首先谈一下为什么需要讨论这个问题。 然后, 再来探讨一下计算机视觉的三个重要人物David Marr, King-Sun Fu, Ulf Grenander以及他们的学术思想。我认为他们是这个领域的主要创始人、或者叫有重要贡献的奠基人物。

第一节: 为什么要追溯计算机视觉的源头, 这有什么现实意义?

中国有句很有名的话:“一个民族如果忘记了历史,她也注定将失去未来。”  我认为这句话对一个学科来讲,同样发人深省。我们先来看看现实的状况吧。

首先,假设你当前是一个刚刚进入计算机视觉领域的研究生,很快你会有一种错觉,觉得这个领域好像就是5年前诞生的。 跟踪最新发表的视觉的论文,很少有文章能够引用到5年之前的文献,大部分文献只是2-3年前的,甚至是1年之内的。现在的信息交换比较快,大家都在比一些 Benchmarks,把结果挂到arXiv 网上发布。 很少有一些认真的讨论追溯到10年前,20年前, 或30年前的一些论文,提及当时的一些思想和框架性的东西。现在大家都用同样的方法,只是比拼,你昨天是18.3%的记录(错误率),我今天搞到17.9%了。大家都相当短视,那么研究生毕业以后变成了博士,可能也会带学生做研究,他只知道这几年的历史和流行的方法的话,怎么可能去传承这个学科,让其长期健康发展呢?特别是等当前这一波方法退潮之后,这批人就慢慢失去了根基和源创力。这是一个客观的现象。

其次,还有一个现象是,随着视觉与机器学习结合,再混合到人工智能的这么一个社会关注度很高的领域去以后,目前各种工业界,资本、投资界都往这里面来炒作。所以,你可以在互联网上看到各种推送的文字,什么这个大师,那个什么牛人、达人说得有声有色,一大堆封号。中国是有出“大师”的肥沃的土壤的,特别是在这个万众创新、浮躁的年代。 这些文字在混淆公众的视听。也有的是一些中国的研究人员、研究生, 半懂不懂,写出来一些, 某某梳理机器学习、神经网络和人工智能的历史大事。说得神乎其神。我的大学同学把这种帖子转发给我,让我担忧。

:这大多是以学术的名义写的软文,看起来像学术文章,实际上就是带广告性质的,一般都是说创投、创业公司里的人,带着资本的目的,带商业推广性质的。
: 我甚至不排除有些教授,比如与硅谷结合很紧密的、在IT公司或者风投公司兼职的,有意识地参与、引领这种炒作。

这对我们的年轻学生其实是很致命的,因为他们不了解这背后的动机, 缺乏免疫力。而且现在年轻人和公众都依赖短平快的社交媒体,很少去读专业文献。当公众的思想被这些文字占领了,得出错误的社会性的共识,变成了 false common sense, 对整个社会, 甚至对学术界,都会产生长久的负面冲击。

这就形成了新时代的皇帝的新装。我们需要对这种现象发声, 做一些严肃的探讨。所以,正本清源有着重要的现实意义。

第二节:计算机视觉和人工智能、机器学习的关系

:谈到这里,我想先问一下计算机视觉和人工智能是什么关系?还有机器学习这三个东西。

:人工智能是在60年代中后期起步的。一直到80年代,翻开它的教科书,就是一些启发式搜索,研究最多的是下棋, 从国际象棋一直到最近的围棋,都是比较抽象的表达。棋盘的位置是有限的、下棋的动作也是有限的, 没有感知和动作执行的不确定性。 所有的问题都变成一个图搜索的问题,教科书上甚至出现了一个通用图搜索算法号称可以解决任何人工智能问题。当时视觉问题还没引起大家重视。我这里有一份1966  年7月 的  MIT AI 实验室的第100号报告(备忘录memo 100),很短,题目叫做“The Summer Vision Project”。这个备忘录的基本意思就是暑假的时候找几个学生构造一个视觉系统。他们当时可能就觉得这个问题基本上是不需要做什么研究的。所以你就一个暑假,几个人一起写个程序,就把它干掉算了。现在说起来,当然是个笑话。

人的大脑皮层的活动, 大约70%是在处理视觉相关信息。视觉就相当于人脑的大门,其它如听觉、触觉、味觉那都是带宽较窄的通道。视觉相当于八车道的高速, 其它感觉是两旁的人行道。如果不能处理视觉信息的话,整个人工智能系统是个空架子,只能做符号推理,比如下棋、定理证明, 没法进入现实世界。所以你刚才问到的人工智能和计算机视觉的关系,视觉,它相当于说芝麻开门。大门就在这里面,这个门打不开, 就没法研究真实世界的人工智能。
80年代,人工智能, 连带机器人研究就跌入了低谷, 所谓的冬天。那个时候,很多实验室都改名字了, 因为拿不到经费了。 客观来说,80年代, 一个微型计算机的它的内存只有640K
字节,还不到一兆(1MB一百万字节),我们现在一张图像,随便就是几个兆的大小,它根本无法读入一张图像,还谈什么理解呢?等到我做博士论文的时候(1992-1996),我导师把当时哈佛机器人实验室最好的SUN工作站给我用,也就是32兆字节。我们实验室花了25万美元构建了一个图像采集系统,因为当时没有数字照相机。可以这么说,一直到90年代中期的时候,我们基本上不具备研究视觉这个问题的硬件条件和数据基础。只能用一些特征点的对应关系做射影几何,用一些线条做形状分析。因为图像做不了,所以80年代计算机视觉的研究,很大部分是做几何。

:90 年代后,就是数字照相机大量生产了。
:在90年代的末期的时候,发生了一个叫做感知器的革命。带动了大数据和机器学习的蓬勃发展。

:那机器学习与计算机视觉的关系呢?

:计算机视觉是一个domain, 它有很多问题要研究, 就像物理学。 而机器学习基本是一个方法和工具,就像数学和统计学。 这个名词的兴起应该还是最近的事情, 在我看来,是来自于两股人马。 80年代人工智能走入低谷后,迎来了人工神经网络的一个高潮, 所谓的从符号主义到连接主义的过渡。在中国80年代与气功、人体科学一起走红,但这基本是昙花一现。到了90年代初, 退潮之后,就开始搞 NIPS这个会议, 引入统计的方法来做。还有一股就是做模式识别的一些工程人员EECS 背景的。 按道理来说, 这个领域应该叫做 统计学习 (Statistical Learning),因为它的方法都是由概率统计领域拿来的。这些人中的领军人物很有商业头脑, 把统计和物理的数理模型, 改名叫做机器, 比如**模型(model)就叫**机(machine),把一些层次模型(hierarchical model)说成是“网”(net)。这样,搞出了几个“机”和“网”之后, 这个领域就有了地盘。另一方面,我的那些做统计的同事们也都老实、图个清静,不与他们去争论, 也大多无力去争。当然,统计学领域也有不少人参与了机器学习的浪潮。简单说,机器学习中的 “机器”就是统计模型,“学习”就是用数据来拟合模型。 是由做计算机的人抢占了统计人的理论和方法,然后,应用到视觉、语音语言等 domains。 我在计算机和统计两个系当教授, 看得一清二楚。 这个问题我以后可以专门讨论。

这个机器学习的群体在2000年之后,加上大量数据的到来,很快就成长了, 商业上取得很大的成功。机器学习和计算机视觉大概有百分之六七十是重合的。顺便说一句,2019年我们两个领域会在一起在洛杉矶开CVPR 和 ICML年会, 我是CVPR19的大会主席。因为学习搞来搞去,最丰富的数据是在视觉(图像和视频)。现在这次机器学习的一些大的动作和工程上的推广工作,还是从计算机视觉这边开始的。
:谢谢你讲述人工智能,计算机视觉和机器学习的关系。下面我们回到本次访谈的主题。刚才说了这个感知器革命是90年代以后,出了很多的数据要处理了。那么为什么马尔(Marr)在70年代末思考的问题,在面对我们当今处理这个数据的时候, 还有意义?就是说马尔用了什么方法?什么思路框架?使它有生命力?

:好,就回到1975-1980年这个时间段。我们今天的主题是想初步探讨一下计算机视觉的起源。我们这个领域也没有一个统一的教科书来谈这个事情。我认为视觉的起源,可以追溯到三个人,David Marr, King-Sun Fu 和Ulf Grenander。这三个人代表三个完全不同的方面,为计算机视觉这个领域奠定了基础。

:好, 我们逐个来介绍吧。

第三节:视觉的开创者之一:David Marr 的学术思想

: David Marr 【1945-1980】,中文音译为马尔, 他奠定了这个领域叫做Computational Vision计算视觉,这包含了两个领域: 一个就是计算机视觉(Computer Vision),一个是计算神经学(Computational Neuroscience)。他的工作对认知科学(CognitiveScience)也产生了很深远的影响,我们计算机视觉CV,第一届国际会议ICCV 1987年就以David Marr的名字来命名最佳论文奖, 而且一直到2007年之前的20年间, 是CV唯一的奖项和最高的荣誉,两年一次。认知科学年会 (CogSci)也设有一个 Marr Prize给最佳的学生论文。这三个领域在80-90年代走得很近, 最近十多年交叉越来越少了。就是说,原来都是亲戚,表兄弟, 现在很少有人在之间走动了。

Marr 1972年从剑桥大学毕业,博士论文是从理论的角度研究大脑功能,具体来说,是研究的小脑, 主管运动的Cerebellum。1973年受MIT 人工智能实验室主任Minsky的邀请, 开始是做访问学者(博士后)。 1977年转为教职。 可是, 1978年冬诊断得了急性白血病。1980年转为正教授不久就去世了, 时年35岁。他在得知来日无多后,就赶紧整理了一本书,就叫 “Vision:A Computational Investigation into the HumanRepresentation and Processing of Visual Information”, 《视觉:从计算的视角研究人的视觉信息表达与处理》。他去世后由学生和同事修订,1982年出版。

:“Vision”2010年再版了,再版了以后在亚马逊仍然是卖得很好。

:它是个经典的东西。我是1989年冬天本科三年级从中科大认知科学实验室的老师那里,读到这本书的中文译本。因为缺乏背景知识,我当时基本读不懂。因为是中文,每句话都明白,但是一段话就不知道是什么意思了。在过去的20多年中, 我每隔1-2年都会再翻一翻这本书。后来我和同事花了大约8年时间,将他的一些思路转化成数理模型,比如primal sketch

:这个人生故事是可以拍电影的。

:的确。 很多年前我与他的大弟子 Shimon Ullman饭桌上谈到这段历史, 他说当时大家到处找药,就是救不过来。当年这是一个30多岁正值科学顶峰的、交叉学科的领军人物。顺便说一句, 当年中日友好,1984播放日本电视剧《血疑》, 那是万人空巷, 感人至深。里面的大岛幸子(三口百惠饰)得的就是同样的病。可惜, 目前计算机视觉这个领域,你如果去问学生的话,他们很多人都没听说过David Marr。“喔,想起来了,好像有个Marr奖吧”。可是你去问认知科学、神经科学的人,他们基本上对Marr非常的清楚。这也是我所担心的, 计算机视觉的发展太工程化、功利化了,逐步脱离了科学的范畴。这是短视和危险的。最近又受到机器学习来的冲击。我这里顺便说一句, Marr 对我的另外一个间接的影响。他1973年来到MIT, 就租住在JayantShah的房子里, Shah 与 Minsky很熟, 他当时是研究代数几何(Algebraic geometry)的。 而我导师Mumford也是研究代数几何的, 并获得1974年的菲尔兹奖。他们两人很熟,后来在Shah的影响下,Mumford转入计算机视觉, 他们从提取物体边缘开始 (boundarydetection),也就是产生了著名的 Mumford-Shah 模型,搞图像处理的应用数学人员基本都是从这个模型开始做。这是后话。关于这段历史,我们以后可以展开谈。:好, 那么 Marr的学术贡献是什么呢?

<>朱:在我看来,David Marr对我们这个学科最主要的贡献有三条。从而基本上可以说,定义了这个学科的格局。

第一条,就是说在那个时代,60年代开始的时候大家已经很多人研究视觉神经生理学、心理学问题。也有人做一些边缘检测的工作。但是,视觉到底要解决哪些问题?是怎么实现的?大家莫衷一是,谈不清楚,那么David Marr的第一个贡献就是分出了三个层次。他说, 要解决这个问题,可以把它分成计算(其实应该说成是表达)、算法、和实现三层次。首先,在表达的层次,我们问一下这是个什么问题呢?如何把它写成一个数学问题。任务是什么?输出是什么?这是独立于解决问题的方法的。其次,对这个数学问题去求解时,可以选择不同的算法, 可以并行或者串行。再次,一个算法如何在硬件上实现,可以用CPU,DSP, 或者神经网络来实现。 很多观察到的心理学和神经科学的现象都是跟系统硬件有关的东西,比如说人的一些注意机制,记忆力。这些应该从表达层面剔除。这样, 视觉就可以从纯粹的理论、计算的角度来研究了。我们可以参考心理学和神经科学的结论, 但这不是主要的。 打个比方,要造飞机, 可以参考鸟类的结构, 但关键还是建立空气动力学,才能从根本上解释这个现象, 并创造各种飞行器, 走得更远。

:他这么一说,今天看来好像很自然的可以理解了,但是在当时,可能没有多少人,是把问题这样分解的。
!important;">:当时分不开。因为当时站在像神经科学和认知科学角度,是拿一些实验现象来说事,但是不知道这个现象是在哪一层出现的。

比如神经网络和目前的深度神经网络的学习,他们的模型(表达)、算法、和实现的结构三层 是混在一起的。就变成一个特用的计算设备, 算法就是由这个结构来实现的。当它性能不好的时候,到底是因为表达不对,还是算法不对,还是实现不对? 这个不好分析了,目前的神经网络,或者是机器学习,深度学习,它的本源存在这个问题。
以前我们审稿的时候,会追问论文贡献是提出了一个新的模型?还是一个新的算法?在哪一个层级上你有贡献,必须说得清清楚楚。2012年,我作为国际计算机视觉和模式识别年会(CVPR)的大会主席, 就发生一个事件。收到神经网络和机器学习学派的一个领军人物 LeCun的抱怨信,他的论文报告了很好的实验结果, 但是审稿的三个人都认为论文说不清楚到底为什么有这个结果, 就拒稿。他一气之下就说再也不给CVPR投稿了,把审稿意见挂在网上以示抗议。2012 年是个转折点。

现在呢?随着深度学习的红火, 这三层就又混在一块去了。 一般论文直接就报告结果, 一堆表格、曲线图。我就是这么做,然后再这么做,我在某些个数据集上提高了两个百分点,那就行了。你审稿人也别问我这个东西里面有什么贡献,哪个节点代表是什么意思,你别问,我也不知道。那算法收敛了吗?是全局收敛还是一个局部收敛?我也不知道,但是我就提高了两个百分点。>杨:或者要用多少数据来训练材料才能够呢?
:明白。
:我们现在很多人研究这个智能,比如说分类问题。他都是从谷歌的一些应用,比如搜索图片、广告投放,变成分类问题。 从而忽视了更大的本质问题。如果说人工智能往前发展机器人,要从机器人的角度来用视觉的话,那么它就有很多不同的任务。我现在做饭,我在打球,我在欣赏风景,这个时候我看到的东西是完全不一样的。我怎么样通过这千千万万的任务,而不是简单一个分类,来驱动我的计算的过程,来找到我的需求,来支持我目前的任务,这是一个巨大的研究的方向。David Marr的思想,到今天,反而意义非常重大,因为大家现在一窝蜂的去搞深度学习,把这些基本东西给忘掉了。但是这才是人工智能和机器人视觉的长远发展方向。

我前两年给过几个谈话,说研究视觉要从一个agent(执行者)的角度,带着任务进来的这么一个人或机器人,主动地去激发视觉。

目前的计算机视觉的研究还有一大部分是由视频监控的应用来驱动的,比如说我检测一些异常现象,看这个人是男还是女?那这也是一种被动的,就是说它只是在看,没有去做。要去做的话,就涉及到因果关系和更多的不确定性。所以现在的研究生觉得,他整天在做机器学习, 就在调参数,就在跟别人比拼百分之几的性能。 一些公司的研究所就报道, 他们在某某问题(数据集)上国际领先了,排名第一了。他们自己也觉得这个研究没多少意思。那是因为他们没有接触到这些基本的问题上来。
:他们可能还没有发现这个问题本身是多么有趣。
:因为作为一个科学来发展的话,那它就是要认认真真的来做,把这个理清楚。当前的火热来源于工业界, 工业界没有多少耐心资助他们的研究人员去做科学研究,大家很现实。 那么,David Marr先谈这么多好不好?以后我们可能还会继续深入谈的。>杨
:好。那我们第二个人就谈一下傅京孫。
>第四节:视觉的开创者之二:傅京孫(King-Sun Fu)的学术思想

: David Marr是从这个神经科学和脑科学这个方向来的。傅京孫【1930-1985】,他当时代表的是计算机科学,搞人工智能的人。他是一个有领导才能的人物。他和其他人于1973年组织了第一届国际模式识别会议(ICPR),并担任主席。会议后来演变成国际模式识别学会IAPR,在1976年成立,并被选为其主席。他重组了另外一个IEEE学会下面的模式识别委员会,并于1974年成为其第一任主席,创办了IEEE模式分析和机器智能(PAMI)会刊,并于1978年担任第一任总编。这是目前计算机视觉和相关领域最权威的一本期刊了。很多中国学生现在不知道,这个领域的老大本来是华人。目前, 国际模式识别学会IAPR设立了一个傅京孫奖, 作为终身成就奖, 是模式识别的最高荣誉>杨:可惜他1985年去世了。听说去世前他每年都在中国举办

【免责声明】所刊原创内容之本文仅代表作者本人观点,与新战略机器人网无关。新战略机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

【版权声明】凡本网注明“来源:xzl机器人”的所有作品,著作权属于新战略机器人网站所有,未经本站之同意或授权,任何人不得以任何形式重制、转载、散布、引用、变更、播送或出版该内容之全部或局部,亦不得有其他任何违反本站著作权之行为。违反上述声明者,本网将追究其相关法律责任。转载、散布、引用须注明原文来源。

分享到:

关闭对联广告
顶部微信二维码微博二维码
底部
扫描微信二维码关注我为好友
扫描微博二维码关注我为好友