“清华人工智能论坛”—芮勇博士《人工智能趋势之四化》
发布于:2016-06-15 14:47 浏览:
导读:2016年6月6日,清华人工智能论坛在清华园成功举办,清华大学副校长薛其坤院士与张钹院士、马少平、张长水教授等来自清华大学人工智能领域的多位权威专家、芮勇、王小川、张连毅等杰出清华校友企业代表,和学术界、产业界、资本界等社会各界近500多人相聚清华园,纵论人工智能。本届论坛充分展现出了清华大学在人工智能领域强大、领先的学术、产业实力,与客观务实、创新进取的风貌,引发了人工智能界的广泛关注与轰动。
我为什么取这个题目呢?什么叫人工智能趋势之四化。因为到这个时候大家都很困惑,起一个稍微应景的题目。今年是“人工智能”这个词被造出来的第61年,61年前没有,这个词最开始出现是在1956年。
2012年的时候,深度学习刚引入计算机视觉是八层,有人说是九层,其实有一层是隐含层,其实是八层。到2014年的时候,到了19。具体算法不聊太多,但是有一些思路上的东西,不是说从上一层直接连到下一层,而是跳过去。隔几层以后再往下走,有一点像人的神经元的连接一样,规定是每一层单个连下去,有的时候会往前跳一下。因为这个新的结构就使得去年我们在2015年ImageNet三个主要项目都拿到冠军,而且要比第二名高出很多,这是新算法带来的好处。除了我们让计算机能够看到一个图片是属于某一类的,比这个更难一点的是说,比如说他知道这个图片里面有一只猫,更难的是说你知不知道那个猫在什么地方?不仅仅告诉你这里面有一只猫,我告诉你这只猫在图片的左上角。所以物体检测是比物体分类更难的事情。我想给大家看一下下面这个,比物体检测再难一点的就是像素级别的物体分割,因为我们知道一个图片有很多像素级别,每个像素是属于这只猫,还是属于这只猫边上的草,每一个都要分类,这是更难的事情,从图片分类到物体检测,到像素级的物体分割,今天已经可以做到这样的程度。
刚才说了那么多,为什么计算机视觉能够做分类、做物体检测、做像素级的物体分割?是因为我们人类生成了很多的数据,这些数据被拿来训练计算机,它才能够有一定的智能,所以这是第一类叫做大数据化。第二类,其实我们很想让人工智能有一定的自适应性,比如说我给大家举两个例子,在座的可能有一半的人会经常自拍,一些年轻的女士们经常会自拍,拍的时候你下意识地要想一想,现在的光线是不是足够亮?后面是不是有很亮的玻璃,比如在那儿拍,如果有很亮的玻璃,玻璃是看到了,但我的脸是黑的,每次自拍要操心一些事情。我们可不可以用人工智能的方法,写出来一个有智能的API,让人工智能的APP,让这个APP去操心这些事情,不要让用户去操心这些事情。我们就做了一个微软自拍,我们没有投入任何的钱,一分钱都没有投入,一个月下载量到了一百万,完全是口口相传,大家要感兴趣的话,待会儿也可以去搜一下。它能做很多的东西,不仅仅是智能降噪、自然美颜等等。其实他知道你的年龄和性别,比如你是一位年轻的女士的话,它会给你美颜美得很好,甚至把你的嘴唇再修红一点。但是如果是我拍的话,它知道我已经很老了,没有必要把我弄得那么漂亮,弄得漂亮我反而会不高兴,所以我拍下来的是我本身的样子。所有这些很智能的东西都已经在这个APP里面,因为他知道外面的光线是什么样、外面的噪声是什么样、这个用户是男是女、是什么样的年龄。
大家可以去AppStore下载试试看,我自我感觉好像比市面上的要好一些,让你操心的东西少一些。
第二个,我想给大家举一个例子是自适应的人工智能。有一个很有意思的APP,我们叫做实时翻译器。这是怎么来的呢?1966年的时候,在美国有一个连续的电影,叫《星际迷航》,我相信在座的可能也有不少朋友都看过这部电影。有很多《星际迷航》的影迷,每次电影出来,就把电影票买到了,在电影院前等着看。《星际迷航》是讲不同的星迷去不同的星球探索。不用去另外一个星球,我们就在地球上去另外一个国家,其实你遇到的问题就是你语言可能不通,你怎么跟那个国家的人进行交流?当时在电影里面有一个,这边这两个人手里抓着一个东西,任何语言它都可以进行实时翻译,不管你和来自另外一个星球的人讲什么语言,它都可以进行翻译。当然,这是一个科幻,但是我们这些做研发的人总是想把科幻变成现实。所以七八年以前我们就有一个项目,说有没有办法我们能够做出一个系统,使得两个说不同语言的人可以实时交互?这个是七八年以前开始做,大概在四五年以前(2010年)的时候就有了这么一个系统,在我们内部进行了展示,2012年的时候,在二十一世纪的时候,我记得是在天津大礼堂,Rick Rashid这位老先生不会说中文,只会说英文,他当时是在天津大礼堂讲,讲着讲着突然听众们发现他怎么会说中文了?因为就是实时的翻译出现了,以他的方式用中文跟观众进行交互。2015年的时候我们把这项技术加到Skype里,今天这个技术已经在skype上。如果想做到这件事情,我下边会讲具体的技术怎么做,在我讲具体的技术之前,网上有一段小视频,这是一个美国的摄影师在中国待了十来年,是一个背包客,走了三万五千英里的路,经常拍图片、视频。所以去每个地方都没法跟当地人交流,有了这个以后,他的生活变得更加简单一点。
第三个是人工智能的可穿戴化,我也想给大家举两个例子。刚才长水展示几张图片,其实你现在给计算机看几张图片,它会生成一些自然语言的文字,刚才我和小川在下面讨论,他们也做了类似的系统。但是我们想一想,如果真的有一天我们的自然语言技术,我们的计算机视觉技术可以做到这么好,让计算机看到这幅图片以后,它会说一名男子正腾空而起,表演滑板。
第四个,我叫它人和人工智能的关系。我特别同意张老师下午的演讲,其实今天这个人工智能和人不是谁PK谁的问题。很形象、很发散的、很神来一笔的、很抽象的、很艺术的在这边,计算机比我们强的是它的存储功能很强、记忆能力很强。所以它是一个很好的左边半个大脑的补充,我们人类更强的东西,我们有意识、我们有想象力,我们有很多计算机不能理解的东西。其实今后的10年、20年不是人对抗机器的问题,而是人加上机器,使得我们人更厉害。
本次论坛由清华校友人工智能联盟、清华灵云人工智能研究中心、威廉希尔中文网站登录等承办。
谢谢大家!
灵云平台更多信息:www.hcicloud.com">www.hcicloud.com
体验灵云客服机器人:010-82826886-8898