深度科学:视觉和语言的结合可能是提高人工智能能力的关键

来源： / 时间：2022-04-11 16:26:37 / 点击：次

根据你所认同的智能理论，实现“人类水平”的人工智能将需要一个能够利用多种模式(如声音、视觉和文本)对世界进行推理的系统。例如，当显示一辆倒塌的卡车和一辆警车在积雪覆盖的高速公路上时，人类水平的人工智能可能会推断出危险的道路条件导致了事故。或者，当被要求从冰箱里拿起一罐苏打水时，它们会在人、家具和宠物之间穿梭，把罐子拿出来，并把它放在请求者够得着的地方。

今天的人工智能还不够。但新的研究显示出了令人鼓舞的进步迹象，从能够想出步骤来满足基本命令(例如，“拿水”)的机器人，到能够从解释中学习的文本生成系统。在这个复兴科学版的深,我们的每周系列关于人工智能的最新发展和更广泛的科学领域,我们覆盖工作DeepMind,谷歌和OpenAI向系统能够使进步——如果不是完全理解这个世界——解决狭窄等任务生成图像与令人印象深刻的鲁棒性。

OpenAI的改进版DALL-E，即dall - e2，无疑是人工智能研究实验室中最令人印象深刻的项目。正如我的同事德文•科尔杜威(Devin Coldewey)所写的那样，虽然最初的DALL-E在创建图像以匹配几乎任何提示(例如，“一只戴贝雷帽的狗”)方面展示了非凡的能力，但dall - e2在这方面做得更进一步。它产生的图像更加详细，而且dell - e2可以智能地替换图像中给定的区域——例如，在一张满是适当反射的大理石地板的照片中插入一张桌子。

dall - e2本周最受关注。但本周四，谷歌的研究人员在谷歌的人工智能博客上发表了一篇文章，详细介绍了一种同样令人印象深刻的视觉理解系统，名为“视觉驱动的文本到语音韵律”(visual - driven Prosody for Text-to-Speech, VDTTS)。VDTTS可以在不提供说话人的文本和视频帧的情况下，生成听起来很真实、对口型的语音。

VDTTS生成的演讲，虽然不是录制对话的完美替代品，但仍然相当不错，具有令人信服的人类般的表现力和时机把握。谷歌认为它有一天会被用于演播室，取代在嘈杂环境下录制的原始音频。

幸运的是，Alphabet支持的人工智能实验室DeepMind就在探索解决这一问题的技术之列。在一项新研究中，DeepMind的研究人员调查了人工智能语言系统是否能从对这些文本的解释中受益。人工智能语言系统学会从现有文本(比如书籍和社交媒体)的许多例子中生成文本。在注释了几十个语言任务(例如，“通过确定第二个句子是否适合解释第一个隐喻性句子来回答这些问题”)和解释(例如，“大卫的眼睛不是字面上的匕首，在评估不同系统的性能时，DeepMind团队发现实例确实改善了系统的性能。

如果DeepMind的方法在学术界得到认可，那么有一天它可能会被应用到机器人技术中，形成一种机器人的构件，这种机器人可以理解模糊的要求(如“扔垃圾”)，而不需要一步一步的指令。谷歌的新项目“做我能做的，而不是我说的”让我们看到了未来——尽管有很大的局限性。

谷歌的机器人技术团队和Alphabet X实验室的日常机器人技术团队进行了一项合作，名为Do As I Can, Not As I Say，旨在对一个人工智能语言系统进行调节，使其在给定任意任务时，为机器人提出“可行”和“上下文合适”的行动。机器人充当语言系统的“手和眼睛”，而系统提供有关任务的高级语义知识——理论是，语言系统编码了对机器人有用的丰富知识。

一个叫做SayCan的系统可以选择机器人应该执行的技能来响应命令，并考虑到(1)给定的技能有用的概率和(2)成功执行该技能的可能性。例如，有人对你说:“我把可乐洒了，你能拿点东西来清理吗?”，“SayCan可以指导机器人找到海绵，捡起海绵，并把它交给需要它的人。

SayCan受到机器人硬件的限制——在不止一次的情况下，研究小组观察到他们选择的进行实验的机器人不小心掉下了物体。尽管如此，它与dall - e2和DeepMind在上下文理解方面的工作一起，说明了人工智能系统结合在一起，如何让我们更接近《杰森一家》(jetsons)式的未来。