研究人员发现最先进的语言模型在基本推理中欠缺

甚至像OpenAI的GPT-3之类的复杂语言模型都与诸如道德，历史和法律之类的社会重要话题作斗争。这是哥伦比亚大学，芝加哥大学和加州大学伯克利分校的研究人员合着的一篇新论文的最重要发现，该论文提出了一项57个任务的测试来衡量模型的推理能力。模型必须具有解决问题的能力和对世界的广泛了解，才能在测试中表现良好。但是在实验中，合著者发现他们基准化的模型(包括GPT-3)经常不知道何时出错。

新颖的测试集的目标是弥合模型在训练中看到的知识与自然语言处理中成功的现有度量之间的鸿沟。与所有机器学习模型一样，语言模型从通常来自Wikipedia，Reddit，电子书和其他Web来源的大量数据集中学习模式。最近引入的一些基准试图捕获模型的语言技能，但到目前为止，几乎没有证据表明基准性能与模型对常识推理的掌握之间存在关联。

研究人员声称他们的测试是不同的，因为它可以评估人类通常学习的主题的模型，例如数学，历史和道德。为此，研究生和本科生从在线免费来源中收集了15908个问题，其中包括本科课程的实践考试，牛津大学出版社出版物读者的测验，以及研究生记录考试，美国医学许可考试和专业考试等测试心理学实践。任务的难度从初级到“高级专业”不等，合著者认为抽样足以识别模型的盲点。

他们写道：“我们衡量了现实世界中对文本的任意理解程度”，并指出每个主题至少包含100个测试示例。“由于模型已经在互联网上进行了预训练，因此我们可以测试模型从大型语料库中提取有用知识的能力。”

除了GPT-3，研究人员还针对他们的测试集对Google的T5和AI的Allen Institute for AI的UnifiedQA问答模型进行了基准测试。结果表明，有意义的进步只有在最近几个月才有可能实现，包含多达130亿个参数的模型可实现25%的精度，而1,750亿个参数的模型(如GPT-3)可达到43.9%的精度。(参数是从历史训练数据中学到的模型的一部分。)但是，既然如此，GPT-3在任何单个学科上都无法胜任。它的表现在测试集上是不平衡的，其最佳科目(美国外交政策)的准确性接近70%，而其他几个科目(例如大学化学)的表现则接近“随机”。

研究人员解释说：“总体而言，GPT-3在高度程序问题上的表现不佳。”“它在建模人类(不批准)方面特别差，这在专业法律和道德情景任务上表现不佳，[并且]执行计算也很困难，以至于在基础数学和数学方面表现不佳。许多其他具有“即插即用”问题的STEM主题……我们推测，部分原因是GPT-3比程序知识更容易获得声明性知识。”

研究结果表明，当前的模型仍有改进的空间，但是尚不清楚现有技术是否足够。正如研究人员所指出的那样，以前的研究表明，模型大小必须增加10倍，而数据则必须增加大约5倍，这在逻辑上可能是禁止的。

研究人员继续说：“除了创建数万亿个参数语言模型的巨额费用外，数据还可能成为瓶颈。”“关于知识的深奥分支的文章远少于日常文本。”