人工智能语言|专家创建“新图灵测试” 能够更好评估人工智能的隐秘能力

据英国《新科学家》周刊网站6月14日报道，包括美国谷歌公司多名专家在内的400多位人工智能（AI）研究者建议升级著名的图灵测试，以提高为人工智能技术评分的能力。
【人工智能语言|专家创建“新图灵测试” 能够更好评估人工智能的隐秘能力】报道称，近年来，人工智能语言模型表现出惊人的与人对话的能力，这要归功于实验规模不断扩大——我们有了更强的算力和庞大的训练数据集。谷歌公司的一名工程师近日对一个模型印象深刻，甚至宣称这个模型已经有了意识（虽然遭到很多人的质疑）。有科研人员预计这些模型的规模仍将继续扩大，并在今后几年里展现出新的能力。
为评估目前的技术水平并为迎接未来更强大的模型做好准备，来自132家机构的442名研究者花费两年时间，创造出一套取代图灵测试的方法，用于评估人工智能模型的隐秘能力，且可在必要时扩展评估范围。这套方法名为“超越模仿游戏基准”（BIG-bench），包含204项不同的任务，覆盖语言学、数学、棋类等一系列主题。根据设计，这些任务将无法被当前最先进的模型完全解决。
科研人员在一篇介绍“超越模仿游戏基准”的论文中指出，它将成为一项重要工具，可以启发未来的研究，以及识别和预见新兴人工智能的任何颠覆性新能力或潜在的有害影响。
人类专家完成了这204项任务，为每项任务确定了平均分和最高基准分。科研人员发现，虽然算力的提高帮助人工智能模型取得越来越好的成绩，但人工智能在大多数任务中的表现仍然不如人类。
科研人员还发现，扩大人工智能模型的规模并没有提高其在某些任务中的表现，比如涉及长文本的逻辑推理。这等于暗示说，对于一些智力领域而言，单单扩大规模并不能解决问题。事实上，这项研究还表明，规模甚至可能带来问题，比如在某些情况下，衡量社会偏好的一些测试会给较大的模型打出较低的分数。
该研究团队的核心成员包含多位谷歌专家，但该公司没有回应采访人员的采访请求。
英国萨里大学的阿德里安·希尔顿认为，图灵测试未必过时，但对现代人工智能而言不够有效，或者说覆盖面不够广。图灵测试最初还被用来评估智力，尽管其是否能够评估智力是值得商榷的。希尔顿怀疑此次公布的新基准恐怕也无法衡量真正的智力。
他说：“我认为这是一种有效的测试，但我不会据此认为，说一台机器很聪明与说它有意识是一回事。我相信，设置一组基准是比较一种机器学习算法与另一种算法的一个办法，也是比较一种人工智能与另一种人工智能的一个办法。但我并不认为这一定能解答关于智力的问题。有了机器学习技术，机器就能谱写乐曲，甚至回答问题、写散文，且是以一种比较有说服力、比较接近人类的方式做这些事情。但这真的是智力吗？我认为并非如此。 ”