聚焦企业网能源 研究表明自然语言基准测试无法很好地衡量AI模型的常识

研究表明自然语言基准测试无法很好地衡量AI模型的常识

开放域问答模型(理论上能够用新颖答案回答新颖问题的模型)通常简单地记住在训练数据中找到的答案,具体取决于数据集。这就是Facebook和伦敦大学学院附属的一组研究人员的断言,他们在预印本中提供的证据表明,在开放域基准测试的模型中给出的答案的60%-70%嵌入在训练集中的某个位置。

开放域问答已经因其实际应用而在AI社区中受到关注,并且最近已成为一种分析语言模型对事实知识的掌握的方法。但是,对于模型可以回答哪些问题的深入了解仍然难以捉摸。有关基准语料库中的问题和答案的分布方式的未知数,使得很难将结果放在上下文中。

在他们的研究中,研究人员试图评估流行的开放域问答数据集(包括WebQuestions,TriviaQA和Open Natural Questions)的测试集。他们确定了模型应该能够回答的问题类别,并为来自每个测试集中的1,000个问题-答案对标注了各自的训练集中的重复问题。然后,他们使用开放书本(利用从大量文档中检索的内容)和封闭书本方法(着重于在没有外部知识的情况下训练大型模型)来计算基准上几种模型的性能。

问题的三个数据集并不太相似,这就是重点–对所有三个保证的鲁棒性进行测试。WebQuestions包含来自搜索引擎的3,778个培训和2,032个测试问题答案对,而TriviaQA具有来自免费琐事网站的78,785个培训和11,313个测试问题答案对。同时,“开放自然问题”包括79168项训练和来自搜索引擎和Wikipedia文章组合的3610个问题-答案对。

小组将开放域问题回答模型理论化,应该能够(1)回忆训练时看到的问题的答案,(2)在测试时回答新问题,并从训练中看到的答案集中选择答案, (3)回答训练数据集中未包含答案的新颖问题。为了确定上述基准是否可以测量这些行为中的任何一种,合著者根据答案是否出现在训练集中的某处来划分每个语料库中的测试数据。研究人员说,大约58%-71%的测试答案也位于训练数据中,这表明大多数测试数据并未探究答案的概括性。

该团队还使用1000个带注释的问题集探索了训练数据中释义问题的基准。他们说,有28%-34%的问题已被释义,大多数是几乎重复的问题,仅相差一两个字。共同作者写道:“这一结果表明,这些数据集的测试集中只有30%会探究模型如何简单地记住训练中看到的问题-答案对。”

研究人员选择了几种“开放书本”模型(密集段落检索,增强检索生成和解码器融合)和“封闭书本”模型(Facebook的BART和Google的T5)进行测试,以及与之相邻的模型进行测试。存储所有可用答案,并根据相似性度量对新答案进行分类。基准语料库的结果表明,所有模型都能很好地记住问题,未经训练的最近邻模型可以正确回答20%的测试问题。但是他们在无法从训练集中记住的问题上表现不佳,重复和未重复数据之间的平均绝对性能差异为63%。在泛化方面,可靠地记住问题的模型T5挣扎了,仅取得22%的匹配分数。

研究人员写道:“很显然,这些数据集的性能无法通过总体问答准确性来正确理解。”“我们建议在未来,将更多的重点放在更多的行为驱动的评估上,而不是追求单一数字的整体准确性数字。”

版权及免责声明: 凡未注明聚焦企业网的作品,均转载自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,用户自行承担使用本网站的风险。其次任何单位或个人认为聚焦企业网的内容可能涉嫌侵犯其合法权益,应及时向聚焦企业网书面反馈,并提供相关证明材料和理由,本网站在收到上述文件并审核后,会采取相应措施。http://www.focuc71.com/category/energy/740.html

作者: 互联网

="author-desc"> 一个不注意小事情的人,永远不会成功大事业。——戴尔·卡耐基
上一篇 带有联发科技芯片的Infinix Zero 8 在线发现8GB RAM 下一篇 小鸡宝宝考考你 西瓜子是夏天常吃的西瓜里的籽吗!

发表评论

联系我们

联系我们

在线咨询: QQ交谈

邮箱: 1931272624@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息。
关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部