如果科技行业的顶级人工智能模型有一个最高的称号,微软支持的OpenAI的GPT-4将是最擅长数学的,meta的Llama 2将是最中庸的,Anthropic的Claude 2将是最擅长了解其局限性的,而Cohere人工智能将获得最幻觉的称号-以及最自信的错误答案。
这是机器学习监控平台Arthur AI的研究人员周四发布的一份报告。
这项研究是在人工智能系统产生的错误信息比以往任何时候都更受热议的时候进行的,在2024年美国总统大选之前,人工智能的蓬勃发展。
Arthur的联合创始人兼首席执行官亚当·温彻尔在接受CNBC采访时表示,这是第一份“全面研究幻觉率的报告,而不仅仅是提供一个单一的数字来说明他们在法学硕士排行榜上的位置”。
当大型语言模型或法学硕士完全捏造信息,表现得好像它们在滔滔不绝地讲述事实时,就会出现人工智能幻觉。举个例子:今年6月,有消息称,ChatGPT在纽约联邦法院的一份文件中引用了“虚假”案件,涉案的纽约律师可能面临制裁。
在一项实验中,亚瑟人工智能研究人员测试了组合数学、美国总统和摩洛哥政治领导人等类别的人工智能模型,他们提出的问题“旨在包含一个让法学硕士犯错误的关键因素:他们要求对信息进行多个步骤的推理,”研究人员写道。
总体而言,OpenAI的GPT-4在所有测试模型中表现最好,研究人员发现,它的幻觉比之前的版本GPT-3.5少——例如,在数学问题上,它的幻觉减少了33%到50%。这取决于类别。
另一方面,研究人员发现,meta的Llama 2比GPT-4和Anthropic的Claude 2更容易产生幻觉。
在数学方面,GPT-4排名第一,克劳德2紧随其后,但在美国总统方面,克劳德2在准确性方面排名第一,将GPT-4挤到了第二位。当被问及摩洛哥政治时,GPT-4再次排在第一位,克劳德2和拉玛2几乎完全选择不回答。
在第二个实验中,研究人员测试了人工智能模型会在多大程度上用警告短语来规避风险(比如:“作为一个人工智能模型,我不能提供意见”)。
研究人员写道,在对冲方面,GPT-4比GPT-3.5相对增加了50%,这“量化了用户的轶事证据,表明GPT-4使用起来更令人沮丧”。另一方面,报告称,Cohere的人工智能模型在任何回应中都没有对冲风险。研究显示,Claude 2在“自我意识”方面是最可靠的,这意味着它能准确地判断自己知道什么和不知道什么,只回答有训练数据支持的问题。
Cohere的一位发言人对结果进行了反驳,他说:“Cohere的检索自动生成技术在为企业提供可验证的引用以确认信息来源方面非常有效,该技术没有在测试的模型中。”
温彻尔说,对用户和企业来说,最重要的收获是“在你的工作负载上进行测试”,后来补充说,“了解它对你想要完成的任务的表现是很重要的。”
温彻尔说:“很多基准只是考察法学硕士本身的一些指标,但这实际上并不是它在现实世界中被使用的方式。”“确保你真正了解法学硕士课程的实际使用方式是关键。”
本文来自投稿,不代表牛批号立场,如若转载,请注明出处:https://cn.wwwhere.cn/uncategorized/202501-9680.html