Meta、OpenAI、Anthropic和Cohere人工智能模型都是瞎编的——下面是最糟糕的

Meta、OpenAI、Anthropic和Cohere人工智能模型都是瞎编的——下面是最糟糕的

如果科技行业的顶级人工智能模型有一个最高的称号,微软支持的OpenAI的GPT-4将是最擅长数学的,meta的Llama 2将是最中庸的,Anthropic的Claude 2将是最擅长了解其局限性的,而Cohere人工智能将获得最幻觉的称号-以及最自信的错误答案。

这是机器学习监控平台Arthur AI的研究人员周四发布的一份报告。

这项研究是在人工智能系统产生的错误信息比以往任何时候都更受热议的时候进行的,在2024年美国总统大选之前,人工智能的蓬勃发展。

Arthur的联合创始人兼首席执行官亚当·温彻尔在接受CNBC采访时表示,这是第一份“全面研究幻觉率的报告,而不仅仅是提供一个单一的数字来说明他们在法学硕士排行榜上的位置”。

当大型语言模型或法学硕士完全捏造信息,表现得好像它们在滔滔不绝地讲述事实时,就会出现人工智能幻觉。举个例子:今年6月,有消息称,ChatGPT在纽约联邦法院的一份文件中引用了“虚假”案件,涉案的纽约律师可能面临制裁。

在一项实验中,亚瑟人工智能研究人员测试了组合数学、美国总统和摩洛哥政治领导人等类别的人工智能模型,他们提出的问题“旨在包含一个让法学硕士犯错误的关键因素:他们要求对信息进行多个步骤的推理,”研究人员写道。

总体而言,OpenAI的GPT-4在所有测试模型中表现最好,研究人员发现,它的幻觉比之前的版本GPT-3.5少——例如,在数学问题上,它的幻觉减少了33%到50%。这取决于类别。

另一方面,研究人员发现,meta的Llama 2比GPT-4和Anthropic的Claude 2更容易产生幻觉。

在数学方面,GPT-4排名第一,克劳德2紧随其后,但在美国总统方面,克劳德2在准确性方面排名第一,将GPT-4挤到了第二位。当被问及摩洛哥政治时,GPT-4再次排在第一位,克劳德2和拉玛2几乎完全选择不回答。

在第二个实验中,研究人员测试了人工智能模型会在多大程度上用警告短语来规避风险(比如:“作为一个人工智能模型,我不能提供意见”)。

研究人员写道,在对冲方面,GPT-4比GPT-3.5相对增加了50%,这“量化了用户的轶事证据,表明GPT-4使用起来更令人沮丧”。另一方面,报告称,Cohere的人工智能模型在任何回应中都没有对冲风险。研究显示,Claude 2在“自我意识”方面是最可靠的,这意味着它能准确地判断自己知道什么和不知道什么,只回答有训练数据支持的问题。

Cohere的一位发言人对结果进行了反驳,他说:“Cohere的检索自动生成技术在为企业提供可验证的引用以确认信息来源方面非常有效,该技术没有在测试的模型中。”

温彻尔说,对用户和企业来说,最重要的收获是“在你的工作负载上进行测试”,后来补充说,“了解它对你想要完成的任务的表现是很重要的。”

温彻尔说:“很多基准只是考察法学硕士本身的一些指标,但这实际上并不是它在现实世界中被使用的方式。”“确保你真正了解法学硕士课程的实际使用方式是关键。”

本文来自投稿,不代表牛批号立场,如若转载,请注明出处:https://cn.wwwhere.cn/uncategorized/202501-9680.html

(0)
admin的头像admin

相关推荐

  • 在明尼苏达州出售的小房子价格不菲“水槽也是你的厕所”

    在不确定的经济形势下,房价波动比德克萨斯州的天气还要快,人们希望住在更小、更便宜的房子里,这就是微型房屋风靡一时的原因。 不过,尽管德卢斯有一栋待售的房子面积较小,但便宜的部分——嗯,不那么便宜。 这套一室一卫的房子面积为205平方英尺(约合人民币32.6万元),挂牌价为19.5万美元(约合人民币32.6万元)。每平方英尺951美元。根据Zillow.com…

    9小时前
    000
  • 朱利叶斯·兰德尔和贾伦·布伦森各得19分,尼克斯以109:91击败骑士

    克利夫兰(美联社)——周二晚上,朱利叶斯·兰德尔得到19分和10个篮板,贾伦·布伦森得到19分,纽约尼克斯队在最后三节以109:91战胜人手不足的克利夫兰骑士队,没有落后。 伊曼纽尔·Quickley替补拿下18分,RJ·巴雷特拿下16分,帮助尼克斯赢得了主场对主场系列赛的上半场。这是自纽约在2023年季后赛第一轮五场比赛中淘汰骑士队以来,两队首次相遇。 “…

    最新文章 4小时前
    100
  • b谷歌的2019年“黄色代码”模糊了搜索和广告之间的界限

    根据美国司法部对这家搜索巨头进行的具有里程碑意义的反垄断审判中显示的电子邮件,这位Alphabet公司b谷歌的前搜索主管在2019年2月告诉同事,他的团队“为了产品和公司的利益而过度参与广告”。 b谷歌在广告和搜索团队之间设置了一道防火墙,这样工程师就可以在b谷歌的搜索引擎上进行创新,而不受以广告收入最大化为目标的团队的影响。但在2019年2月,根据周二在反…

    1小时前
    000
  • 贾德·阿帕图的最新消息揭示了为什么续集在11年后才被推迟

    e=”text-indent: 2em;”> 总结 《这是40岁》于2012年上映,导演贾德·阿帕图在2022年宣布他有兴趣制作续集《这是50岁》。在最近的一次采访中,阿帕图肯定了他想拍续集的愿望,但他开玩笑说,与他的家人安排时间是一个挑战,他的家人在四个关键角色中扮演了三个角色。续集可能会包括保罗·路德、莱斯利·曼、莫德和艾瑞…

    1天前
    100
  • 攫取PH的2%的佣金上涨负担乘客,司机-坡

    马尼拉,菲律宾——参议员格蕾丝·坡认为Grab菲律宾公司计划提高佣金率令人发指。 在她看来,考虑到快递司机和乘客的艰难处境,这个费用是不公平的。 参议院公共服务委员会主席坡周三敦促相关机构考虑Grab的计划:从12月1日起将佣金率提高2%。 “在菲律宾人每天都要面对经济困难的情况下,这是不合情理的。司机和乘客赚的每一个比索都来自于他们把乘客送回家或把包裹送到…

    1天前
    200

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信