ChatGPT能力退化惹争议 AIGC应用还值得信任吗?

最近有很多关于chatgpt模型(例如GPT-3.5和GPT-4)的性能随着时间的推移而下降的讨论,OpenAI公开否认了这些说法,真相到底是怎样的呢? 

斯坦福大学和加州大学伯克利分校(UCLA)研究人员的一项新研究提供了一些证据,证明这些大型语言模型(LLM)的行为已经具有“实质性的漂移”——但并不一定等于能力退化。

这一发现对用户chatgpt等黑盒人工智能系统上构建应用的风险提出了警告,即随着时间的推移,这些应用可能会产生不一致或不可预测的结果。背后原因在于:GPT等模型的训练和更新方式缺乏透明度,因此无法预测或解释其性能的变化。 

用户抱怨chatgpt性能退化 

早在今年5月,就有用户就在OpenAI论坛上抱怨GPT-4很难做到它以前做得很好的事情。一些用户不仅对性能下降感到不满,而且对OpenAI缺乏响应和解释感到不满。 

据《商业内幕》在7月12日报道,与之前的推理能力和其他输出相比,用户认为GPT-4变得“更懒”或“更笨”。在OpenAI没有做出回应的情况下,行业专家开始猜测或探索GPT-4性能下降的原因。 

一些人认为OpenAI在API背后使用了更小的模型,以降低运行chatgpt的成本。其他人推测,该公司正在运行一种混合专家(MOE)方法,采用几个小型的专业模型取代一个通用的LLM。 

面对种种质疑,OpenAI否认了故意让GPT-4变笨的说法。OpenAI产品副总裁Peter Welinder在推特上写道:“恰恰相反:我们让每一个新版本都比之前的版本更加智能。目前的假设是:当你大量使用它时,你就会开始注意到以前没有看到的问题。” 

顶级大学测试chatgpt表现

为了验证chatgpt的行为如何随着时间的推移而变化,斯坦福大学和UCLA的研究人员分别在2023年3月和6月测试了两个版本的GPT-3.5和GPT-4。

他们在四个常见的基准任务上评估了这些模型:数学问题、回答敏感问题、代码生成和视觉推理。这些是评估LLM经常使用的多样化任务,而且它们相对客观,因此易于评估。

研究人员使用了两组指标来评估这两个模型的性能。主要的指标特定于任务(例如,数学的准确性以及编码的直接执行)。他们还跟踪了冗长度(输出的长度)和重叠度(两个LLM版本的答案之间的相似程度)。

3-6月chatgpt表现确实在下滑

对于数学问题,研究人员使用了“思维链”提示,通常用于激发LLM的推理能力。他们的发现显示了模型性能的显著变化:从3月到6月,GPT-4的准确率从97.6%下降到2.4%,而其响应冗长度下降了90%以上。GPT-3.5表现出相反的趋势,准确率从7.4%上升到86.8%,冗长度增加了40%。

研究人员指出,“这一有趣的现象表明,由于LLM的性能漂移,采用相同的提示方法,即使是那些被广泛采用的方法(例如思维链),也可能导致显著不同的性能。” 

在回答敏感问题时,对LLM进行评估的标准是它们回答有争议问题的频率。从3月到6月,GPT-4的直接回答率从21%下降到5%,这表明这个模型变得更加保守。与此同时,GPT-3.5的直接回答率从2%上升到8%。与3月的版本相比,这两种模型在6月份拒绝不恰当的问题时提供的解释也更少。

研究人员写道:“这些LLM服务可能变得更加保守,但也减少了拒绝回答某些问题的理由。” 

代码生成过程中,研究人员通过将LLM的输出提交给运行和评估代码的在线裁判来测试它们是否可直接执行。结果发现,在3月,5 0%以上的GPT-4输出是可直接执行的,但在6月只有10%。对于chatgpt 3.5,可执行输出从3月的22%下降到6月的2%。6月的版本经常在代码片段周围添加不可执行的序列。

研究人员警告说:“当LLM生成代码在更大的软件管道中使用时,要确定这一点尤其具有挑战性。” 

对于视觉推理,研究人员对来自抽象推理语料库(ARC)数据集的示例子集的模型进行了评估。ARC是一个视觉谜题的集合,用于测试模型推断抽象规则的能力。他们注意到GPT-4和GPT-3.5的性能都有轻微的改善。但总体性能仍然较低,GPT-4为27.4%,GPT-3.5为12.2%。然而,6月版本的GPT-4在3月正确回答的一些问题上出现了错误

研究人员写道:“这凸显了细粒度漂移监测的必要性,特别是在关键应用中。”

chatgpt性能退化可能存在误解

在这篇论文发表之后,普林斯顿大学的计算机科学家、教授Arvind Narayanan和计算机科学家Sayash Kapoor认为,一些媒体误解了这一论文的结果,他们认为GPT-4已经变得更糟。 

两人在一篇文章中指出,“不幸的是,这是媒体对于论文结果的过度简化。虽然研究结果很有趣,但其中一些方法值得怀疑。”

例如,评估中使用的所有500个数学问题都是“数字X是质数吗?”而数据集中的所有的数字都是质数。3月版本的GPT-4几乎总是猜测这个数是质数,而6月的版本几乎总是猜测它是合数。 

Narayanan和Kapoor在文中写道:“论文的作者将这种情况解释为性能的大幅下降,因为他们只测试了质数。当GPT-4在500个合数进行测试时,这种性能的下降就消失了。” 

总而言之,Narayanan和Kapoor认为,chatgpt的行为会改变,但这并不一定意味着它的能力下降了。

chatgpt类AI应用还能信任吗? 

虽然这篇论文的发现并不一定表明这些模型变得更糟,但确实证实了它们的行为已经改变。

研究人员据此得出结论,GPT-3.5和GPT-4行为的变化凸显了持续评估和评估LLM在生产应用中的行为的必要性。当我们构建使用LLM作为组件的软件系统时,需要开发新的开发实践和工作流程来确保可靠性和责任。

通过公共API使用LLM需要新的软件开发实践和工作流程。对于使用LLM服务作为其持续工作流程组成部分的用户和公司,研究人员建议他们应该实施持续的监控分析。

这一研究结果还强调,在训练和调整LLM的数据和方法方面需要提高透明度。如果没有这样的透明性,在它们之上构建稳定的应用就会变得非常困难。 

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


在网易云游戏中做一些任务可以获得游戏时间,那么具体怎么做呢?下面小编就为大家详细的介绍一下,相信一定会帮到你们的。 网易云游戏怎么获得游戏时间?网易云游戏获得游戏时间方法 首...
腾讯课堂是一款很好的学习软件,很多小伙伴都在上面学习,那么腾讯课堂怎么评价课程呢,下面小编就为大家详细的介绍一下,相信一定会帮到你们的。 腾讯课堂怎么评价课程?腾讯课堂评价课程操作步骤...
很多小伙伴在使用微信转账的时候,想知道如何隐藏实名,下面小编给大家整理了相关步骤介绍,感兴趣的小伙伴不要错过哦! 微信转账如何隐藏实名?微信转账隐藏实名具体步骤 1、首先打开微...
七天学堂如何注销账号?很多小伙伴想知道在这款软件中该怎样注销账号,下面小编就为大家带来了七天学堂重新登录教程,一起来看看吧。 七天学堂如何注销账号?七天学堂重新登录教程 1、...
在哔哩哔哩中看游戏视频可以设置视频静音播放,那么具体怎么设置呢?下面小编就为大家详细的介绍一下,大家感兴趣的话就一起来了解下吧! 哔哩哔哩游戏怎么设置视频静音播放?哔哩哔哩游戏设置视频静音...
很多人不知道高德地图如何创建群组?今日为你们带来的文章是高德地图创建群组的方法,还有不清楚小伙伴和小编一起去学习一下吧。 高德地图如何创建群组?高德地图创建群组的方法 1、打开...
很多人不知道钉钉自启动权限如何关闭?今日为你们带来的文章是钉钉自启动权限的关闭方法,还有不清楚小伙伴和小编一起去学习一下吧。 钉钉自启动权限如何关闭?钉钉自启动权限关闭方法 1...
我们都知道通过抖音保存自己喜欢的视频到手机相册打开后会有抖音号水印,那抖音保存的图片怎么去掉抖音号?下面小编给大家介绍一下抖音保存的图片去掉抖音号方法,一起来看看吧~ 抖音保存的图片怎么去...
网易云音乐怎么评论别人?很多用户都不知道怎么操作,下面小编给大家介绍一下网易云音乐评论别人教程,一起来看看吧。 网易云音乐怎么评论别人?网易云音乐评论别人教程 1、首选我们需...
钉钉中有一个头衔展示功能,很多小伙伴想知道怎么关闭头衔展示,下面小编就为大家详细的介绍一下,大家感兴趣的话就一起来了解下吧! 钉钉怎么关闭头衔展示?钉钉关闭头衔展示操作步骤...
很多在qq中发布动态的小伙伴想知道动态删除了还能不能恢复,下面小编就为大家详细的介绍一下,大家感兴趣的话就一起来了解下吧! qq动态删除了能不能恢复?qq动态删除了是否能恢复介绍...
腾讯课堂中也有个性化推荐功能,不过很多小伙伴都想关闭个性化推荐,那么具体怎么操作呢?下面小编给大家整理了相关步骤介绍,感兴趣的小伙伴不要错过哦! 腾讯课堂怎么关闭个性化推荐?腾讯课堂关闭个...
腾讯会议不登录能加入会议吗?想必很多小伙伴都很想知道,下面小编就为大家详细的介绍一下,相信一定会帮到你们的。 腾讯会议不登录能加入会议吗?腾讯会议不登录能不能加入会议 腾讯会议...
小伙伴们知道学习通怎么开启悬浮窗吗?今天小编就来讲解学习通开启悬浮窗的方法,感兴趣的快跟小编一起来看看吧,希望能够帮助到大家呢。 学习通怎么开启悬浮窗?学习通开启悬浮窗方法 1...
小伙伴们知道抖音画质怎么增强吗?今天小编就来讲解抖音画质增强的方法,感兴趣的快跟小编一起来看看吧,希望能够帮助到大家呢。 抖音画质怎么增强?抖音画质增强方法 1、在抖音的个人...
在美团外卖中有面单红包可以抢,不过很多小伙伴不知道在哪抢免单红包,下面小编给大家整理了相关步骤介绍,感兴趣的小伙伴不要错过哦! 美团外卖在哪抢免单红包?美团外卖抢免单红包详细方法...
很多小伙伴在美团通过做任务获取了米粒,想要用米粒兑换红包,但是不知道美团米粒在哪里看,下面小编就为大家详细的介绍一下,大家感兴趣的话就一起来了解下吧! 美团米粒怎么查看?美团米粒查看方法...
醒图的白牙在哪里?醒图app中人物想要美白牙齿,该怎么使用醒图自带的白牙功能呢?下面小编给大家介绍醒图人物图片美白牙齿的技巧,一起来看看吧。 醒图的白牙在哪里? 醒图人物图片美白牙齿的技巧...
很多人不知道抖音密友时刻如何关闭?今日为你们带来的文章是抖音密友时刻的关闭方法,还有不清楚小伙伴和小编一起去学习一下吧。 抖音密友时刻如何关闭?抖音密友时刻关闭方法 1、我们打...
近日有一些小伙伴咨询小编微信听筒播放语音怎么关闭?下面就为大家带来了微信听筒播放语音的关闭方法,有需要的小伙伴可以来了解了解哦。 微信听筒播放语音怎么关闭?微信听筒播放语音关闭教程...