多模态GPT-4被吹爆,但仍会“一本正经胡说八道”
今年初以来,以AI大模型GPT3.5为基础的聊天机器人ChatGPT引发大量关注,股市上相关概念遭到热炒。正当ChatGPT的热度有所下降时,微软投资的OpenAI又推出了GPT-4,号称功能比GPT3.5更强大。
北京时间3月15日凌晨,OpenAI正式发布大型多模态模型GPT-4。据介绍,与ChatGPT只能接收文字不同,GPT-4能接收图像和文本输入来输出文本内容;扩写能力得到增强,能处理超过2.5万个单词的文本;更具创造力,回答准确性显著提高;能够生成歌词、创意文本,实现风格变化;并且能够处理更细微的指令。
(资料图片仅供参考)
“这是我们迄今为止功能最强大的模型!”OpenAI的高管和工程师在介绍视频里直言:“GPT-4是世界第一款高体验、强能力的先进AI系统,我们希望很快把它推向所有人。”
新的大模型一经发布,便受到网友们的热捧。但仍然值得的一提的是,虽然GPT-4的功能进一步增强,但仍然不完全可靠。OpenAI坦言,GPT-4仍然会产生幻觉、生成错误答案,并出现推理错误。
自去年11月推出以来,ChatGPT已经能够根据用户提示生成原创文章、故事和歌词,但它也引发了一些担忧。最近几周,人工智能聊天机器人(包括来自微软和谷歌的工具)因情绪反应过激、犯事实错误和完全“幻觉”而受到指责。
GPT-4文字输入限制提升至2.5万个单词
专业场景中接近人类水平
开发GPT大模型的OpenAI称,GPT-4能接受图像和文本输入,输出文本内容,虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中已做到人类水平的表现。
之前人们使用的ChatGPT只有处理文本的能力,GPT-4开始接受图像作为输入介质。比如,给它展示一张图片,问它手套掉下午会发生什么,很快会得到“它会掉到木板上,并且球会被弹飞”的回答。
OpenAI还用一张“梗图”演示了GPT-4的新功能。用户提问:解释下图的笑点是什么,并对图片中的每部分进行描述。GPT-4会分别对每张图中的内容进行描述,并指出这幅图把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口,是荒谬的。
GPT-4也能简练指出图片的违和之处。用户提问:“这张图片有什么不寻常之处”时,GPT-4简练地回答出“一名男子正在行驶中的出租车车顶上使用熨衣板熨烫衣服”。
不仅是图像理解,它还可以阅读图片形式的论文。通过几张论文的图片,GPT-4可以总结内容,也可以对指定内容展开解释。
除了在文本输入的基础上进一步接受了图像输入外,GPT-4还升级成为了一个“学霸”,基准测试表现远远优于现有模型。OpenAI表示,如果是随意聊天,用户可能不太能感受出GPT-3.5与GPT-4之间的区别。但当任务的复杂性达到足够的阈值时,GPT-4将明显比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。“在我们的内部评估中,它产生正确回应的可能性比GPT-3.5高40%。”
根据测试,在“美国高考”SAT中,GPT-4的分数增加了150分,现在能拿到1600分中的1410分。它还通过了模拟律师考试,且分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。
此外,GPT-4对于英语以外的语种支持也得到了大大的优化。许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言中的性能,OpenAI使用Azure Translate将MMLU基准测试(一套涵盖57个主题的14000个多项选择题)翻译成各种语言。在测试的26种语言中,有24种语言,GPT-4优于GPT-3.5和其他大语言模型的英语语言性能。
在API(应用程序编程接口)方面,GPT-4还开放了一个使用功能,允许修改“系统提示”。之前ChatGPT的回答总是冗长而平淡,这是因为系统提示中规定了“你只是一个语言模型……你的知识截止于2021年9月”。现在通过修改这句话,GPT-4就可以展现出更多样的性格,比如扮演苏格拉底。
OpenAI请GPT-4模型以苏格拉底风格教学,绝对不能给学生答案;相反地,还要不断提出好问题帮助学生思考。ChatGPT果真循循善诱,以提问代替直接回答。取自OpenAI官网
仍然不完全可靠
在体验ChatGPT之时,不少用户会发现ChatGPT时不时会“一本正经地胡说八道”,而GPT-4尽管号称功能更全面,但会出现幻觉、胡说八道的毛病还是没能完全改掉。
OpenAI介绍,尽管功能已经非常强大,但GPT-4仍与早期的GPT模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。GPT-4仍然会生成错误答案,并出现推理错误。
也就说,在GPT-4身上依然可以看到之前版本“一本正经地胡说八道”的情形。OpenAI强调,仍然推荐在使用它的时候要附加诸如人工审查、或者附加上下文,甚至在高风险情境中,要避免使用它。
不过OpenAI也提到,该系统已经接受了六个月的安全培训,在内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5高:“响应不允许内容的请求的可能性降低了82%,产生真实事实的可能性提高了40%,优于GPT-3.5。”
网传GPT-3和GPT-4参数对比图,但此次OpenAI没有给出GPT-4参数量
“它仍然存在缺陷,仍然有限,但它有明显的改进。它比以前的模型更有创意,它的幻觉明显减少,而且它的偏见也更少。”OpenAI公司CEO奥特曼在Twitter上称,GPT-4是其模型“最有能力且最符合”人类价值观和意图的模型。
这也意味着,相较之前的模型来说,GPT-4虽然仍可能“一本正经地胡说八道”,但频率有所减小。
不过频率的减小还是不能让人们放松警惕。在GPT-4发布后,微软营销主管表示,“如果你在过去六周内的任何时候使用过新的Bing预览版,你就已经提前了解了OpenAI最新模型的强大功能。”
这似乎可以理解为,微软的新必应早就已经用上了GPT-4。而结合前段时间对新必应的争议来看,已经用上了GPT-4的新必应还是出现了不少“发疯”行为。
此外,与前一代一样,GPT-4是基于2021年9月之前的数据训练的,所以GPT-4对于2021年9月之后发生的事件仍然缺乏有效理解,也不会从其经验中进行学习。OpenAI表示:“GPT-4仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。”
本文系观察者网独家稿件,未经授权,不得转载。
标签:
抢先读
- csgo首次免费开箱的平台有什么?什么什么csgo官匹段位?
- 信用卡冻结后还不上钱如何处理?信用卡的利与弊是什么? 全球今亮点
- 神界原罪2steam购买建议(神界原罪2 steam买哪个)
- 湖人试训一名大五熟男控卫,他可能是双向合同的绝佳选择?
- 崩坏星穹铁道周边购买方法 周边如何购买_速递
- 武田与和黄医药宣布呋喹替尼上市许可申请获欧洲药品管理局确认
- 【环球热闻】“20宝龙04”跌超30% 盘中临时停牌
- 世界观热点:动车座位号ABCDF怎么排列的 动车座位怎么往后调整?
- 中南新能源合作帮南非解“电荒” 环球短讯
- 全球速递!正式“穿江”!万里长江高铁第一隧在重庆盾构施工开始
- 第21届北京国际图书节开幕,观众可“零距离”观摩体验古籍修复_全球热头条
- 《无敌脑洞王者》凿壁偷光通关攻略 全球观热点
- 再遇小可爱!动物园里居然有个幼儿园
- 当前视点!2022年属羊李居明,2022年属鼠人的全年运势
- 贾西姆与姆巴佩的母亲“开始谈判”,希望今年夏天签下新前锋 天天速看
- 天天短讯!酒驾出了事故人死亡保险赔吗
- 《蓝色协议》端游手游介绍-世界视讯
- 快应用可以删吗 快应用有什么用处能卸载吗
- 速讯:今日欧元/美元汇率走势图分析(6月16日)
- 神界原罪2战斗技巧分享 神界原罪2战斗技巧分享在哪
- 天天热点!拒绝交易!状元换不来榜眼!球迷直呼好家伙
- 推进文化数字化工程、制作数字文化产品……山东数字赋能文化“两创”有这些亮点
- 孙吴县气象台发布大风蓝色预警【IV级/一般】【2023-06-16】-天天热资讯
- 焦点快播:宁德时代等在珠海成立新基建公司
- 【聚看点】安徽信息工程学院举行创新发展论坛暨建校二十周年庆祝大会
- 天天日报丨襄城县农业农村局开展非法集资风险防范宣传活动
- 世界滚动:长期债券的优缺点是什么?长期债券的资本成本计算公式是什么?
- 生意社:市场竞争激烈 近期华东地区水泥价格弱势下跌 今日热文
- 环球快讯:想图省心?这几款合资轿车闭着眼睛入
- 高技能人才突破379万人 山东为高质量发展凝聚技能人才力量
- 天天新消息丨港媒:“印太四边机制”实质是美国主导的利益胁迫工具
- 2020珠海横琴长隆国际大马戏恢复开放公告|全球球精选
- 焦作马村区丽景社区获得“河南省民主法治示范村”称号
- 属羊人明天的财运,属羊的明日财运查询
- 美国NBA总冠军游行活动意外频出:有警察被车撞倒 发生枪击事件 今头条
- 【世界播资讯】6月16日 13:17分 航天机电(600151)股价快速拉升
- 华为手机打电话黑屏是什么原因?华为手机打电话黑屏的解决教程 天天热消息
- 每日关注!彭泽县气象台发布雷电黄色预警信号【III级/较重】【2023-06-16】
- 即时看!行唐县气象台发布大风蓝色预警【Ⅳ级/一般】【2023-06-16】
- 今晚!CCTV5等5家平台直播国足VS缅甸,武磊等中超球员牛刀杀鸡?
- 公路边店面出租合同
- 上海中医药大学中药学“创新班”首次招生 时讯
- 今日热搜:大学生英语专业实习报告范文
- 公司问答 | 掌阅科技:公司已经通过微软云接入OpenAI|全球速读
- 空调一直运转不停怎么回事(空调一直运转不停怎么回事儿)-世界新资讯
- 贴地飞行、悬浮隧道……这些交通“黑科技”正走近你我 热头条
- 亚洲体操锦标赛,中国队获得男子团体冠军
- 伊泰煤炭携手一派氢能共建碳中和示范项目 天天观点
- 青岛市崂山区沙子口卫生院顺利通过国家优质服务基层行推荐标准评审_实时焦点
- 贴地飞行、悬浮隧道……这些交通“黑科技”正走近你我_天天微资讯
- 柳州市气象台发布雷电黄色预警信号【III级/较重】【2023-06-16】|环球新消息
- 世界快看:飞龙股份(002536)6月16日14点19分触及涨停板
- 热门:男子多次请朋友吃饭后逃单获刑,警方:构成诈骗
- 6月16日(星期五)CCTV6节目预告
- 世界快报:中润光能IPO:负债率远超同行,半数募资用于补血
- 台州举报黑人有钱拿吗 全球热头条
- 【热闻】美版《西游记》口碑两极分化
- 孙中山与中山舰事迹图片展在广州中山纪念堂展出
- 乡村振兴在行动|引金融“活水” 强产业链条——广东清远探索农村产业发展新思路
- 长乐古县衙遗址修缮工程启动 3个月后将重现昔日光彩-观热点
- 2023年压缩毛巾行业政策分析:国家政策保护压缩毛巾企业创新成果 环球新要闻
- 天天热头条丨衣柜喷漆多少钱
- 先进制造业和现代服务业融合共生 增强制造业核心竞争力_世界通讯
- 市人大常委会开展全市职业教育发展情况专项调查
- 天天速看:燃气股午后拉升走高,截至发稿,港华智慧能源(01083.HK)涨5.97%,报3.55港元
- 全球今热点:异动快报:飞龙股份(002536)6月16日14点19分触及涨停板
- 搜狗私有化完成了吗?腾讯为什么一定要收购搜狗?
- 信用卡有逾期可以办储蓄卡吗?信用卡逾期被起诉会不会坐牢?|天天快资讯
- 即时:把脉会诊!金融创新司法听证机制首次听证会召开
- 内蒙古新右旗:“四季调研”零整互化 建强嘎查党组织考评管理体系 焦点短讯
- 深圳周末艺文指南(6月17日、18日)-焦点快看
- 100亿元!重庆设立食品及农产品加工产业生态基金-焦点热文
- 【当前独家】事关高校毕业生档案转递接收工作
- 【环球聚看点】再遇小可爱!动物园里居然有个幼儿园
- 徐汇区小学转学政策2023(条件+材料+流程)
- 没有核污染,SK-II也卖不动了 世界观察
- 【聚焦618】唯品会618高潮期开售:品质消费驱动增长 知名品牌带动消费热潮|全球播资讯
- 转学国际小学对英语的要求高吗?
- 关注:信用卡逾期记录消除?信用卡还不上怎么申请停息挂账?
- 世界时讯:君亭酒店:拟投资2.1亿元在重庆分批次开设多家高品质酒店
- 今日要闻!天津滨海汽车工程职业学院产教融合迈上新台阶
- 2023年上半年全市重点项目观摩第七站在商州检阅这些项目 今亮点
- 怎么去开股票帐户?股票帐户登不上是什么原因? 世界微动态
- 回天新材锂电池用聚氨酯胶生产线建成投产 当前消息
- 陕西一大学生酒后与朋友发生性关系被告强奸:一审获刑4年,发回重审后改判3年 被告人家属称已上诉_全球快播
- A220-500或将促使空客寻求第二种发动机-全球看热讯
- 怎么根据量价关系选股?股票筹码峰相关知识?
- 汇纳科技(300609):该股换手率大于8%(06-16) 通讯
- 蓝色光标成立幻境公司 经营范围包含数字文化创意内容应用服务|环球焦点
- 食未科技完成数千万A+轮融资|全球速看
- 环球关注:强心苷最严重的不良反应(强心苷)
- 环球微动态丨余额宝收益率是怎么算出来的?余额宝收益和零钱通哪个收益好一点?
- 世界快资讯:步步高Vivo官网首页详细介绍
- 王府井行业地位怎么样?王府井最细股票行情介绍
- “让世界共享气体之美” 金宏气体高铁冠名列车盛大启程_世界即时
- 杭州亚运会:男乒奥运亚军之子入选,期待挑战樊振东、夺得奖牌
- 三星Galaxy全球新品发布会正式召� 要闻
- 全球头条:选择货币基金有哪些技巧?债券基金和货币基金有什么区别?
- 环球今日讯!* 光通信板块探底回升,博创科技大涨超10%
- 法律规定拆迁房价格怎么算?