您的位置:首页 > 文旅 > 美景 > OpenAI 真急了!(附 Gpt-o1 测评)

OpenAI 真急了!(附 Gpt-o1 测评)

2024/10/6 2:24:13 来源:https://blog.csdn.net/weixin_40780178/article/details/142247420  浏览:    关键词:OpenAI 真急了!(附 Gpt-o1 测评)

大家好,我是凡人。

就在昨天估值1500亿美元的 OpenAI 终于坐不住了,面对 Claude 3.5 等竞争对手的不断的市场蚕食,在X上连续两条消息,高调发布 o1-preview(高级推理)和 o1-mini(更快的推理速度)两个版本

图片

这次 OpenAI 打着高级推理的旗号,准备重新夺回场子,宣称 o1 模型通过强化学习方法进行训练,能够在回答问题之前进行深入思考,并生成内部推理链。模型在处理科学、编程和数学问题上展现出了超越以往模型的能力,它的优秀表现在某些领域,甚至超过了人类专家。

图片

宣传视频也是一个接一个,看来真是辛苦了,似乎说明 OpenAI 感受到了大语言模型驱动产品领域的激烈竞争压力,下面就让我们一起来看看“仓促上马”的 o1 版本到底会带来怎样的惊喜!

一、"草莓"到底有啥不同

OpenAI官网介绍,他们在训练o1时,性能会随着强化学习时间和思考时间的增加而持续提高,这一方法的可扩展性也与传统的大语言模型预训练有所不同。

图片

为了突出o1在推理方面的优势,OpenAI在一系列人类考试和机器学习基准上,进行了测试,结果显示o1在大多数推理任务上显著优于GPT-4o

图片

在具有挑战性的推理基准测试中,o1相较于GPT-4o表现出显著提升。实线柱状图展示了通过率@1的准确性,而阴影区域则显示64个样本的共识表现。

图片

二、测试高级推理

借助思维链,o1在解决复杂问题时能够进行长时间的深度思考和探索我理解OpenAI用思维链的方式来模拟人类的逻辑思维能力,在强化学习的帮助下,o1将问题分解同时也精炼思维链路径,识别并纠正错误,将复杂步骤拆解为更简单的内容,并尝试多种解法。

上面把OpenAI夸的那么牛逼,下面就是骡子是马拉出来溜溜,看看 4o 到 o1 到底有多少提高,我们来分别对比三个版本Gpt4o 、Gpt o1-preview和Gpt o1-mini

网址:http://chatgpt.com

图片

一)微积分测试

上高中时微积分也是彻彻底底的把我这个学渣难了一把,让我们先来看看他的推理到底怎么样。

试题这道题可是15分哦。

图片

1、Gpt4o

答案错误且过程有点乱。

图片

2、Gpt o1-preview 

推理清晰,答案正确。

图片

3、Gpt o1-mini 

推理还凑合,但答案错误。

图片

所以对于o1的算数能力确实提高了不少!

二)文字识别

对于o1的文字表达能力是否提升我一直抱着怀疑态度,我们三个版本复写下徐志摩的散文试试,看看谁更优秀。

#提示词
你是一名非常有经验的作家,请根据徐志摩的《陌上花开》的内容,
仿照写一篇相似的诗歌,但诗歌中的词语相似度不能超过20%:

轻轻的我走了,正如我轻轻的来;
我轻轻的招手,作别西天的云彩。

那河畔的金柳,是夕阳中的新娘;
波光里的艳影,在我的心头荡漾。

软泥上的青荇,油油的在水底招摇;
在康河的柔波里,我甘心做一条水草!

那榆荫下的一潭,不是清泉,是天上虹;
揉碎在浮藻间,沉淀着彩虹似的梦。

寻梦?撑一支长篙,向青草更青处漫溯;
满载一船星辉,在星辉斑斓里放歌。

但我不能放歌,悄悄是别离的笙箫;
夏虫也为我沉默,沉默是今晚的康桥!

悄悄的我走了,正如我悄悄的来;
我挥一挥衣袖,不带走一片云彩。

1、Gpt4o

图片

2、Gpt o1-preview

图片

3、Gpt o1-mini

图片

整体结构看着都还不错,生成的文字合理性和逻辑性并没有多大的提高

当然这里提示词的内容也占很大的原因,但大模型版本不断迭代的意义是什么呢?

不就是越来越优化提示词,让用户更简单的使用大模型吗?

三)迷宫

我们用程序生成迷宫看看,让GPT的三个版本比比看谁能顺利走出去。

图片

1、Gpt4o

图片

2、Gpt o1-preview

图片

3、Gpt o1-mini

图片

这次的测试结果让我感到惊异,可能是由于字符生成的迷宫,关于靠谱我倾向于Gpt4o 和Gpt o1-preview

四)烧脑推理

针对于o1的推理能力,来点烧脑的推理,一个非常有意思的题目,来一起看看他们表现怎么样:来一个小故事考考GPT

一对夫妇生了一个小孩,取名叫小黄。小黄渐渐长大,开始学说话,小黄最早学会了叫妈妈:“妈妈,妈妈。”妈妈很开心,隔天就死了。小黄接着学会了叫奶奶。“奶奶,奶奶,”奶奶很开心,隔天也死了。家里人很担心,于是不教小孩说话了。有一天,隔壁老王到了小黄家。“哎呀,这孩子可爱,叫爷爷,快叫爷爷。”“爷爷,爷爷."一家人没拦住。爷爷很担心,一晚上没睡着。隔天,隔壁老王死了。老王的儿子又来小黄家玩。“哎呀,这孩子可爱,叫叔叔,快叫叔叔。”“叔叔,叔叔"一家人没拦住。老王的儿子很担心,一晚上没睡着,隔天,爸爸死了!问:爷爷和爸爸是什么关系?

1、Gpt4o

图片

2、Gpt o1-preview

图片

3、Gpt o1-mini

和 Gpt o1-preview 答案相同。

图片

所以你明白答案是什么了吗?可以把答案写在评论区哦!

三、总结

好了今天的测评内容就到这了,结果其实还是比较出乎意料的,Gpt-o1版本的逻辑推理能力确实上了一个台阶,但可以看的出来,OpenAI确实急了,很多配套功能还没上线比如o1还没有文件上传,AI工具越来越卷,这也预示着未来AI对传统行业的冲击会越来越大,应用的落地速度也会越来越快,所以还在等什么,赶紧学起来呐!


怎么样今天的内容还满意吗?再次感谢观众老爷的观看。
最后,祝您早日实现财务自由,还请给个赞,谢谢!

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com