您的位置:首页 > 教育 > 培训 > 自媒体平台收益排行榜_天元建设集团有限公司济南分公司_网络营销策划书1500字_武汉竞价托管公司

自媒体平台收益排行榜_天元建设集团有限公司济南分公司_网络营销策划书1500字_武汉竞价托管公司

2025/2/24 12:38:15 来源:https://blog.csdn.net/xiaofeitunAI/article/details/143203326  浏览:    关键词:自媒体平台收益排行榜_天元建设集团有限公司济南分公司_网络营销策划书1500字_武汉竞价托管公司
自媒体平台收益排行榜_天元建设集团有限公司济南分公司_网络营销策划书1500字_武汉竞价托管公司

Claude又一次深夜狂炸,推出全新的Claude 3.5Sonnet 和Claude 3.5 Haiku。

下面我会给大家介绍一下基本信息,后续将对全新版本的Claude 3.5 Sonnet进行测评。

注:Claude 3.5 Haiku由于还未发布,暂不做评测。

据官方给出的测评结果我们不难看出此次Claude 3.5 Sonnet的性能进行了全面升级。 在数学、研究生水平推理等能力整体超越GPT-4o。

 

ed8088d6107374fb16097fd0a4ce729e.png

 

而且在编程方面,升级过后的 Claude 3.5 Sonnet超越ChatGPT的o1模型。 可事实真的是这样吗?

以下是我们对Claude 3.5 Sonnet的测评。 我们将用最新的Claude 3.5 Sonnet和o1-pr模型在编程、数学、写作、经典问题上进行PK,看谁的效果更好一点。

对了,如果对o1模型和Claude有需要的朋友可以看这篇网站:使用Claude,看这篇文章就够了

 

编程题比对

首先,我们出一道经典的C语言编程难题。

 

3a6f8de52eae5f389ba09d3db9e850b1.png

不出意外,两者都答对了,而且答案极其的标准。

 

43dbb0702a3f3abedb49c1a8a84f4673.png

面对目前两个顶级的编程助手,常规的编程题肯定是难不倒它们,于是我们自制了一道博士级别的编程难题。

 

bef4429ef680f2530a1ba04872c45ef4.png

o1模型:

 

afbe7159aead3b340517f8d4ad267e7e.png

 

Claude:

 

9556dfb18c242da1a8bf11e69e5cf5b3.png

 

是不是看起来一头雾水。的确,里面的知识已经不是我们所能接触到的了。

不过我们通过第三方知名教授的确认,他认为Claude生成的效果更加好。

出的原因是Claude的方案通过面向对象的设计提升了代码的可读性和维护性,并使用优先队列来优化调度,处理了量子计算中的关键挑战,并提供参数调整的灵活性,尽管在某些实现细节需要进一步验证,但它提供了有效解决复杂问题的路径。

所以这一局Claude胜。不愧是Claude,效果杠杠的!

 

8622e90ad8f3352b882bfefc8a7da02f.png

 

数学题对比:

我们此次选择的是2024年阿里达摩院的比赛真题,看谁在数学领域上能领先一步。 首先来一个简单的单选题。

 

244909dde9935aa14937888272bf9eec.png

 

o1模型: 不过在第一局开头,o1模型就生成错误的答案!o1模型给出的答案是4。

 

10a685a5e9f88f97305ba86ebf40f7bc.png

Claude: 反观升级过后的Claude 3.5 seneet轻轻松松就生成了准确的答案!

 

c9ed6317a791c7c36ea7eccd4f96f012.png

我还准备了第二道题目,同样也是阿里达摩院的数学竞赛题,不过,这次两者都回答准确了!

 

85eeabd5b1da0c518c724d19a94c6ba9.png

 

655b614e8bdad32dfe0d8b0c6f238c4f.png

添加图片注释,不超过 140 字(可选)

选择题可能过于简单,下面我们来测试一下它们对证明题。 同样,依旧是自达摩院的数学竞赛题,不过是此次的压轴题,我们可以看一下那个模型能回答出来!

 

e15995adebfcb3c936c56337c79d7028.png

o1模型:

 

f0b67d965d119397fd64efc31200e667.png

 

Claude:

 

31f0dd5b47069461a112793a3e9f6616.png

通过上述证明比较,会发现o1模型的效果更好,不仅证明结构更加系统化,同时,关键步骤更加的详细。更重要的是还引入了数学公式支持论证。所以这一局,o1模型胜!

 

经典问题

9.18比9.9谁大。 对于这个问题,它们俩都回答出来了。

 

af718958a9d1ddbf9cd91d9684837e75.png

 

e9d435d049a97199386df8f318ee69dd.png

 

不过面对另外一个经典问题:草莓这个单词有多少个r?o1模型却翻车了。

 

d560649f8908183f74e5b97e491b1ff3.png

 

 

567934f81ca6a99beac334b3c04a2678.png

 

写作能力上

此次写作能力的测试会比较简单,只需模仿某一个人的写作风格进行写作即可。

要求是不仅风格相似、语句通顺、而且要像人类写作一样!

首先,我们收集五篇”数字生命卡兹克“的文章,然后分别喂给ChatGPT和Claude,并让他们学习和模仿其写作风格。

最后会让ChatGPT和Claude在同一组提示词下写一篇公众号文章,看谁的效果更好。

o1模型:

 

f0b74e05f397e3f162737988cd9b896b.png

 

Claude:

 

f78eafd721c7db2113601b1244a306c4.png

 

我只能说,Claude在写作方面完胜o1模型,大家可以清楚的看出,无论是写作风格,还是行文结构,效果都要远远超越o1模型。 我最后只想说,最新版的Claude 3.5 Sonnet太强了!

 

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com