Anthropic深夜发布Claude Fable 5/Mythos 5，屠榜所有基准测试

Anthtropic刚刚推出了一款 Mythos 级模型Claude Fable 5，面向所有普通用户开放，今天全面上线

与此同时，针对少数特定合作方，他们还推出了 Claude Mythos 5，它与 Fable 5 采用相同的底层模型，是 Claude Mythos Preview 的升级版，访问权限很快会扩大

Fable（寓言）源自拉丁语 fabula，意为"被讲述之物"，与希腊语 mythos 同源。安全护栏是区分这两个模型的核心差异，也是它们拥有不同名称的原因所在，Andrej Karpathy说Fable 5是一次重大飞跃，杰文斯悖论开始显现，软件需求在大幅增长。你可以要求任何东西：解释器、可视化工具、定制应用、把测试套件扩充10倍、自动优化代码、运行大型研究项目并用自定义 HTML 呈现结果

Fable 5 和 Mythos 5 的定价分别为每百万个输入tokens 10 美元和每百万个输出tokens 50 美元，不到 Claude Mythos Preview 价格的一半

到底有多强？

Fable 5 在几乎所有测试过的 AI 能力基准上都达到了最先进水平，涵盖软件工程、知识工作、视觉、科学研究等众多领域。

并且任务越长、越复杂，Fable 5 相对其他模型的领先幅度就越大。

编程：把两个月的工作压缩进一天

测试期间，Stripe 反馈说，Fable 5 把原本需要数月的工程工作压缩到了几天之内。

具体来说：在一个有 5000 万行 Ruby 代码的大型代码库里，Fable 5 用一天时间完成了一次全库迁移，而这项工作如果靠人工完成，整个团队需要两个月以上。

在 Cognition 的 FrontierCode 评测上，Fable 5 也拿到了前沿模型中的最高分。这个评测不只看能不能完成编程任务，还要求符合高质量生产代码库的标准，而且 Fable 5 在中等算力消耗下就做到了，token 效率高于以往的 Claude 模型。

知识工作：金融分析接近满分

在 Hebbia 的金融基准测试上（考察高级别推理能力），Fable 5 得分高于所有模型，在基于文档的推理、图表与表格解读、问题解决等方面均有大幅提升。

IMC（国际市场商品公司）表示，Fable 5 在他们的交易分析评测中几乎全部拿到了优秀，包括事实查询、概念推理、根因分析和期望值分析。

视觉：靠截图还原代码，通关宝可梦

视觉能力方面，Fable 5 同样跻身当前最先进水平。

它能从复杂的科学图表中精确提取数据，甚至可以仅凭截图重建一个网页应用的源代码。更值得一提的是，它需要的辅助工具更少了。

此前的 Claude 模型即便配备了额外辅助工具，玩《宝可梦：火红》依然力不从心。而 Fable 5 只依靠原始游戏截图（没有地图、没有导航辅助、没有额外游戏状态信息），就从头到尾通关了这款游戏。

记忆与长文本：持久记忆让表现提升三倍

在长时间运行的任务中，Fable 5 能在数百万 token 的范围内保持专注，并借助自己的笔记不断优化输出。

在卡牌构筑游戏《杀戮尖塔》的测试中，为模型提供持久文件记忆后，Fable 5 的表现提升幅度是 Opus 4.8 的三倍；Fable 到达游戏最终章的频率，也是 Opus 4.8 的三倍。

Claude Fable 5可以从物理第一性原理出发建立太阳系模拟，并以此预测日食

本文转自：凤凰网科技

原文地址： https://tech.ifeng.com/c/8tos3hBXZUq

Anthropic深夜发布Claude Fable 5/Mythos 5，屠榜所有基准测试

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享1 个月前

小同爱分享4 个月前

最新文章

阅读TOP榜

标签

链接

搜索

您还没有登录

Anthropic深夜发布Claude Fable 5/Mythos 5，屠榜所有基准测试

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享1 个月前

小同爱分享4 个月前

最新文章

阅读TOP榜

标签

链接

搜 索

感谢您的打赏

分享文章

搜索