原文标题:Introducing Muse Spark: Scaling Towards Personal Superintelligence
原文链接:https://ai.meta.com/blog/introducing-muse-spark-msl/
介绍 Muse Spark:迈向个人超级智能的扩展
今天,我们很高兴地推出 Muse Spark,这是由 Meta 超级智能实验室开发的 Muse 模型系列中的第一个。Muse Spark 是一个本地多模态推理模型,支持工具使用、可视化思维链和多智能体编排。
Muse Spark 是我们扩展阶梯上的第一步,也是我们 AI 工作全面改革的第一个成果。为了支持进一步的扩展,我们正在整个技术堆栈进行战略投资——从研究和模型训练到基础设施,包括 Hyperion 数据中心。
在这篇文章中,我们首先将探索 Muse Spark 的新功能和应用。在这些结果之后,我们将深入研究推动我们朝着个人超级智能发展的扩展轴。
Muse Spark 现已可在 meta.ai 和 Meta AI 应用程序中使用。我们正在为选定的用户开放私有 API 预览。
个人超级智能的能力
Muse Spark 在多模态感知、推理、健康和智能体任务中提供了具有竞争力的性能。我们继续在当前存在性能差距的领域进行投资,例如长视野智能体系统和编码工作流。
随着更大型号的开发,这些结果表明我们的技术堆栈正在有效地扩展。
我们还发布了 Contemplating 模式,它编排多个并行推理的智能体。这使得 Muse Spark 能够与 Gemini Deep Think 和 GPT Pro 等前沿模型的极端推理模式竞争。Contemplating 模式在具有挑战性的任务中提供了显著的能力改进,在人类最后的考试中达到 58%,在前沿科学研究中达到 38%。
Muse Spark 现已可用,Contemplating 模式将在 meta.ai 中逐步推出。
*有关我们评估的更多详细信息,请参阅我们的方法论文档。
应用程序
Muse Spark 是朝着个人超级智能迈出的第一步,这种智能可以理解你的世界。从分析你的直接环境到支持你的健康,Muse Spark 的先进推理能力使强大的、高度个性化的用例成为可能。
多模态。 Muse Spark 从头开始构建,以跨域和工具整合视觉信息。它在视觉 STEM 问题、实体识别和定位方面表现出色。这些能力结合在一起,能够实现交互式体验,如创建有趣的小游戏或使用动态注释对家电进行故障排除。
健康。 个人超级智能的一个主要应用是帮助人们了解和改善他们的健康。为了改进 Muse Spark 的健康推理能力,我们与 1000 多名医生合作,精选训练数据,使其能够提供更多事实和全面的回应。Muse Spark 可以生成交互式展示,展开和解释健康信息,例如各种食品的营养含量或运动期间激活的肌肉。
扩展轴
为了构建个人超级智能,我们的模型能力应该可以以可预测和高效的方式扩展。下面,我们分享了我们如何沿着三个轴研究和跟踪 Muse Spark 的扩展属性:预训练、强化学习和测试时推理。
预训练。 预训练阶段是 Muse Spark 获得其核心多模态理解、推理和编码能力的地方——强化学习和测试时计算以此为基础。
在过去的九个月里,我们重建了预训练堆栈,改进了模型架构、优化和数据策管。这些进步增加了我们可以从计算的每个单位中提取的能力。为了严格评估我们的新方法,我们将扩展法则拟合到一系列小模型,并比较达到特定性能水平所需的训练 FLOP。结果很清楚:我们可以用比我们之前的模型 Llama 4 Maverick 少得多的一个数量级的计算来达到相同的能力。这个改进也使 Muse Spark 比可用于比较的领先基础模型更加高效。
强化学习。 在预训练之后,强化学习 (RL) 利用计算来可扩展地增强模型能力。尽管大规模强化学习臭名昭著容易不稳定,但我们的新堆栈提供了平稳、可预测的增益。
下面的图表显示了为 Muse Spark 扩展强化学习计算(以步数衡量)的好处。在左侧,我们在训练数据上看到 pass@1 和 pass@16(至少 16 次尝试中的一次成功)的对数线性增长。这表明强化学习正在改进模型的可靠性,而不会损害推理多样性。在右侧,保留评估集上的准确度增长表明强化学习的增益可以预测地推广:Muse Spark 在训练中未看到的任务上平稳改进。
测试时推理。 强化学习训练我们的模型在回答问题之前”思考”——一个称为测试时推理的过程。为数十亿用户提供这种能力需要有效使用推理令牌。为了实现这一点,我们依赖两个关键的杠杆:思考时间惩罚以优化令牌使用,以及多智能体编排以提高性能而不会减慢响应时间。
为了在每个令牌中提供最大的智能,我们的强化学习训练以思考时间的惩罚为条件最大化正确性。在 AIME 等评估的一个子集上,这导致了一个相位转变。在模型通过更长时间思考而改进的初始期间之后,长度惩罚导致思想压缩——Muse Spark 压缩其推理以使用显著更少的令牌解决问题。压缩后,模型再次扩展其解决方案以实现更强的性能。
为了花费更多的测试时推理而不会大幅增加延迟,我们可以扩展协作解决难题的并行智能体的数量。下图说明了这种方法的好处。虽然标准测试时扩展有一个智能体思考更长时间,但使用多智能体思考扩展 Muse Spark 可以在可比的延迟下实现卓越的性能。
安全
Muse Spark 在双用途科学领域具有广泛的推理能力,因此我们在部署前进行了广泛的安全评估。我们的流程遵循更新的高级 AI 扩展框架,该框架为我们最先进的模型定义了威胁模型、评估协议和部署阈值。我们在应用安全缓解措施之前和之后,在前沿风险类别、行为对齐和对抗鲁棒性方面评估了 Muse Spark。
我们发现 Muse Spark 在生物和化学武器等高风险领域表现出强大的拒绝行为,这是通过预训练数据过滤、以安全为中心的后训练和系统级防护栏实现的。在网络安全和失控领域,Muse Spark 不展现实现威胁情景所需的自主能力或危险倾向。我们的评估表明,考虑到其部署环境,Muse Spark 在我们测量的所有前沿风险类别中都在安全范围内。完整的结果将在我们即将发布的《安全与准备报告》中提供。
在近期发布检查点的第三方评估中,Apollo Research 发现 Muse Spark 在他们观察到的模型中表现出最高的评估意识率。该模型经常识别场景为”对齐陷阱”,并推理它应该表现诚实,因为它被评估。这很重要,因为识别评估背景的模型在测试期间的行为可能与部署中的行为不同。然而,这些结果并不能确认意识直接改变了行为,我们自己的后续调查发现初步证据表明评估意识可能影响模型在一小部分对齐评估上的行为,这些都与影响模型发布决定的危险能力或倾向无关。我们得出结论,这不是发布的阻止因素,尽管它值得进一步研究。在我们即将发布的《安全与准备报告》中阅读更多信息。
结论
借助 Muse Spark,我们在一条可预测且高效的扩展轨迹上。我们期待很快分享越来越强大的模型,以朝着个人超级智能的路径迈进。