专访亚马逊云科技 AI 科学总监：Scaling Law 是否依然有效

摘要

大模型的问题不是 Scaling Law 失效，而是缺少足够多的数据。

今天基础大模型领域呈现出「一超多强」的行业格局，OpenAI 依然占据着王座，但 Meta 的 Llama、谷歌的 Gemini、Anthropic 的 Claude，以及 Luma、Suno 等垂类模型「列强」，也在过去一年里快速发展迭代，甚至在细分领域实现了对 OpenAI 的弯道超车。

最近，一个新玩家加入到这一阵营。刚刚结束的 re:Invent 2024 大会期间，亚马逊正式发布新一代 Nova 系列大模型，其中既有高性价比的实用模型，也有可用于定制模型蒸馏的「高性能模型」。同时还提出了 Any to Any 的新理念，要在明年实现从多种模态输入到多种模态输出的自由 AI 生成。

该模型的训练是由亚马逊云科技团队主导，作为全球最大的云计算平台和基础设施服务供应商，亚马逊云科技在 re:Invent 2024 期间发布了一系列涉及 AI 基础设施、AI 应用开发、再到实用 AI 应用的技术更新。

Sherry Marcus 博士是亚马逊云科技生成式 AI 科学总监，她领导的团队主要负责 RAG（Retrieval-Augmented Generation，检索增强生成）Agent 和模型蒸馏等工作，同时她也非常熟悉新发布的 Nova 系列模型，以及 Amazon Q 等 AI 应用。

在 re:Invent 2024 期间，极客公园等国内媒体采访了 Marcus 博士，她向我们分享了关于 Nova 的技术特点、未来方向，以及她对模型蒸馏、消除幻觉、Scaling Law 等行业热点话题的思考。

Sherry Marcus 丨来自：亚马逊云科技

以下是采访内容，由极客公园整理。

Sherry Marcus：我的团队主要负责一些具体的技术工作，比如 RAG Agent 和模型蒸馏等。感谢大家今天的到来。

问：你们在推出 Q for Business 这个产品线时，是否达到了预期目标？

Sherry Marcus：你可以把它看作一系列基于 Amazon Bedrock 的应用程序，这些程序包括预定义的 RAG 模型等一系列能力。客户可以利用这些技术来开发他们自己的应用程序。实际上，我们已经在客户渗透方面取得了不错的成绩，并且还提供了一些基于 Amazon Bedrock 的衍生产品。我们通过多种方式为客户提供解决方案，具体方式取决于他们的数据需求。

问：关于 AI 幻觉问题，你们有哪些解决方案？

Sherry Marcus：我们有解决方案应对 AI 幻觉问题。今天你可能在 Matt 的主旨演讲中听到了，我们推出了「自动推理」能力（Automated Reasoning），以确保大语言模型的正确性。目前，已有一些用户的实际应用案例，尤其是在安全和基础设施建设等领域，我们提供了相关解决方案。

此外，我们还有一个名为「上下文语境打磨」（Contextual Grinding）的解决方案，它确保大语言模型在基础原理和真实信息的基础上判断输出内容的准确性，以减少 AI 幻觉。虽然无法保证 100% 的消除幻觉，但目前我们的方案已经在行业中处于领先水平。

问：能否谈谈面向合作伙伴的 Bedrock Marketplace for Partner？

Sherry Marcus：这个目前还不能对外发布，明天的主题演讲后才会有相关信息。不过，我可以简单介绍一下。Bedrock Marketplace for Partner 允许模型供应商向平台提供他们的模型。客户可以在 Amazon Bedrock 上使用这些模型，以实现多种功能应用。它是 Bedrock 平台的一个战略支柱，旨在为客户提供尽可能多的模型选择。

问：你们已经有一些重大的模型供应商加入了对吗？那么合作伙伴如果使用这个 Marketplace，是进行销售吗？具体是怎么操作的？

Sherry Marcus：是的，合作伙伴是模型的开发者，若其他客户在 Bedrock 上使用了他们的模型，合作伙伴就能获得收益。这个 Marketplace 主要面向大语言模型供应商，他们通过向 Bedrock 提供 API 来获利。我们有多个 Marketplace，而你提到的这个 Marketplace 只针对大语言模型的开发者。明天 Swami 的演讲会有更多具体信息。

问：如果在使用合作伙伴模型时，出现安全或其他问题，责任如何划分？

Sherry Marcus：我们会共同分担责任。大多数模型供应商在发布之前会进行微调，针对偏见和常见攻击行为进行防护，这是他们的「零层防御」。在模型进入 Amazon Bedrock 之前，我们会对其进行忠实性、无偏性、稳定性和安全性测试。第二，针对使用这些模型的客户，我们提供了一个名为「Guardrail」的服务，客户可以根据需求制定更高的安全标准，甚至规定一些无法讨论的敏感话题。

问：现在很多用户都会将 Nova 与 ChatGPT 等工具进行对比。你觉得 Nova 与其他工具相比，有哪些独到之处？

Sherry Marcus：Nova 的设计考虑了客户需求的三个核心点：低成本、低时延和高准确性。在构建 Nova 时，我们成功地降低了成本，同时确保其准确性与其他模型相当，成本比其他模型低 75%。这对于市场来说非常有吸引力，因为很多进入市场的壁垒实际上就是成本。如果能降低成本，客户的购买意愿会更强。此外，Nova 是一个全新的系列，它与 Titan 不同，采用了新的专业知识和学术积累，因此与竞争对手相比，Nova 具有很强的竞争力。

问：关于 Nova 的升级计划，你们有什么打算？与竞争对手相比，如何保持升级速度？

Sherry Marcus：是的，我也注意到大模型的更新速度非常快，比如从 LLAMA 2 到 LLAMA 3 仅用了三个月。Nova 的升级计划是尽量与竞争对手保持相似的速度，但亚马逊的方式有所不同。我们非常注重与客户的合作，在推新功能和提升性能时，更多地依据客户在使用 Nova 后的反馈来做调整，这也是我们的不同之处。

问：Scaling Law 是否依然有效？为什么？

Sherry Marcus：是的，Scaling Law 依然有效。我认为这是一个数据问题。神经网络越大，准确度就越高。这实际上和我们所训练的数据集有关，语义数据的积累能让 Scaling Law 更有效。数据来源不断丰富，也使得训练和微调大语言模型变得更加高效。尽管生成的数据可以用于训练，但如果用来训练一个大模型，其效率会降低。

问：企业用户在使用大模型时，可能会遇到数据质量不高的问题。如何更好地利用行业已有的模型支持客户开发小型模型？

Sherry Marcus：我们建议使用「教师模型」（supervised teacher model）并采用蒸馏技术。通过这种方法，学生模型可以像教师模型一样准确，尽管它通常基于行业特定的应用场景。蒸馏能够帮助提高小模型的准确性，同时避免使用过于庞大的数据集。

问：大模型会不会取代小模型，尤其是在 AI 产品质检领域？

Sherry Marcus：不会，我相信两者会并存。在一些特定任务中，仍然会使用小模型，而大模型会通过 API 调用小模型来执行一些图形检索等任务。小模型对于特定的应用场景非常有帮助，可以降低成本、减少时延并提高性能。

问：Nova 的典型客户有哪些？

Sherry Marcus：目前，Nova 的用户覆盖广泛，从财富 100 强的大企业到初创公司都有。他们都在使用 Amazon Bedrock。Nova 特别适用于需要推理能力的场景，例如金融行业的对话和信息汇总，涉及从自然语言到 SQL 的转换，以及背后的计算需求。