【TechWeb】12月5日消息,亚马逊云科技在2024 re:Invent全球大会上,发布了新一代AI训练芯片Amazon Trainium3。
据介绍,Trainium3是亚马逊云科技首款采用3纳米工艺制造的芯片,专为新一代前沿生成式AI工作负载的高性能需求而设计,在性能、能效和密度上树立了新标杆。搭载Trainium3的UltraServers性能预计将是Trn2 UltraServers的4倍,使客户在构建模型时能够更快迭代,并在部署时提供卓越的实时性能。首批基于Trainium3的实例预计将在2025年末上线。
另外,会上还宣布基于Amazon Trainium2的Amazon Elastic Compute Cloud(Amazon EC2)Trn2实例正式可用,并推出全新的Amazon EC2 Trn2 UltraServers,让用户以优越的性价比训练和部署最新的人工智能模型,以及未来的大语言模型(LLM)和基础模型(FM)。
与当前基于GPU的EC2 P5e和P5en实例相比,Amazon EC2 Trn2实例的性价比提升30-40%。它配备16个Trainium2芯片,可提供高达20.8 Petaflops浮点算力的性能。
Amazon EC2 Trn2 UltraServers服务器机型配备64个相互连接的Trainium2芯片,采用NeuronLink超速互连技术,可提供高达83.2 Petaflops浮点算力,其计算、内存和网络能力是单一实例的四倍,能够支持训练和部署超大规模的模型。
上周,亚马逊宣布向Anthropic追加第二笔40亿美元投资,并加深在业务上的合作。
2024 re:Invent全球大会上透露,作为Anthropic与亚马逊云科技深化合作的一部分,Anthropic已开始优化Claude模型,以便在亚马逊Trainium2上运行。
同时,亚马逊云科技正在与Anthropic共同构建一个名为Project Rainier的 EC2 UltraCluster计算集群,该集群由Trn2 UltraServers组成,能够在数十万个Trainium2芯片之间通过第三代低延迟的PB级EFA网络进行分布式模型训练——其运算能力比Anthropic当前一代领先AI模型训练所需算力高出5倍以上。该项目完成后,预计将成为全球最大可用的AI计算集群,供Anthropic构建和部署未来模型使用。(果青)
发表评论