亚马逊(Amazon)旗下Amazon Web Services(AWS)於AWS re:Invent上宣布,自研晶片的两个系列推出新一代,包括AWS Graviton4和AWS Trainium2,为机器学习(ML)训练和生成式人工智慧(AI)应用等广泛的工作负载提供更高性价比和效能。
Graviton4和Trainium2是AWS自研晶片的最新创新,AWS每一代自研晶片都持续提升性价比和效能,为客户提供了使用AMD、Intel以及NVIDIA等最新晶片和执行个体组合之外的更多选择,进而使Amazon Elastic Compute Cloud(Amazon EC2)可以为客户虚拟运行几乎所有应用和工作负载。
Graviton4与前一代Graviton3处理器相比,效能提升30%,独立核心增加50%以上,记忆体频宽提升75%以上,为在Amazon EC2上运行的工作负载提供最佳效能和能源效率;Trainium2与第一代Trainium晶片相比训练速度提升4倍,并能在EC2 UltraClusters中部署100,000个晶片,可以在极短的时间训练基础模型(FMs)和大语言模型(LLMs),同时能源效率提升2倍。
AWS运算与网路服务副总裁David Brown表示,晶片是客户所有工作负载的基础,透过将晶片设计聚焦於客户真正关心的实际工作负载,AWS能够为客户提供先进的云端基础设施。Graviton4是AWS推出的同系列第四代,是AWS至今功能最强大和最具能源效率的晶片,支援客户广泛的工作负载。随着生成式AI引起广大的关注,Tranium2可以帮助客户以更低的成本和更佳的能源效率,更快地训练机器学习模型。
如今,AWS在全球大规模提供的使用Graviton的Amazon EC2执行个体种类达150多个,已经建构的Graviton处理器数量超过200万个,并拥有超过50,000客户。这些客户涵盖了EC2最大的前100个客户,他们应用使用Graviton的执行个体获得最佳的性价比。Datadog、DirecTV、Discovery、Formula 1(F1)、NextRoll、Nielsen、Pinterest、SAP、Snowflake、Sprinklr、Stripe以及Zendesk等客户正采用使用Graviton的执行个体运行广泛的工作负载,包括资料库、资料分析、网路服务器、批次处理、广告服务、应用伺服器以及微服务等。
随着客户把更大的记忆体资料库和分析工作负载迁移到云端,对运算、记忆体、储存和网路的要求也随之增加。为此,客户需要更高效能和更大的执行个体来运行这些要求严苛的工作负载,同时需要优化成本。针对这些工作负载,客户还希望能使用更加节能的运算资源,减少对环境的影响。目前,很多AWS的托管服务都支援使用Graviton,包括Amazon Aurora、Amazon ElastiCache、Amazon EMR、Amazon MemoryDB、Amazon OpenSearch、Amazon Relational Database Service (Amazon RDS)、AWS Fargate 以及AWS Lambda等,将Graviton的性价比优势带给使用这些服务的客户。
Graviton4处理器相比Graviton3处理器效能提升30%,独立核心增加50%以上,记忆体频宽提升75%以上。Graviton4还进一步透过完全加密高速物理硬体介面提升了安全性。Amazon EC2 R8g记忆体优化执行个体将采用最新的Graviton4,提升客户运行高效能资料库、记忆体缓存、大数据分析等工作负载的效率。
R8g执行个体相比前一代R7g执行个体提供更大的执行个体大小,虚拟处理器(vCPU)以及记忆体均提升了3倍。这让使用者可以处理更大量的资料、更大规模的工作负载、更快获得运行结果,并降低拥有权总成本。使用Graviton4的R8g执行个体现已提供预览版,并将在未来几个月推出正式可用版。
如今日益增加的生成式AI应用背後的基础模型和大语言模型需要使用海量的资料进行训练。这些模型透过创造文字、音讯、图片、影片、甚至软体程式码等大量新的内容,帮助客户重构使用者体验。当今最先进的基础模型和大语言模型通常包含数千亿甚至数万亿个参数或变数,需要能够支援上万机器学习晶片进行扩展的可靠高效能运算能力。AWS现已提供广泛而深入的机器学习晶片支援的Amazon EC2执行个体选项,包括最新的NVIDIA GPU、Trainium以及Inferentia2。
Databricks、Helixon、Money Forward以及Amazon Search团队等众多客户都在使用Trainium训练大规模深度学习模型,受益於Trainium的高效能、可扩展、可靠以及低成本等诸多优势。然而即便已经在使用当今最快的加速执行个体,客户仍然希望获得更强的效能和规模来训练这些日益复杂的模型,提高训练速度、降低成本,同时降低能源消耗。
Trainium2晶片专为以高效能训练具有数万亿个参数或变数的基础模型和大语言模型而打造。Trainium2与第一代Trainium晶片相比,效能提升4倍,记忆体提升3倍,能源效率(每瓦效能)提升2倍。Amazon EC2 Trn2执行个体采用最新的Trainium2,一个单独执行个体包含16个Trainium加速晶片。
Trainium2执行个体致力於为客户在新一代EC2 UltraClusters中扩展100,000个Trainium2加速晶片,并与AWS Elastic Fabric Adapter(EFA)PB级网路互连,提供的产能达65exaflops(exaflops指10的18次方),客户可按需获得超级运算级别的效能。有了这个级别的规模,客户可在数周而非数月就能训练完成一个具有3千亿参数的大语言模型。透过显着降低的成本提供最高横向扩展的模型训练,Trainum2执行个体可以帮助客户开启并加速生成式AI的新一轮创新。
Anthropic是一家AI安全和研究公司,是负责任地部署生成式AI的主要推广者,致力於打造可靠、可判断和可控的AI系统。Anthropic自2021年开始使用AWS,近期Anthropic推出了Claude,一款专注於提供帮助、无害且诚实的AI助手。Anthropic联合创办人Tom Brown表示,自支援Amazon Bedrock以来,Claude已获得AWS客户的广泛采用。Trainium2将帮助该公司大规模建构和训练模型,对於一些工作负载,Trainium2相比第一代Trainium晶片速度提升了至少4倍。Anthropic与AWS的合作,将助力各种规模的组织有机会同时受益於Anthropic安全并先进的AI系统以及AWS可靠的云端技术,进而开创新的可能性。
Databricks帮助全球超过10,000家组织机构,包括Comcast、Condé Nast及50%以上的财富500强企业,统一资料、分析和运用AI。Databricks生成式AI副总裁Naveen Rao表示,数千家客户在AWS上运用Databricks,使用MosaicML对各种用例的基础模型进行预先训练、微调及其他操作。AWS Trainium为Databricks提供了训练Mosaic MPT模型所需要的规模、高效能以及低成本。Trainium2使更快地建构下一代Mosaic MPT模型成为可能,让Databricks有机会为客户提供前所未有的规模和效能,助力他们比以往更快地推出自己的生成式AI应用。