亚马逊使Inferentia芯片可用于客户的机器学习工作负载

在宣布其内部设计的AI加速器芯片一年后，亚马逊网络服务(AWS)正在根据其Inferentia芯片为客户的工作负载提供实例。

AWS各个行业的客户正在通过机器学习从实验阶段过渡到现在，并且正在扩大ML工作负载。因此，他们准备好提高Inferentia带来的性能和效率。AWS首席执行官Andy Jassy在上周AWS的Re：Invent会议上的主题演讲中指出，对于大规模的机器学习系统，可以推断出80-90%的计算成本。

“我们在团队中讨论了很多有关机器学习的培训，这引起了很多关注。它们是沉重的负担，”他说。“但是，如果您像我们一样在规模上以及在生产中进行大量机器学习，您就会知道您的大部分成本实际上是在预测或推理中。”

他以Alexa的大型模型为例，比较了每周两次的培训所需的计算量与推断世界上每台设备对Alexa的每个请求所需的计算量。因此，降低客户推理计算成本是当务之急。

AWS正在提供对基于16种Inferentia芯片的EC2 Inf1实例的访问，该实例立即可用。与AWS先前的最佳产品(据称它也是ML工作负载中最便宜的产品)相比，基于Nvidia T4 GPU的EC2 G4实例相比，新实例提供了更低的延迟，最高三倍的推理吞吐量，并且每次推论成本降低40%。虽然对Inferentia本身知之甚少，但我们确实知道Inferentia每个芯片可提供INT8数据128 TOPS(每个EC2 Inf1实例基于16个芯片，并提供2000 TOPS)。我们也知道它支持多种数据类型(包括INT-8和混合精度FP-16和bfloat16)。每个芯片具有4个“ Neuron核”以及“大量”片上存储器。该芯片有一个SDK，可以使用高速互连将大型模型拆分为多个芯片。

亚马逊加入了一个由数据中心超级伸缩器组成的精英团队，他们开发了自己的芯片以用于其云设施。Google拥有张量处理单元(TPU)，百度设计了其Kunlun系列，阿里巴巴拥有了它的Hanguang 800。

同时，Microsoft已开始作为Azure的一部分为客户ML工作负载提供Graphcore芯片。

人们认为Facebook正在其数据中心内致力于AI加速的ASIC，但实际上它确实在玩这种游戏，但它仍需要展示自己的力量。