聚焦企业网新闻 亚马逊使Inferentia芯片可用于客户的机器学习工作负载

亚马逊使Inferentia芯片可用于客户的机器学习工作负载

在宣布其内部设计的AI加速器芯片一年后,亚马逊网络服务(AWS)正在根据其Inferentia芯片为客户的工作负载提供实例。

AWS各个行业的客户正在通过机器学习从实验阶段过渡到现在,并且正在扩大ML工作负载。因此,他们准备好提高Inferentia带来的性能和效率。AWS首席执行官Andy Jassy在上周AWS的Re:Invent会议上的主题演讲中指出,对于大规模的机器学习系统,可以推断出80-90%的计算成本。

“我们在团队中讨论了很多有关机器学习的培训,这引起了很多关注。它们是沉重的负担,”他说。“但是,如果您像我们一样在规模上以及在生产中进行大量机器学习,您就会知道您的大部分成本实际上是在预测或推理中。”

他以Alexa的大型模型为例,比较了每周两次的培训所需的计算量与推断世界上每台设备对Alexa的每个请求所需的计算量。因此,降低客户推理计算成本是当务之急。

AWS正在提供对基于16种Inferentia芯片的EC2 Inf1实例的访问,该实例立即可用。与AWS先前的最佳产品(据称它也是ML工作负载中最便宜的产品)相比,基于Nvidia T4 GPU的EC2 G4实例相比,新实例提供了更低的延迟,最高三倍的推理吞吐量,并且每次推论成本降低40%。虽然对Inferentia本身知之甚少,但我们确实知道Inferentia每个芯片可提供INT8数据128 TOPS(每个EC2 Inf1实例基于16个芯片,并提供2000 TOPS)。我们也知道它支持多种数据类型(包括INT-8和混合精度FP-16和bfloat16)。每个芯片具有4个“ Neuron核”以及“大量”片上存储器。该芯片有一个SDK,可以使用高速互连将大型模型拆分为多个芯片。

亚马逊加入了一个由数据中心超级伸缩器组成的精英团队,他们开发了自己的芯片以用于其云设施。Google拥有张量处理单元(TPU),百度设计了其Kunlun系列,阿里巴巴拥有了它的Hanguang 800。

同时,Microsoft已开始作为Azure的一部分为客户ML工作负载提供Graphcore芯片。

人们认为Facebook正在其数据中心内致力于AI加速的ASIC,但实际上它确实在玩这种游戏,但它仍需要展示自己的力量。

版权及免责声明: 凡未注明聚焦企业网的作品,均转载自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,用户自行承担使用本网站的风险。其次任何单位或个人认为聚焦企业网的内容可能涉嫌侵犯其合法权益,应及时向聚焦企业网书面反馈,并提供相关证明材料和理由,本网站在收到上述文件并审核后,会采取相应措施。http://www.focuc71.com/category/news/66.html

作者: 互联网

="author-desc"> 一个不注意小事情的人,永远不会成功大事业。——戴尔·卡耐基
上一篇 奢侈品市场疲弱拉里珠宝的损失扩大 下一篇 由于服装销售疲软M&S销售和利润下降

发表评论

联系我们

联系我们

在线咨询: QQ交谈

邮箱: 1931272624@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息。
关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部