从技术上来看,GPU、FPGA 和 ASIC 都各有千秋。从实际应用来看,GPU 拥有最完善的生态系统支撑,具有较大的先发优势。 人工智能在推理环节应用刚起步,云端要比前端设备发展速度更快。下面我们将重点讲述一下云端数据中心的应用。在数据中心,FPGA 使用日益广泛,而 ASIC 路线风险太高,目前仅有谷歌批量部署了 TPU。
FPGA 已在全球七大数据中心实际部署
FPGA 最大的优点是动态可重配、性能功耗比高,非常适合在云端数据中心部署。
当在数据中心部署之后,FPGA 可以根据业务形态来配臵不同的逻辑实现不同的硬件加速功能。以腾讯云为例,当前服务器上的 FPGA 板卡部署的是图片压缩逻辑,服务于 QQ 业务;而此时广告实时预估需要扩容获得更多的 FPGA 计算资源,通过简单的 FPGA 重配流程,FPGA 板卡即可以变身成“新”硬件来服务广告实时预估,非常适合批量部署。
FPGA的性能功耗比显著高于GPU。以普遍使用在服务器中的FPGA型号 A10GX660 为例,性能/功耗能达到 45GFLOPS/W,而对应的 GPU 型号 M4,性能/功耗能达到29 GFLOPS/W。依次测算 FPGA 性能功耗比要高 50%。
近两年,全球七大超级云计算数据中心包括 IBM、Facebook、微软、AWS 以及 BAT
都采用了 FPGA 服务器。在这方面,中国和美国处以同一起跑线。
比使用现状更重要的是未来的技术和产业发展趋势。从行业发展趋势来看,我们认为
FPGA 潜力被低估了,未来大有可为。具体如下:
算法正在快速迭代中
人工智能算法正处于快速迭代中。虽然 ASIC 芯片可以获得最优的性能,即面积利用率高、速度快、功耗低;但是 AISC 开发风险极大,需要有足够大的市场来保证成本价格,而且从研发到市场的时间周期很长,不适合例如深度学习 CNN 等算法正在快速迭代的领域。因此,推出 ASIC 芯片风险非常高,且成本太高,只有谷歌等极少数公司敢于尝试。更重要的是,当前人工智能算法模型的发展趋势是从训练环节向推理环节走,这个过程非常有利于 FPGA 未来的发展。人工智能算法模型从训练环节走向推理环节并不是简单搬运过去。训练出来的算法模型往往规模太大,复杂度太高,无法直接部署实际应用。现在,人工智能算法模型研究的重要趋势就是将训练后的模型再进行压缩,在基本不损失模型精度的情况下,将模型压缩到原来的几十分之一,再应用到推理环节。
以深鉴科技的研究成果为例,公司发布的论文《ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA》指出,长短期记忆网络(LSTM)被广泛用于语音识别领域。为实现更高的预测精度,机器学习研究者们构建了越来越大的模型。然而这样的模型十分耗费计算和存储资源。部署此类笨重的模型会给数据中心带来很高的功耗,从而带来很高的总拥有成本(TCO)。
公司提出了一种可以在几乎没有预测精度损失的情况下将 LSTM 模型的尺寸压缩 20 倍(10 倍来自剪枝和 2 倍来自量化)的负载平衡感知剪枝(load-balance-aware pruning)方法。
最后,它们设计了一种可以直接在这种压缩模型上工作的硬件框架——Efficient Speech Recognition Engine (ESE)。该框架使用了运行频率为 200MHz 的 Xilinx XCKU060 FPGA,具有以 282 GOPS 的速度直接运行压缩 LSTM 网络的性能,相当于在未压缩 LSTM 网络上 2.52TOPS 的速度;此外,该框架执行一个用于语音识别任务的全 LSTM 仅需 41W 功耗。在基于 LSTM 的语音基准测试中,ESE 的速度为英特尔 Core i7 5930k CPU 的 43 倍,英伟达 Pascal Titan X GPU 的 3 倍。它的能量效率分别为以上两种处理器的 40 倍和 11.5 倍。
人工智能算法正处于快速迭代中。公司提出的新算法,可以在几乎没有预测精度损失的情况下将 LSTM 模型的尺寸压缩 20 倍(10 倍来自剪枝和 2 倍来自量化)。在算法能够带来数量级的性能提升下,想要将算法固化在 ASIC 中来获得效率提升的想法是不切实际的。
采用了搭建在 FPGA 上的硬件框架 ESE,获得了高一个数量级的能量效率提升。 ESE的速度为英特尔 Core i7 5930k CPU的 43 倍,英伟达 Pascal Titan X GPU 的 3 倍。它的能量效率分别为以上两种处理器的 40 倍和 11.5 倍。采用 FPGA 搭建硬件框架充分发挥了 FPGA 万能芯片的特性,性能远超 GPU 等。
芯片 NRE 费用在指数级上升
集成电路行业的特点是赢家通吃,像 CPU 处理器,只有英特尔一家独大,门槛极高。而随着芯片制程工艺的提升,芯片 NRE 费用呈现指数级上升。这样导致的结果是需要收回成本的芯片销售规模门槛越来越高。市场上能够满足如此大市场规模要求的单品是非常少的。
而 FPGA 则可以受益于指数级成本上升带来的规模效应。因为 FPGA 的 NRE 成本可以摊到上千个小项目上,从而让每个项目只分担几十万美元的 NRE。比如开发一款 14nm 的 FPGA,假设需要一亿美元,其性能可以达到 45nm ASIC 的水平。然后有 1000 个有 45nm 工艺要求的项目可以采用该 FPGA 来解决问题,他们支付不了45nm 工艺数千万美元的 NRE,但是通过分摊的方式每家支付几十万美元可以使用14nm 的 FPGA 产品。
因此,随着芯片 NRE 费用指数级上升,越来越多的 ASIC 芯片将由于达不到规模经济而被迫放弃,从而转向直接基于 FPGA 开发设计。而 FPGA 可以受益于指数级成本上升带来的规模效应。
【版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。