在您的加速器中嵌入推理引擎,为人工智能提供强劲动力
毫无疑问,人工智能 (AI) 和机器学习 (ML) 正在推动全球处理和使用数据的方式发生重大变化。例如,机器学习加快粒子物理、医学研究、机器人等领域的科学发现。CERN openlab 率先将新的机器学习技术应用于高能物理,以帮助人类了解宇宙;完全自动驾驶指日可待;如今,从语音助手到智能制造,无不采用人工智能/机器学习技术。
不过,机器学习也给传统计算架构带来了巨大挑战。为了充分发挥人工智能/机器学习的作用,需要与高性能高密度内存紧密结合的新型计算架构。在这个新世界,通过完善的机器学习算法对大量复杂数据进行精确且快速的近实时处理,需要高速高带宽的内存。
科学、医学和工业领域的研究人员若想利用人工智能/机器学习的力量,需要采用新方法。内存带宽没有随着微处理器内核的发展而升级,服务器和处理器元件也达到时钟速度上限。与此同时,如今的数据密集型科学应用变得更加依赖内存。
深度学习加速器的出现
创新可解决这些问题。越来越多人工智能应用开始部署专为硬件加速而设计的新型的性能强大的微处理器。美光已开发了自己的深度学习加速器 (DLA) 系列。美光 DLA 是硬件与软件的结合,旨在使现场可编程门阵列 (FPGA) 实现加速和节能;我们的 DLA 与高密度高性能内存紧密结合,还包含一个机器学习软件开发工具包 (SDK),该 SDK 免去了底层硬件,因此无需进行 FPGA 编程(历来需要以硬件定义语言 (HDL) 进行编程)。。
美光与 CERN openlab 的研究人员合作,在两个项目中通过紧凑渺子线圈 (CMS) 测试DLA——Micron-852(CMS 是四个主要的大型强子对撞机实验之一)。基于神经网络的美光内存解决方案将在这些实验的数据采集系统中进行测试
美光 SB-852 深度学习加速器,PCIe x16 Gen3
搭载高性能内存的高性能加速器
快速处理大量数据时,FPGA 加速可能是不可或缺的。美光 SB-852 加速器采用了 Xilinx® Virtex Ultrascale+ FPGA,提供了处理大量科学数据、医疗保健数据或其他数据所需的数据处理能力。此外,SB-852 具有高达 512GB 的 DDR4 内存,使研究人员可以在本地对大型数据集进行推理,从而无需对数据进行分区。四通道配置提供高达 68GB/s 的内存带宽,帮助研究人员快速分析数据,获得具有创新发现的洞察。
FWDNXT 推理引擎可搭配主流的深度学习平台
预加载的推理引擎实现灵活的机器学习
您可能会问:美光 DLA 真的内置了推理引擎吗? 是的。我们使用 FWDNXT 开发的创新机器学习推理引擎对 FPGA 进行编程,该推理引擎支持多种神经网络,例如CNN、RNN、LSTM。有了 FWDNXT ML SDK,FPGA 编程变得就像用 Python 和 C++ 语言进行编程那么简单。其余工作就由SDK 来处理,使任何神经网络的加速都变得轻而易举。好处多多,其中包括:实现低功耗和高性能的不仅是 FPGA,还有 FWDNXT 的创新推理引擎,该推理引擎可使神经网络模型实现将近 100% 的计算效率。
更具体地说,该 ML SDK 支持所有机器学习框架,使数据科学家可以在自己选择的框架中(Tensor Flow、Pytorch、Caffe2 等)训练神经网络,然后将该网络输出到 ONNX(一种开源标准神经网络交换格式)。然后,数据科学家使用该 SDK 将输出编译为机器代码,供在预加载的推理引擎上运行。研究人员只需更改几行代码,就能有针对性地运行美光加速器,就像运行 GPU 一样。
加速发展的未来
美光提供包括各种加速器和模块的 DLA 系列,以及可容纳多达六个模块的专用 PCIe 载板。并可提供支持 PCIe 和 QSFP 接口的电路板。美光提供多种功耗低且外型小巧的产品,可支持高效快速的机器学习——无论在数据中心还是网络边缘的智能设备。
请访问 micron.com/AI 了解详情,并关注 @MicronTech 以了解我们的新动态。