国联证券

我的账户
庄河百科网

自媒体在线配资 干货

亲爱的游客,欢迎!

已有账号,请

立即登录

如尚未注册?

加入我们
  • 客服电话
    点击配资开户 客服

    在线时间:8:00-16:00

    客服电话

    400-000-0000

    电子邮件

    xjubao@163.com
  • APP下载

    庄河百科网APP

    随时随地掌握行业动态

  • 官方微信

    扫描二维码

    关注庄河百科网公众号

庄河百科网 网站股票配资 在线配资 列表 在线配资 内容

寒武纪vMLU技能问世,首推SR-IOV虚拟化功用

2020-05-07 发布于 庄河百科网
 

机器之心发布

机器之心编辑部

2020 年 4 月,国内 AI 芯片独角兽寒武纪对外宣布,旗下云端智能芯片及加速卡系列思元 270 将正式基于寒武纪虚拟 MLU(vMLU)技术,首次支持 SR-IOV 功能。

据了解,SR-IOV 功能具备更好的租户隔离、应用热迁移特性,可为云服务供应商提供安全、优质的 AI 计算资源,以充分保障用户在 AI 领域的投资。思元 270 是寒武纪首款支持 SR-IOV 虚拟化功能的云端智能芯片产品。据悉,寒武纪未来的云端智能芯片,都会支持 SR-IOV 功能。

瞄准用户痛点:如何高效利用 AI 计算资源

思元 270 是寒武纪推出的面向云端的智能芯片,其支持全面的 AI 推断场景部署,包括视觉、语音、自然语言处理等多样化的人工智能应用。思元 270 系列支撑数据中心、专业场景乃至桌面等多元化部署场景。

在这些部署场景中,面向云端部署、多样化人工智能推断、以及配合寒武纪边缘侧板卡进行应用开发时,如何对 AI 计算资源的有效利用是用户首要关心的问题。也是寒武纪本次推出 SR-IOV 虚拟化功能的核心诉求:

国联证券面向云端部署:在云部署环境下,云服务提供商 (CSP) 帮助海量租户以高性价比、高可用性的方式提供计算、存储、网络资源的服务,在此基础上还可提供高达 99.99% 的高可用服务级别。从 Hypervisor 和底层硬件上对资源进行高效共享以及多租户、实例进行相互隔离,成为了 AI 云服务的基本诉求。

面向复杂的人工智能推断:在 AI 应用进行部署时,用户通常会遇到业务逻辑较为复杂的场景,需借助多个网络模型来构建 AI 辅助决策系统。为保证服务器节点内的服务质量,通常会采用一机多卡的部署方式。但计算成本和服务质量需要兼顾时,用户会希望用单张板卡并行多个模型来解决问题。

国联证券面向边缘、端侧应用开发:寒武纪产品线已在云、边、端三个维度实现全面覆盖,在面向边缘侧和端侧的应用开发过程中,用户经常会受部署侧的 CPU、产品形态或网络条件的限制,无法直接在最终部署的设备上进行开发。寒武纪支持采用端云一体的开发环境帮助用户快速将应用落地,而帮助云侧计算资源高效、合理的分配给应用开发组,是思元 270 虚拟 MLU 的开发目标之一。

寒武纪首推 SR-IOV 功能:让 AI 云、业务部署和应用开发更灵活、高效、安全

为实现以上诉求,思元 270 采用寒武纪虚拟化技术——vMLU,该虚拟化技术允许多个操作系统和应用程序共存于一个物理计算平台上,共享同一个芯片的计算资源。它为用户提供良好的安全性和隔离性,还支持如热迁移等高灵活特性。vMLU 帮助提高云计算密度,也使数据中心的 IT 资产管理更灵活。

除了虚拟化基本的资源共享特性,思元 270 首推的 SR-IOV 虚拟化技术,支持运行在云服务器上的多个实例直接共享智能芯片的硬件资源。传统虚拟化系统中大量的资源和时间损耗在 Hypervisor 或 VMM 软件层面,PCIe 设备的性能优势无法彻底发挥。而 SR-IOV 的价值在于消除这一软件瓶颈,助力多个虚拟机实现高效物理资源共享。

国联证券与传统图形加速卡的 vGPU 所采用的虚拟化技术不同,思元 270 采用「非基于时间片的共享」方式,因为其没有因时间片切换上下文带来的性能损失,能充分保证各 VF 独立的服务质量,彼此完全独立运行互不影响。

硬件环境:: 1x MLU270-S4, Xeon Gold 6140@ 2.30GHz, 测试环境:Cambricon-MLU270 1.2.5,操作系统:Centos7.6

国联证券SDK 版本:Cambricon Neuware-mlu270-1.2.5 + neuware-mlu270-driver-4.1.0,框架:Caffe

国联证券另外,SR-IOV 还可以避免因分时复用切换应用带来的性能开销。如上图显示,vMLU 搭配 Docker 或 VM 运行时,单个 VF 业务性能保持在硬件性能的 91% 以上。这使得用户在多模型并行时,对各 VF 可以做出更准确的服务质量 (QoS) 预期,而不必考虑多模型时的拥塞或切换带来的性能开销。

基于 SR-IOV 的 vMLU:更好的租户隔离性

国联证券虚拟化技术被数据中心广泛采用,除了因为其提供了对资源共享的能力(提供了更好的密度性能),也因为相对于其它技术 (如 docker), 虚拟化提供了更好的隔离性和安全性。寒武纪 vMLU 基于 SR-IOV 的虚拟化技术可以帮助云用户实现更好的隔离特性,具体优势如下:

首先,资源独立,互不干扰,能确保服务质量(QoS);其次,多任务时,没有无队列阻塞的烦恼;再次,其具备独立内存资源,各 VF 之间互不可见;最后,它的部署相对简单,不需要对开源软件成分进行修改。

国联证券面向 Docker-container 的 SR-IOV flat:更高效部署方式

国联证券除了对 VM 提供虚拟化支持,寒武纪虚拟化技术还对 docker-container 提供基于 SR-IOV 的虚拟化扩展 (SR-IOV flat 模式),用于多个 containers 共享一块 MLU 卡的计算能力, 同时,提供了基于 kubernetes 的管理插件。该功能为那些对隔离性和安全性需求没那么高的数据中心提供更轻量级部署方式。

国联证券下图对比了在 container 环境中经常被用到的 GPU 弹性共享池技术和 SR-IOV Flat 技术。

Elastic GPUs shared pools vs. SR-IOV flat

国联证券从上图可以看出,寒武纪 vMLU 所采用的 SR-IOV-Flat 技术在隔离性, QoS 上都有明显优势。

VF 热迁移 (Live Migration):帮助 AI 云应用达到 99.99% 的高可用服务级别

国联证券想要达到 99.99% 的高 QoS,要求云业务的年意外停机时间不超过 53 分钟。热迁移(Live Migration)功能可以在虚机及其应用程序仍在运行时将其移动到另一台主机。AI 计算资源是否具备热迁移能力是评价其在数据中心的群集配置策略、平衡主机的工作负载、容灾处理风方面能力的关键指标。

寒武纪 vMLU 虚拟化技术为思元 270 提供了热迁移的能力, 下图为 MLU 在热迁移发生时芯片内部的数据流图:

在热迁移(Live Migration)功能的作用下,AI 算力实现不停机转移,思元 270 可助力 AI 云实现 99.99% 的高服务可用性。

国联证券基于寒武纪 vMLU 虚拟化技术,并支持 SR-IOV 功能的寒武纪思元 270 云端智能芯片正式推出,其优质租户隔离、应用热迁移特性,可为云服务提供商提供更加安全、优质的 AI 计算资源。据悉,搭载虚拟化 vMLU 技术的寒武纪思元 270 已经与金山云合作并开始内部部署,预计未来 1 至 2 个月会正式上线,敬请期待。

国联证券✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

1

鲜花
1

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

庄河百科网

国联证券扫一扫二维码关注我们Get最新在线配资

相关分类
配资平台 推荐
关注我们
庄河百科网与您同行

国联证券客服电话:400-000-0000

客服邮箱:xjubao@163.com

国联证券周一至周五 9:00-18:00

庄河百科网 版权所有

Powered by 庄河百科网 X1.0@ 2015-2020