智东西|华为昇腾AI全栈软件平台首次全解读!重磅AI计算核弹齐发
本文插图
智东西(公众号:zhidxcom)文 | 心缘
智东西8月10日报道 , 在今天的华为HAI 2020大会上 , 华为发布迄今为止业界最丰富的AI全栈软件平台 , 覆盖从基础软件到应用使能 , 同时展示了最强的AI算力平台 。
这是华为首次全方位披露其昇腾全栈 AI 基础软件能力 , 异构计算架构 CANN 、全场景 AI 计算框架 MindSpore 、全流程 开发工具链 MindStudio 、昇腾应用使能 MindX 四大核心软件一并亮相 。
本文插图
这一次 , 华为AI的主角从颇负盛名的芯片 , 换成了释放华为硬件性能的隐藏英雄——软件 。
作为衔接AI技术与行业应用之间的桥梁 , 昇腾AI全栈软件平台是华为实现普惠AI的重要基座 , 不仅决定AI开发效率 , 还关乎AI硬件在实际应用中真正能发挥出的最佳算力 。
华为的昇腾AI全栈软件平台 , 究竟强在何处?
通过华为昇腾AI全栈软件平台全景图 , 我们可以领略到华为在AI布局方面的严密与稳重 , 同时对华为的AI实力和优势有了更清晰全面的认知 。
基于充分结合的软硬件基础设施 , 华为昇腾计算产业生态正快速扩容 , 和更多合作伙伴一同推动AI计算产业的发展 。
在持续升温的AI计算竞赛中 , 华为已然准备就绪 , 并率先冲在了推进智能化进程的最前排 。
一、昇腾计算软件全景图: 4 大软件产品构筑 8 大竞争力“硬件是AI的基础 , 软件才是AI的未来 。 ”
会上 , 华为昇腾计算业务总裁许映童首次揭晓昇腾AI全栈软件平台全景图 , 他提到 , 在AI领域 , 华为70%的研发人员投入于软件研发 , 面向不同开发者 , 推出三层的开发模型 。
本文插图
在Atlas硬件的基础上 , 针对专业开发者、入门级开发者及业务开发者的不同开发需求 , 华为推出三大软件平台CANN、MindSpore、MindX , 以及覆盖算子开发、模型开发、应用开发的全流程开发工具链MindStudio 。
其中 , 异构计算架构CANN是支持全场景AI开发的芯片底层基础软件 , 也是获取华为昇腾计算资源避不开的入口 , 它具备软硬件解耦的特征 , 后向兼容全系列华为芯片 。
MindSpore是全场景AI计算框架 , 目前已覆盖逾1.6万用户 , 与33所高校开展AI课程、研究合作 , 提供20多种主流模型 , 覆盖150多种应用 。 下个月 , 华为将在HC大会上推出MindSpore 1.0版本以及为网络模型挑战赛颁奖 。
MindX是昇腾应用使能平台 , 通过“2+1+X”助力AI计算融入千行百业 , 2是深度学习平台MindX DL和智能边缘平台MindX Edge , 1是优选模型库ModelZoo , X则是使能各行业的SDK 。 值得期待的是 , 面向视觉和制造的两个行业SDK将在2020年10月正式对外上线 。
本文插图
“AI的应用程序需要跑在多类型通用CPU , 数十个版本的操作系统 , 运行在从穿戴设备 , 到大规模集群的各种设备 , 算力和存在差异数百万倍 , 对软件的适应性和可裁剪、可伸缩性提出了极高的要求 。 ”
许映童说:“而部署的应用场景包括了港口、道路、沙漠等各种复杂场景 , 设备的供电、环境适应性、网络可连接性等等均是巨大的挑战 。 ”
本文插图
这些挑战使得AI融入实际应用的门槛非常高 , 在此背景下 , 华为提出以开发者为中心 , 通过全栈软件 , 把AI算力释放出来 , 服务于行业应用和开发 。
基于 Atlas 硬件与昇腾AI全栈软件平台的组合拳 , 华为昇腾计算已构筑 8 大竞争力 。
(1)高性价比:据华为实测 , 华为AI推理卡Atlas 300I的推理性能、华为最高算力密度服务器Atlas 800的训练性能均超过业界领先竞品 。
(2)统一API:CANN通过昇腾统一编程接口AscendCL API , 支持端边云全场景协同 。
(3)开放架构:支持TensorFlow、PyTorch等主流AI框架 , 并适配客户自研框架 。
(4)使能行业:MindX提供多个行业SDK、优选模型库、深度学习平台及智能边缘平台 , 其中优选模型库中提供的预训练高性能模型到今年底预计有超过60个 , 可大大降低AI应用门槛 。
(5)边云协同:中心训练+边云推理 , 一站式开发 , 统一模型部署及更新 , 模型保护/加密 。
(6)最优集群:昇腾集群线性度较业界领先 。
(7)开发工具:面向不同类型开发者 , 构筑贯穿整个开发流程的工具链MindStudio 。
(8)统一运维:基于FD/SmartKit构筑智能运维 。
二、 异构计算架构 CANN 3.0 详解:专为 AI 设计 , 端边云全场景协同市面上的AI芯片层出不穷 , 那么华为的独到优势有什么?
回答这个问题 , 就避不开华为昇腾的一大秘密武器——CANN 。
如今 , 华为的产品线已覆盖云、管、端、芯 , 鲜少有公司具备如此庞大而全面的产品矩阵 。 如果每类芯片各做一套编程语言 , 那么对开发者而言 , 要学习的内容会非常繁琐耗时 。
在这一背景下 , 为AI设计的异构计算架构CANN起到了极为关键的作用 。
华为投入逾千人的研发团队专攻CANN研发 , 历经三年迭代 , 形成了端边云协同的统一编程架构CANN 3.0 。
本文插图
具体而言 , CANN 3.0有三大创新特性:端边云全场景协同、AscendCL使能高效开发、释放硬件澎湃算力 。
1 、支持软硬件解耦 , 端边云全场景协同
CANN 3.0具有极强的伸缩性和可适应性 , 下接异构芯片 , 上承AI框架 , 只需编写一套应用代码 , 即可兼容覆盖端边云的10+种设备形态、14种操作系统、多种主流AI框架 。
华为海思的麒麟芯片、小海思的Hi3559A等芯片、Atlas全系列硬件以及华为云 , 均使用CANN来实现底层AI芯片使能 , 即一次开发 , 全场景适用 。
本文插图
CANN 3.0的核心功能 , 恰恰是要真正做大AI计算“产业蛋糕”所不可或缺的“软”实力 。
2 、统一API、两种算子开发方式、四大开放性设计
CANN 3.0拥有昇腾统一编程接口AscendCL API、两种TBE算子开发模式 , 以及Plugin适配、图融合优化接口、Ascend-IR接口、预置算子库源码开放这四大开放性设计 。
本文插图
神经网络是以算子来组成不同应用功能的网络结构 。 这些不同的模块全部对外开放 , 支持第三方框架、自定义算子融合、自定义模型、自定义修改算子 , 端到端覆盖全场景AI应用开发 。
所有底层资源均通过专为深度学习设计和优化的昇腾统一编程接口AscendCL来对外开放 。
AscendCL将算子调用API归一化 , 支持全系列昇腾芯片 , 一套应用代码可以在不同芯片上运行 , 从而有效简化编程难度 , 为神经网络提供高效算力支撑 。
此外 , AscendCL还保持后向兼容 , 现在编写的代码 , 也支持在未来推出的华为昇腾芯片上运行 , 确保应用软件可用性 。
本文插图
考虑到不同开发者的需求差异 , CANN 3.0提供DSL和TIK两种张量加速引擎(TBE)算子开发方式 , 以兼顾对效率和灵活性的不同需求 。
其中 , TBE-DSL面向入门开发者 , 可自动实现数据切分和调度 , 可覆盖70%的算子 , 将算子开发时间降低较业界降低70% , 使开发者只需关注计算实现表达 。
TBE-TIK则面向高级开发者 , 提供指令级编程和调优过程 , 可覆盖全部算子 , 需由开发者手工完成指令集调用过程 , 可兼具灵活性和高性能 。
3 、亲和昇腾的图编译技术 ,1000+ 高性能算子库支持
CANN 3.0还具备亲和昇腾的图编译技术 , 可有效提升图优化效率 , 最大化发挥芯片算力 。
本文插图
神经网络可看作一张张的图 , 过去大部分图在host CPU执行 , 如今昇腾的图编译器 , 实现整图下沉执行 , 图和算子均可在device侧执行 , 减少了芯片与host CPU的交互时间 , 从而更充分地发挥昇腾芯片的算力 。
图拆分和融合方面 , 通过自动算子融合等技术 , 将大量节点自动拆分、融合 , 以减少计算节点和计算时间 , 持续保持计算资源的高强度运行 。
数据Pipeline智能优化极大提升数据资源处理效率 , 通过计算数据智能切分与智能分配流水机制 , 实现单指令计算单元的最高使用率 , 并持续保持计算资源高强度运行 。
目前CANN 3.0提供有1000+深度优化的硬件亲和算子 , 支持多框架共用 , 且自适应全系列昇腾芯片 , 可实现最佳运行性能 。
自家的软件 , 最懂如何挖掘自家硬件的性能 。
基于高度适配的软硬件组合 , 华为 Atlas 硬件在主流推理和训练模型的性能均为业界领先 。
在主流推理场景 , 据华为实测 , AI推理卡Atlas 300I性能超过业界主流推理卡 。 特别是在高清视频场景中 , 单张Atlas 300I推理卡可同时处理80路1080p、25FPS的高清视频 , 是业界主流推理卡可同时处理路数的2倍 。
本文插图
对于有大量视频分析需求的企业 , 可同时处理的视频路数越多 , 整体硬件成本下降的越快 。 旷视、格灵深瞳等企业正基于华为AI推理卡打造高路数视频分析解决方案 。
华为实测数据显示 , 在主流模型训练场景 , 华为最高算力密度服务器Atlas 800在多种模型的实测性能超过业界主流新品训练服务器 , 平均实测性能约为业界主流上一代训练服务器的2.5倍 。
本文插图
除了计算卡外 , 软件能力也充分释放了华为AI集群的总体性能 。
线性度是指多个机器同时处理运算时 , 受机器间通信等能力影响 , 最终实际发挥性能资源的利用率 。 经由L2网络与CANN层算法的联合优化 , 昇腾芯片的线性度超过业界领先水平 。
本文插图
三、开发工具全家桶 MindStudio 2.0 :即装即用 , 高度智能工欲善其事 , 必先利其器 , 全流程开发工具链MindStudio即是华为提供的AI开发“利器” 。
MindStudio 2.0提供了一套简单易用的一站式开发工具 , 可高效完成端到端全场景开发 , 让开发者从算子开发、模型训练、模型推理、应用开发到应用部署的全流程一套工具全部搞定 , 无需在不同工具上完成 , 有效降低开发门槛 。
本文插图
MindStudio可一键式完成安装部署、可视化模型开发和智能调优功能大大提高模型开发效率 , 算子开发方面则更加高效 。
总体来看 ,MindStudio 2.0能带给开发者即装即用、沉浸体验、智能准确三个优势 。
(1)即装即用:一键式自动化环境准备部署 , 三步完成软硬件安装 , 所有工具均提供插件形式 , 并基于开发场景提供各个环节的场景化指导文档 , 还为配置参数、专业术语等难理解词汇提供实时注释、链接和参考 。
本文插图
(2)沉浸体验:围绕开发流程提供一站式导视系统 , AI帮助一键补全算子开发的语法 , 关联文件自动高亮 , 针对不同开发对象自适应提供对应AI工具的快捷功能 , 减少开发过程中的操作步骤 , 并提供无边界UI设计 , 打造沉浸式开发体验 。
本文插图
(3)智能准确:基于用户认知提供硬件运行单元级别可视化的调优分析报告 , 基于不同维度提供多样化的模型精度对比结果 。
本文插图
除了提高开发效率外 , 华为昇腾还提供了用于优化模型训练、推理性能的工具 , 这些工具调用了CANN底层的能力来做亲和网络 。
例如 , 昇腾训练加速工具利用独有的Less BN(智能识别网络中不必要的BN算子)和随机冻结算法大幅提升模型训练效率 , 可将ResNet模型的训练吞吐量提高25.6%;昇腾模型压缩工具利用独有的智能算法加速推理进程 , 可将Yolov3模型推理速度提高47.2% 。
本文插图
结语:普惠 AI 的先行者如果我们对华为AI布局的认知仅限于冲锋在前的AI硬件产品 , 那就低估了华为的AI实力 。
从华为整体的昇腾计算产业来看 , 华为的全栈全场景AI解决方案正日臻完善 。 从底层IP核、芯片、硬件、芯片使能软件、开源AI框架等基础设施 , 到贴近应用的软件平台和行业SDK , 华为充分照顾到不同AI开发诉求 。
华为正遵循“硬件开放 , 软件开源 , 使能合作伙伴”策略 , 将昇腾AI定位为AI基础设施提供者和千行百业使能者 , 积极构建开放的生态 。
本文插图
华为还是那个“上不做应用、下不碰数据”的“黑土地”耕耘者 , 而华为昇腾计算的技术种子正由越来越多的生态伙伴们播撒到千行百业 。
“极简易用 , 让AI计算无处不在 , 极致性能 , 让AI计算触手可及”的AI战略 , 不止是面向行业客户 , 也在赋能广大的独立软件开发商和AI开发者 。
在华为昇腾AI计算业务的计划中 , 未来三年将发展100万名开发者 。
为了达成这一目标 , 华为昇腾已经面向高校、开发人员、初创企业等推出了合作伙伴计划 , 并提供从学习、产品构建到产品上市、销售的全方位激励机制 , 为跨越AI技术与行业应用的鸿沟积极贡献力量 。
截至今日 , 华为已联合超过60家高校开设昇腾课程 , 有100多家独立软件开发商(ISV)完成昇腾认证 , 已孵化120多起落地解决方案 , 培养了超过4万名开发者 。
在这生机盎然的信息时代转折时刻 , 我们正见证着AI不着痕迹地改变世界 。
【智东西|华为昇腾AI全栈软件平台首次全解读!重磅AI计算核弹齐发】而华为昇腾计算作为其中颇具战斗力的实力玩家 , 正以广而深的生态布局 , 拉动我国AI计算产业以更强的驱动力走向未来 。
推荐阅读
- SUV|美国再拉黑38家华为子公司!升级打压华为获取商用芯片
- 艾泰洗车机|还在排队高价洗车?艾泰智能洗车机,小米都不敢这么玩
- 星车记|超标电动车遇检查怎么办?只要有了这个东西,交警也只能放你走
- 恶魔之魂|数毛社成员表示 PS5次世代独占策略是个明智的选择
- 海关|解读|海关小姐姐教你办理原产地签证智能审单业务
- 武汉啤酒节|武汉啤酒节“东西湖制造”大获食客青睐
- 美将38家华为子公司列入实体清单|美将38家华为子公司列入实体清单 中国已别无选择
- 漏洞|华为称继续向预装Google Play手机提供更新;Mac纳入苹果独立维修商维修范围;三星智能手机生产
- 美将38家华为子公司列入实体清单|美将38家华为子公司列入实体清单,限制它们获得某些“敏感技术”
- 任务链|梦幻西游:机智玩家先升级再交环,结果还是喜闻乐见!
