挺进云端AI训练&推理双赛道!独家对话燧原科技COO张亚林:揭秘超高效率背后的“内功”( 三 )
自顶向下来看 , 应用层的Model Zoo中内置70多种主流模型 , 覆盖计算机视觉、自然语言处理和语音识别以及其他主流AI算法 。
在AI框架层 , 针对推理领域有很多自定义框架的特点 , 燧原打造了高性能神经网络模型推理引擎“鉴算TopsInference” , 能将标准化框架及客户自定义框架中的模型转化成驭算统一执行模型 。
下一层是SDK层 , 当所有模型被标准化后 , 燧原提供的图优化引擎“络算TopsNeuro”将模型解析成各种图结构 。 同时燧原还提供了包含各种分析调试及可视化工具的全套工具链“探算TopsKit” 。
再往下是算子库 , “擎算TopsOperator”支持500多个算子和80多个原子 , 能通过提供原生汇编实现与优化 , 挖掘更高的算力利用率 。
文章插图
而用户能不能自己定制算子、操作内部的推理栈 , 则需依靠TopsPrimo , 它给用户提供了标准化模型、框架之外的另一种选择 , 即自行通过编程来优化操作 。
最后在SDK层之下 , 是与硬件衔接的驱动层 。
由此 , 燧原打造出训练推理的整体解决方案 。 云燧i10与云燧T10以及“驭算TopsRider”软件平台搭配 , 可实现算法模型在数据中心训推一体化的快速生产部署 。
文章插图
四、火力配置均匀 , 向着目标进发张亚林告诉智东西 , 燧原的云端训练和推理产品路线图已经规划到三年以后 , 其团队正精准地按照这一路线图执行 。
这种“精准”的执行力 , 源自燧原“使命必达”的精神底蕴 。
以研发云燧i10为例 , 朝向在2020年12月31日完成量产的目标 , 燧原从今年3月启动在方案、架构和软件开发上的技术优化 , 早期受疫情限制主要集中于内部的远程开发 , 从5月起全面转向系统集成开发和和测试 。
得益于燧原从一开始就建立了远程工作机制 , 早早搭建完善的内部集群环境 , 能支撑数百人的多团队从多个地域并行开发 。 即便遭逢疫情 , 燧原的云端训练产品落地和云端推理产品研发进度均未受到影响 。
文章插图
燧原云端推理计算卡“云燧i10”
为了提升能效比 , 燧原团队决定在云端推理计算卡上采用动态调频调压(DVFS)技术 , 始终在设定的条件内跑最高的电压和频率 , 这一技术对精确度的要求非常高 。
顶着让板卡实现30天全负荷工作不死机、不过热的巨大压力 , 从10月开始 , 量产团队在燧原实验室中连续一个月全负荷紧急攻关调试 , 每个人都背负着巨大的责任感 , 将工作任务严格控制到每一天 , 1个月后板卡顺利通过抗压测试 。
除了系统量产团队外 , 在产品研发方面 , 燧原还有其他三个主要团队 , 分别是芯片团队、软件团队以及客户解决方案团队 。 在燧原文化的驱动下 , 这四个团队紧密协同 , 实现了燧原从项目伊始到整个大系统量产的高效执行力 。
其中 , 研发人员是燧原团队的主力军 , 占总员工人数的近90% 。 除了重视研发外 , 面向客户服务的员工数量也在持续增长 。
如今 , 燧原已建立了全建制的商务和研发部门 , 包括产品市场、商务销售、客户方案及供应链等部门 , 更好地为客户提供服务 。
张亚林认为 , 在企业初创阶段 , 需要一些非常资深的人来把控产品和落地等方向 , 但随着团队逐步扩张 , 芯片公司就像一个火力配置均匀的集团军 , 有各种兵种 , 包括做验证的、做设计的、做架构设计的等等 。
“我不认为一个公司全是「特种兵」” , 张亚林特别提到 , 这不是有效的组织结构 , 当一个公司达到某一阶段 , 就需要实现“火力均衡配置、各种兵种互相协同高效运作的组织” 。
推荐阅读
- 消防|阿里云AIoT云端一体重磅新品 国内首款安消一体机评测报告
- 研究人员吐槽当前AI训练效率过于低下
- Cloud PC服务曝光:将Windows 10桌面挪到云端
- 5G云游戏,云端存储有多爽?移动5G测评官当场试玩,体验大升级
- 研究人员吐槽当前的AI训练效率不高 浪费太多精力和能源
- 小度、天猫精灵、小爱同学挤占的智能音箱赛道:生死分明,寡头挺进
- Aruba全新解决方案助力转型,迈向边缘到云端的“多数据中心”
- 科技赋能惠民,山东邮政与顺能网络携手助力医养健康云端服务
- 各平台持续霸榜 realme挺进国内5G手机出货量TOP5
- 心率训练法科学指导 华为健跑沙龙北京站热情开跑