中年|基于芯片研发平台构建运维体系


说起芯片研发平台的运维 , 一定要从EDA(电子设计自动化)研发环境的信息化建设说起 。 一块电脑主板的研发 , 到整台服务器的研发 , 都涉及到EDA研发环境的运维 , 是一个复杂的信息化运维体系的构建 , 今天在这里抛砖引玉 , 我们就一起来聊聊 。
笔者最早接触EDA研发环境 , 大约是在2006年左右 , 当时 , 国内智能手机行业兴起 , 智能手机的研发 , 相较于个人电脑、服务器来说 , 主板体积更小 , 集成度更高 , 研发的难度也更高一些 。 而在近几年 , 由于AI行业的快速发展 , AI芯片的研发 , 正是风起云涌 , 下面我们就谈谈AI芯片研发环境的运维体系建设 。
规划一个平台 , 首先要从业务角度去考量 。 这里先大概介绍下芯片研发的过程和可能用到的工具 , 便于大家有个初步的理解 。
中年|基于芯片研发平台构建运维体系
本文插图

图1:引自台积电工程师培训资料(已授权)
我们这里以应用Synopsys公司的VCS(verilog compiled simulator)工具展开介绍 。 以下是VCS产品的官方介绍:
中年|基于芯片研发平台构建运维体系
本文插图

图2:引自Synopsys官方网站
VCS主要处理两个方面的任务:
编译:根据用户的输入文件 , 编译产生可执行文件(默认为二进制文件simv) , 产生的文件用于仿真任务 。

仿真:检查波形结果 。
VCS本身只支持单机形式安装部署 , 但是 , 一般情况下 , 需要大量并行计算资源支持的 , 所以 , 为了提供更多的并行计算能力来加速运算 , 我们通常会应用任务编排调度系统搭建集群平台 。
IBM在商业化的任务编排调度系统的研发实力是最强的 , IBM LSF也是最为推荐的平台之一 。 之前有开源版本的openlava , 后来由于版权原因 , 项目已经取消 。 建议企业根据平台的规模和应用IBM LSF后的产出能力做性价比评估来决定是否应用这样的平台 , 笔者还是很推荐的 , 因为 , 芯片研发效率就是芯片产品的核心竞争力 , 之所以我们选择Synopsys这样的研发工具也是同样的道理 。
架构如下:
中年|基于芯片研发平台构建运维体系
本文插图

图3:引自IBM LSF产品官方介绍Slide
规划了应用层 , 我们还要考虑数据层、网络层、安全层 , 下面逐个展开介绍:数据存储有两种方式可选:
分布式存储系统:多存储主机构建的高IO的存储系统 , 如:Ceph、Gluster、HDFS
集中存储系统:FCSAN 或者 IBSAN(基于infiniband网络构建) , 比较推荐后者 , 国内存储系统代表如:华为oceanstor系列 。

芯片研发的核心数据 , 主要是保存仿真后的波形数据文件 , 数据量并不大;大量的数据是在仿真过程中生成的10M以下的小文件 , 这些文件均为临时性文件 , 仿真后需要进行清理 , 不需要永久性保存 。
当然 , 为了保证数据安全 , 同样要规划数据备份系统 , 对不同版本的仿真结果文件备份存储 。 需要根据数据量和实际情况自行选择 , 这里不再展开介绍 。
网络方面 , 除了数据存储建议使用Infiniband网络外 , 业务通信网络推荐10Gbps网络即可 。 业务通信主要是保证网络高可用性 , 性能方面没有过多要求 。 当然 , 需要为物理服务器的带外管理规划远端管理网络 。
安全方面 , 除了在网络和系统层面进行加固外 , 谈一下在接入研发系统层面的加固 。 笔者建议 , 通过虚拟化桌面的形式 , 接入到研发系统 。 这样可以在研发系统外 , 增加管控接入系统的安全策略 , 大大提升安全性 。 当然 , 在规划安全时 , 一定要考虑到研发人员的便捷性 , 只有灵活度、性能得到认可的情形下 , 去谈安全性的好坏 , 才是最有意义的 , 以防出现研发团队工作积极性降低、或者降低研发效率的事情出现 。


推荐阅读