30名工程师,历时1300天打造,又一“国产”AI框架开源了( 三 )


这个问题我在微软研究了一年,这种基于好奇心的研究又回到了计算的手段上 。而当时的很多框架,要实现这种研究都不可能,这项研究只好无疾而终 。我后面在微软又做了主题模型LightLDA,是一个非常大规模的模型,我更加相信,框架不能仅仅停留在做CNN这种很小参数量的模型 。2014年年底,那时TensorFlow还没发布,我已经开始想象未来的深度学习框架是什么样 。
后来,Caffe、TensorFlow发布后,仍然解不了我想要解决的巨大模型问题 。所以,我还是要想办法用一种技术或者架构去设计出一个框架来支持大模型研究 。
作为科学家,我有好奇心,就要竭尽全能去验证,我不想因为工具的缺失,验证不了一个idea 。这就启发我和团队一直往这个方向去想,我们也去看别人框架怎么做,从历史中去学习经验,包括硬件迭代、高性能网络等等,最后不断提炼,把路线走通 。
CSDN:回到OneFlow框架整体的定位,它是一个首创了静态调度和流式执行架构的ML框架,这个核心定位到今天开源有没有发生过变化?
袁进辉:没有,因为问题没有变化 。当时能想到的最好方法也就是这样的,从那时到现在好几年时间把几十个关键难题打通,现在的确看到效果是符合预期的 。
如果说有什么扩展的话 。过去一两年整个行业最大的变化就是PyTorch的崛起,应该很少人都预计到它能通过易用性捕获那么多用户,当然,易用性背后也有动态执行等一套技术支持,现在大家都这么搞了 。所以在静态调度和流式执行外,OneFlow也补充了动态图执行的机制 。

30名工程师,历时1300天打造,又一“国产”AI框架开源了

文章插图
开发者上手门槛高不高
CSDN:OneFlow更多强调的是工业级落地,对学界的开发者支持力度怎么样?
袁进辉:应该说,学界开发者也是我们很重视的 。首先,已经提供了一些比较经典的模型,单机单卡的使用体验实事求是说和PyTorch有差距,但我认为会迟早追上 。如果想用多机多卡或是单机多卡,OneFlow会很有优势,一个是效率的优势,一个是易编程的优势 。
CSDN:开发者上手容易吗?
袁进辉:我们努力把它做到上手体验和其他框架差不多,但我们为了提升分布式的易用性,引入了一些新的概念,可能需要开发者去了解、学习一下 。当然,在单卡的情况下,和其它框架是差不多的,即使有差距我们也会更快补上 。
CSDN:文档写得够详细吗?
袁进辉:文档分三个层次 。一部分是API文档,我们每个OP和TensorFlow、PyTorch几乎是一样的,而且即使有的地方没有文档,你看TensorFlow或PyTorch的文档也够了;还有用户搭建模型的文档,是比较全的;设计文档涉及到代码里面的架构,这是欠缺的,框架开源之后希望快速补上,我们会先放出一些比较high level的设计文档 。
CSDN:开源后,框架会如何优化?
袁进辉:我们要做的事还真的蛮多 。有模型库的建设,我们希望用户最需要的那些模型都在OneFlow上有实现,而且在业界有竞争力,还要做和其他框架的兼容,文档的也要做 。
还有一些比较深的技术难题,包括在框架和编译器,非常动态的神经网络,以及偏稀疏的网络怎么能在OneFlow框架上支持 。
CSDN:在支持上层应用落地上,你们是做to B服务,在场景落地和客户的选择上是否有优先次序的筛选?
袁进辉:肯定有 。OneFlow框架主打效率和扩展,特别是头部的互联网企业、AI企业就有这个需求,我们并不是从这类企业里面去挣钱,而是真的满足它的需求,我们也愿意去做支持,希望能做成标杆客户,纯粹是为了增加OneFlow的应用场景 。
CSDN:开源后,商业化进程有没有什么计划?
袁进辉:框架要在整个平台下面去做商业化,需要和很多其他的模块系统配合,所以我们是有私有部署的解决方案,特别是传统大型企业背后的算力中心需要整套解决方案,这可以作为近期商业服务收入,未来要向云服务发展 。
30名工程师,历时1300天打造,又一“国产”AI框架开源了

文章插图
百家争鸣还是在向终局收敛
CSDN:你现在还能相对客观的评价和总结一下,市面上其他主流框架的优势和不足吗?
袁进辉:先声明这是利益相关 。我是遵从内心,还是不得罪别人呢?
TensorFlow,我觉得是最好,编译器、框架、 serving、 lite、可视化等都有,还有非常强大的算法科学家、应用场景和工程团队的支持,社区和生态非常强 。不足之处是大而全,在任何一个单点上总能找到比它更好一点的框架,TensorFlow历史包袱太重,系统太复杂,难以及时吸收框架技术的新突破 。


推荐阅读