科学探索|用机器学习生成观测数据?!仪器表示不服


科学探索|用机器学习生成观测数据?!仪器表示不服
本文插图

最近做了一个工作 , 用机器学习来生成太阳射电观测数据 。
结果还不错 。
但这并不意味着再发展一段时间 , 我们可以停止建新的仪器了 , 只用机器学习就可以生成所有数据了 。
这里是提供了一种思路: 使用大规模的神经网络 , 也就相当于用上百万个参数建立一个模型来描述两种数据的关系 , 这样当数据缺失的时候就可以用这种关系来尝试估计观测结果 。
接下来是详细展开:
为什么要观测?
对于天文学和空间物理等学科来说 , 观测是科学研究一个非常重要的研究手段 , 比如在研究等离子体性质的时候 , 地面上难以实现的超高真空和大尺度电磁场 , 在行星际就很常见 。 此时就可以通过观测来直接研究空间等离子体的性质 。
从60年代到现在 , 观测手段随着技术发展在不断升级:
科学探索|用机器学习生成观测数据?!仪器表示不服
本文插图

从简单机械结构透镜组到十八世纪复杂精密的大透镜组 , 再到现代化的电子观测设备 。
这些观测设备使我们能看到前所未有的距离处的天体的前所未有的细节 。

这其实带来另外一个问题 , 就是新旧数据质量差异问题 。 由于技术发展 , 相比于旧的数据 , 新数据分辨率非常高 , 质量非常好 , 所以大家(包括我)都很倾向于用新仪器新数据 。 一有新数据发布就跟打了鸡血一样申请数据处理数据 , 期待发现新东西 。
这里有一个统计和展望:过去几十年以及未来几十年的光学望远镜口径是以指数增长并且会保持这个增长趋势 。
科学探索|用机器学习生成观测数据?!仪器表示不服
本文插图

【Robust Microvibration Control and Worst-case Analysis for High Pointing Stability ,Space Missions】
数据时间连续性和空间连续性
很多现象和过程需要长期研究 , 比如太阳一个太阳周11年 , 几个周期过去 , 技术革新带来的仪器升级足以让人目瞪口呆 。 所以新的仪器新的数据虽然分辨率高 , 但是往往观测时间积累不足或者由于成本原因 , 空间覆盖率不足 。
Nature astronomy 发表过一篇封面文章:
科学探索|用机器学习生成观测数据?!仪器表示不服
本文插图

【Visualization of the challenges and limitations of the long-term sunspot number record】
这种数据不同质问题 , 其实是机器学习可以大显身手的地方 。
机器学习生成数据

机器学习弥补数据在时间和空间上的不连续性的方法是 , 让神经网络掌握数据之间的关系 , 以至于可以从相关数据中生成新的数据 。
比如我最近做的这个工作 , 出发点其实就是地基的太阳射电观测质量不稳定 , 连续性不好(晚上看不到太阳) , 所以希望通过天基探测器SDO/AIA的数据来生成射电成像图 。
使用的是UNet网络来实现这一目的 。
结构如下图 , 输入五张AIA图 , 吐出来一张射电成像图 , 因为AIA是连续观测的 , 一天24小时都有数据 , 而且数据稳定性很好 , 所以用于做生成数据的数据源很合适 。
科学探索|用机器学习生成观测数据?!仪器表示不服
本文插图

使用4*Titan Xp 训练了98小时网络收敛 。
生成了数据之后做了一些简要的对比 , 来验证生成情况
科学探索|用机器学习生成观测数据?!仪器表示不服
本文插图

选取了三个例子 , 分别是一个活跃时间的 , 一个不活跃的 , 一个地面台站观测失败的 。 第一行是观测 , 第二行是生成 , 第三行是观测值和预测值对比拟合图 。
可以看出 , 网络基本上可以较好地还原日面上的各种活动区和结构 , 但是绿色框框里耀斑没有很好的复原出来 , 因为数据集还不够大 , 没有足够的耀斑事件被引入进来 , 如果有更多的事件结果应该会更好一些 。
而且 , 最想说明的问题是 , 在地面站观测失败的时候 , 就是第三列 。 机器学习方法仍然可以给出一个估计 。 这就是我们前面所说的弥补连续性 。

当然 , 我们认为机器学习方法可以用来生成数据的基础是:两种数据有内在的联系 , 而神经网络可以掌握这种联系 , 所以在一种数据不大行的时候 , 就可以让神经网络使用另一种数据来生成这种数据 。
其实机器学习在天文物理中还有其他应用 , 比如分类问题 , 事件预测问题等 。
机器学习里面本身可能没什么物理 , 但是作为一个很棒的工具 , 可以让我们更方便地研究物理 。
【科学探索|用机器学习生成观测数据?!仪器表示不服】


    推荐阅读