新书|UC伯克利马毅七年力作!700页新书探究低维模型与高维数据分析( 二 )


但是,数据丰富并不一定意味着“信息丰富”,至少不是免费的。我们正在收集大量数据,有时事先没有任何特定目的。科学家或工程师通常不再直接控制数据采集过程。因此,任何给定的新任务都可能被大量无关或冗余的数据淹没。
为了直观地了解为什么会出现这种情况,让我们首先考虑一下人脸识别问题:
 新书|UC伯克利马毅七年力作!700页新书探究低维模型与高维数据分析
文章插图
对于人眼来说,上面两张图像都能很好地传达人物的身份,即使第二个图像的像素仅为第一个图像的1/100。
换言之,如果我们将两幅图像视为矢量,其像素值为坐标,那么低分辨率图像矢量的维数仅为原始图像矢量的1/100。显然,关于一个人身份的信息依赖于比原始高分辨率图像低得多的统计数据。这就是本书要探讨的高维空间中低维结构的研究。
在高维空间中识别信号或数据的低维结构问题是一个最基本的问题,它贯穿了系统理论、信号处理、模式识别、机器学习和统计学等许多工程和数学领域。
现实世界中信号或数据的低维性通常是由数据产生的内在物理机制引起的。许多真实世界中的信号或数据都是由某些生成机制控制的物理过程的观察结果。例如,磁共振(MR)是通过操纵服从麦克斯韦方程组的磁场而产生的;任何机械系统(如汽车和机器人)的动力学都遵循牛顿运动定律。
从数学上讲,这种动力学通常可以用一组微分方程来建模,在系统理论中也称为状态空间模型。
当然,许多其他因素可能归因于现实世界数据中普遍存在的低维结构,这些结构不一定涉及自然动力学或序列顺序。另一个原因是,由于人类的影响,大量的程序都是由低维代码建立的。
而近二十年来,高维空间中低维结构的研究取得了爆炸性的发展。在很大程度上,具有代表性的低维模型(如稀疏和低秩及其变体和扩展)的几何和统计特性已经得到了很好的理解。这些模型在何种条件下可以有效地从(最小采样量)数据中恢复,已经得到了明确的描述。为了从高维数据中恢复这种低维模型,已经开发了许多高效和可扩展的算法。
这些算法的工作条件和计算复杂性也得到了充分的描述。这些新的理论成果和算法彻底改变了数据科学和信号处理的实践,并对传感、成像和信息处理产生了重大影响。在科学想象、图像处理、计算机视觉、生物信息学、信息检索和机器学习等领域,它们显著提高了许多应用领域的技术水平。正如我们将从本书中介绍的应用程序中看到的,其中一些开发似乎违背了传统的智慧。
作为这些历史进步的见证者,我们认为现在时机已经成熟,可以对这一新的知识体系进行全面的综述,并在统一的理论和计算框架下组织这些丰富的成果。
关于这一主题,有许多优秀的现有书籍已经集中在压缩感知和稀疏模型的数学原理上。然而,本书的目标是通过真正有效的计算,弥合用于高维数据分析的低维模型的原理和应用之间的差距:
因此,这本书不仅建立了建模低维结构的数学原理并解释了何时可以恢复它们,而且还展示了如何利用经典和最新的优化发展来系统地开发可证明有效和可扩展的算法来解决恢复问题。
此外,通过丰富的科学技术应用范例的收集,本书旨在进一步指导读者和学生如何融入额外的领域和具体问题的知识,以便正确地应用这些新的原则和方法成功地建模和解决现实世界的问题。尽管本书中的应用不可避免地会受到作者在实践这些一般原则和方法方面的专业知识和经验的影响,但本书的内容是经过精心挑选的,以传达我们所学到的各种各样的、互补的经验教训(通常是以艰难的方式)。
我们相信这些经验教训对理论工作者和实践工作者都有很大的价值。
3
目标受众与组织结构
目标受众
在许多方面,本书所涵盖的知识体系对数据科学领域的年轻研究人员和学生具有很大的教学价值。通过严格的数学发展,我们希望我们的读者能够获得关于高维几何和统计学的新知识和见解,远远超过经典信号处理和数据分析中已经建立的知识和见解。


推荐阅读