科技圈在这里 直观形象的理解维度诅咒:会造成数据点孤独

维度诅咒 , 也就是维数灾难(CurseofDimensionality)是一个最早由理查德·贝尔曼(RichardE.Bellman)在考虑优化问题时首次提出来的术语 , 用来描述当(数学)空间维度增加时 , 分析和组织高维空间(通常有成百上千维) , 因体积指数增加而遇到各种问题场景 。 这样的难题在低维空间中不会遇到 , 如物理空间通常只用三维来建模 。
举例来说 , 100个平均分布的点能把一个单位区间以每个点距离不超过0.01采样;而当维度增加到10后 , 如果以相邻点距离不超过0.01小方格采样一单位超正方体 , 则需要1020个采样点:所以 , 这个10维的超正方体也可以说是比单位区间大1018倍 。 (这个是理查德·贝尔曼所举的例子)
在很多领域中 , 如采样、组合数学、机器学习和数据挖掘都有提及到这个名字的现象 。 这些问题的共同特色是当维数提高时 , 空间的体积提高太快 , 因而可用数据变得很稀疏 。
稀疏性对于任何要求有统计学意义的方法而言都是一个问题 , 为了获得在统计学上正确并且有可靠的结果 , 用来支撑这一结果所需要的数据量通常随着维数的提高而呈指数级增长 。
而且 , 在组织和搜索数据时也有赖于检测对象区域 , 这些区域中的对象通过相似度属性而形成分组 。 然而在高维空间中 , 所有的数据都很稀疏 , 从很多角度看都不相似 , 因而平常使用的数据组织策略变得极其低效 。
稀疏代表着孤独 , 所以 , 维度诅咒本质上就是孤独
一维
想象一下 , 你坐在一个大教室里 , 周围被好友们包围着 。
科技圈在这里 直观形象的理解维度诅咒:会造成数据点孤独
文章图片
通过将房间调暗并从房间背面照亮明亮的光线 , 让你处于一个维度 。 你的阴影投到前墙上的一条线上 。 在那条线上 , 你是其中一个点 。 你和你的同学都是沙丁鱼罐头 , 全都一字排开 。 一维舒适!太容易理解了 。
科技圈在这里 直观形象的理解维度诅咒:会造成数据点孤独
文章图片
科技圈在这里 直观形象的理解维度诅咒:会造成数据点孤独
文章图片
二维
为了给你呼吸的空间 , 让我们添加一个维度 。 我们处于2D模式,平面是房间的地板 。 在这个空间中 , 你和你的朋友更加分散 。
科技圈在这里 直观形象的理解维度诅咒:会造成数据点孤独
文章图片
三维
让我们通过将每个人随机发送到你所在的5层建筑的一层来增加第三个维度 。
科技圈在这里 直观形象的理解维度诅咒:会造成数据点孤独
文章图片
突然之间 , 你不再被朋友所包围 。 你身边很寂寞 。 如果你喜欢几乎每个座位上的学生感觉 , 那么您现在很悲哀地凝视着很多空椅子 。 你开始眼花缭乱 , 但是至少你的一个伙伴可能仍在附近……
科技圈在这里 直观形象的理解维度诅咒:会造成数据点孤独
文章图片
四维
不是很长!让我们添加另一个维度 , 时间 。
科技圈在这里 直观形象的理解维度诅咒:会造成数据点孤独
文章图片
在不同的时间 , 这些学生分布在该课程的60分钟部分(位于不同楼层)中-我们将自己限制在9节课中 , 因为讲师需要睡眠和一些生命活动 。 因此 , 如果你有幸在此之前仍然有同伴提供情感支持 , 那么我很自信你现在在社交上与外界保持距离 。 如果你在孤独时无法发挥作用 , 那就加油!我们有问题 。 维度的诅咒来了!
科技圈在这里 直观形象的理解维度诅咒:会造成数据点孤独
文章图片
更多维度
随着我们添加维度 , 你会非常非常快速地孤独 。 如果我们要确保每个学生都和2D一样被朋友所包围 , 那么我们将需要学生 。 其中很多 。
科技圈在这里 直观形象的理解维度诅咒:会造成数据点孤独
文章图片
这里最重要的想法是 , 我们必须成倍地而不是线性地招募更多的朋友 , 以使您的蓝调保持稳定 。


推荐阅读