科技圈在这里直观形象的理解维度诅咒：会造成数据点孤独( 二 ) 维度诅咒

如果我们增加两个维度，就不能简单地补偿另外两个学生…甚至两个教室的学生价值。如果我们最初从教室里的50名学生开始，并且增加了5层楼和9个班级，那么我们需要的学生人数是5x9=45倍，以使彼此保持尽可能多的50人陪伴。因此，我们需要45x50=2,250名学生来避免孤独感。每个维度多了一个额外的学生！数据需求迅速上升。
添加维度时，最低数据要求可能会迅速增长。
每次上维时，我们都需要招募更多很多学生（数据点）。如果数据对您来说太昂贵了，那么这个诅咒真的不是笑话！
维数
并非所有的机器学习算法在面对我的时候都会变得如此激动。当然，像这样的方法是完整的。对于名称缩写代表k-NearestNeighbors的方法来说，这并不令人惊讶-它是关于计算相邻数据点的信息，因此，数据点是相邻的非常重要。
在维度方面，其他方法要健壮得多。例如，线性回归就是，一旦拥有足够数量的数据点，增加或减少维数就不会造成灾难性的内爆。
*这并不意味着它可以抵抗所有虐待！如果你从不知道只有一个异常值或添加一个近乎重复的功能会带来最小二乘方法的混乱（犯罪的拿破仑，多重共线性，再次打击！），那么请考虑一下自己。没有一种方法适合每种情况。而且，是的，其中包括神经网络。
我们应该怎么做？
在实践中，你将如何处理维数的诅咒？如果你是机器学习研究人员，则最好知道你的算法是否存在此问题。你如果读了本文，你可能想考虑是否有可能设计自己发明的对维度不太敏感的算法。你的许多客户都喜欢他们在特征齐全的方面的矩阵** ，尤其是当事情变得文本化时。
**按惯例，我们将数据排列在矩阵中，行表示样例，而列为特征。在这种情况下，一个又高又瘦的矩阵有很多例子，分布在几个维度上。
如果你是应用数据科学的爱好者，那么你将做自己经常做的事-在尝试将厨房水槽扔给它之前，仅使用一个或几个有前途的特征就可以获得算法性能的基准。
有些方法只适用于高的、瘦的数据集，所以如果你觉得被诅咒，你可能需要把你的数据集压缩。
如果你的方法在有限数量的特征上工作得很好，然后在增加维度时向你吹了覆盆子，那么这可能是坚持选择了一些特征（或者如果你正在精打细算，则是逐步选择）或首先通过运行一些可爱的特征工程技术在原始的厨房水槽中做一些超级特征（可以尝试一些老派做法，例如主成分分析（PCA），到今天仍然有用，特征向量永远不会过时，再到更现代的事情）例如自动编码器和其他神经网络的娱乐时间）。你真的不需要知道维度诅咒一词，如果它困扰您……现在你可以摆脱烦恼。

文章图片
总结一下：随着你添加越来越多的（列），你需要数量呈指数增长的（行）来克服数据点在空间中的分布情况。有些方法仅适用于瘦长的数据集，因此，如果你感到被诅咒，可能需要压缩。

文章图片
【科技圈在这里直观形象的理解维度诅咒：会造成数据点孤独】PS：如果将''封闭空间''解释为与比例尺有关，那么让我说对了。这与以英里/厘米为单位测量的效果无关，因此我们不会为造成的麻烦而指责不断扩大的宇宙-并且不能通过简单的乘法来躲避诅咒。取而代之的是，这张照片可能会帮助你以3D方式直观地了解它。我要说的是，这有多大，呃，我的意思是喵喵发射器……而更多的是它所覆盖的花生包装数量的问题。

科技圈在这里直观形象的理解维度诅咒：会造成数据点孤独( 二 )

推荐阅读

「嘻哈段子」但是我就是喜欢这样的垃圾，十条笑话：他是哪里都没你好

瑜伽能改变肥胖吗？

饮茶不能抵消患肿瘤风险

手机日期怎么改 oppo手机日期怎么改

爱龙爱炫车|突然全身瘫痪，靠轮椅生活，马上要成为湖南台“一姐”

#梅西#近日，巴萨传来关键消息：梅西3天内定去留，可以自由身离队！

花儿朵朵|号称明朝最强的15万锦衣卫做了什么，怎么没有救国？，明朝灭亡时

IT之家|12定价仍将涨50美元，分析师：即使不附赠EarPods/充电器，iPhone

车漫部落|马自达“电改油”SUV开售，车漫联播：东本版飞度官图来了

苏州金融圈|助力企业点燃“薪”火，苏州中行发放“薪金云贷”

宋亚轩|宋亚轩连续三年卡点为谭维维庆生，再唱那首歌惹得粉丝泪奔

|进入初三的女生，最好远离这“3种同学”，不然影响中考

风去了无痕D|赵云长坂坡七进七出到底是不是真的？

每天健身多长时间最佳,每天健身为什么不瘦

“童模”包装产业链背後：孩子的成长才最重要

NASA：美国选举日前一颗小行星正朝地球飞来

三大|大金融板块再度大涨沪指站上3400点

红星美羚｜奶粉的“香味”和“质量”？不得不说的那些事

飞龙聊体育|球迷：专门针对利拉德，湖人终迎好消息！大将伤愈归来将出战首轮

湖人队▲刚刚！NBA传来3条消息！小卡被夸、欧文一战成名、湖人有喜讯

科技圈在这里 直观形象的理解维度诅咒：会造成数据点孤独( 二 )

推荐阅读

科技圈在这里直观形象的理解维度诅咒：会造成数据点孤独( 二 )