Mr数据杨|数据化运营-优秀的运营人必备的数据预处理12条（下）( 二 ) 数据预处理是数据操作过程的重要组成部

3.增强模型的稳定性和准确性。数据离散化后，处于异常状态的数据将不会清楚地突出显示异常特征，但是会被分成子集的一部分。
时间数据离散化
离散时间。通常，时间戳会转换为秒，分钟，小时或早晨和下午。通常，日期会转换为星期数，星期几，月份，工作日或休息日，季度，年份等。
时间数据离散化可以将细粒度的时间序列数据离散化为粗粒度的三类数据：
1.离散化为分类数据，例如上午和下午；
2.离散化为连续数据，例如星期一，星期二，星期三；
3.离散化是数字数据。例如，一年中有52周，而周数是数字数据。
多值离散数
多值离散数据的离散化指的是要进行离散化处理的数据本身不是数值型数据，而是分类或顺序数据。例如，用户收入变量的值最初可以分为10个间隔。根据新的建模要求，仅需要划分4个间隔，然后将原来的10个间隔合并。
为了离散化多值离散数据，除法逻辑可能存在问题，需要重新除法。此问题通常是由于业务逻辑的变化所致，导致原始数据中不同历史数据下的范围定义不同。例如，用户活动变量的值最初分为三类：高值，中值和低值。根据业务发展的需要，将新的用户活动变量的值定义为高值，中值，低值和负值。此时，有必要按照统一规则离散化不同类型的数据。
连续数据离散化
连续数据离散化是主要的离散化应用，在分类或关联分析中应用尤其广泛，这些算法的结果以类别或属性标识为基础，而非数值标记。例如，分类规则的典型结果逻辑是：如果变量1=值1并且变量2=值2那么目标变量（T）连续数据的离散化结果可以分为两类：一类是将连续数据划分为特定区间的集合，例如{（0 ， 10] ，（10 ， 20] ，（20 ， 50] ，（50 ， 100]}；一类是将连续数据划分为特定类，例如类1、类2、类3；常见实现针对连续数据离散化的方法包括：
1.分位数法：使用四分位数，五分位数，十分位数和其他分位数进行离散化。
2.距离间隔方法：可以使用等距间隔或自定义间隔执行离散化。此操作更加灵活，可以满足自定义要求。另外，这种方法（尤其是等距间隔）可以更好地保持原始数据的分布。
3.频率间隔法：根据不同数据的频率分布对数据进行排序，然后根据相等的频率或指定的频率离散化。此方法会将数据转换为均匀分布。好处是每个间隔中的观测值是相同的，但缺点是原始数据的分发状态已更改。
4.聚类方法：例如，使用K均值将样本集划分为多个离散聚类。
5.卡方：通过使用基于卡方的离散化方法，找到数据的最佳相邻间隔并合并以形成较大的间隔。
连续数据的二值化
在许多情况下，我们可能需要对变量特征进行二值化：将每个数据点与阈值进行比较，将大于阈值的值设置为固定值（例如1），将小于阈值的值设置为a固定值（例如0），然后获得只有两个值范围的二进制数据集。
二值化后的值设置取决于场景。例如，大多数数据处理可以设置为1或0 。在图像处理中，将其设置为0或255 。只要满足对后续数据和结果的识别，理解和应用，对如何设置就没有固定要求。二值化的前提是数据集中的所有属性值都表示相同或相似的含义。例如，通过读取图像获得的数据集是颜色值的集合（特定的颜色模式取决于读取图像时的模式设置，例如灰度， RGB等），因此每个数据点代表颜色，此时可以对整个数据集进行二值化处理。在某些情况下，也可能仅对特定列执行二值化，因此尽管不同列的属性不同，但同一列中生成的二值化结果仍然具有比较和分类的意义。
数据处理应考虑哪些运营业务因素
数据处理不仅取决于数据工作人员的经验，还取决于实际的运营业务因素。这种同时考虑了两种工作逻辑的工作方法将帮助数据工作人员避免出现弯路，并减少数据项目失败的可能性。它还将有助于提高数据工作的效率和输出，并真正使运营能够理解和应用数据来推动业务。

Mr数据杨|数据化运营-优秀的运营人必备的数据预处理12条（下）( 二 )

推荐阅读

[易象读书]立原正秋：情死

取消农村户口并不是坏事，如果能解决这4大问题，可真赚大发了！

孕妇可以剪指甲吗?

|新一代电视墙出现，打个柜子把电视“嵌”进去，不留缝隙超大气

【】第二批全国乡村旅游重点村名单公布 680个村有你们村吗？

[宠物萌哒]苏青棕色毛衣配背带裤，优雅不失少女感，这才是30岁女人的模样

猴子嘻哈@会融化爱人的心，男生都抢着要追的四大生肖女，温柔又暖心

[天山可可]不要忽略米饭的搭配，春天吃减肥又长劲，很适合糖友们吃

新华社客户端|中国粮食安全的底气从何而来？

央视网|日本今日启动万人规模新冠病毒抗体检测

人民日报数字安徽|迸发新活力，中新苏滁高新区：一体化与高质量两手抓

有没有好吃又不长胖的零食啊

智通财经|东方证券(03958)将于6月29日派发2019年度现金红利每股A股0.15元

如何建立一个企业网站

萝卜菜叶萝卜菜叶孕妇可以吃吗

开国元勋|伟大领袖毛主席午休当众席地而睡，感动了多少人

北京地区|“十三五”前四年北京GDP累计增超万亿

#中新网#驻日美军误投模拟弹遭日方抗议已暂停同类训练

犯罪|农户家中来了一条蛇，这时……

壹点点儿@有勇气接受一无所获的等待，早安心语：有耐心等待合适的时机