Mr数据杨|数据化运营-优秀的运营人必备的数据预处理12条(下)( 二 )


3.增强模型的稳定性和准确性 。 数据离散化后 , 处于异常状态的数据将不会清楚地突出显示异常特征 , 但是会被分成子集的一部分 。
时间数据离散化
离散时间 。 通常 , 时间戳会转换为秒 , 分钟 , 小时或早晨和下午 。 通常 , 日期会转换为星期数 , 星期几 , 月份 , 工作日或休息日 , 季度 , 年份等 。
时间数据离散化可以将细粒度的时间序列数据离散化为粗粒度的三类数据:
1.离散化为分类数据 , 例如上午和下午;
2.离散化为连续数据 , 例如星期一 , 星期二 , 星期三;
3.离散化是数字数据 。 例如 , 一年中有52周 , 而周数是数字数据 。
多值离散数
多值离散数据的离散化指的是要进行离散化处理的数据本身不是数值型数据 , 而是分类或顺序数据 。 例如 , 用户收入变量的值最初可以分为10个间隔 。 根据新的建模要求 , 仅需要划分4个间隔 , 然后将原来的10个间隔合并 。
为了离散化多值离散数据 , 除法逻辑可能存在问题 , 需要重新除法 。 此问题通常是由于业务逻辑的变化所致 , 导致原始数据中不同历史数据下的范围定义不同 。 例如 , 用户活动变量的值最初分为三类:高值 , 中值和低值 。 根据业务发展的需要 , 将新的用户活动变量的值定义为高值 , 中值 , 低值和负值 。 此时 , 有必要按照统一规则离散化不同类型的数据 。
连续数据离散化
连续数据离散化是主要的离散化应用 , 在分类或关联分析中应用尤其广泛 , 这些算法的结果以类别或属性标识为基础 , 而非数值标记 。 例如 , 分类规则的典型结果逻辑是:如果变量1=值1并且变量2=值2那么目标变量(T)连续数据的离散化结果可以分为两类:一类是将连续数据划分为特定区间的集合 , 例如{(0 , 10] , (10 , 20] , (20 , 50] , (50 , 100]};一类是将连续数据划分为特定类 , 例如类1、类2、类3;常见实现针对连续数据离散化的方法包括:
1.分位数法:使用四分位数 , 五分位数 , 十分位数和其他分位数进行离散化 。
2.距离间隔方法:可以使用等距间隔或自定义间隔执行离散化 。 此操作更加灵活 , 可以满足自定义要求 。 另外 , 这种方法(尤其是等距间隔)可以更好地保持原始数据的分布 。
3.频率间隔法:根据不同数据的频率分布对数据进行排序 , 然后根据相等的频率或指定的频率离散化 。 此方法会将数据转换为均匀分布 。 好处是每个间隔中的观测值是相同的 , 但缺点是原始数据的分发状态已更改 。
4.聚类方法:例如 , 使用K均值将样本集划分为多个离散聚类 。
5.卡方:通过使用基于卡方的离散化方法 , 找到数据的最佳相邻间隔并合并以形成较大的间隔 。
连续数据的二值化
在许多情况下 , 我们可能需要对变量特征进行二值化:将每个数据点与阈值进行比较 , 将大于阈值的值设置为固定值(例如1) , 将小于阈值的值设置为a固定值(例如0) , 然后获得只有两个值范围的二进制数据集 。
二值化后的值设置取决于场景 。 例如 , 大多数数据处理可以设置为1或0 。 在图像处理中 , 将其设置为0或255 。 只要满足对后续数据和结果的识别 , 理解和应用 , 对如何设置就没有固定要求 。 二值化的前提是数据集中的所有属性值都表示相同或相似的含义 。 例如 , 通过读取图像获得的数据集是颜色值的集合(特定的颜色模式取决于读取图像时的模式设置 , 例如灰度 , RGB等) , 因此每个数据点代表颜色 , 此时可以对整个数据集进行二值化处理 。 在某些情况下 , 也可能仅对特定列执行二值化 , 因此尽管不同列的属性不同 , 但同一列中生成的二值化结果仍然具有比较和分类的意义 。
数据处理应考虑哪些运营业务因素
数据处理不仅取决于数据工作人员的经验 , 还取决于实际的运营业务因素 。 这种同时考虑了两种工作逻辑的工作方法将帮助数据工作人员避免出现弯路 , 并减少数据项目失败的可能性 。 它还将有助于提高数据工作的效率和输出 , 并真正使运营能够理解和应用数据来推动业务 。


推荐阅读