Mr数据杨|数据化运营-优秀的运营人必备的数据预处理12条(下)( 四 )


对于满足以上特征的数据场景 , 数据工作人员需要仔细考虑是否继续投入资源 , 必须及时提出需要拒绝的资源 , 以免造成数据工作项目失败 , 降低数据工作的价值 。
考虑交付时 , 应适合作战着陆现场
尽管数据处理只是一个中间过程 , 但尚未到达数据分析 , 建模 , 部署和应用的后期阶段 , 但是此阶段的许多工作将直接影响以后的交付和操作 。
典型因素包括:
1.保持原始指标:以后需要使用原始业务指标(变量) , 以促进业务理解和应用 。 如果有类似的要求 , 则数据转换方法不能用于数据处理(如降维) , 应根据实际情况以多种方式选择维或不选择降维 。
2.更易于理解的算法模型:某些运算符可能更“严肃” , 将非常重视算法模型的实现过程 。 如果使用无法解释特定过程的算法(例如神经网络的实现过程)或难以理解的算法(例如SVM中的超平面) , 则此类运算符通常会怀疑算法的有效性和正确性 。 数据工作 。 此时 , 选择一个更易于理解的算法模型(例如决策树 , 线性回归等)比算法的准确性和及时性更为重要 。 在数据处理过程中 , 应针对这些易于理解的模型进行目标数据处理 。
3.数据生产和应用环境:如果数据工作项目的结果不是分析或挖掘报告 , 则需要以编程方式执行 , 因此交付通常是代码或脚本 。 当数据处理程序发布并联机时 , 应尽可能使用生产和应用程序中的现有模块 , 环境 , 库 , 语言和版本 , 以减少附加部署 , 开发和维护的工作量 。
不要忽视业务专家的经验
1.数据工作方向:数据工作方向是指在整个数据工作项目中需要完成的工作 , 输出是什么 , 应该考虑中间过程的方向等 。 这些内容集中在“什么”上 。 这些内容直接来自业务专家的经验 , 受影响的主要数据工作内容包括:数据项目的工作目标和要求;
数据探索和指导;可交付数据的形式和规格 。
2.数据工作逻辑:数据工作逻辑是指业务人员可以根据数据工作本身向数据工作者提供的价值参考和工作建议 。 这些内容集中于“如何做” 。 受影响的主要数据工作链接包括:选择总体数据周期 , 规则 , 条件等;数据抽样规则 , 特别是分层抽样和整群抽样;集成 , 匹配和关联多个数据;不同数据源和数据之间的清洗和转换逻辑;重复值 , 离群值和缺失值的处理逻辑;数据离散化的方法选择和区间定义;选择数据变量并根据其重要性降低维数;数据算法和模型选择;调整 , 评估和优化数据模型 。
如果您只擅长运营 , 那么这就是纯粹的业务属性价值点 。 如果您只擅长数据 , 则这是纯数据属性值点 。 只有同时具有业务+数据的双重属性 , 才能实现真正的“分析” 。 成功的数据工作必须是两条腿走路的数据+操作!
考虑业务需求的变化
业务需求的变化主要来自业务环境的变化或业务需求本身的变化 。 前者是由于客观环境的变化导致业务需求的变化 , 而后者则是由于经营业务本身的主观环境引起的 。
在数据工作项目中 , 不断变化的需求将影响整个数据工作的所有链接 。 业务需求的频繁更改会给数据工作带来极大的困扰 , 甚至可能直接导致数据工作项目的失败 。 因此 , 数据处理必须考虑业务需求的变化 。 无法预测涉及客观环境的变化 , 并且在许多情况下可以预先准备业务主观思维的变化:
1.充分有效的沟通 。 沟通是建立持久稳定关系的重要方式 。 在开始数据项目上的工作之前 , 数据工作人员一定不能因为麻烦而跳过此步骤 。 有必要邀请相关的直接需求业务人员 , 业务负责人和数据提供者(通常对应于业务数据管理员)进行正式会议进行沟通 。 同时 , 为避免口头表达和理解会议通讯时出现误解 , 有必要在每次会议后写下会议记录 , 并找到相应人员进行确认 , 并复制到会议记录中 。 多方领导要使各方注意并认真考虑沟通和实施的内容 。


推荐阅读