InfoQ|工欲善其事必先利其器,华为云IoT数据分析到底强在哪?


当下 , 中国已经成为全球最大的数据生产国 , 其中物联网的数据产生量备受关注 。 据前瞻产业研究院发布的《2019 年中国大数据产业全景图谱》显示 , 预计 2025 年 , 物联网数据占比将增加到 21% , 增速最快 。 而物联网数据本身价值密度小、数据体量大、数据时效性高、数据质量低等特点 , 使得物联网数据分析面临着诸多的关键挑战 , 很难发挥其真正的效用 。
7 月 18 日 , 在【 DevRun 开发者沙龙——华为云深圳金蝶专场】上 , 华为云为开发者分享了“以孪生模型驱动的 IoT 数据分析如何使能行业”的相关技术原理、实践经验和对应方法论 , 为物联网数据分析带来新的机遇 。
以下内容经由 InfoQ 编辑整理自【 DevRun 开发者沙龙——华为云深圳金蝶专场】中张少伟老师的分享 。
1如何做好 IoT 数据分析 物联网数据主要是指传感器和设备发过来的数据 。 这些数据一部分是对现实环境参数的采集值 , 一部分是设备的一些常规信息值 , 比如:状态、故障信息、错误代码、运行情况等 。 物联网数据在任何情况下都会产生数据 , 无需人为参与就会不断涌现出新的数据 , 其数据量远远大于传统业务系统的业务数据 。 这就使得企业经常面临高成本的数据存储、数据处理环节低效、低质量的数据等问题 , 那么该如何对这些大量的、源源不断的 IoT 数据做好分析呢?
华为云提出了四点解决方案:

  • 构建资产模型是充分“理解”物联网数据、构建数字孪生的基础
数字孪生 , 是充分利用物理模型、传感器更新、运行历史等数据 , 集成多学科、多物理量、多尺度、多概率的仿真过程 , 在虚拟空间中完成映射 , 从而反映相对应的实体装备的全生命周期过程 。 简单来说 , 数字孪生就是对物理世界进行数字化的实时映射 。
那么如何打通物理世界与数字世界的关联 , 如何更好地理解设备从而快捷高效地分析数据 , 成为物联网企业急需的基础业务 。 张少伟认为 , 构建资产模型是充分“理解”物联网数据的基础 , 现实世界的设备不是离散的 , 而是具有空间、组织、人等复杂关系与上下文存在的 。
以智能楼宇的行业开发为例 , 在实际应用开发中 , 由于每个楼宇、楼层的设备为离散的物理设备 , 如果需要按照楼宇、楼层等为单位进行统计并监控设备 , 就需要对楼宇、设备之间的关系进行标注关联 。 于是可以将 IoT 数据放置于一个上下文关系中理解 , 将数据以下图所示的层次结构管理再去做数据分析 。 这样之前 ID 为 XXX 的温度传感器读数多少 , 在建模后可以直接用“302 房间的温度多少?”来表达 。
InfoQ|工欲善其事必先利其器,华为云IoT数据分析到底强在哪?
本文插图
  • 物联网数据处理的关键是对时序数据的处理
物联网数据具备显著的时序特征:按照时间维度上报、存储、查询数据 。 因此在做物联网数据分析时 , 要对时序数据做充分的考虑 , 比如某些物联网设备可能产生巨量数据 , 最大限度的压缩是减少成本的直接手段;怎样满足海量设备高并发 , 实时写入的要求;面对长时间积累的物联网数据 , 如何满足高性能查询 , 特别是经常做时间维度的聚合查询;以及在时间的维度上对海量的物联网产生的时序数据做时间维度的查询计算等 。
  • 将数据时效性分层处理 , 获得综合处理效率最大化
在数据接入后 , 可以将物联网数据总结为冷数据、热数据、温数据 。 冷数据是对于离线类不经常访问的归档数据 , 在需要时对数据做批处理;热数据是需要被计算节点实时处理和分析的数据 , 对时效性非常敏感;温数据是近期需要频繁处理的数据 。 将这些数据进行如下图所示的分层处理 , 以实现综合处理的效率最大化 。
【InfoQ|工欲善其事必先利其器,华为云IoT数据分析到底强在哪?】
InfoQ|工欲善其事必先利其器,华为云IoT数据分析到底强在哪?
本文插图
  • 高效的数据清洗 , 为数据分析输入高质量的数据
在做物联网分析时 , 因为物联网数据质量的问题 , 物联网数据清洗是一项重要的环节 , 如下图所示 。 物联网数据中 , 经常出现一些典型的问题 , 比如缺值、数据的异常跳变、重复数据、格式差异、噪音干扰等 , 数据清洗环节可以帮助数据分析的开发者改善数据质量 。 此外 , 在做数据清洗的过程中 , 有两点非常重要 , 第一个是实时性 , 上文提到物联网数据实时性要求比较高 , 这里同样希望可以进行实时的数据清洗;另外数据清洗可以适应 IoT 非结构化或者半结构化的数据特征 , 通过清洗再提供相对高质量的数据 。
InfoQ|工欲善其事必先利其器,华为云IoT数据分析到底强在哪?
本文插图
2华为云 IoT 一站式物联网数据分析服务——IoTA 基于以上四点 , 华为云推出以资产模型为驱动的一站式物联网数据分析服务——IoTA , 基于物联网资产模型 , 整合大数据分析领域的最佳实践 , 实现物联网数据集成、清洗、存储、分析、可视化 , 为开发者打造一站式数据开发体验 , 并与华为云物联网相关云服务(比如设备接入)无缝对接 , 降低开发门槛 , 缩短开发周期 , 快速实现物联网数据价值变现 。 结构如下图所示 。
InfoQ|工欲善其事必先利其器,华为云IoT数据分析到底强在哪?
本文插图
左边是两种类型的数据源 , 一种是 IoT 设备实时采集的物联网数据 , 实时数据源;另一种是 IoT 子系统中需要批量导入的数据 。
中间是华为云的 IoT 数据分析服务 IoTA , 大概分为几个板块:首先是数据清洗的功能板块 , 通过 Data Pipeline 即数据管道实现 , 能够把数据从管道里面进行相应的处理 , 并提供了一些清洗算子 , 例如转换、删除、去重、插值、降噪等 , 将原始数据变为高质量数据 。 为了降低数据清洗开发的难度 , 华为云 IoTA 提供图形化的 IDE 环境 , 开发者通过简单的拖拽即可完成 。 其次是温冷分层存储功能和资产模型 。 IoTA 的温冷分层存储集成了时序和对象存储 , 帮助开发者以分层的方式管理数据 。 资产模型功能可以让开发者快速地进行建模 , 描述物理空间中的对象 , 一旦模型构建起来 , 后面就可以基于该模型进行相应的数据分析 。 右边是数据分析板块 , 华为云 IoTA 集成了时序分析、流分析以及离线分析 , 提供相应的计算引擎 , 最后是提供面向特定行业的行业分析套件 , 提供面向行业场景化的分析能力封装 。
需要强调的是 , 华为云 IoTA 具备五个关键价值:
  • 简化数据开发过程 , 降低门槛 , 加速业务上线
之前 , 数据开发过程的技术门槛较高 , 很多物联网领域的中小企业因为缺乏专业数据分析领域的人才 , 实施起来较为困难 , 比如应该选择什么样的数据平台架构设计?Lamda or Kappa or 其他 ?公有云上的大数据 PaaS 服务琳琅满目 , 选择哪些组件最适合我的 IoT 项目呢?在这个过程中 , 华为云 IoTA 提供了一站式的物联网数据分析 , 让开发者做到开箱即用 , 包括数据集成 , 数据清洗 , 数据存储 , 数据建模 , 数据分析 , 数据可视化 , 整个过程缩短开发周期 40% 以上;在技术选型上 , IoTA 充分考虑当前技术趋势 , 利用比如存算分离 , 孪生建模 , Serverless , 实时清洗等技术 , 使用户无需感知复杂技术 , 减少高端技术人员雇佣费用 。
  • 通过资产建模 , 将 IoT 数据转化为有语义的数据
区别于公有云通用类大数据分析相关服务 , 华为云 IoT 物联网数据分析服务与资产模型深度整合 , 以 Digital Twin 资产模型为中心驱动数据分析 , 开发者可以直接使用统一的物联网模型数据 , 大大提升数据分析的效率 。 通过构建物与物 , 物与空间 , 物与人等复杂关系 , 将物联网数据置于模型的“上下文”中去理解;通过“IoT+ 资产模型” , 在数字世界中构建与物理世界准实时同步的数字孪生;基于模型抽象 , 为数据分析提供面向业务的接口封装 。
其具备四点核心功能:1. 利用树状层级结构描述复杂物理对象的内在关系 , 比如空间关系 , 组合关系 , 上下游关系等;2. 虚测点支持丰富的计算算子 , 比如四则运算 , 科学计数法 , 三角函数 , 滑窗 , 流计算等;3. 支持定义资产模板 , 快速复制;4. 所见即所得的图形化编辑方式 , 简化复杂资产开发难度 。
  • 实时数据清洗 , 改善物联网数据质量
如下图所示为华为云 IoTA 的数据管道 , 在这个数据管道中 , 主要包括五个功能 。 第一 , 提供图形化的开发环境 , 拖拽即可完成数据清洗和预处理;第二 , 基于流计算引擎 , 满足对 IoT 数据处理高实时性要求;第三 , 含有丰富的 IoT 清洗算子(10+) , 可以应对各种 IoT 数据问题;第四 , 具备 IoT 数据质量评估系统 , 为数据质量打分;第五 , 灵活的数据流转控制 , 满足各种数据分析应用场景的需要 。
InfoQ|工欲善其事必先利其器,华为云IoT数据分析到底强在哪?
本文插图
  • 分层的 IoT 数据存储机制 , 降低数据存储和管理成本
华为云 IoTA 将数据存储分为温数据存储和冷数据存储 。 温数据存储采用适用物联网数据特征的时序数据库技术 , 基于 SSD 存储介质 , 满足 ms 级数据查询要求;冷数据存储采用可靠安全的对象存储 , 价格低廉 , 并结合 IoTA 离线分析 , 轻松处理 PB 级数据 。 另外 , 用户在管理温冷存储时 , 可以结合自己的业务需要 , 只需设定老化周期 , 就可进行温数据存储到冷数据存储的自动转存 , 把数据管理好 。
  • 面向物联网实时数据的全面优化
针对实时数据 , 华为云 IoTA 服务对数据写入、数据存储、数据建模、数据洞察等模块都做了优化 。 在数据写入模块中 , 华为云 IoTA 支持海量时间线 , 并按时间线做 Hash Partition , 所有 Shard 节点并行写入 , Shard 按照数据量自动分裂 , 同时单实例支持超 10 万时间线 , 最大亿级时间线 。 在数据存储中 , 华为云 IoTA 提供列式存储 , 不同数据类型(如时间类型 , 浮点型)采用不同压缩算法 , 相比开源 OpenTSDB 压缩率提升 10 倍 。 在数据建模模块中 , 华为云 IoTA 支持按资产模型数据格式入库存储 , 并按模型层次快捷检索测点时序数据 。 最后在数据洞察模块中 , 华为云 IoTA 支持在线时序数据透视 , 支持折线图、堆积图、散点图多种展现形式 , 时间轴、特定周期、定义功能齐全 , 便捷选择时间段数据 , 还可进行多种数据聚合方式展示 , 如最大值、最小值、平均值等 。
3华为云 IoTA 应用实例智慧仓储实时分析如下图所示 , 在仓库的进出库管理中 , 基于数据分析服务的建模能力与实时分析 , 利用华为公有云 ModelArts 进行 AI 推理计算 , 并与 RFID 读写器设备配合 , 对 RFID 数据流进行识别检测 , 可实现秒级判断出货物在进出库过程中的进出方向 , 继而可自动与货单进行校对 , 实时告知仓库管理人员进出货物的情况 。
InfoQ|工欲善其事必先利其器,华为云IoT数据分析到底强在哪?
本文插图
产线数字化下图所示为我国某一钢厂基于华为云的能力进行的产线数字化项目 , 即产线的数字孪生 。 通过 IoTA 服务对各个工艺环节建模 , 帮助其实现质量分析。 在该场景下做产品的质量分析面临的一个关键环节就是时空对齐 , 该如何理解资产建模帮助构建时空关系的映射呢?想象一个轧件是一个很长的钢板 , 而比如这个钢板在偏移两百米的空间位置上有质量缺陷 , 那么我们需要知道为什么该区域质量比较差 , 产线的各工艺环节在处理该区域的时刻 , 当时的工艺参数分别都是什么?这就是一个比较复杂的时空关系匹配问题 。 华为云 IoTA 对产线进行建模 , 描述产线这一复杂的物理对象 , 将物理空间中的时空关系在数字世界中进行建模 , 继而给应用层开放具备语义的数据 , 帮助应用层进一步的数据分析 。
InfoQ|工欲善其事必先利其器,华为云IoT数据分析到底强在哪?
本文插图
4最后 随着 5G 应用的持续深化 , 物联网之间的连接将变得更加紧密 。 然而物联网数据本身价值密度小、数据体量大、数据时效性高、数据质量低等特点 , 使得物联网数据分析面临着诸多的关键挑战 , 很难真正为行业所用 。 而这 , 也一直正是华为云 IoT 所致力于解决的问题 。
7 月 25 日 , DevRun 开发者沙龙华为云西安专场精彩继续 , 届时华为云多位资深技术专家将就 GaussDB 企业数据库、云端 IoT 应用、云平台低代码应用开发、云 API 助力生态建设和云端零代码 AI 开发五个主题做深度分享 , 限时免费报名通道已开启 , 点击阅读原文或扫描下方二维码赶快来本节课堂前排占座 。


    推荐阅读