技术编程|数据架构是不是玄学



技术编程|数据架构是不是玄学
本文插图

【技术编程|数据架构是不是玄学】创造生命力
在数据这个领域 , 有个特别有意思的事情 , 一说“数据架构师” , 要么被误解是Hadoop系统架构 , 要么被很多数据科学同学说“忽悠”、不落地 , 不仅是小同学 , 甚至很多高管也这么觉得 。
今天在地铁看《中国文化概论》 , 聊到汉字发展的规律和趋势时 , 突然感觉我们在做的事情 , 虽然领域不同 , 但事儿是很像的 , 架构并不是一门玄学:
一件事情 , 刚开始的发端是自发的 , 若持续无序、随意的发展 , 其结局要么崩溃 , 要么被抛弃 。
所谓架构 , 就是要找到其生命力的内核 , 通过识别主要矛盾 , 设计、迭代生成模式保持其生命力 , 定义创造、使用规范等完成系统化工作 , 从而使这件事情科学、有序的发展壮大 。
举3个非常有意义的案例:
【汉字系统】
当图画文字和龟甲、石器刻符演变为记词字符 , 汉字由零散的、个体的字符逐渐积累 , 达到一定的数量后 , 再通过人为规范 , 就成为一种文字体系;
汉字一直顽强的坚持『表意特点』 , 不断采用新的方式、增强个体符型和整个符号系统的表意功能;
汉字在「易写」与「易识」的矛盾中 , 不断对个体符形进行调整 , 以实现简繁适度的优化造型;
汉字在发展中不断完善和简化自己的构型体系 , 以解决字形无限增加致使符形量超过人们有限的记忆能力的问题 , 汉字必须在对构件进行规整的前提下 , 形成一个严密的构形系统;
汉字必须在自行发展的基础上进行人为的规范 。
【IP知识图谱】
这是我们数据科学团队 , 近期的一个代表性数据作品 , 在DMP/CDP为代表的MarTech领域 , 有大量的数据标签需求:
从早期的年龄/性别/地域等用户属性标签 , 到后来的品类浏览行为/兴趣偏好等行为偏好类标签 , 标签早已从个位数 , 逐渐积累过万 , 看似蓬勃发展 , 但无论客户侧、技术侧、还是用户侧 , 早已感受到了效果停滞不前 , 甚至有鸡肋的感觉;
从「标签」->「知识」 , 我们期望通过识别主要矛盾 , 和更优雅的表达形式 , 为数据带来更长久的生命力;
「知识」:是一个非常宽泛的概念 , 我们聚焦在一个垂直的领域「IP知识」 , 尝试做一些创新和改革 。
在这个领域 , 我们尝试定义「知识」 , 包括《这就是街舞》、《阿凡达》等entity节点 , 「电影」、「明星」、「渠道」等Concept节点、、等Attribute节点及与节点的isA关系、等领域特有的Relation;
也尝试设计知识生产系统 , 解决“成本&滞后”、“不够智能”、“开放生产力不够”3个主要矛盾 , 整个知识生产系统 , 包括Model的定义、以及在此Model上的原生知识抽取、概念生成、及自定义生产能力 , 再后边就是配套的知识生产和使用引擎 , 以及在此之上配套的可视化交互体系;
最后再说一个 , 特别敬服的案例
【xxx-数据之美】
隐私保护的问题 , 用xxx代替 , 是一个SaaS产品的VI设计案例 , 围绕行业、产品理念及设计师自身的理念 , 结合中国传统文化的「北冥有鱼 , 其名为鲲」 , 以高度统一的文化内涵 , 给出了完善的logo、标准色/字等视觉表达体系 。


    推荐阅读