宝石流云|终于有人把AI、BI、大数据、数据科学讲明白了

导读:本文概述数据、分析、商业智能、报表、大数据、数据科学、边缘分析、信息学以及人工智能和认知计算这些基本概念 。
作者:格雷戈里·S. 纳尔逊(Gregory S. Nelson)
来源:华章科技
宝石流云|终于有人把AI、BI、大数据、数据科学讲明白了01 数据数据几乎渗透到我们生活的每一个角落 , 从我们在手机中留下的数字足迹 , 到健康记录 , 再到购物历史 , 以及对资源(如能源)的使用情况 。 在当今这个数字世界里 , 脱离数字的生活虽然不是不可接受的 , 但也需要巨大的牺牲精神和不可思议的毅力才能忍受 。
我们不仅是数据制造者 , 同时也是活跃的数据消费者 , 例如我们时常检查自己的在线消费习惯 , 监测健身程序 , 或者查看自己的常旅客积分是否够去加勒比度假 , 这些行为都是在消费数据 。
但数据到底是什么?按最通用的形式来理解 , 数据就是被储存起来以备日后使用的信息 。 最早记录信息的方式可能是在动物骨头上刻蚀符号 。 到了20世纪50年代 , 人们开始在磁带上记录数字信息 , 然后是打孔卡片 , 再后来是使用磁盘 。 现代数据处理开始的时间并不长 , 但已经奠定了我们如何收集、存储、管理、使用信息的基础 。
直到最近 , 我们对那些无法计算的信息(例如 , 视频和图像信息)还只能进行分类处理 。 但近几年来 , 通过大量的技术变革 , 无法存储的数据类型变得越来越少了 。 事实上 , 存储的信息 , 或者数据 , 就是以一种可用的编码方式 , 为了我们可计算的目的而建立的真实世界的模型 。
数据是真实世界中所发生事情的持续记录或“模型” , 这一事实是分析学的一个重要特征 。 被公认为“20世纪最伟大的统计学家之一”的乔治·鲍克斯(George Box)曾经说过:“所有的模型都是错误的 , 但有些模型是有用的 。 ”
很多时候 , 我们在数据中发现一些没有意义或者完全错误的东西 。 请记住 , 数据是从真实的物理世界转化并抽象为代表真实世界的东西 , 即乔治所说的“模型” 。 就像机械速度计是测量速度的标准一样(也是衡量速率的一个很好的替代物) , 这个模型(指机械速度计)实际上是测量轮胎的转速 , 而不是速度 。
总之 , 数据是存储的信息 , 是所有分析的基础 。 例如 , 在可视化分析中 , 我们利用可视化技术和交互界面对数据进行解析和推理 , 找出数据本身存在的规律 。
宝石流云|终于有人把AI、BI、大数据、数据科学讲明白了02 分析分析(analytics)可能是商业中使用得最多但却最难理解的术语之一 。 对一些人来说 , 它是一种用来“把数据屈打成招”(找出数据中潜藏规律)的技术或技巧 , 或者仅仅是商业智能与数据仓库的延伸;而对另外一些人来说 , 分析则是用于开发模型的统计、数学或定量方法 。
Merriam-Webster字典称分析是“一种逻辑分析的方法” 。 Dictionary.com字典将分析定义为“逻辑分析的科学” 。 不幸的是 , 两种定义都直接使用了分析(analysis)这个词的词根 , 似乎存在循环解释的逻辑错误 。
分析(analysis)这个词的起源可以追溯到16世纪80年代的中世纪拉丁语(anal-yticus)和希腊语(anal-ytiks) , 意思是“分解”(break up)或者“放松”(loosen) 。 我把分析(analytics)定义为一种解决数据驱动问题的结构化方法:通过对事实(数据)的仔细推敲 , 帮助我们解决问题的一套方法论 。
关于分析的定义有很多争论 。 就当前讨论的问题而言 , 我将分析定义为:
一种全面的、基于数据驱动的解决问题的策略与方法 。
我有意避免将分析定义为某个“过程”、某种“科学”或“学科” 。 相反 , 我将分析定义为一种全面的策略 , 正如读者将在本书第二部分中看到的那样 , 它是包含过程、规则、可交付物的最佳实践 。


推荐阅读