什么是数据?
数据是当今最有力量的词语。但问题是,“数据的确切定义是什么?”
作者Mustafa Qizilbash给出的定义:“实体的属性和行为就是数据”。
我的一位学生曾经问过:“什么是数据?”
他期望能够回答维基百科关于数据的定义,即:数据是个别事实、统计数据或信息项,通常是数值。更技术性地说,数据是关于一个或多个人或对象的一个或多个定性或定量变量的一组值,而数据是单个变量的单个值。
然后他转向我,用更好奇的口吻重复了他的问题。我回答他我的数据定义,即“实体的属性和行为是数据”。他接下来问的合理问题是什么是实体、属性或行为?
因此,要理解数据,首先必须了解实体、属性/特征和行为。
Ø实体:具有属性的事物。
Ø属性(特征):实体的各种识别特征都是属性。例如,汽车有一个名称,它有一个发动机,座位,轮胎,灯等。这些是关于汽车的细节,几乎不会改变,就像汽车的名称几乎不会改变一样。
Ø行为:你所做的事情,就是你的行为或行动。例如,汽车的速度可以用公里/小时或英里/小时来测量,汽车可以出售,汽车可以购买等。这些是汽车的属性,不能改变,就像汽车停止移动一样,它就是一个无用的产品。汽车必须销售,否则制造它有什么意义!所有这些由汽车产生的信息都是它的行为,最终用于规划和决策。
数据是一种也会产生数据的东西,它必须对组织有一定的价值和投资回报率(ROI)。换句话说,如果一个数据集不能帮助决策支持系统(DSS),那么它就不值得保留、存储、管理和处理。
对于企业来说,“数据必须打上投资回报率(ROI)标签。”
罗伯特·M·索洛(1987年诺贝尔经济学奖得主):“软件生产力在数字中不会显示出来。”
彼得·德鲁克曾经观察到:“把系统和会计/财务视为两个独立的学术和专业学科是不可接受的。”
HT Johnson(AD Chandler的学生)和R Kaplan的《失去的相关性》
艾伦·S·迈克尔:‘必须标记至少一个业务线的ROI。什么是业务线?"答案是“公司竞争的行业”。“什么是行业”?今天的答案(不幸的是)有很多。一些行业分类系统表明全球经济有大约150个行业,有些说有几百个,美国政府建议有超过1,000个 - 而我们的公司(基于迈克尔·波特的五力模型)认为有超过23,000个行业。简单来说,一家公司就是一个或多个业务线,每个业务线都有数据和ROI模型。行业分类系统有不同的“行业”定义-https://en.wikipedia.org/wiki/Industry_classification。’
大卫:那个(据称)值得称赞的目标到目前为止对于金融界封闭的(牛顿式)世界观来说仍然难以实现。
关于数据的一般概念是DIKW模型,即数据→信息→知识→智慧。虽然这个模型没有什么问题,但我不同意知识在信息之后,其次它限制了数据处理循环。数据处理循环永无止境,即一个循环的数据输出是另一个循环的输入,直到准备好做出决策。然后一旦做出决策,它就成为下一个决策循环的输入,这些循环不断循环。数据科学利用这些数据循环进行深度学习、机器学习、数据挖掘等。
数据可以是任何东西,例如你的个人或家庭详细信息、银行交易、手机通话、教育、经验、健康、锻炼、食物、培训等。所有这些数据元素都可以被某人用来做出一些决策。
数据以不同形式存在,如元数据、主数据、行为数据等。它可以分为三种形式,即静态数据、传输中数据和使用中数据。可以用于管理、运营团队、审计、合规性、监管机构等。
任何不利用其数据的组织都注定会失败。在这个时代,数据已经成为你的组织最强大的资产,如果没有制定数据战略,那么最好收拾行囊,不要浪费时间。
当前时代的CEO们非常依赖数据,就像他们想要看看一个特定的客户在过去5分钟里做了什么。决策支持系统越来越依赖数据。
数据的独特特征
传统资产在使用时会被消耗、贬值、折旧,降低质量和数量。
但是数据,在使用时:
Ø生成更多的数据,例如它的使用量、谁使用、何时使用、在哪里使用等等。
Ø价值增加,即数据集被使用得越多,表明它被更频繁地用于决策。
Ø它没有折旧日期;最多可能会变得温暖然后变冷,但将来随时可能需要它。删除或清除数据是任何利益相关者甚至监管机构的重大决定。