数据的类型

数据类型 数据分类
数据管理 浏览量:1 发布时间:2024-11-21

数据的类型

数据有三种类型,即结构化、半结构化和非结构化,可以来自任何类型的来源,例如数据库、移动应用程序、社交媒体、传感器、日志、视频监控摄像机、收音机等。大多数人对结构化和非结构化都很清楚,而半结构化仍然是一个有争议的候选者。 

结构化数据

结构化数据最常见的定义是指以行和列的预定义格式存在的数据。

例如,有一张表格:员工联系方式,包含员工编号、电子邮件、手机号码、Linkedin网址、Instagram和Twitter等字段。并非每个员工都有这些详细信息,但在导出时,所有列都将发送到DSS,无论该行是否为空。由于有6列,例如10行,因此将有10行,每行将有6列,其中可能为空或包含数据。

在今天的世界中,结构化数据的例子包括表格、Excel、CSV和文本文件等。

结构化数据是

Ø它的格式不会随意更改。

Ø在输入之前你已经知道它。

Ø一旦输入,可以轻松自动提取。

不改变格式的数据是最重要的属性。如上所述,我们被告知只有行和列中的数据被结构化为“它不会随机更改其格式”,但是人脸图片呢?我们能从中提取结构化信息吗?是的,我们可以,例如,在一个4X4的人脸图片中,我们知道哪些区域是眼睛或耳朵、鼻子、额头等。然后我们可以编写代码,从无限的图片中区分出脸部部位。但同时,所有的图片必须是可以通过元数据区分的人脸照片。

半结构化数据

现在,只有两种半结构化数据格式,即XML和JSON。作为半结构化数据集,列数不一致。

同样以之前的例子为例,有一个名为员工联系方式的表格,包括员工编号、电子邮件、手机号码、LinkedIn URL、Instagram和Twitter等字段。并非每个员工都有这些信息,但是在发送给DSS时,只会导出有数据的行和列。例如,有6列和10行,如果第8行的第2列为空,则在导出第8行时,只会有5列而不是6列。这是一种称之为半结构化的方式。另一个现实是,在Facebook或Twitter中,没有人知道用户会输入什么类型的数据,因此这也定义为半结构化数据。

半结构化数据是

Ø不会随意更改格式的。

Ø输入之前你不知道的。

一般来说,非结构化数据的定义是指没有预定义的数据模型或没有按照预定义的方式组织的信息。那么上面给出的例子呢?是的,如果所有的图片都是关于脸部的,那么脸部部位可以是结构化信息,但如果图片包含多个脸部、男性和女性、人类和动物、年轻或年长等,那么它就变成了非结构化的。因此,元数据在定义结构、半结构化和非结构化数据方面起着重要作用。

非结构化数据是

Ø没有定义的,

Ø你永远不能提前知道的,

Ø一旦存储仍需要假设才能理解的,

Ø必须永远分析的,

Ø你可以使用ML算法永远记分的。

在传统的当前世界中,非结构化数据的例子包括图片、视频、音频、电子邮件、Word文档、PowerPoint和PDF等。


扫码联系
电话联系