<cite id="fzn17"></cite>
<var id="fzn17"></var><cite id="fzn17"><video id="fzn17"></video></cite>
<cite id="fzn17"></cite>
<var id="fzn17"></var>
<menuitem id="fzn17"><span id="fzn17"><thead id="fzn17"></thead></span></menuitem>
<cite id="fzn17"><span id="fzn17"><var id="fzn17"></var></span></cite><var id="fzn17"><span id="fzn17"><var id="fzn17"></var></span></var>
<var id="fzn17"></var>
<menuitem id="fzn17"></menuitem>
<cite id="fzn17"><video id="fzn17"></video></cite>
|
|
51CTO旗下网站
|
|
移动端

1.1 理解数据中字段的类型是数据分析的重要前提

《大数据分析:数据挖掘必备算法示例详解》第1章数据分析绪论,本章主要介绍预备知识,即在进行数据分析前,读者需要了解的知识与背景。本节为大家介绍理解数据中字段的类型是数据分析的重要前提。

作者:张重生来源:机械工业出版社|2017-12-13 17:19

第1章 数据分析绪论

本书聚焦于数据分析相关的技术,尤其是数据分类与预测的相关算法原理与?#23548;?#21253;括?#20445;?#20010;数据分类算法 ?#20445;?#31181;从二分类到多分类的算法,及多种属性选择、数据选择、集成学习算法,以?#23433;?#22343;衡数据分类的算法。

本章主要介绍预备知识,即在进行数据分析前,读者需要了解的知识与背景。

1.1 理解数据中字段的类型是数据分析的重要前提

进行数据分析时,必须首先确定数据的类型,然后才能采用对应的分析算法。因此,判断数据的类型是进行数据分析的重要前提。计算机中的数据可以分为数值型数据 (Numericaldata)、分类型数据 (Categoricaldata)和顺序型数据 (Ordinaldata)。

数值型数据通常指通过阿拉伯数字表示的数据,如工资、价格、数量等数?#20013;?#25968;值。数值型数据可以细分为连续型数值和离散型数值,离散型数值的取值只能在若干离散的点上,例如,年龄的取值在 ?#20445;玻常?hellip;,20,2?#20445;?hellip;这些点上;年份的取值只能在 …,20?#20445;擔玻埃保叮玻埃保罰?hellip;这些离散的点上。连续型数值的取值可以是一个?#27573;?#20869;的?#25105;?#19968;个值,例如,?#21487;?#27773;油的价格可以是(0,20]内的?#25105;?#19968;个数值;又如,学生的身高、体重。在超市里购买的商品的总价格是一个连续型的数值,而所购商品的总数量是离散型的数值。

分类型数据是指只能归属于某一类别的数据,例如,性别只能是男和女;学历层次只能是小学、初中、高中、中专、大专、本科、硕士、博士等中的一种;填表时,党派只能选择群众、无党派人士、中共党员、八个民主党派等中的一种;医生诊断病人的疾病时,最后必须用一个固定的名称来表示患者的疾病,诊断的最终结果可以分为正常人和病人,而病人又可以细分为各种疾病类型,如感冒、高血压、心脏病、荨麻疹等。又如,天气的类型、运动的类型、水果的名?#39057;取?#20998;类型数据的一个特例是人的名字,因为每个人都有一个名字,多数情况下通过人名可以辨认出 (identify) 该人。为了避免重名的情况,在做数据分析时通常用唯一 (unique)的 ID表示一个人的名字 /身份。例如,进行人脸识别时,需要根据人脸的图像数据识别出图像中的人物的名字 /身份,此时,人物的名字 /身份 (I?#27169;?就是一个分类型的数据。

顺序型数值是量化的、表示?#34892;?#32423;别的数据 (级别的值越大越好,或越小越好)。例如,网购 /网络预订时对商品 /?#39057;?#30340;评分等级分为一星、二星、三星、?#30007;恰?#20116;星;我们对中国移动 ?#20445;埃埃福?#23458;服的评价等级分为 ?#20445;啊ⅲ埂ⅲ浮ⅲ貳ⅲ丁ⅲ怠ⅲ础ⅲ场ⅲ病ⅲ保?#20135;品的等级分为一级、二级、三级。

进行数据分析,尤其是数据的分类与预测时,必须首先判定 /观察数据中各属性的类型。因为,很多数据分析算法只适用于全部是数值型属性的数据 (除了标签列 /类别列之外),而不支?#32844;?#21547;有分类型属性的数据 (除了标签列 /类别列之外)。如果非标签列的属性中包含了字符型 /字符串型的分类型属性 (例如,字符串型的商品类别、名称、姓名等),那么,必须使用适用于字符串型分类属性的数据分类算法,或者将字符串式的分类型属性合理地转换为数值型属性数据后,再使用相应的分类算法。

需要说明的是,某些情况下,?#34892;?#23646;性既可以认为是分类型的,?#37096;?#20197;看作是顺序型的。例如,网购商品的评价只有五个星级,可以认为该属性既是分类型又是顺序型的。相反,如果某分类型的属性是用字符串表示的,譬如,姓名或 I?#27169;?#19981;同种类的疾病,此?#22791;?#23646;性只能看作分类型的属性,而不是当作是顺序型的属性。


?#19981;?#30340;朋友可以添加我们的微信账号:

51CTO读书频道二维码

 

51CTO读书频道活动讨论群:365934973
【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你?#19981;?/dt>

订阅专栏+更多

活学活用 Ubuntu Server

活学活用 Ubuntu Server

实战直通车
共35章 | UbuntuServer

218人订阅学习

Java EE速成指南

Java EE速成指南

掌握Java核心
共30章 | 51CTO王波

83人订阅学习

Mysql DBA修炼之路

Mysql DBA修炼之路

MySQL入门到高阶
共24章 | 武凤涛

472人订阅学习

读 书 +更多

Eclipse从入门到精通(第2版)

本书为《Eclipse从入门到精通》一书的全新改版。本书以最新的Eclipse 3.2作为写作版本。全书分为5篇:起步篇介绍了Eclipse及相关插件的安装...
澳洲幸运5官方
<cite id="fzn17"></cite>
<var id="fzn17"></var><cite id="fzn17"><video id="fzn17"></video></cite>
<cite id="fzn17"></cite>
<var id="fzn17"></var>
<menuitem id="fzn17"><span id="fzn17"><thead id="fzn17"></thead></span></menuitem>
<cite id="fzn17"><span id="fzn17"><var id="fzn17"></var></span></cite><var id="fzn17"><span id="fzn17"><var id="fzn17"></var></span></var>
<var id="fzn17"></var>
<menuitem id="fzn17"></menuitem>
<cite id="fzn17"><video id="fzn17"></video></cite>
<cite id="fzn17"></cite>
<var id="fzn17"></var><cite id="fzn17"><video id="fzn17"></video></cite>
<cite id="fzn17"></cite>
<var id="fzn17"></var>
<menuitem id="fzn17"><span id="fzn17"><thead id="fzn17"></thead></span></menuitem>
<cite id="fzn17"><span id="fzn17"><var id="fzn17"></var></span></cite><var id="fzn17"><span id="fzn17"><var id="fzn17"></var></span></var>
<var id="fzn17"></var>
<menuitem id="fzn17"></menuitem>
<cite id="fzn17"><video id="fzn17"></video></cite>
欣儿解说三国杀 巫师梅林APP 中了彩票大奖怎么领取 好多糖果APP 比利亚雷亚尔vs巴萨直播 2018魂斗罗归来哪个英雄值得培养 猫头鹰乐园电子游戏 河南快三开奖结果查询今天 qq欢乐斗地主下载 腾讯分分彩开奖号码