編者按:數(shù)據(jù)類(lèi)型是統(tǒng)計(jì)學(xué)的重要概念。機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)開(kāi)發(fā)者Niklas Donges簡(jiǎn)要介紹了不同的數(shù)據(jù)類(lèi)型,理解這些數(shù)據(jù)類(lèi)型有助于對(duì)數(shù)據(jù)集進(jìn)行恰當(dāng)?shù)奶剿餍詳?shù)據(jù)分析(EDA)——機(jī)器學(xué)習(xí)項(xiàng)目最被低估的部分之一。
介紹
理解不同的數(shù)據(jù)類(lèi)型,是探索性數(shù)據(jù)分析(Exploratory Data Analysis,EDA)所需的關(guān)鍵預(yù)備知識(shí),同時(shí)也有助于你選擇正確的可視化方法。你可以將數(shù)據(jù)類(lèi)型看成歸類(lèi)不同類(lèi)型變量的方式。我們將討論主要的變量類(lèi)型,以及相應(yīng)的示例。有時(shí)我們會(huì)稱(chēng)其為測(cè)量尺度(measurement scale)。
類(lèi)別數(shù)據(jù)
類(lèi)別數(shù)據(jù)(categrorical data)表示特性,例如一個(gè)人的性別,所說(shuō)的語(yǔ)言,等等。類(lèi)別數(shù)據(jù)同樣可以使用數(shù)值(例如:1表示雌性,0表示雄性)。
名目數(shù)據(jù)
名目值(nominal value)指用于標(biāo)記變量的定性離散單元。你可以直接把它們想象成“標(biāo)簽”。注意名目數(shù)據(jù)是無(wú)序的。因此,如果你改變名目值的順序,其語(yǔ)義并不會(huì)改變。下面是一些名目特征的例子:
性別:雌性、雄性。
語(yǔ)言:英語(yǔ)、法語(yǔ)、德語(yǔ)、西班牙語(yǔ)。
上面的性別特征也被稱(chēng)為“二分(dichotomous)”值,因?yàn)樗话瑑蓚€(gè)類(lèi)別。
次序數(shù)據(jù)
次序值(ordinal value)指離散、有序的定性單元。除了有序之外,它幾乎和名目數(shù)據(jù)一樣。例如,教育背景可以用次序值來(lái)表示:
初中
高中
大學(xué)
研究生
注意,其實(shí)初中、高中之間的差別,和高中、大學(xué)之間的差別,是不一樣的。這是次序數(shù)據(jù)的主要限制,次序值之間的差別是未知的。因此,次序值通常用于衡量非數(shù)值特征,例如愉悅程度、客戶(hù)滿(mǎn)意度。
數(shù)值數(shù)據(jù)
離散數(shù)據(jù)
離散數(shù)據(jù)(discrete data)的值是不同而分散的,換句話(huà)說(shuō),只能接受一些特定值。這類(lèi)數(shù)據(jù)無(wú)法測(cè)量但可以計(jì)數(shù)。它基本上用來(lái)表示可以分類(lèi)的信息。例如,拋100次硬幣正面向上的次數(shù)。
你可以通過(guò)以下兩個(gè)問(wèn)題檢查你處理的是否是離散數(shù)據(jù):你可以對(duì)其計(jì)數(shù)嗎?它可以被切分成越來(lái)越小的部分嗎?
相反,如果數(shù)據(jù)可以測(cè)量但無(wú)法計(jì)數(shù),那就是連續(xù)數(shù)據(jù)。
連續(xù)數(shù)據(jù)
連續(xù)數(shù)據(jù)(continuous data)表示測(cè)量。例如身高。
連續(xù)數(shù)據(jù)可以分為等距數(shù)據(jù)(interval data)和等比數(shù)據(jù)(ratio data)。
等距值指間隔相等的有序單元,也就是說(shuō),等距變量包含有序數(shù)值,并且我們知道這些數(shù)值之間的間隔。例如,用等距數(shù)據(jù)表示溫度:
-10
-5
0
+5
+10
+15
等距值的問(wèn)題在于,它們沒(méi)有“真正的零”。拿上面的例子來(lái)說(shuō),0度不是絕對(duì)零度。另外,我們可以加減等距值,而不能乘除等距值或計(jì)算比率。由于沒(méi)有“真正的零”,無(wú)法應(yīng)用許多描述統(tǒng)計(jì)學(xué)或推論統(tǒng)計(jì)學(xué)的方法。
等比值具有等距值的所有特性,同時(shí)也有絕對(duì)的零。因此,不僅可以加減,還可以乘除。高度、重量、長(zhǎng)度、絕對(duì)溫度等都屬于等比值。
數(shù)據(jù)類(lèi)型為什么重要?
數(shù)據(jù)類(lèi)型是一個(gè)非常重要的概念,因?yàn)榻y(tǒng)計(jì)學(xué)方法只能應(yīng)用于特定的數(shù)據(jù)類(lèi)型。你需要使用不同的方式分析連續(xù)數(shù)據(jù)和類(lèi)別數(shù)據(jù)。因此,理解你處理的數(shù)據(jù)的類(lèi)型,讓你能夠選擇正確的分析方法。
下面我們將重新查看上面提到的每種數(shù)據(jù)類(lèi)型,了解它們可以應(yīng)用什么樣的統(tǒng)計(jì)學(xué)方法。為了理解我們將討論的一些性質(zhì),你需要對(duì)描述性統(tǒng)計(jì)學(xué)有所了解。如果你對(duì)此不熟悉,可以先看下我寫(xiě)的描述性統(tǒng)計(jì)學(xué)介紹。
統(tǒng)計(jì)學(xué)方法
名目數(shù)據(jù)
處理名目數(shù)據(jù)時(shí),你通過(guò)下述方式收集信息:
頻數(shù)在一段時(shí)間內(nèi)或整個(gè)數(shù)據(jù)集中出現(xiàn)的次數(shù)。
比例頻數(shù)除以所有事件的頻數(shù)之和,即可得到比例。
百分比我想這無(wú)需解釋了吧。
眾數(shù)出現(xiàn)次數(shù)最多,也就是頻數(shù)最高的數(shù)據(jù)。
可視化方法你可以使用餅圖或直方圖可視化名目數(shù)據(jù)。
左:餅圖;右:直方圖
次序數(shù)據(jù)
當(dāng)你處理次序數(shù)據(jù)時(shí),你可以使用以上用于名目數(shù)據(jù)的方法,不過(guò),除此之外,你還可以使用一些額外的工具。也就是說(shuō),你可以使用頻數(shù)、比例、百分比、眾數(shù)概括次序數(shù)據(jù),也可以使用餅圖、直方圖可視化次序數(shù)據(jù)。除此之外,你還可以使用:
百分位數(shù)計(jì)算由小到大排列的次序數(shù)據(jù)的累計(jì)百分位,某一百分位對(duì)應(yīng)的數(shù)據(jù)值就稱(chēng)為這一百分位的百分位數(shù)。百分位數(shù)可以用來(lái)描述數(shù)據(jù)的離散趨勢(shì)。
中位數(shù)即第50百分位數(shù),它將數(shù)據(jù)分為相等的上下兩部分。中位數(shù)可以用來(lái)描述數(shù)據(jù)的中間趨勢(shì)。例如,如果我們用次序數(shù)據(jù)表示星巴克咖啡的容量:中杯、大杯、特大杯。那么,其中位數(shù)為大杯(也就是說(shuō),真正的中杯是大杯)。
四分位距第75百分位數(shù)與第25百分位數(shù)之差即為四分位距。四分位距可以簡(jiǎn)要概述數(shù)據(jù)的離散趨勢(shì)。
連續(xù)數(shù)據(jù)
大多數(shù)統(tǒng)計(jì)學(xué)方法都可以用于連續(xù)數(shù)據(jù)。你可以使用百分位數(shù)、中位數(shù)、四分位距、均值、眾數(shù)、標(biāo)準(zhǔn)差、區(qū)間。
你可以使用矩形圖或箱形圖可視化連續(xù)數(shù)據(jù)。從矩形圖上可以看到分布的中間趨勢(shì)、離散程度、形態(tài)和峰態(tài)。注意,矩形圖不體現(xiàn)離散值,因此我們有時(shí)使用箱形圖。
左:箱形圖;右:矩形圖
總結(jié)
本文討論了統(tǒng)計(jì)學(xué)中常用的不同數(shù)據(jù)類(lèi)型。你了解了離散數(shù)據(jù)和連續(xù)數(shù)據(jù)的區(qū)別,以及什么是名目數(shù)據(jù)、次序數(shù)據(jù)、等距數(shù)據(jù)、等比數(shù)據(jù)。此外,你現(xiàn)在知道了每種數(shù)據(jù)類(lèi)型可以應(yīng)用的統(tǒng)計(jì)學(xué)方法和可視化方法。如果你在給定數(shù)據(jù)集上進(jìn)行探索性分析,你會(huì)發(fā)現(xiàn)這些非常有用。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8502瀏覽量
134591 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1472瀏覽量
35031 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25445
原文標(biāo)題:統(tǒng)計(jì)學(xué)常用數(shù)據(jù)類(lèi)型
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
什么是探索性測(cè)試ET
數(shù)據(jù)探索與數(shù)據(jù)預(yù)處理
探索性數(shù)據(jù)分析(EDA)及其應(yīng)用

探索性大數(shù)據(jù)分析系統(tǒng)對(duì)基因組醫(yī)學(xué)研究的幫助

介紹幾種用于機(jī)器學(xué)習(xí)探索性數(shù)據(jù)分析的數(shù)據(jù)類(lèi)型
C語(yǔ)言的數(shù)據(jù)儲(chǔ)存與數(shù)據(jù)類(lèi)型及類(lèi)型轉(zhuǎn)換的詳細(xì)資料說(shuō)明
細(xì)分模型探索性數(shù)據(jù)分析和預(yù)處理

Sweetviz讓你三行代碼實(shí)現(xiàn)探索性數(shù)據(jù)分析

Sweetviz: 讓你三行代碼實(shí)現(xiàn)探索性數(shù)據(jù)分析

評(píng)論