Day12-Day14複習了外部資料介面,有了資料集,接下來我們就可以開始觀察資料、分析資料了。
統計是資料分析的基礎,今天先選擇幾個簡單的敘述統計分析函數來複習:
敘述統計是描述資料分佈的特性,可以描述資料的:
集中趨勢(平均數(
mean
)、中位數(
median
)、眾數(
mode
))
離散趨勢(標準差(
sd
)、變異數(
var
)、變異係數(
cv
)、全距(
range
)、四分位(
Quartile
))
我們在資料夾MyR新增一支Day15.R
先觀察一個維度資料,在Day15.R中輸入程式碼
n <- c(1,1,2,4,6)
plot(n, pch = 17, col = "blue", cex =2)
執行結果:
X軸是數值Index,Y軸是數值
接著作一維資料簡單的統計,在Day15.R中輸入程式碼
sum(n)
#平均數 總合除個數
mean(n)
#中位數:將資料由小到大,位置居中者,就是中位數
median(n)
#眾數:一組資料中,出現最多次數的值
as.numeric(names(table(n)))[which.max(table(n))]
#畫平均數的點
points(mean(n), pch = 4, col = "blue", cex = 3)
#畫中位數的點
points(median(n), pch = 3, col = "blue", cex = 3)
R互動視窗執行結果:
平均數2.8
中位數是2
R plot視窗執行結果
集中趨勢在2-3的值間。
有時候大起大落的表現會讓平均數(Mean
)失真,要觀察選手表現是否穩定,標準差(sd
:standard deviation)等離散趨勢函數就可以反應比較真實的數值離散程度。
在Day15.R中輸入程式碼
n <- (1:10)
sd(n)
var(n)
sd(n) ^ 2
#變異係數
cv <- 100 * sd(n) / mean(n)
#全距(最大值減最小值)
range(n)[2] - range(n)[1]
#四分位:把資料切分為四等分,中間的三條線就是四分位,Q1=P25,Q2=P50,Q3=75
Q1 <- quantile(n, 1 / 4)
Q2 <- quantile(n, 2 / 4)
Q3 <- quantile(n, 3 / 4)
#IQR = Q3-Q1
b <- Q3 - Q1 == IQR(n)
標準差:3.02
變異數:9.16
變異係數:55.04
Q1:3.25
Q2:5.5
Q3:7.75
一次總結數據
在Day15.R中輸入程式碼
#總結數據(超好用)
summary(n)
quantile(n)
THE ROCK
2014.10月攝於直布羅陀半島,英屬地