相关文章推荐
从未表白的脆皮肠  ·  python ...·  3 小时前    · 
文雅的四季豆  ·  matplotlib绘制散点图 - ...·  3 小时前    · 
满身肌肉的火柴  ·  fps = ...·  1 月前    · 
坐怀不乱的蚂蚁  ·  JAVA8 ...·  6 月前    · 
阳光的骆驼  ·  报错`mobx.map` is ...·  1 年前    · 
从0开始学stata-1

从0开始学stata-1

2 年前 · 来自专栏 一起来学Stata

本次数据来自money.dta文件:

money.dta
2.9K
·
百度网盘

1. 变量的统计特征输出

(1)summarize 部分统计特征指标

显示变量的样本容量(Obs)、平均值(Mean)、标准差(Std.Dev.)、最小值(Min)、最大值(Max)

summarize
# 输出所有变量的统计指标,"summarize"可以缩写为"su"
选用money.dta文件数据
summarize 年均支出
# 输出变量名为"年均支出"的统计指标
选用money.dta文件数据
summarize 年均支出 if 年均支出 >= 30000
# 输出满足"年均支出大于等于30000"条件的子样本的统计指标
选用money.dta文件数据
summarize 年均支出,detail
# 新增统计指标百分位数(percentiles)、方差(variance)、偏度(skewness)与峰度(kurtosis)
选用money.dta文件数据
summarize,detail
# 显示所有变量的统计指标,包括百分位数(percentiles)、方差(variance)、偏度(skewness)与峰度(kurtosis)
选用money.dta文件数据

(2)tabulate 经验累积分布函数

tabulate 年均支出
# 显示变量名为"年均支出"的经验累积分布函数(empirical cumulative distribution function)
# "tabulate"可缩写为"ta"
选用money.dta文件数据

(3)pwcorr 变量间的相关系数

"pwcorr"表示"pairwise correlation"(两两相关),变量间的相关系数

pwcorr 
# 显示所有变量间的相关系数,不可缩写
选用money.dta文件数据
pwcorr 性别 年龄 年均支出,sig star(0.05)
# 选择项"sig"表示显示相关系数的显著性水平(即p值,列在相关系数的下方)
# 选择项"star(0.05)"表示给所有显著性水平小于或者等于5%的相关系数打上*号
选用money.dta文件数据

2. 画图

(1)histogram 直方图

histogram 年均支出,width(1000) frequency
# 显示变量名为"年均支出",组宽为1000的直方图,"histogram"可以缩写为"hist"
选用money.dta文件数据
histogram 年均支出
# 不设定组宽长度,并且纵坐标默认为Density 频率
选用money.dta文件数据

(2)kdensity 连续经验分布图

kdensity 年均支出
# 由于直方图不连续,显示连续的经验分布图,不可缩写
选用money.dta文件数据

(3)scatter 散点图

scatter 年龄 年均支出
# 显示变量"年龄"与"年均支出"的散点图,"scatter"可缩写为"sc"
选用money.dta文件数据

在上面的散点图中,我们无法知道每个点分别对应哪个观测值。为此,首先需要定义一个新变量"n"来表示第n个变量。

gen n=_n
scatter 年龄 年均支出,mlabel(n) mlabpos(6)
# "_n"表示第n个观测值
# 选择项"mlabel(n)"表示以变量"n"作为"mark label"(标签)
# 选择项"mlabpos(6)"(mark label position)表示将此标签放在散点正下方(6点钟方向),默认为散点的正右方(3点钟的位置)
选用money.dta文件数据

(4)twoway 散点图上的回归直线

想在散点图上画出回归线,可用如下命令:

twoway(scatter 年龄 年均支出)(lfit 年龄 年均支出)
#"lfit"表示"linear fit"(线性拟合)
选用money.dta文件数据
twoway(scatter 年龄 年均支出)(qfit 年龄 年均支出)