最近在学习b站沐神的动手学深度学习课程,进程来到实战kaggle房价预测。准备在数据分析和预处理这部分扩充下自己的实操技能,多学习点python可视化、数据描述性统计分析的方法,了解熟悉下python的一些库。
参考书籍:
README - 利用Python进行数据分析·第2版
数据描述性统计分析+可视化
print(train_data.shape)
print(test_data.shape)
train_data.info()
(1460, 81)
(1459, 80)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Id 1460 non-null int64
1 MSSubClass 1460 non-null int64
2 MSZoning 1460 non-null object
3 LotFrontage 1201 non-null float64
4 LotArea 1460 non-null int64
5 Street 1460 non-null object
6 Alley 91 non-null object
7 LotShape 1460 non-null object
8 LandContour 1460 non-null object
9 Utilities 1460 non-null object
10 LotConfig 1460 non-null object
这里只显示了部分,可以看到训练集总共有81列,除去ID,有80列,测试集比训练集少个SalePrice列.
-
数据集中既有int/float型的定量变量,也有object类型的定性变量,我们需要针对不同类型的变量做不同的描述统计
-
定量数据直方图分析
-
numeric_features = [feature for feature in train_data.columns if train_data.dtypes[feature] != 'object']
object_features = [feature for feature in train_data.columns if train_data.dtypes[feature] == 'object']
numeric_features.remove('Id')
numeric_features.remove('SalePrice')
numeric = pd.melt(train_data, value_vars=numeric_features)
pd.melt():将宽数据变成长数据
pd.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None)
参数说明:
frame:就是需要处理的数据集df
id_vars:不需要转换的列名
value_vars:需要转换的列名
var_name:自定义列名
value_name:自定义的值的列名
col_level:如果列是MultiIndex,则使用此级别
g=sns.FacetGrid(numeric, col='variable', col_wrap= 4, sharex=False, sharey = False)
g.map(sns.distplot, 'value')
Seanborn统计数据可视化
seaborn: statistical data visualization — seaborn 0.11.2 documentation
scipy
SPSSPRO一个超级强大的在线数据统计分析网站
SPSSPRO-免费专业的在线数据分析平台
在大
数据
和
人工智能
时代,
数据
科学和机器学习在许多科技领域都变得必不可少。处理
数据
的一个必要方面是能够直观地描述、总结和表示
数据
。
Python
统计库是全面、流行且广泛
使用
的工具,可帮助处理
数据
。对于
数据
的基础描述我们可以进行下面的操作:整套学习自学教程
中
应用的
数据
都是《三國志》、《真·三國無雙》系列游戏
中
的内容。
描述性统计是关于描述和总结
数据
。
使用
两种主要方法:可以将描述性统计应用于一个或多个
数据
集或变量。当描述和总结单个变量时,执行单变量分析。当搜索一对变量之间的统计关系时,进行双变量分析。同样多变量分
文章目录一、为什么要描述和
可视化
1. 统计研究的过程2.
描述性统计分析
的作用二、如何描述和
可视化
1.
数据
类型是基础2. 单变量分布分析3. 两变量相关性分析4. 多变量交叉相关分析
之前学过
spss
的探索性
数据分析
,在此分享以下之前学过的方法,重在精简,打开
数据
描述的思路,若有不清楚的地方,可以在留言区探讨。
一、为什么要描述和
可视化
1. 统计研究的过程
2.
描述性统计分析
的作用
描述性统计分析
属于整数
数据
这个环节,它的作用主要有以下几点:
描述某变量的分布信息
就是它长什么样子、高矮胖瘦,值大的多
回归分析是处理
数据
、分析
数据
特征和关系的一种重要方法,在各个领域的数理统计分析
中
都非常有用。回归分析
中
有多种分析方法,接下来我们要介绍的是IBM
SPSS
Statistics
中
的曲线估算分析方法。
一、曲线估算
和线性回归的原理类似,曲线估算也是以最小二乘法为基础,来分析曲线关系资料在数量变化上的特征和规律的一种回归分析方法。
图1:曲线估算
在“分析”菜单
中
找到“回归”,点击其
中
的“曲线估算”,可以打开曲线估算的分析窗口。
二、操作方法
1.
数据
样本
图2:
数据
样本
这是一份从1
SPSS
是一款统计分析软件,下面是
SPSS
的下载安装教程:
1. 首先,在网上搜索
SPSS
软件的下载地址,选择一个可靠的网站进行下载。通常下载的文件是一个压缩包,需要解压后才能进行安装。
2. 解压后,打开安装程序,根据提示一步一步进行安装。如果需要输入序列号,请根据自己购买的版本输入序列号。
3. 安装完成后,打开
SPSS
软件,输入序列号进行激活。激活成功后,就可以开始
使用
SPSS
进行统计分析了。
总的来说,
SPSS
的下载安装比较简单,但是需要注意的是,一定要从正规的网站下载,以免下载到病毒或者盗版软件。