python可视化、数据描述性统计分析、seanborn、scipy，spsspro必杀_python中使用spsspro

数据描述性统计分析+可视化

首先载入数据，用pandas的读.csv文件的方法：pd.read_csv("路径")，.read_csv()中的参数选择可以去看官方API，有参数设置可以在读文件时就自定义行列索引。更多的读写文件、文本、二进制数据等的方法可以参考
第06章数据加载、存储与文件格式 - 利用Python进行数据分析·第2版 https://seancheney.gitbook.io/python-for-data-analysis-2nd/di-06-zhang-shu-ju-jia-zai-cun-chu-yu-wen-jian-ge-shi
kaggle房价预测的数据，虽然官网给了每列变量的含义，我们还是可以用.info()看一下每列数据的格式，用.shape看一下整个数据集的形状

print(train_data.shape)
print(test_data.shape)
train_data.info()
(1460, 81)
(1459, 80)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object

这里只显示了部分，可以看到训练集总共有81列，除去ID，有80列，测试集比训练集少个SalePrice列.

数据集中既有int/float型的定量变量，也有object类型的定性变量，我们需要针对不同类型的变量做不同的描述统计
定量数据直方图分析

numeric_features = [feature for feature in train_data.columns if train_data.dtypes[feature] != 'object']
object_features = [feature for feature in train_data.columns if train_data.dtypes[feature] == 'object']
numeric_features.remove('Id')
numeric_features.remove('SalePrice')
numeric = pd.melt(train_data, value_vars=numeric_features)
pd.melt()：将宽数据变成长数据
pd.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None)
参数说明：
frame:就是需要处理的数据集df
id_vars：不需要转换的列名
value_vars：需要转换的列名
var_name：自定义列名
value_name：自定义的值的列名
col_level：如果列是MultiIndex，则使用此级别
g=sns.FacetGrid(numeric, col='variable', col_wrap= 4, sharex=False, sharey = False)
g.map(sns.distplot, 'value')

Seanborn统计数据可视化

seaborn: statistical data visualization — seaborn 0.11.2 documentation

scipy

SPSSPRO一个超级强大的在线数据统计分析网站

SPSSPRO-免费专业的在线数据分析平台

在大数据和 人工智能 时代，数据科学和机器学习在许多科技领域都变得必不可少。处理数据的一个必要方面是能够直观地描述、总结和表示数据。 Python 统计库是全面、流行且广泛使用的工具，可帮助处理数据。对于数据的基础描述我们可以进行下面的操作：整套学习自学教程中应用的数据都是《三國志》、《真·三國無雙》系列游戏中的内容。描述性统计是关于描述和总结数据。使用两种主要方法：可以将描述性统计应用于一个或多个数据集或变量。当描述和总结单个变量时，执行单变量分析。当搜索一对变量之间的统计关系时，进行双变量分析。同样多变量分

文章目录一、为什么要描述和 可视化 1. 统计研究的过程2. 描述性统计分析 的作用二、如何描述和 可视化 1. 数据类型是基础2. 单变量分布分析3. 两变量相关性分析4. 多变量交叉相关分析之前学过 spss 的探索性 数据分析 ，在此分享以下之前学过的方法，重在精简，打开数据描述的思路，若有不清楚的地方，可以在留言区探讨。一、为什么要描述和 可视化 1. 统计研究的过程 2. 描述性统计分析 的作用 描述性统计分析 属于整数数据这个环节，它的作用主要有以下几点：描述某变量的分布信息就是它长什么样子、高矮胖瘦，值大的多

回归分析是处理数据、分析数据特征和关系的一种重要方法，在各个领域的数理统计分析中都非常有用。回归分析中有多种分析方法，接下来我们要介绍的是IBM SPSS Statistics 中的曲线估算分析方法。一、曲线估算和线性回归的原理类似，曲线估算也是以最小二乘法为基础，来分析曲线关系资料在数量变化上的特征和规律的一种回归分析方法。图1：曲线估算在“分析”菜单中找到“回归”，点击其中的“曲线估算”，可以打开曲线估算的分析窗口。二、操作方法 1. 数据样本图2：数据样本这是一份从1

SPSS 是一款统计分析软件，下面是 SPSS 的下载安装教程： 1. 首先，在网上搜索 SPSS 软件的下载地址，选择一个可靠的网站进行下载。通常下载的文件是一个压缩包，需要解压后才能进行安装。 2. 解压后，打开安装程序，根据提示一步一步进行安装。如果需要输入序列号，请根据自己购买的版本输入序列号。 3. 安装完成后，打开 SPSS 软件，输入序列号进行激活。激活成功后，就可以开始使用 SPSS 进行统计分析了。总的来说， SPSS 的下载安装比较简单，但是需要注意的是，一定要从正规的网站下载，以免下载到病毒或者盗版软件。