根据官方的定义来看,
简单来说
语法是这样的:DataFrame.describe(percentiles=None,include=None,exclude=None)
第一个参数percentiles是返回这组数据的count ,mean,std,min,max,还有百分位数。
简单来说就是数据的数量,方差,标准差,最大值,最小值,还有25%,50%,75%的百分位数或者是50%,根据版本语法规定。
举个例子:
import pandas as pd
df = pd.DataFrame(data={
'A':list('abaacdadaf'),
'B':[2,4,6,3,6,2,5,8,0,2]
print(df.describe(percentiles=()))
结果是这样的:
B
count 10.000000
mean 3.800000
std 2.440401
min 0.000000
50% 3.500000
max 8.000000
这里补充一点,百分位数是这样算的:
举个例子:你将我上面的数据排序后:[0, 2, 2, 2, 3, 4, 5, 6, 6, 8]
然后第50%位就是3,比3大一位的是4,返回的结果就是3.500000.
当然是可以定义其他值的,用法为df.describe(percentiles=[.xx])
include:类似于dtypes列表或None(默认值),就是选择出相关符合的值,举个例子
print(df.describe(include='all'))
print(df.describe(include='O'))
print(df.describe(include=None))
设置参数为’all’则输入的所有列都在输出中,设置为O则只输出离散型变量的,如果为None的话,就根据cloums输出(结果将包括所有数字列。)当然,你在输出all的时候,要注意数据的长度是不是一样的
注意对于Series不可用!
当然你还可以这样处理,不过要先设置一些数据:
import pandas as pd
import numpy as np
df = pd.DataFrame(data={
'categracal':pd.Categorical(["a","g","e"]),
'numeric':[1,3,6],
"object":["r","D","T"]
print(df.describe(include=["category"]))
print(df.describe(include=[np.object]))
print(df.describe(include=[np.number]))
三个分别对应上面的:结果大家可以试一下。np.number是处理数字。。。。。
举一个简单的结果。。。
categracal
count 3
unique 3
top g
freq 1
参数的话,有一些改变,top是出现频率最高的。freq是重复的次数。unique表示几个是独一无二的
exclude:
当然你也可以用这个来排除,意思就是排除了两个,那么剩下的就是输出的,
比如说:
print(df.describe(exclude=[np.number,np.object]))
输出结果就是 categracal的分析。。。。。。
其结果将包括count,mean,std,min,max以及百分位数。默认情况下,百分位数分三档:25%,50%,75%,其中第50百分位数就是中位数。
count:计数,这一组数据中包含数据的个数
mean:平均值,这一组数据的平均值
std:标准差,这一组数据的标准差
min:最小值
max:最大值
百分位数:
第p百分位数是这样一个值,它使得至少有p%的数据项小于或等于这...
这一方法同时也会显示是否有缺失值,上述结果表明在该数据集中不存在缺失值,因为每列都包含3333个观测,和我们之前使用。下面开始此次实验,我们将通过分析电信运营商的客户离散率数据集来展示Pandas的主要方法!方法可以更改列的类型,下列公式将Churn离网率特征修改魏int64类型!)的基本统计学特性,如未缺失值的数值、均值、标准差、范围、四分位数等!上述结果表明,在3333位用户中,2850位是忠实客户,它们的。参数显式指定包含的数据类型,可以查看非数值特征的统计数据!方法得到的数字是一样的!
describe()方法用于计算一些统计数据, 例如Series或DataFrame的数值的百分位数, 均值和标准差。它分析数字和对象系列以及混合数据类型的DataFrame列集。句法DataFrame.describe(percentiles=None, include=None, exclude=None)参数percentile:它是一个可选参数, 它是一个列表, 如数字的数据类型, 应在0...
pandas.Da他Frame.describe 的参数有 percentiles , include ,exclude
percentiles 是自定义百分位的 ,数值是从0-1 之间,默认的是[0.25,0.50, 0.75] 可以自定义,但是结果会默认自带0.5 ,例如
import pandas as pd
a = pd.DatafFrame({"a":[1,2,3,4,5,6,7],"b":["b1","b2","b3","b4","b5","b6","b7"]})
a.describe(pe
Python是进行数据分析的一种出色语言,主要是因为以数据为中心的Python软件包具有奇妙的生态系统。 Pandas是其中的一种,使导入和分析数据更加容易。
Pandas describe()用于查看一些基本的统计详细信息,例如数据帧的百分位数,均值,标准差等或一系列数值。当此方法应用于一系列字符串时,它将返回不同的输出,如以下示例所示。
用法:DataFrame.describe(percentiles=None, include=None, exclude=None)
一、describe()函数介绍
pandas 是基于numpy构建的含有更高级数据结构和工具的数据分析包,提供了高效地操作大型数据集所需的工具。pandas有两个核心数据结构 Series和Data...
DataFrame.describe(self, percentiles=None, include=None, exclude=None)生成描述性统计数据,总结数据集分布的集中趋势,分散和形状,不包括NaN值。分析数字和对象系列,以及DataFrame混合数据类型的列集。输出将根据提供的内容而有所不同。有关更多详细信息,请参阅以下注释。参数:percentiles:列表类似数字,可选要包含...
所做的是,它只是将每一行格式化为常规格式。我写这个答案的原因是,我心里有。对于整个DataFrame(如@databyte所建议)想法,那就是在我们的常规格式中,它也更易于比较。
想要准确理解 describe()的使用方法,还是要着重掌握统计学的相关知识,下面重点给出相关名词解释。描述性统计使用df.describe()描述性统计,即概括性度量。是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简洁地用几个统计值来表示一组数据地集中性和离散型 (波动性大小)。集中趋势指一组数据向某一中心靠拢的程度,反映了一组数据中心点的位置所在。众...
DataFrame.describe(percentiles=None,include=None,exclude=None)其物理意义在于观察这一系列数据的范围。大小、波动趋势等等,便于判断后续对数据采取哪类模型更合适。基础数据:# 时间dates = pd.date_range('20200115', periods=7)# dn表格每个维度df = pd.DataFrame(np.rand...
pandas中具有很多很强大的图表绘制功能,今天介绍一个简单好用的绘制数据框DataFrame中某一列数据分布直方图的函数——DataFrame.hist(),顺便介绍一个统计分析函数DataFrame.describe()。
下面通过代码进行展示效果,示例代码中的csv文件是谷歌提供的一个包含加利福尼亚州住房数据的文件。
import pandas as pd
california_ho...