- 1.df.describe():df每一列的描述性统计
- 2.df.mean():df中每一列的平均值
- 3.df.corr():df中每一列与其他列的相关系数
- 4.df.count():df中每一列的非空值个数
- 5.df.max():df中每一列的最大值
- 6.df.min():df中每一列的最小值
- 7.df.median():df中每一列的中位数
- 8.df.std():df中每一列的标准差
df = pd.DataFrame(np.random.rand(10,5),columns=list('ABCDE'))
print(df)
df.describe()
df.mean()
A 0.471350
B 0.439164
C 0.569356
D 0.595874
E 0.431748
dtype: float64
df.corr()
df.count()
dtype: int64
df.max()
A 0.888019
B 0.906654
C 0.995770
D 0.974866
E 0.847611
dtype: float64
df.min()
A 0.230401
B 0.046359
C 0.243377
D 0.250055
E 0.103578
dtype: float64
df.median()
A 0.385917
B 0.466891
C 0.577356
D 0.549365
E 0.395121
dtype: float64
df.std()
A 0.206019
B 0.278955
C 0.264849
D 0.257765
E 0.241896
dtype: float64
前言最近发现写的关于python的博客慢慢有人在看,并且关注。突然觉得分享学习内容供大家参考是一件快乐的事情,虽然跟其他大博主相差太远,文章质量也不在一个level。但是还是想在这里记录学习内容,一方面是提醒自己不断学习,不断更新;另一方面也想分享给同我一样的小白。每个大神背后都有一段慢慢成长的岁月。希望同大家一起进步~缩写解释 & 库的导入df:任意的pandas DataFrame(数据框)对象s:任意的pandas Series(数组)对象pandas和numpy是用Pytho.
提供对于pandas各个功能与函数的速查,只有两页,图文并茂,快捷实用。
Tidy Data – A foundation for wrangling in pandas
Reshaping Data – Change the layout of a data set
Method Chaining
Most pandas methods return a DataFrame so that
another pandas method can be applied to the
result. This improves readability of code.
frame = DataFrame({'a': range(7), 'b': range(7, 0, -1),
'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'], 'd': [0, 1, 2, 0, 1, 2, 3]})
print
如果没有条件,则全表更新数据,但可以用limit限制更新的数量
Update 表名 set name ='aaa' where name = '123' limit 4; --改变4个aaa为123
删除数据时可以使用limit限制删除数据的量
delete from 表名 limit 4;
完整的查询指令:
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
>>> from pandas import Series, DataFrame
>>> import pa...
import pandas as pd # 最新为 1.4.1 版本 (2022-02-12)
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
2.导入数据3
# 从 CSV 文件导入数据
pd.read_csv('file.csv', name=['列名','列名2'])
# 从限定分隔符的文本文件导入数据
pd.read_table(filena
value_counts()是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。
dropna = False 表示保留 nan,默认情况下 dropna 是true,即默认情况下不包含 nan
>>> s = pd.Series([1,2,3, np.nan, 5])
>>> s.value_counts()
5 1
import pandas as pd # 最新为 1.0.4 版本 (2020-05-29)
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
# 从 CSV 文件导入数据
pd.read_csv('file.csv', name=['列名','列名2'])
# 从限定分隔符的文本文件导入数据
pd.read_table