num=df['area']+df['birthday']
df['num']=num
生成测试数据
dates = pd.date_range('20200217', periods=6)
df = pd.DataFrame(np.arange(24).reshape((6, 4)), index=dates, columns=['A', 'B', 'C', 'D'])
A B C D
2020-02-17 0 1 2 3
2020-02-18 4 5 6 7
2020-02
字段抽取:根据已知数据的开始和结束为止,抽取出新的列函数用法:slice(start,stop)from pandas import read_csv;
df = read_csv("E://pythonlearning//datacode//firstpart//4//4.6//data.csv");
df['tel'] = df['tel'].astype(str);#这个函数是把它变成字...
step : 整型或缺省
Returns:
序列Series/索引IndexSeries.str.slice_replace(start=None, stop=None, repl=None)按下标替换
拯救pandas计划(13)——提取Series字符串中的数字并计算/ 数据需求/ 需求拆解/ 需求处理/ 总结
最近发现周围的很多小伙伴们都不太乐意使用pandas,转而投向其他的数据操作库,身为一个数据工作者,基本上是张口pandas,闭口pandas了,故而写下此系列以让更多的小伙伴们爱上pandas。
系列文章说明:
系列名(系列文章序号)——此次系列文章具体解决的需求
windows 10
python 3.8
pandas >=1.2.4
/ 数据需求
需要对下列有着统一格
在使用 pandas 进行数据分析的过程中,我们常常会遇到将一行数据展开成多行的需求,多么希望能有一个类似于 hive sql 中的 explode 函数。
这个函数如下:
# !/usr/bin/env python
# -*- coding:utf-8 -*-
# create on 18/4/13
import pandas as pd
def dataframe_explode(dataframe, fieldname):
temp_fieldname = fieldname + '_made_tuple_'
dataframe[temp_fieldname] = da
python数据分析工具pandas中DataFrame和Series作为主要的数据结构.
本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数。
1)查看DataFrame数据及属性
df_obj = DataFrame() #创建DataFrame对象
df_obj.dtypes #查看各行的数据格式
df_obj['列名'].astype(int)#转换某列的数据类型
df_obj.head() #查看前几行的数据,默认前5行
df_obj.tail() #查看后几行的数据,默认后5行
df_obj.index #查看索引
df_obj.columns #查看列
十、向量化字符串操作
Pandas提供一系列向量化字符串操作(vectorized string operation)是在处理(清洗)现实工作中的数据时不可或缺的功能。
Pandas字符串方法列表
1. 与Python字符串方法相似的方法
返回字符串Series[Series or Index of object]:
需要从text特征中提取形如 13.5/10 这样的字符串,再分别提取分子分母。
1)可以利用 str.extract() 方法。
2)利用正则表达式 \d+\.?\d*\/\d+ 进行匹配
3)再利用 .split() 方法提取分子分母
Python pandas是一个数据分析工具,提供了DataFrame数据结构,它有许多常见的函数可以对数据进行处理和分析。
1. 读取数据:通过read_csv()函数可以将csv格式的文件读取为DataFrame对象,并通过to_csv()函数将DataFrame对象保存为csv文件。
2. 选取数据:使用loc()和iloc()函数可以根据标签或索引选取DataFrame中的行和列。例如,df.loc[0]可以选择第一行,df.loc[:, 'A']可以选择'A'列。
3. 描述数据:describe()函数可以提供DataFrame中数值列的基本统计信息,如计数、均值、标准差等。
4. 排序数据:通过sort_values()函数可以根据指定的列或多个列对DataFrame进行排序。
5. 筛选数据:使用条件表达式可以筛选出满足条件的数据,例如df[df['A'] > 0]可以筛选出'A'列大于0的数据。
6. 缺失值处理:fillna()函数可以将DataFrame中的缺失值用指定的值进行填充,dropna()函数可以删除包含缺失值的行或列。
7. 合并数据:通过concat()和merge()函数可以将多个DataFrame对象按指定的方式合并成一个新的DataFrame。
8. 统计计算:DataFrame提供了一些常见的统计计算函数,如sum()、mean()、median()等,可以对指定的列进行计算。
9. 分组操作:使用groupby()函数可以按照指定的列对DataFrame进行分组操作,然后进行聚合计算,如求和、平均值等。
10. 数据透视表:使用pivot_table()函数可以根据指定的行和列对DataFrame进行透视操作,类似于Excel中的数据透视表。
这些函数只是常见的一部分,Python pandas还提供了很多其他强大的函数和特性,可以根据实际需求去探索和应用。