import pandas as pd
df=pd.read_csv(r"C:\data\slice函数的使用\data1.csv",engine='python') #不写encoding='gbk'也行。默认是utf8
print(df.dtypes)
print('-----')
print(df['id'].dtypes)#如果一列中含有多个类型,则该列的类型会是object,同样字符串类型的列也会被当成object类型.

1.转化为字符串类型

将id转化为字符串 astype()函数可用于转化dateframe某一列的数据类型 df['id']=df['id'].astype(str) print(df['id'].dtypes)

2.字段截取

前六位是地址码 接着8位是出生日期码 再3位是顺序码 最后一位是校验码 #提取地址码 area=df['id'].str.slice(0,6)#注意不能将.str省去。
#提取出生日期码
birthday=df['id'].str.slice(6,14)

area和birthday都是Series类型
在这里插入图片描述

3.将截取后的信息添加回数据框DataFrame

#将信息添加回数据框
df['area']=area
df['birthday']=birthday

4.合并数据框的列

num=df['area']+df['birthday']#num是Series类型
df['num']=num
生成测试数据
dates = pd.date_range('20200217', periods=6)
df = pd.DataFrame(np.arange(24).reshape((6, 4)), index=dates, columns=['A', 'B', 'C', 'D'])
             A   B   C   D
2020-02-17   0   1   2   3
2020-02-18   4   5   6   7
2020-02
				
字段抽取:根据已知数据的开始和结束为止,抽取出新的列函数用法:slice(start,stop)from pandas import read_csv; df = read_csv("E://pythonlearning//datacode//firstpart//4//4.6//data.csv"); df['tel'] = df['tel'].astype(str);#这个函数是把它变成字...
step : 整型或缺省 Returns: 序列Series/索引IndexSeries.str.slice_replace(start=None, stop=None, repl=None)按下标替换
拯救pandas计划(13)——提取Series字符串中的数字并计算/ 数据需求/ 需求拆解/ 需求处理/ 总结 最近发现周围的很多小伙伴们都不太乐意使用pandas,转而投向其他的数据操作库,身为一个数据工作者,基本上是张口pandas,闭口pandas了,故而写下此系列以让更多的小伙伴们爱上pandas。 系列文章说明: 系列名(系列文章序号)——此次系列文章具体解决的需求 windows 10 python 3.8 pandas >=1.2.4 / 数据需求 需要对下列有着统一格
使用 pandas 进行数据分析的过程中,我们常常会遇到将一行数据展开成多行的需求,多么希望能有一个类似于 hive sql 中的 explode 函数。 这个函数如下: # !/usr/bin/env python # -*- coding:utf-8 -*- # create on 18/4/13 import pandas as pd def dataframe_explode(dataframe, fieldname): temp_fieldname = fieldname + '_made_tuple_' dataframe[temp_fieldname] = da
python数据分析工具pandasDataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数。 1)查看DataFrame数据及属性 df_obj = DataFrame() #创建DataFrame对象 df_obj.dtypes #查看各行的数据格式 df_obj['列名'].astype(int)#转换某列的数据类型 df_obj.head() #查看前几行的数据,默认前5行 df_obj.tail() #查看后几行的数据,默认后5行 df_obj.index #查看索引 df_obj.columns #查看列
十、向量化字符串操作 Pandas提供一系列向量化字符串操作(vectorized string operation)是在处理(清洗)现实工作中的数据时不可或缺的功能。 Pandas字符串方法列表 1. 与Python字符串方法相似的方法 返回字符串Series[Series or Index of object]:
需要从text特征中提取形如 13.5/10 这样的字符串,再分别提取分子分母。 1)可以利用 str.extract() 方法。 2)利用正则表达式 \d+\.?\d*\/\d+ 进行匹配 3)再利用 .split() 方法提取分子分母
Python pandas是一个数据分析工具,提供了DataFrame数据结构,它有许多常见的函数可以对数据进行处理和分析。 1. 读取数据:通过read_csv()函数可以将csv格式的文件读取为DataFrame对象,并通过to_csv()函数DataFrame对象保存为csv文件。 2. 选取数据:使用loc()和iloc()函数可以根据标签或索引选取DataFrame中的行和列。例如,df.loc[0]可以选择第一行,df.loc[:, 'A']可以选择'A'列。 3. 描述数据:describe()函数可以提供DataFrame中数值列的基本统计信息,如计数、均值、标准差等。 4. 排序数据:通过sort_values()函数可以根据指定的列或多个列对DataFrame进行排序。 5. 筛选数据:使用条件表达式可以筛选出满足条件的数据,例如df[df['A'] > 0]可以筛选出'A'列大于0的数据。 6. 缺失值处理:fillna()函数可以将DataFrame中的缺失值用指定的值进行填充,dropna()函数可以删除包含缺失值的行或列。 7. 合并数据:通过concat()和merge()函数可以将多个DataFrame对象按指定的方式合并成一个新的DataFrame。 8. 统计计算:DataFrame提供了一些常见的统计计算函数,如sum()、mean()、median()等,可以对指定的列进行计算。 9. 分组操作:使用groupby()函数可以按照指定的列对DataFrame进行分组操作,然后进行聚合计算,如求和、平均值等。 10. 数据透视表:使用pivot_table()函数可以根据指定的行和列对DataFrame进行透视操作,类似于Excel中的数据透视表。 这些函数只是常见的一部分,Python pandas还提供了很多其他强大的函数和特性,可以根据实际需求去探索和应用。