发现自己学习python 的各种库老是容易忘记,所有想利用这个平台,记录和分享一下学习时候的知识点,以后也能及时的复习,最近学习pandas,那我们来看看pandas添加数据的一些方法

创建一个dataframe

dataframe pyspark 添加一列 python dataframe加一列_数据分析

1. 增加列数据

为dataframe增加一列新数据,需要确保增加列的长度与原数据保持一致

dataframe pyspark 添加一列 python dataframe加一列_pandas_02


如果是增加一列相同数据可以直接输入

df['level'] = 1

插入的数据是需要通过源数据进行计算的(eval这个方法感觉比较好用)

df.eval('grade_level = grade * level',inplace = True)

dataframe pyspark 添加一列 python dataframe加一列_pandas_03


使用insert函数可以在指定列添加列数据,这个函数有好几个参数,使用更加灵活

df.insert(loc, column, value, allow_duplicates=False)

dataframe pyspark 添加一列 python dataframe加一列_数据_04

增加列数据的方法还有很多,我只把自己比较常用的记录了下来 2. 增加行数据

比较多的方法有 loc 、iloc、append都行,先看loc这个方法,它是通过 df.loc[index 名称 ] = [对应的数据],这个方法要主要index如果是与原表中有重复,则会将原数据修改,如果没有重复的话,就是在最后面添加对应数据,其中的index名称是根据输入的写入,需要注意!

dataframe pyspark 添加一列 python dataframe加一列_数据分析_05

第二个是通过df.iloc[index位置] = [对应数据] 进行修改这个方法是对原有数据进行修改,并不是增加一行数据

dataframe pyspark 添加一列 python dataframe加一列_pandas_06

使用append()函数添加一行数据,其中ignore_index=True,否则报错

dataframe pyspark 添加一列 python dataframe加一列_pandas_07

append()往往做法比较多的是添加一个另外一个dataframe的数据到原来数据上,爬虫时候用得比较多,将每一页的数据保存到一个临时的dataframe中,将这个临时的dataframe数据插入到总的dataframe后面,最后得到总的数据,且效率较高

dataframe pyspark 添加一列 python dataframe加一列_数据分析_08

当然还有concat、merge等方法可以达到相同的效果,下次有机会在继续学习