相关文章推荐
有胆有识的椰子  ·  Pandas ...·  3 周前    · 
兴奋的草稿纸  ·  如何从spark scala ...·  2 周前    · 
发呆的春卷  ·  spark ...·  2 周前    · 
冷冷的麦片  ·  谷歌将为 Chrome ...·  1 年前    · 
#create DataFrame with duplicate columns df = pd .DataFrame ({' team ': [ 'A' , 'A' , 'A' , 'A' , 'B' , 'B' , 'B' , 'B' ] , ' points ': [25, 12, 15, 14, 19, 23, 25, 29] , ' assists ': [25, 12, 15, 14, 19, 23, 25, 29] , ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12] }) df .columns = [ 'team' , 'points' , 'points' , 'rebounds' ] #view DataFrame team points points rebounds 0 A 25 25 11 1 A 12 12 8 2 A 15 15 10 3 A 14 14 6 4 B 19 19 6 5 B 23 23 5 6 B 25 25 9 7 B 29 29 12

我们可以使用下面的代码来删除重复的'point'列:

#remove duplicate columns
df.T.drop_duplicates().T
        team	points	rebounds
0	A	25	11
1	A	12	8
2	A	15	10
3	A	14	6
4	B	19	6
5	B	23	5
6	B	25	9
7	B	29	12

注意,'points'列已经被删除,而所有其他的列仍然留在DataFrame中。

还值得注意的是,即使列的名称不同,但包含相同的值,这段代码也会删除重复的列。

例如,假设我们有下面这个pandas DataFrame:

import pandas as pd
#create DataFrame with duplicate columns
df = pd.DataFrame({'team': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   'points': [25, 12, 15, 14, 19, 23, 25, 29],
                   'points2': [25, 12, 15, 14, 19, 23, 25, 29],
                   'rebounds': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
	team	points	points2	rebounds
0	A	25	25	11
1	A	12	12	8
2	A	15	15	10
3	A	14	14	6
4	B	19	19	6
5	B	23	23	5
6	B	25	25	9
7	B	29	29	12

注意,"points "和 "points2 "列包含相同的值。

我们可以使用下面的代码来删除重复的'point2'列:

#remove duplicate columns
df.T.drop_duplicates().T
        team	points	rebounds
0	A	25	11
1	A	12	8
2	A	15	10
3	A	14	6
4	B	19	6
5	B	23	5
6	B	25	9
7	B	29	12

下面的教程解释了如何在pandas中执行其他常见的功能:

如何删除pandas数据框架中的重复行
如何删除pandas中的列
如何排除pandas中的列