我在一个列表中拥有许多大的数据帧。我把所有的数据框串联起来,产生一个单一的大数据框。
df_list # This contains a list of dataframes
result = pd.concat(df_list, axis=0)
result.columns.duplicated().any() # This returns True
我的期望是,pd.concat不会产生重复的列。
我想了解什么时候会导致重复的列,以便我可以调试源。
我无法用一个玩具数据集重现这个问题。
我已经通过运行df.columns.duplicated().any()
验证了输入的数据框架有唯一的列。
使用的pandas版本为1.0.1
(Pdb) p result_data[0].columns.duplicated().any()
False
(Pdb) p result_data[1].columns.duplicated().any()
False
(Pdb) p result_data[2].columns.duplicated().any()
False
(Pdb) p result_data[3].columns.duplicated().any()
False
(Pdb) p pd.concat(result_data[0:4]).columns.duplicated().any()