Pandas循环提速7万多倍!Python数据分析攻略
乾明 编译整理 量子位 报道 | 公众号 QbitAI
用Python和Pandas进行数据分析,很快就会用到循环。
但在这其中,就算是较小的DataFrame,使用标准循环也比较耗时。
遇到较大的DataFrame时,需要的时间会更长,会让人更加头疼。
现在,有人忍不了了。他是一位来自德国的数据分析师,名叫Benedikt Droste。
他说,当自己花了大半个小时等待代码执行的时候,决定寻找速度更快的替代方案。
在给出的替代方案中,使用Numpy向量化,与使用标准循环相比,速度提升了71803倍。
他是怎么实现的?我们一起来看看~
标准循环处理3年足球赛数据:20.7秒
DataFrame是具有行和列的Pandas对象。如果使用循环,需要遍历整个对象。
Python不能利用任何内置函数,而且速度很慢。在Benedikt Droste的提供的示例中,是一个包含65列和1140行的Dataframe,包含了2016-2019赛季的足球赛结果。
需要解决的问题是:创建一个新的列,用于指示某个特定的队是否打了平局。可以这样开始:
def soc_loop(leaguedf,TEAM,):
leaguedf['Draws'] = 99999
for row in range(0, len(leaguedf)):
if ((leaguedf['HomeTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] == 'D')) | \
((leaguedf['AwayTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] == 'D')):
leaguedf['Draws'].iloc[row] = 'Draw'
elif ((leaguedf['HomeTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] != 'D')) | \
((leaguedf['AwayTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] != 'D')):
leaguedf['Draws'].iloc[row] = 'No_Draw'
else:
leaguedf['Draws'].iloc[row] = 'No_Game'
在这个案例中是阿森纳,在实现目标之前要确认阿森纳参加了哪些场比赛,是主队还是客队。但使用标准循环非常慢,执行时间为20.7秒。
那么,怎么才能更有效率?
Pandas 内置函数: iterrows ()ー快321倍
在第一个示例中,循环遍历了整个DataFrame。iterrows()为每一行返回一个Series,它以索引对的形式遍历DataFrame,以Series的形式遍历感兴趣的列。这使得它比标准循环更快:
def soc_iter(TEAM,home,away,ftr):
#team, row['HomeTeam'], row['AwayTeam'], row['FTR']
if [((home == TEAM) & (ftr == 'D')) | ((away == TEAM) & (ftr == 'D'))]:
result = 'Draw'
elif [((home == TEAM) & (ftr != 'D')) | ((away == TEAM) & (ftr != 'D'))]:
result = 'No_Draw'
else: