Pandas的列表值处理技巧，避免过多循环加快处理速度（上）-阿里云开发者社区

准备

要遵循本教程，请下载用于所有示例的虚拟数据集。包括代码在内的所有资料都可以在这里找到。

另外，请导入所有必要的库并加载数据格式。

import pandas as pd
import numpy as np
import matplotlib as pltfruits = pd.read_csv("fruits.csv", delimiter = ";")

图3 -数据集示例

列表值有什么问题呢?

让我们直击要点:列表值打乱了您所知道的关于数据分析的一切。如果没有无尽的循环，甚至不能执行最简单的操作。让我给你们看一个简单的例子:

对于示例数据集中的“age”列，我们可以轻松地使用 value_counts() 函数来计算观察到的年龄数据集的数量。

fruits["age"].value_counts()## OUTPUT ##
10   2
5     1

如果我们想知道哪些水果被命名得最多呢?原则上，我们在“favorite_fruits”列中获得了所需的所有数据。然而，如果我们应用相同的函数，结果是没有帮助的。

fruits["favorite_fruits"].value_counts()## OUTPUT ##
["strawberry", "raspberry", "blueberry"




    
]                     1
["mango", "pineapple", "orange"]                             1
["blueberry", "watermelon", "apple", "raspberry"]             1
["apple", "pear", "peach"]                                   1
["pear", "strawberry", "raspberry"]                           1
["banana", "maracuja", "watermelon", "apple", "pineapple"]   1
["peach", "strawberry", "apple", "blueberry"]                 1
["banana", "mango", "orange", "watermelon"]                   1
["watermelon", "apple", "blueberry", "pear", "strawberry"]   1

这不起作用的原因是，Pandas不能直接访问列表中的每个元素。因此，它无法正确地应用 value_counts() 等函数。那么，我们该怎么做呢?我将在下面向您展示!

问题1:列表存储为字符串

您经常会遇到的一个问题是，panda将以字符串的形式读取列表，而不是以列表的形式。

for i, l in enumerate(fruits["favorite_fruits"]):
  print("list",i,"is",type(l))## OUTPUT ##
list




    
 0 is <class 'str'>
list 1 is <class 'str'>
list 2 is <class 'str'>
list 3 is <class 'str'>
list 4 is <class 'str'>
list 5 is <class 'str'>
list 6 is <class 'str'>
list 7 is <class 'str'>
list 8 is <class 'str'>
list 9 is <class 'str'>

这意味着您甚至不能遍历列表来计算惟一值或频率。根据您的列表在 dataframe 格式化方式的，有一种简单的或复杂的解决方案。在任何情况下，您都可以使用我提供的代码。

你的字符串是这样的吗：“[‘strawberry’, ‘apple’, ‘orange’]”？

在这种情况下，有一个使用 apply() 和 eval() 函数的快速方法。

fruits["favorite_fruits"] = fruits["favorite_fruits"].apply(eval)

你的字符串是这样的吗：“[strawberry, apple, orange]”?

这个类型比较困难， eval() 函数因为列表缺少内部引号而不能工作，以便将其识别为一个列表对象。快速而粗糙的解决方案是简单地向字符串添加引号，然后应用 eval() 。使用这个函数：

def clean_alt_list(list_):
   list_ = list_.replace(', ', '","')
   list_ = list_.replace('[', '["')
   list_ = list_.replace(']', '"]')
   return list_

应用到 dataframe 时,请使用此伪代码:

df[col] = df[col].apply(clean_alt_list)

注意，在这两种情况下，Pandas仍然会为系列分配一个“O”数据类型，这通常用于字符串。但是不要让这个迷惑了你。你可以使用检查实际的数据类型:

for i, l in enumerate(fruits[“favorite_fruits”]):
print(“list”,i




    
,”is”,type(l))## OUTPUT ##
list 0 is <class 'list'>
list 1 is <class 'list'>
list 2 is <class 'list'>
list 3 is <class 'list'>
list 4 is <class 'list'>
list 5 is <class 'list'>
list 6 is <class 'list'>
list 7 is <class 'list'>
list 8 is <class 'list'>
list




    
 9 is <class 'list'>

问题2:获得特定的列表值

在这第一步之后，我们的数据集最终被Pandas认可。但是，我们仍然不能使用标准函数，因为它们不是为列表设计的。

至少我们现在可以使用循环。这个方法适合于小数据集,但会非常慢。例如,我如果分析高达999个标签,大约有500k音乐曲目的数据集。这意味着,内部循环将会有数亿次,这将花费数小时,并可能使我的计算机崩溃。我能给你展示一个更干净、更快的方法,在一分钟内完成此任务。然而,如果您真的想使用循环,下面是代码:

fruit_dict = {}
for i in fruits["favorite_fruits"]:
   for j in j:
       if j not in fruit_dict:
           fruit_dict[j] = 1
       else:
           fruit_dict[j] += 1

我花了一段时间才弄清楚。如果我们将列表数据集化作为一个2D数组,然后将其维度从2减少到1,将允许我们再次应用经典的Pandas功能。为此,您可以使用这个函数:

def to_1D(series):
return pd.Series([x for _list in series for x in _list])

如果我们现在使用 value_counts() ，就会得到我们想要的结果。

to_1D(fruits[“favorite_fruits”]).value_counts()## OUTPUT ##
apple         5
blueberry     4
watermelon    4
strawberry    4
raspberry     3
pear          3
banana        2
pineapple     2
mango         2
peach         2
orange        2
maracuja      1

要获得惟一的值，只需将 .index() 链接到上面的结果中提取它们。

第一章 pandas预备知识(列表推导式与条件赋值、匿名函数与map方法、zip对象与enumerate方法、np基础 )

在处理数据文件的时候，我们往往需要通过自己再处理来获得方便分析的数据表。这时候会经常用得到的操作就包括了重塑和透视。本期将对这个两个操作进行讲解，希望大家都能作出令自己满意的分析结果~ Python数据分析大杀器之Pandas基础2万字详解（学pandas基础，这一篇就够啦）

Python数据分析大杀器之Pandas基础2万字详解（学pandas基础，这一篇就够啦）