Modin
分布式计算在数据科学领域的应用。它是一个多进程的数据帧(Dataframe)库,具有与 Pandas 相同的应用程序接口(API),使用户可以加速他们的 Pandas 工作流。
据相关实验表明,在一台 8 核的机器上,用户只需要修改一行代码,Modin 就能将 Pandas 查询任务加速 4 倍。
该系统是为希望程序运行得更快、伸缩性更好,而无需进行重大代码更改的 Pandas 用户设计的。这项工作的最终目标是能够在云环境中使用 Pandas。
Modin其实就是一个Python程序库,所以我们可以使用如下所示的 PyPi 指令来安装 Modin:
pip install modin
在 Windows 环境下,Ray 是安装 Modin 所需的依赖之一。Windows 本身并不支持 Ray,所以为了安装它,用户需要使用 WSL(适用 Linux 的 Windows 子系统)。
Modin 如何加速数据处理过程
在笔记本上
在具有 4 个 CPU 内核的现代笔记本上处理适用于该机器的数据帧时,Pandas 仅仅使用了 1 个 CPU 内核,而 Modin 则能够使用全部 4 个内核。在「read_csv」函数中,通过有效地在整个机器上分布工作,我们可以看到巨大的提升。
读取不同文件速度对比
Pandas 的运行时间会随着数据量的变化而线性增长,因为它仅仅使用 1 个内核。而从上图中可能很难看到绿色条形图的增长,因为 Modin 的运行时间实在太短了。
通常,Modin 使用「read_csv」函数读取 2G 数据需要 2 秒,而 读取 18G 数据大约需要不到 18 秒。
Modin 封装了 Pandas,并透明地分发数据和计算任务,它通过修改一行代码就加速了 Pandas 的工作流。用户可以继续使用以前的 Pandas notebook,同时体验 Modin 带来的大幅加速,甚至在一台机器上。用户需要做的只是替换Pandas的导入声明,引入「modin.pandas」而不是「pandas」。
# import pandas as pd
import modin.pandas as pd
我们将使用 Numpy 构建一个由随机整数组成的简单数据集。
import numpy as np
import modin.pandas as pd
data = np.random.randint(0,100,size = (2**16, 2**4))
df = pd.DataFrame(data)
df = df.add_prefix("Col:")
当我们将数据的类型打印在屏幕上时,会显示出「Modin 数据帧」。
type(df)
modin.pandas.dataframe.DataFrame
如果我们使用「head」命令打印出前五行数据,它会像 Pandas 一样显示出 HTML 表单。
df.head()
pd.read_csv
因为「read_csv」是常用的 Pandas 操作,也是他们所强调的亮点。接下来,我们将对分别在 Pandas 和 Modin 环境下使用「read_csv」函数的性能进行一个简单的对比。
pandas
%%time
import pandas
pandas_csv_data = pandas.read_csv("../800MB.csv")
-----------------------------------------------------------------
CPU times: user 26.3 s, sys: 3.14 s, total: 29.4s
Wall time: 29.5 s
Modin
%%time
modin_csv_data = pd.read_csv("../750MB.csv")
-----------------------------------------------------------------
CPU times: user 76.7 ms, sys: 5.08 ms, total: 81.8 ms
Wall time: 7.6 s
通过使用 Modin,只需要修改导入声明就可以在一台 4 核机器上以普通 Pandas 4 倍的速度执行「read_csv」操作。
df.groupby
Pandas
%%time
import pandas
_ = pandas_csv_data.groupby(by=pandas_csv_data.col_1).sum()
-----------------------------------------------------------------
CPU times: user 5.98 s, sys: 1.77 s, total: 7.75 s
Wall time: 7.74 s
Modin
%%time
results = modin_csv_data.groupby(by=modin_csv_data.col_1).sum()
-----------------------------------------------------------------
CPU times: user 3.18 s, sys: 42.2 ms, total: 3.23 s
Wall time: 7.3 s