Modin

分布式计算在数据科学领域的应用。它是一个多进程的数据帧(Dataframe)库,具有与 Pandas 相同的应用程序接口(API),使用户可以加速他们的 Pandas 工作流。

据相关实验表明,在一台 8 核的机器上,用户只需要修改一行代码,Modin 就能将 Pandas 查询任务加速 4 倍。

该系统是为希望程序运行得更快、伸缩性更好,而无需进行重大代码更改的 Pandas 用户设计的。这项工作的最终目标是能够在云环境中使用 Pandas。

Modin其实就是一个Python程序库,所以我们可以使用如下所示的 PyPi 指令来安装 Modin:

pip install modin

在 Windows 环境下,Ray 是安装 Modin 所需的依赖之一。Windows 本身并不支持 Ray,所以为了安装它,用户需要使用 WSL(适用 Linux 的 Windows 子系统)。

Modin 如何加速数据处理过程

在笔记本上

在具有 4 个 CPU 内核的现代笔记本上处理适用于该机器的数据帧时,Pandas 仅仅使用了 1 个 CPU 内核,而 Modin 则能够使用全部 4 个内核。在「read_csv」函数中,通过有效地在整个机器上分布工作,我们可以看到巨大的提升。

读取不同文件速度对比

Pandas 的运行时间会随着数据量的变化而线性增长,因为它仅仅使用 1 个内核。而从上图中可能很难看到绿色条形图的增长,因为 Modin 的运行时间实在太短了。

通常,Modin 使用「read_csv」函数读取 2G 数据需要 2 秒,而 读取 18G 数据大约需要不到 18 秒。

Modin 封装了 Pandas,并透明地分发数据和计算任务,它通过修改一行代码就加速了 Pandas 的工作流。用户可以继续使用以前的 Pandas notebook,同时体验 Modin 带来的大幅加速,甚至在一台机器上。用户需要做的只是替换Pandas的导入声明,引入「modin.pandas」而不是「pandas」。

# import pandas as pd import modin.pandas as pd

我们将使用 Numpy 构建一个由随机整数组成的简单数据集。

import numpy as np import modin.pandas as pd data = np.random.randint(0,100,size = (2**16, 2**4)) df = pd.DataFrame(data) df = df.add_prefix("Col:")

当我们将数据的类型打印在屏幕上时,会显示出「Modin 数据帧」。

type(df) modin.pandas.dataframe.DataFrame

如果我们使用「head」命令打印出前五行数据,它会像 Pandas 一样显示出 HTML 表单。

df.head()

pd.read_csv

因为「read_csv」是常用的 Pandas 操作,也是他们所强调的亮点。接下来,我们将对分别在 Pandas 和 Modin 环境下使用「read_csv」函数的性能进行一个简单的对比。

pandas

%%time import pandas pandas_csv_data = pandas.read_csv("../800MB.csv") ----------------------------------------------------------------- CPU times: user 26.3 s, sys: 3.14 s, total: 29.4s Wall time: 29.5 s

Modin

%%time modin_csv_data = pd.read_csv("../750MB.csv") ----------------------------------------------------------------- CPU times: user 76.7 ms, sys: 5.08 ms, total: 81.8 ms Wall time: 7.6 s

通过使用 Modin,只需要修改导入声明就可以在一台 4 核机器上以普通 Pandas 4 倍的速度执行「read_csv」操作。

df.groupby

Pandas

%%time import pandas _ = pandas_csv_data.groupby(by=pandas_csv_data.col_1).sum() ----------------------------------------------------------------- CPU times: user 5.98 s, sys: 1.77 s, total: 7.75 s Wall time: 7.74 s

Modin

%%time results = modin_csv_data.groupby(by=modin_csv_data.col_1).sum() ----------------------------------------------------------------- CPU times: user 3.18 s, sys: 42.2 ms, total: 3.23 s Wall time: 7.3 s