Python处理大数据，推荐4款加速神器-阿里云开发者社区

相关文章推荐

体贴的松树 · 性能测试--Jmeter随机生成/随机选取/ ...· 3 周前 ·

开朗的枕头 · 精通 Oracle+Python，第 3 ...· 2 周前 ·

温文尔雅的青蛙 · python subprocess模块详解 ...· 1 周前 ·

直爽的牛肉面 · python/openpyxl/DataVa ...· 16 小时前 ·

长情的火锅 · python读取excel,获得下拉选中所有 ...· 16 小时前 ·

旅行中的硬盘 · [HTML]js动态修改表格里面的内容 - ...· 1 年前 ·

温柔的烤红薯 · sql ...· 1 年前 ·

沉着的水龙头 · OPENSSL中RSA私钥文件（PEM格式） ...· 2 年前 ·

爱搭讪的烤土司 · spring ...· 2 年前 ·

坏坏的丝瓜 · jquery获取select选中的值_释然m ...· 2 年前 ·

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

在数据科学计算、机器学习、以及深度学习领域，Python 是最受欢迎的语言。Python 在数据科学领域，有非常丰富的包可以选择，numpy、scipy、pandas、scikit-learn、matplotlib。

但这些库都仅仅受限于单机运算，当数据量很大时，比如50GB甚至500GB的数据集，这些库的处理能力都显得捉襟见肘，打开都很困难了，更别说分析了。本文向大家介绍几个好用的加速工具，可以很好地补齐现有 PyData 技术栈的短板。有了这些工具，即便是处理亿级数据你也可以应对自如。

Mars

Mars 是numpy 、 pandas 、scikit-learn的并行和分布式加速器，由阿里云高级软件工程师秦续业等人开发的一个基于张量的大规模数据计算的统一框架，目前它已在 GitHub 上开源。该工具能用于多个工作站，而且即使在单块 CPU 的情况下，它的矩阵运算速度也比 NumPy（MKL）快。

项目地址： https://github.com/mars-project/mars

官方文档： https://docs.mars-project.io

Dask

Dask是一个并行计算库，能在集群中进行分布式计算，能以一种更方便简洁的方式处理大数据量，与Spark这些大数据处理框架相比较，Dask更轻。Dask更侧重与其他框架，如：Numpy，Pandas，Scikit-learning相结合，从而使其能更加方便进行分布式并行计算。

项目地址： https://github.com/dask/dask

官方文档： https://docs.dask.org/en/latest/

CuPy

CuPy 是一个借助 CUDA GPU 库在英伟达 GPU 上实现 Numpy 数组的库。基于 Numpy 数组的实现，GPU 自身具有的多个 CUDA 核心可以促成更好的并行加速。CuPy 接口是 Numpy 的一个镜像，并且在大多情况下，它可以直接替换 Numpy 使用。只要用兼容的 CuPy 代码替换 Numpy 代码，用户就可以实现 GPU 加速。

项目地址： https://github.com/cupy/cupy

官方文档： https://docs-cupy.chainer.org/en/stable/

Vaex

Vaex是一个开源的 DataFrame 库，对于和你硬盘空间一样大小的表格数据集，它可以有效进行可视化、探索、分析乃至实践机器学习。Vaex采用了内存映射、高效的外核算法和延迟计算等概念来获得最佳性能（不浪费内存），一旦数据存为内存映射格式，即便它的磁盘大小超过 100GB，用 Vaex 也可以在瞬间打开它（0.052 秒）。

项目地址： https://github.com/vaexio/vaex

官方文档： https://vaex.readthedocs.io/en/latest/

推荐文章

体贴的松树 · 性能测试--Jmeter随机生成/随机选取/csv读取关键字 - Wilson_Blogs

3 周前

开朗的枕头 · 精通 Oracle+Python，第 3 部分：数据解析

2 周前

温文尔雅的青蛙 · python subprocess模块详解 - 三只松鼠

1 周前

直爽的牛肉面 · python/openpyxl/DataValidation给 excel添加下拉列表_excel data validation list

16 小时前

长情的火锅 · python读取excel,获得下拉选中所有选项_python获取下拉菜单内容 excel

16 小时前

旅行中的硬盘 · [HTML]js动态修改表格里面的内容 - 南水之源 - 博客园

1 年前

温柔的烤红薯 · sql 多字段值在表中唯一(校验-筛选出不唯一的)_sql判断字段值是否唯一-CSDN博客

1 年前

沉着的水龙头 · OPENSSL中RSA私钥文件（PEM格式）解析_stormbjm的博客-CSDN博客

2 年前

爱搭讪的烤土司 · spring quartz定时器_51CTO博客_springboot 定时器

2 年前

坏坏的丝瓜 · jquery获取select选中的值_释然me的博客-CSDN博客

2 年前