Python和
Dask:扩展DataFrame
该存储库包含有关
Python和
Dask的幻灯片,练习和答案:缩放
数据框。 本教程的目标是教给您一个在熊猫
中处理表格
数据方面经验丰富的人,以解决不适合在一台计算机上存储的问题。
为什么这门课程存在
Python最受欢迎的
数据科学库(pandas,numpy和scikit-learn)被设计为在一台计算机上运行,并且在某些情况下使用单个
处理器运行。 无论这台计算机是笔记本电脑还是具有96核的服务器,您的计算和内存都受到您可以访问的最大计算机大小的限制。
在本课程
中,您将学习如何使用
Dask(用于并行和分布式计算的
Python库)通过跨多个内核扩展计算和内存来绕过此约束。
Dask提供了与pandas,numpy和scikit-learn之类的
Python库的集成,因此您可以扩展计算量,而不必学习全新的库或大量重构代码。
先决条件:
dask-sql
dask-sql在dask之上添加一个SQL查询层。 这使您可以使用常见SQL操作来查询和转换dask数据框。
查询将作为常规的dask操作运行,这些操作可以分布在dask群集中。 因此,该项目的目标类似于Hadoop世界中的Spark SQL / Hive / Drill / ...,但功能要少得多(到目前为止...)。 这个项目的一些想法来自非常出色的项目。
在阅读更多。
您可以使用dask-sql命令快速尝试dask-sql
docker run --rm -it -p 8080:8080 nbraun/dask-sql
请参阅本页结尾处SQL Server中
Satpy软件包是一个
python库,用于读取和
处理气象遥感
数据并将其写入各种图像和
数据文件格式。 Satpy具有直接从卫星仪器通道
数据或更高级别的
处理输出
中制作各种RGB复合图像的能力。 软件包用于将
数据重新采样到不同的均匀区域或网格。
该文档可从。
可以使用pip从PyPI安装Satpy:
pip install satpy
它也可以从conda-forge
中获得,用于conda安装:
conda install -c conda-forge satpy
Satpy遵循与PyTroll项目相同的行为准则。 作为参考,将其复制到此存储库
中。
如PyTroll主页
中所述,当个人代表项目或社区时,此行为准则适用于项目空间(GitHub)以及联机和脱机的公共空间。 在线示例包括PyTroll Slack团队,邮件列表和PyTroll Twitter帐户。 该行