本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《 阿里云开发者社区用户服务协议 》和 《 阿里云开发者社区知识产权保护指引 》。如果您发现本社区中有涉嫌抄袭的内容,填写 侵权投诉表单 进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。 end = time.time() print('modin pd consume time is:',end-start) path1='/home/yjj/data_oanda/AUD_CAD.csv' path2='/opt/oanda_pair_rate.csv' # 测试一个大样本的数据 print('大样本测试') test_pd_time(path1) test_mpd_time(path1) # 测试一个小样本 print('大样小测试') test_pd_time(path2) test_mpd_time(path2)

大样本测试(2.5G左右)

pd consume time is: 36.11769914627075

modin pd  consume time is: 8.59299921989441

大样小测试(100M左右)

pd consume time is: 0.00580286979675293

modin pd  consume time is: 0.028467655181884766

注:处理大文件的时候,1个G以上,建议用modin.pandas,处理小文件,建议用pandas