相关文章推荐
兴奋的草稿纸  ·  如何从spark scala ...·  2 周前    · 
发呆的春卷  ·  spark ...·  2 周前    · 
旅行中的充值卡  ·  TortoiseMerge ...·  1 年前    · 
绅士的创口贴  ·  SQL 常用技巧: ...·  1 年前    · 
很拉风的荒野  ·  javascript - ...·  1 年前    · 
  • 删除无用的对象 在 Python 中,使用 del 关键字可以删除一个对象,这样可以释放对象所占用的内存空间。在 Pandas 中,当我们不再需要某个 DataFrame 或 Series 时,可以使用 del 关键字将其删除。
  • import pandas as pd
    df = pd.read_csv('data.csv')
    # 处理 df
    del df
    
  • 使用 inplace 参数 在 Pandas 的许多函数中,都提供了 inplace 参数,该参数默认为 False,表示不对原 DataFrame 进行修改,而是返回一个新的 DataFrame。如果将 inplace 参数设置为 True,就会直接在原 DataFrame 上进行修改,从而避免创建新的对象,节约内存空间。
  • import pandas as pd
    df = pd.read_csv('data.csv')
    # 处理 df
    df.drop_duplicates(inplace=True)
    
  • 使用 astype() 方法 在 Pandas 中,每个 DataFrame 或 Series 都有一个 dtype 属性,表示它们所包含的数据类型。如果我们发现某个 DataFrame 或 Series 的数据类型过大,可以使用 astype() 方法将其转换为较小的数据类型,从而减少内存占用。
  • import pandas as pd
    df = pd.read_csv('data.csv')
    # 将 int64 类型的列转换为 int32 类型
    df['col1'] = df['col1'].astype('int32')
    
  • 使用 chunksize 参数 在处理大型数据集时,可以使用 Pandas 的 read_csv() 或 read_table() 函数的 chunksize 参数,将数据分块读取。这样可以在每次读取时只加载一部分数据,减少内存占用。同时,可以使用 concat() 函数将分块读取的数据合并为一个 DataFrame。
  • import pandas as pd
    chunks = pd.read_csv('data.csv', chunksize=1000)
    df = pd.concat(chunks)
    # 处理 df
    

    以上是几种释放 Pandas 内存的方法,可以根据具体情况选择合适的方法。

  • 掘金·日新计划
    • 154
  •