Redis内存空间简单分析

相关文章推荐

拉风的楼房 · 【观复嘟嘟】美国最有文化的地方在哪？_手机搜狐网· 9 月前 ·

聪明的海龟 · 广西民族教育发展中心2021年部门预算公开- ...· 1 年前 ·

豪气的桔子 · 潜水艇鱼图片_潜水艇鱼习性_潜水艇鱼种类-动植物网· 1 年前 ·

要出家的感冒药 · 美丽顾问~面部脂肪填充维持多久，面部脂肪填充 ...· 1 年前 ·

豪情万千的楼梯 · 课程直播软件哪个好用？教学直播软件哪个好？ ...· 1 年前 ·

拿到csv文件后有两种做法，

直接用python pandas 库分块读取csv文件，可以做一些统计、过滤等操作（几乎有与等价于sql的api操作方式

将csv导入到关系型数据库，用sql来操作，比较灵活。关于数据库选型：在试验过mysql和postgres两款关系型数据库后，感触挺深， mysql单表导入完上面csv中大概3亿多条数据后，查询直接瘫痪！postgres导入数据后依然坚挺（平均一条like 查询十几秒左右，还是可以接受的！）。

just try！

rdb 文件转换为csv

(这里因为是操作的内部的业务数据，有些数据细节不便公开，仅贴出相关重要命令以及一些踩坑后的经验方法等)

# 1. 先运行一个python docker容器(注意将rdb文件挂载进去)docker run -it -v YOUR_PATH/xxx.rdb:/data/xxx.rdb python bash

# 2. 安装rdb toolspip install rdbtools python-lzf

# 3. 执行rdb 转为csv命令 (此过程根据rdb文件大小时间不定)rdb -c memory /data/xxx.rdb -f memory.csv

上述命令中有些路径和名称注意替换为你自己真实的值。

csv 简单清洗

话说这里也是个坑来着，在往 postgres 数据库导入csv数据时，报了一个大概意思是 “实际的列个数和期待的列个数不匹配”错误。可能rdb tools在转换的时候某些行的值有点问题，或者其他bug导致。这里鉴于有异常的数据条数不多，不用太过于深究，直接用 pandas 简单清洗一下即可。

相关python代码如下：

import pandas as pd

import numpy as np

reader = pd.read_csv('/xxxx/memory.csv', iterator=True,error_bad_lines=False)

loop = True

chunkSize =10000000

chunks=[]

total_bytes=0

while loop:

chunk = reader.get_chunk(chunkSize)

chunks.append(chunk)

except StopIteration:

loop = False

print("Iteration is stopped.")

df = pd.concat(chunks, ignore_index=True)

df.to_csv('/xxx/memory2.csv', sep=',', encoding='utf-8')

大概解释下，这里先读取csv文件，指定选项 error_bad_lines=False ，则pandas会自动忽略有问题的行。接着用分块的方式读完所有内容，最后合并然后写到新文件。

csv导入postgres

此步骤其实理论上非必须的，上文说到其实可以直接用 pandas 操作csv几乎可以完成跟sql类似的分析效果。但比较还是直接用sql比较方便，还是导到数据库来的实惠。

# 1. 运行postgres docker容器(记得把上面步骤中转换得到的csv文件挂载进去)

docker run --name postgres -v /xxx/memory2.csv:/memory.csv -d postgres:9.6

# 2. 进入postgres容器内部 psql shell

docker exec -it postgres psql -U postgres

# 3. 创建临时表 (建议是所有字段是用text，否则导入可能会遇到转型错误，第一个字段index是pandas带进来的，可以导出csv时处理下)

postgres=# create table keys_dump(

index integer,

database text,

type text,

key text,

size_in_bytes text,

encoding text,

num_elements text,