def
readwrite
(
input_file
,
output_file
)
:
data
=
pd
.
read_csv
(
input_file
,
sep
=
','
,
header
=
None
)
data
.
to_csv
(
output_file
,
sep
=
','
,
columns
=
[
1
,
2
,
3
,
4
,
5
,
6
]
,
header
=
None
,
index
=
False
)
def
getRunTimes
(
fun
,
input_file
,
output_file
)
:
begin_time
=
int
(
round
(
time
.
time
(
)
*
1000
)
)
fun
(
input_file
,
output_file
)
end_time
=
int
(
round
(
time
.
time
(
)
*
1000
)
)
print
(
'Data processing completed'
)
print
(
"Data processing total time:"
,
(
end_time
-
begin_time
)
,
"ms"
)
input_file
=
"D:/xxxxx/s1000000.csv"
output_file
=
"D:/xxxxxx/s1000000.csv"
readwrite
(
input_file
,
output_file
)
getRunTimes
(
readwrite
,
input_file
,
output_file
)
测试数据:100万条。7列100万行。操作:删除第一列,保留其他列的数据,写入到新文件中。源数据:结果数据:''' 使用python的pandas库读取某几列CSV文件,再写入新的文件。'''import pandas as pdimport time#处理函数def readwrite(input_file,output_file): #pd.read_csv() 将CSV文件读入并转化为数据框(DataFrame)形式。 #参数设置:.
[Pandas+Numpy] 从
csv
文件
中随机提取某几行添加到另一个
csv
文件
中
目标:从一个
csv
文件
中随机抽取某些行,添加到另一个
csv
文件
中。
条件:两个
文件
的列名(
表
头)相同,两个
文件
的cloumns一样
import pandas as pd
import numpy as np
import random # 用于生成随机数
// 读入要抽取的
文件
及要添加的
csv
文件
#read
csv
data1 = pd.read_
csv
(r'tem.
csv
',sep=';',header='infer')
#select specific columns
data1 = pd.read_
csv
(r'tem.
csv
',sep=';',header='infer',usecols=[0,1,3])
#set column headers
data1.columns = ['y','m','numbe..
提取多份
csv
文件
特定的列整合到
新
的
csv
工作
表
中
在科研生活中,我们可能在
数据
测试中得到很多份
csv
数据
,这些
数据
只有两列,我们在后续
数据
处理中可能想把这些
数据
放在origin中绘图,其中所有
数据
的x轴(即第
一列
数据
)都相同,我们想将y轴都整合在
新
的
文件
里,保存
一列
x轴
数据
,这样方便origin作图。因此,这里记录如何通过
python
代码快速实现整合。
该问题用代码进行处理的思路是这样:
首先需要知道这些
文件
所处的路径
位置
接着逐次
读取
每份
文件
,并提取某列
数据
建立空列
表
,将提取出来的
数据
写入
新
的工作
# -*- coding=utf-8 -*-
import pandas as pd
csv
_file = pd.read_
csv
('/home/weidu/qwb/MORONET-master/BRCA-QWB/brca_meth.
csv
') #
读取
原
csv
文件
sample =
csv
_file.sample(n=200, random_state=10, axis=1)###n=200
表
示抽200个,ra
可以使用
Python
的
csv
模块和pandas模块来删除
CSV
文件
中的某
一列
数据
并保留
表
头。具体步骤如下:
1. 导入
csv
和pandas模块:首先,需要导入
csv
和pandas模块来处理
CSV
文件
。
```
python
import
csv
import pandas as pd
2.
读取
CSV
文件
并转换为DataFrame:使用pandas模块的read_
csv
()函数
读取
CSV
文件
,并将其转换为DataFrame格式。
```
python
df = pd.read_
csv
('file.
csv
')
3. 删除
指定
列的
数据
:使用DataFrame的drop()方法删除
指定
列的
数据
。
```
python
df = df.drop(['column_name'], axis=1)
其中,'column_name'为需要删除的列的名称。
4. 将DataFrame
写
回
CSV
文件
:使用DataFrame的to_
csv
()方法将修改后的
数据
写
回
CSV
文件
中。
```
python
df.to_
csv
('file.
csv
', index=False)
其中,index=False
表
示不将DataFrame的行索引
写入
CSV
文件
中。
完整代码如下:
```
python
import
csv
import pandas as pd
df = pd.read_
csv
('file.
csv
')
df = df.drop(['column_name'], axis=1)
df.to_
csv
('file.
csv
', index=False)
执行完以上代码后,
CSV
文件
中
指定
的列
数据
将会被删除,但是
表
头仍然保留。