10 for line in f:
11 fileds = line.split()
12 row_data = [float(x) for x in fileds]
13 data.append(row_data)
15 data = np.array(data)
16 #使用loadtxt方法(简便)
17 data = np.loadtxt('myfile.txt')
(2)逗号分割文件(通常为.csv格式)
1 %%writefile myfile.txt
2 2.1, 2.3, 3.2, 1.3, 3.1
3 6.1, 3.1, 4.2, 2.3, 1.8
4 #常规方法,仅需将上述繁琐过程中的split的参数变为','即可
5 data = np.loadtxt('myfile.txt', delimiter=',') #指定分隔符参数
(3)loadtxt函数
loadtxt(fname, dtype=<type 'float'>,
comments='#', delimiter=None,
converters=None, skiprows=0,
usecols=None, unpack=False, ndmin=0)
skiprows
参数表示忽略开头的行数,可以用来读写含有标题的文本
1 %%writefile myfile.txt
2 X Y Z MAG ANG
3 2.1 2.3 3.2 1.3 3.1
4 6.1 3.1 4.2 2.3 1.8
6 np.loadtxt('myfile.txt', skiprows=1) #忽略第一行
注:genfromtxt函数功能更加全面,但是处理速度和效率会慢一点
1 %%writefile myfile.txt #写文件
2 -- BEGINNING OF THE FILE
3 % Day, Month, Year, Skip, Power
4 01, 01, 2000, x876, 13 % wow!
5 % we don't want have Jan 03rd
6 04, 01, 2000, xfed, 55
8 data = np.loadtxt('myfile.txt',
9 skiprows=1, #忽略第一行
10 dtype=np.int, #数组类型
11 delimiter=',', #逗号分割
12 usecols=(0,1,2,4), #指定使用哪几列数据
13 comments='%' #百分号为注释符
14 )
(4)自定义转换方法
1 %%writefile myfile.txt
2 2010-01-01 2.3 3.2
3 2011-01-01 6.1 3.1
5 import datetime
7 def date_converter(s): #自定义的转换方法
8 return datetime.datetime.strptime(s.decode('ascii'), "%Y-%m-%d") #保证输入参数为字符串
10 data = np.loadtxt('myfile.txt',
11 dtype=np.object, #数据类型为对象
12 converters={0:date_converter, #第一列使用自定义转换方法
13 1:float, #第二第三使用浮点数转换
14 2:float})
(5)读写各种格式的文件
(6)将数组写入文件
savetxt:将数组写入文件,默认使用科学计数法的形式保存
savetxt(fname,
X,
fmt='%.18e',
delimiter=' ',
newline='\n',
header='',
footer='',
comments='# ') //格式fmt,分隔符delimiter
1 data = np.array([[1,2],
2 [3,4]])
4 np.savetxt('out.txt', data)
5 with open('out.txt') as f:
6 for line in f:
7 print(line, end='')
9 data = np.array([[1,2],
10 [3,4]])
12 np.savetxt('out.txt', data, fmt="%d") #保存为整数
13 np.savetxt('out.txt', data, fmt="%.2f", delimiter=',') #保存为2位小数的浮点数,用逗号分隔
15 data = np.array([[1+1j,2],
16 [3,4]]) #复数值,默认会加上括号
18 np.savetxt('out.txt', data, fmt="%.2f", delimiter=',') #保存为2位小数的浮点数,用逗号分隔
(7)Numpy二进制格式
-
数组可以储存成二进制格式,单个的数组保存为
.npy
格式,多个数组保存为多个
.npy
文件组成的
.npz
格式,每个
.npy
文件包含一个数组。
-
与文本格式不同,二进制格式保存了数组的
shape, dtype
信息,以便完全重构出保存的数组。
保存的方法:
-
save(file, arr)
保存单个数组,
.npy
格式
-
savez(file, *args, **kwds)
保存多个数组,无压缩的
.npz
格式
-
savez_compressed(file, *args, **kwds)
保存多个数组,有压缩的
.npz
格式
读取的方法:
-
load(file, mmap_mode=None)
对于
.npy
,返回保存的数组,对于
.npz
,返回一个名称-数组对组成的字典。
1 a = np.array([[1.0,2.0], [3.0,4.0]])
2 #单个数组读写
3 fname = 'afile.npy'
4 np.save(fname, a)
5 aa = np.load(fname)
二进制与文本大小比较:
1 import os
2 a = np.arange(10000.)
4 np.savetxt('a.txt', a)
5 os.stat('a.txt').st_size #查看文件大小
7 np.save('a.npy', a)
8 os.stat('a.npy').st_size
注:二进制文件较小
1 a = np.array([[1.0,2.0],
2 [3.0,4.0]])
3 b = np.arange(1000)
4 #保存多个数组
5 np.savez('data.npz', a=a, b=b)
6 !unzip -l data.npz #使用!执行系统命令unzip查看里面包含的文件
8 data = np.load('data.npz') #载入数据
10 data.keys() #载入后可以像字典一样进行操作
11 data['a']
12 data['b'].shape
14 # 要先删除 data,否则删除时会报错
15 del data
16 os.remove('data.npz')
PermissionError: [WinError 32] 另一个程序正在使用此文件,进程无法访问。: 'data.npz'
#数据比较整齐时,压缩率较大
1 a = np.arange(20000.)
2 np.savez('a.npz', a=a) #无压缩
3 os.stat('a.npz').st_size
4 np.savez_compressed('a2.npz', a=a) #有压缩
5 os.stat('a2.npz').st_size
#数据比较混乱时,压缩率较小
6 a = np.random.rand(20000.)
7 np.savez('a.npz', a=a) #无压缩
8 os.stat('a.npz').st_size
9 np.savez_compressed('a2.npz', a=a) #有压缩
10 os.stat('a2.npz').st_size
2. 结构化数组
(1)可以使用
dtype
创造了自定义的结构类型,然后用自定义的结构来解释数组所占的内存
1 import numpy as np
2 a = np.array([1.0,2.0,3.0,4.0], np.float32)
3 a.view(np.complex64) #使用view方法,将a对应的内存按照复数来解释
4 my_dtype = np.dtype([('mass', 'float32'), ('vol', 'float32')])
# 将第一个浮点数解释为质量,第二个浮点数解释为速度,这段内存还可以看成是包含两个域(质量和速度)的结构体
5 a.view(my_dtype)
6 my_data = np.array([(1,1), (1,2), (2,1), (1,3)], my_dtype)
7 my_data[0] #第一个元素
8 my_data[0]['vol'] #第一个元素的速度域
9 my_data['mass'] #所有元素的质量域
10 my_data.sort(order=('vol', 'mass')) #自定义排序规则,先速度,后质量
11 person_dtype = np.dtype([('name', 'S10'), ('age', 'int'), ('weight', 'float')])
# 定义一个人的结构类型
12 people = np.empty((3,4), person_dtype) #产生3*4的空结构体数组
# 根据属性域,分别赋值
13 people['name'] = [['Brad', 'Jane', 'John', 'Fred'],
14 ['Henry', 'George', 'Brain', 'Amy'],
15 ['Ron', 'Susan', 'Jennife', 'Jill']]
16 people['age'] = [[33, 25, 47, 54],
17 [29, 61, 32, 27],
18 [19, 33, 18, 54]]
19 people['weight'] = [[135., 105., 255., 140.],
20 [154., 202., 137., 187.],
21 [188., 135., 88., 145.]]
22 people[-1, -1] #值为:('Jill',54,145.0)
(2)从文本中读取结构化数组
1 %%writefile people.txt
2 name age weight
3 amy 11 38.2
4 john 10 40.3
5 bill 12 21.2
6 #定义类型
7 person_dtype = np.dtype([('name', 'S10'), ('age', 'int'), ('weight', 'float')])
8 people = np.loadtxt('people.txt',
9 skiprows=1,
10 dtype=person_dtype) #指定类型
11 people['name'] #查看name域
13 %%writefile wood.csv
14 item,material,number
15 100,oak,33
16 110,maple,14
17 120,oak,7
18 145,birch,3
20 tree_to_int = dict(oak = 1,
21 maple=2,
22 birch=3)
23 #定义转换函数,使之对应于整数
24 def convert(s):
25 return tree_to_int.get(s.decode('utf-8'), 0) #将bytes数据转换成string类型;如仅使用s,则将都转换成默认值0
27 data = np.genfromtxt('wood.csv',
28 delimiter=',', # 逗号分隔
29 dtype=np.int, # 数据类型
30 names=True, # 从第一行读入域名作为属性名称
31 converters={1:convert}
32 )
34 data['material'] #查看域
(3)嵌套类型
#定义嵌套类型:位置(x,y)、质量
1 particle_dtype = np.dtype([('position', [('x', 'float'),
2 ('y', 'float')]),
3 ('mass', 'float')
4 ])
6 %%writefile data.txt
7 2.0 3.0 42.0
8 2.1 4.3 32.5
9 1.2 4.6 32.3
10 4.5 -6.4 23.3
12 data = np.loadtxt('data.txt', dtype=particle_dtype) #读取数据
13 data['position']['x'] #访问位置中嵌套的x轴数据
3. 记录数组(record array)
1 import numpy as np
2 #定义质点类型
3 partical_dtype = np.dtype([('mass', 'float'),
4 ('velocity', 'float')])
6 from numpy import rec #生成记录数组需要使用numpy.rec里的fromrecords
7 particals_rec = rec.fromrecords([(1,1), (1,2), (2,1), (1,3)],
8 dtype = partical_dtype)
10 particals_rec.mass #通过属性访问域
11 particals_rec['mass'] #直接查看域
注:记录数组的运行效率要比结构化数组要慢一些
#定义结构化数组
1 particals = np.array([(1,1), (1,2), (2,1), (1,3)],
2 dtype = partical_dtype)
3 #使用view方法将结构化数组看成记录数组
4 particals_rec = particals.view(np.recarray)
5 particals_rec.mass #访问域
6 particals_rec.velocity
7 particals.dtype.names #对于自定义类型particals.dtype,通过names属性查看有哪些域
4. 内存映射:内存映射文件与虚拟内存有些类似,通过内存映射文件可以保留一个地址空间的区域,同时将物理存储器提交给此区域;内存文件映射的物理存储器来自一个已经存在于磁盘上的文件,而且在对该文件进行操作之前必须首先对文件进行映射。
使用内存映射文件处理存储于磁盘上的文件时,将不必再对文件执行I/O操作(速度快),使得内存映射文件在处理大数据量的文件时能起到相当重要的作用。
主要函数有:
-
memmap
-
frombuffer
-
ndarray constructor
其中,
memmap(filename,
dtype=uint8,
mode='r+',
offset=0,
shape=None,
order=0)
mode表示文件被打开的类型:
-
r
只读
-
c
复制+写,但是不改变源文件
-
r+
读写,使用
flush
方法会将更改的内容写入文件
-
w+
写,如果存在则将数据覆盖
offset表示从第几个位置开始
参考资料:
1、《Introducing Python》
2、《像计算机科学家一样思考Python》
3、《Python编程:从入门到实践》
4、《Python编程实战:运用设计模式、并发和程序库创建高质量程序》
5、《自学Python——编程基础、科学计算及数据分析》
6、 https://github.com/lijin-THU/notes-python
错误现象:
Python
中list里面的元素没有以
逗号
为
分割
,而是以空格为
分割
错误原因:基础知识不够牢固,list中元素是以
逗号
做
分割
的,matrix中是以空格为
分割
的解决办法: a = [1 2 3 4 5] (list)a = [1, 2, 3, 4, 5] 加入强制类型转换即可...
将 numpy
数组
存入
文件
,有多种
文件
类型可供选择,对应地就有不同的方法来
读写
。下面我将介绍
读写
numpy 的三类
文件
:txt 或者 csv
文件
npy 或者 npz
文件
hdf5
文件
通过 numpy
读写
txt 或 csv
文件
import numpy as npa = np.array(range(20)).reshape((4, 5))print(a)# 后缀改为 .txt 一样fi...
for i in range(0,text.shape[0]):
for j in range(text.shape[1]):
f.write(str(text[i,j])+',') #\r\n为换.
【问题描述】
获取以
逗号
分隔
的多个数据输入(输入为一行),计算基本统计值(平均值、标准差、中位数)
除中位数外,其他输出保留小数点后两位。
1.numpy.loadtxt 用法 读取txt
文件
numpy.loadtxt(fname, dtype=, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0)
参数的作用如下:
fname
import numpy as np
# 首先给出最简单的l...
I have an array of coordinates like this:array = [[1,6],[2,6],[3,8],[4,10],[5,6],[5,7],[18,6],[19,5],[17,9],[10,5]]I want to split the array between 6. and 7. coordinate ([5,7],[18,6]) because there i...
这篇是字符串专题总结
除了常见的数值型,字符串是另一种常遇到的类型。一般使用一对单引号或一对双引号表示一个字符串。
字符串中如果遇到 \ 字符,可能是在做字符转义,所谓的转义便是字符的含义发生改变,比如常用的\n 组合,转义后不再表示字符n本身,而是完成换行的功能。
类似的,还有很多转义字符,如 \t, 正则表达式中 \s,\d等等。
接下来一一总结字符串常见用法,此专题展开的思维导图如下:
我有数据存储在
逗号
分隔
的txt
文件
中。其中一列表示日期时间。我需要将每个列加载到单独的numpy
数组
中(并将日期解码为
python
datetime对象)。最快的方法是什么(就运行时间而言)?注意。这些
文件
是几百MB的数据,目前需要几分钟才能加载进去。例如mydata.txt15,3,0,2003-01-01 00:00:00,12.215,4.5,0,2003-01-01 00:00:00,13...
文件
操作介绍
在实际操作中,通常采集本地数据来进行数据分析,那么就需要学习
Python
去对本地文档进行读取与写入等操作。比如:txt
文件
,json
文件
,csv
文件
,excel
文件
等。
1-1 本地
文件
操作步骤
• 打开
文件
• 操作
文件
• 关闭
文件
1-2
Python
操作txt
文件
open(file, mode=‘r’,encoding=None) --> 打开
文件
• file -->
文件
路径
• mode --&