Pandas DataFrame - 数据的输入输出

相关文章推荐

冷静的油条 · pytest自动发送测试报告邮件 ...· 1 月前 ·

眼睛小的野马 · Common application ...· 1 月前 ·

唠叨的碗 · 【云原生 kubernetes 】- ...· 1 月前 ·

打酱油的核桃 · 陆奇CES演讲：中国创新让世界受益_中国经济 ...· 4 月前 ·

玩手机的跑步鞋 · javax.management.Insta ...· 4 月前 ·

冷静的乌冬面 · WPF组件使用之CheckBox_wpf ...· 5 月前 ·

光明磊落的毛巾 · 针对 PHP ...· 8 月前 ·

冷冷的单杠 · python ...· 1 年前 ·

pandas.read_table(
    filepath_or_buffer: Union[str, pathlib.Path], sep='\t', delimiter=None, header='infer', names=None, 
    index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, 
    converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, 
    nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, 
    parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, 
    cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', 
    lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, 
    encoding=None, float_precision=None, ...)

重要参数注释：

filepath_or_buffer ：str，文件的路径

sep ：str，默认值是'\t'，用于分割数据列的界定符。如果分隔符大于一个字符，那么sep参数将会被解释为正则表达式。

delimiter ：str、默认值是None，是sep的别名

header ：int，默认值是infer（推断），表示列名所在的数据行的行号。默认值是推断列名，如果names参数是None，那么推荐header=0，把文件的第一行作为列名；如果显式传递names参数，那么推荐header=None。

names ：array-like，可选，列名的列表，默认值是None。如果文件不包含标题（header）行，应该显式设置header=None，并在names参数中传递数据列。

index_col ：int，str，用于表示作为DataFrame的行标签的列号或列名，如果设置为False，表示强制DataFrame不把第一列作为索引。

usecols ：list-like，返回列的子集

squeeze ：bool，默认值是False，如果解析的数据只包含一列，那么把数据框转换为Series

prefix ：str，如果没有标题，在列号前面添加的前缀

mangle_dupe_cols ：bool，默认值是True，重复的列名X将会被命名为‘X’, ‘X.1’, …’X.N’，如果设置为False，重名的列会被重写。

dtype ：dict，以字典结构来设置数据列的数据类型，例如，{‘col1’: np.float64, ‘col2’: np.int32, ‘col3’: ‘Int64’}

engine ：用于解析文件的引擎，有效值是c’, ‘python’，C引擎更快，python引擎功能更强。

converters ：dict，key是列号或列标签，value是用于转换值（key代表的列值）的函数

true_values ：list，视为True的值

false_values ：list，视为False的值

skipinitialspace:

skiprows : 在读取数据之前跳过的数据行数

skipfooter ：从文件底部跳过的数据行数

nrows ：读取的数据行数量

na_values ： str、list-like，新增被识别为NA的字符

keep_default_na ： bool，默认值是True，在解析数据时，是否包含默认的NaN值，该行为依赖于参数na_values。

当keep_default_na是True，并且指定na_values参数的值，那么把na_values中字符串和NaN解析为NA值。

当keep_default_na是True，并且未指定na_values参数的值，那么只把NaN解析为NA值。

当keep_default_na是False，并且指定na_values参数的值，那么只把na_values指定的字符串解析为NA值。

当keep_default_na是False，并且未指定na_values参数的值，那么没有字符串会被解析为NA值。

na_filter ： bool，默认值是True，检测缺失值标记（空字符串和na_values的值）。在没有任何NA的数据中，传递na_filter = False可以提高读取大文件的性能。当设置为False时，不检测数据中的缺失值，此时，参数keep_default_na 和na_values会被忽略。

verbose：bool， 默认值是False，不指示放置在非数字列中的NA值的数量。

skip_blank_lines ： bool，默认值是True，跳过空行，而不是把空行解析为NaN值

parse_dates ： bool，default false，解析日期：

bool，如果是True，把日期解析为索引

list of int or names, 列号或列名构成的列表，把列解析为单独的date 列

list of list，或者dict，把做个列组合在一起解析为date列

infer_datetime_format ：是否推断字符串表示的日期格式，默认值是false。如果设置为True，并且启用parse_dates，那么pandas将会根据列中的字符串来推荐日期/时间的格式

keep_date_col ： bool，default False，如果设置为True，并且parse_dates指定组合多个列作为日期/时间列，那么保留原始列。

date_parser ：用于指定解析日期的函数

dayfirst ： bool，default False，是否把day放在月份前面，例如，DD/MM/YYYY

cache_dates ： bool，default True，如果设置为True，那么使用唯一的转换日期缓存来应用datetime的转换。当数据中存在大量重复的日期字符串时，可以大幅度提高解析速度。

iterator ： bool，default False，是否返回TextFileReader对象的迭代器

chunksize ： int，TextFileReader对象的块大小

compression ：指定文件的压缩格式，有效值是 ‘infer’, ‘gzip’, ‘bz2’, ‘zip’, ‘xz’, None, default ‘infer’，用于对文件进行解压缩

thousands ： str，千分隔符

decimal ： str，default '.'，识别为小数点的字符

lineterminator ：行分隔符，仅用于C parser

quotechar ： str (length 1)，用于表示引用项目的开始和结束的字符。引用的项目可以包括定界符，当界定符包含在引用的项目中时，该界定符被忽略。

quoting ： int 或csv.QUOTE_* 选项, default 0，QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) or QUOTE_NONE (3)

doublequote： bool，default True，当指定quotechar且引用不是QUOTE_NONE时，指示是否将一个字段内的两个连续quotechar元素解释为单个quotechar元素。

escapechar ： str (length 1)，转义字符

comment ： str，注释的开始字符，例如，设置comment参数='#'，当一行的开头是#时，则该行是注释行；当一行中间位置出现#时，该行后续的字符是注释，不再解析。

encoding ：编码规则，常用的编码是utf-8

float_precision : 指定C引擎转为浮点数的精度，有效值是None、high、round_trip。

二，CSV文件

CSV文件属于平面文件，大部分参数和read_table是相同的，csv文件中存储的数据以逗号为字段分隔符，以回车换行为行分隔符，pandas使用read_csv()函数来读取csv文件，用to_csv()函数把数据存储为csv。

1，read_csv()函数用于读取CSV文件

read_csv()函数的参数非常多，

pandas.read_csv(filepath_or_buffer, sep=', ', delim_whitespace=False,
    header='infer', names=None, index_col=None, usecols=None,...)

下面主要介绍最常用的参数：

filepath_or_buffer：文件的路径

sep=', '：字段的分隔符，默认值是逗号

header='infer'：字段名称所在的行号，默认值是infer，表示推断列名，推断列名的逻辑是：如果names字段没有传递值，那么header='infer'等价于header=0，从文件的第一行中获取值作为列名；如果names字段传递值，那么header='infer'等价于header=None，使用names参数传递的值作为列名。

names=None：包含列名的列表，列名不能重复。

index_col=None：索引列的序号，传递index_col=False强制pandas不要使用第一列作为索引（row name）

usecols=None：返回列的子集

2，to_csv()函数用于把数据写入到CSV文件中

to_csv()函数用于把数据写入到csv文件中

DataFrame.to_csv(self, 
    path_or_buf=None, sep=', ', na_rep='', float_format=None, columns=None, header=True, index=True
    , index_label=None, mode='w', encoding=None, compression='infer', quoting=None, quotechar='"'
    , line_terminator=None, chunksize=None, date_format=None, doublequote=True, escapechar=None, decimal='.')

重要参数注释：

na_rep：用什么字符来表示缺失值

float_format：格式化字符串来表示浮点数

columns：要输出的列，默认值是None，输出所有的列

header：是否输出列名，默认值是True

index：是否输出行索引（row names），默认值是True

index_label：

mode：写模式

encoding：编码规则，默认值是utf-8

compression：压缩模式：'infer'，'gzip'，'bz2'，'zip'，'xz'，None，如果设置为“infer”和path_or_buf包含“.gz”，“.bz2”，“.zip”或“ .xz”扩展名，那么会自动推断压缩模式，否则不压缩。

line_terminator：换行符，默认值是os.linesep

chunksize：一次写入的行数

date_format：格式化输出日期类型

三，SQL查询

执行SQL查询，把数据写入到DataFrame对象中，或者把DataFrame对象中的数据写入到数据库中。

1，执行SQL查询，把数据写入到DataFrame对象中

read_sql()函数用于执行SQL查询或Table，read_sql_query()用于执行SQL查询，read_sql_table()用于查询Table，把数据写入到DateFrame对象中：

pandas.read_sql(sql, con, index_col=None, coerce_float=True, params=None, parse_dates=None, columns=None, chunksize=None)
pandas.read_sql_query(sql, con, index_col=None, coerce_float=True, params=None, parse_dates=None, chunksize=None)
pandas.read_sql_table(table_name, con, schema=None, index_col=None, coerce_float=True, parse_dates=None, columns=None, chunksize=None)

参数注释：

sql：SQL查询

con：连接，sqlalchemy的engine对象

index_col：用于指定索引列的名称，默认值是None

coerce_float：尝试把非字符串、非数字类型的值转换为浮点类型

parse_dates ：list 或dict

list of column names：把指定的列解析为date

Dict of


    
     {column_name:
     
      format
      
       string}：把指定的列按照特定的格式解析为date

columns：list，从表中select的列

chunksize：int，如果指定，则返回一个迭代器，chunksize表示每个chunk中包含的行数

2，to_sql()

把数据写入到数据库中的表中：

DataFrame.to_sql(name, con, schema=None, if_exists='fail', index=True, index_label=None, dtype=None, chunksize=None, method=None)

参数注释：

name：把数据插入的目的表的名称

con：连接，sqlalchemy的engine对象

schema=None：指定数据库的架构，例如，mysql

if_exists='fail'：如果关系表存在，当值为fail时，pandas抛出错误；当值为replace时，删除旧表，创建新表；当值为append时，向表中插入新的数据；

index=True：把DataFrame的索引作为一列，把index_label作为索引列的名称

index_label：索引列的名称，如果设置为None，并且index参数设置为True，那么索引的name属性作为索引列名。

dtype：dict，为列指定的数据类型，字典的key是列名，字典的value是数据类型。

chunksize：批量写入时每个batch包含色数据行数量，默认情况下，一次性写入所有的数据行

method：插入数据的方法，默认值是None，一次插入一行；multi是指一次插入多行数据，

举个例子，从一个数据库中查询数据，插入到SQL Server数据库中：

import pymssql
import pandas as pd
from sqlalchemy import create_engine 
con=psycopg2.connect(dbname= 'db_name', host='db_host', port= '5439', user= '', password= '')
engine=create_engine('mssql+pymssql://user:password@host/db_name?charset=utf8',echo=False) 
sql=""" select ... """
data_frame = pd.read_sql(sql, con)
data_frame.to_sql('out_table', con=engine, if_exists='append',index = False, schema='dbo')

参考文档：

pandas Input/Output

作者：悦光阴

出处： http://www.cnblogs.com/ljhdo/

本文版权归作者和博客园所有，欢迎转载，但未经作者同意，必须保留此段声明，且在文章页面醒目位置显示原文连接，否则保留追究法律责任的权利。