我有一个单一的.csv文件,里面有四个表格,每个都是2001-1986年西南航空公司的不同财务报表。我知道我可以把每个表分开成单独的文件,但它们最初是作为一个文件下载的。
我想把每个表读到自己的pandas DataFrame中进行分析。这里是数据的一个子集。
Balance Sheet
Report Date 12/31/2001 12/31/2000 12/31/1999 12/31/1998
Cash & cash equivalents 2279861 522995 418819 378511
Short-term investments - - - -
Accounts & other receivables 71283 138070 73448 88799
Inventories of parts... 70561 80564 65152 50035
Income Statement
Report Date 12/31/2001 12/31/2000 12/31/1999 12/31/1998
Passenger revenues 5378702 5467965 4499360 3963781
Freight revenues 91270 110742 102990 98500
Charter & other - - - -
Special revenue adjustment - - - -
Statement of Retained Earnings
Report Date 12/31/2001 12/31/2000 12/31/1999 12/31/1998
Previous ret earn... 2902007 2385854 2044975 1632115
Cumulative effect of.. - - - -
Three-for-two stock split 117885 - 78076 -
Issuance of common.. 52753 75952 45134 10184
每个表格都有17列,第一列是项目描述,但行数不同,例如,资产负债表是100行,而现金流量表是65行。
What I've Done
import pandas as pd
import numpy as np
# Lines that separate the various financial statements
lines_to_skip = [0, 102, 103, 158, 159, 169, 170]
with open('LUV.csv', 'r') as file:
fin_statements = pd.read_csv(file, skiprows=lines_to_skip)
balance_sheet = fin_statements[0:100]
我看到有类似目的的帖子,指出要利用nrows和skiprows。我利用skiprows来读取整个文件,然后通过索引来创建各个财务报表。
我正在寻找评论和建设性的批评,以便以更好的Pythonic风格和最佳做法为每张表创建一个数据框架。