DataComPy 超级好用的，用于比较两个Pandas DataFrame的程序包_Lan.W的博客

相关文章推荐
开心的苦咖啡 · 卡巴拉（塞拉利昂东北部城镇）_百度百科· 9 月前 ·
深沉的蚂蚁 · 《交通财会》2024年第6期目录-学术交流- ...· 1 年前 ·
谈吐大方的佛珠 · PHP-CURL-Guzzle-HTTP-连 ...· 2 年前 ·
奔放的鼠标 · 5月23日上市 ...· 2 年前 ·
大方的金针菇 · 哥布林的洞窟怎么看 - 抖音· 2 年前 ·
官方文档：
DataComPy — datacompy 0.8.2 documentation https://capitalone.github.io/datacompy/index.html 要求：
这2个DataFrame的列是完全一样，列数与列名。否则会报错：
KeyError: 'xxxxx_match'
如是列名不一样可以先重命名列名再比较。然后根据列名取出比较的结果，返回的都是DataFrame
df1.columns=[1,2,3,4,5]
df2.columns=[1,2,3,4,5]
dd = datacompy.Compare(df1, df2, join_columns="1")  # '1' 是列名
print(dd.report()) #打印所有比较结果
print('---- 2----')
diff_per = dd.sample_mismatch('2')  # 
print(diff_per)
print('---- 3----')
diff_per1 = dd.sample_mismatch('3')
print(diff_per1)  # 取出列3不相同的数据，返回 dataframe
print('---- 4-----')
diff_per2 = dd.sample_mismatch('4')
print(diff_per)  # 取出不相同的某一列数据，返回 dataframe
print('---- df1 新增-----')
print(dd.df1_unq_rows)
print('---- df2 新增-----')
print(dd.df2_unq_rows)
dd.report() 结果： 
 DataComPy Comparison
 -------------------- 
 DataFrame Summary
 ----------------- 
   DataFrame  Columns  Rows
 0       df1        5    53
 1       df2        5    50 
 Column Summary
 -------------- 
 Number of columns in common: 5
 Number of columns in df1 but not in df2: 0
 Number of columns in df2 but not in df1: 0 
 Row Summary
 ----------- 
 Matched on: 1
 Any duplicates on match values: No
 Absolute Tolerance: 0
 Relative Tolerance: 0
 Number of rows in common: 43
 Number of rows in df1 but not in df2: 10
 Number of rows in df2 but not in df1: 7 
 Number of rows with some compared columns unequal: 8
 Number of rows with all compared columns equal: 35 
 Column Comparison
 ----------------- 
 Number of columns compared with some values unequal: 4
 Number of columns compared with all values equal: 1
 Total number of values which compare unequal: 13 
 Columns with Unequal Values or Types
 ------------------------------------ 
   Column df1 dtype df2 dtype  # Unequal  Max Diff  # Null Diff
 0      2    object    object          3       0.0            1
 1      3   float64   float64          4      25.0            1
 2      4    object    object          3       0.0            1
 3      5    object    object          3       0.0            1 
 Sample Rows with Unequal Values
 ------------------------------- 
                 1     2 (df1)    2 (df2) 
 Sample Rows Only in df1 (First 10 Columns)
 ------------------------------------------ 
                  1          2     3                   4                                                5
 ... 
 
 Sample Rows Only in df2 (First 10 Columns)
 ------------------------------------------ 
                  1          2    3                   4                              5 
 datacompy.Compare()参数： 

 # Compare 参数：
 #   df1: 数据框1
 #   df2: 数据框2
 #   join_columns: 指定索引的列名，默认“None”，可以传入数组，比如：['ID', 'Name']
 #   on_index: 是否要开启索引，开启之后不需要指定 join_columns，默认“False”
 #   abs_tol: 绝对公差，默认“0”
 #   rel_tal: 相对公差，默认“0”
 #   df1_name: 报告中数据框1的名字，默认“df1”
 #   df2_name: 报告中数据框2的名字，默认“df2”
 #   ignore_spaces: 是否忽略空格，默认“False”
 #   ignore_case: 是否忽略大小写，默认“False” 
问题：生成df2不在df1的数据，row的索引值与原始表对不上。 
解决：如想获取到真正的原表的df2不在df1的行索引。可以反转df1,df2的比较顺序再做一次比较 ， 
dd2 = datacompy.Compare(df2, df1, join_columns="1")  # '1' 是列名 
然后再打印： 
print('---- df2 新增的行-----')
print(dd2.df1_unq_rows) # 依然是用:df1_unq_rows, 按入参顺序。比较结果第一个df2会在datacompy里面的值为df1
				最近徒弟接到一个新任务，需要对若干组的csv文件进行两两对比，从而得到两者的差异之处。考虑到工作量巨大无比，如果完全手工完成那必然是费时费力，所以就想到将该工作自动化。考虑到她入行不久，短时间内也无法将其编程实现，所以就帮她来处理这个烫手的山芋。经过调研发现，可使用Python库DataComPy来完成该任务。
1. 安装方法
2. 原理简述
3. 实例讲解
4. 其他说明..................
DataComPy是一个用于比较两个Pandas DataFrame的程序包。 最初开始是SAS的PROC COMPARE for Pandas DataFrame的替代品，其功能不仅仅是Pandas.DataFrame.equals(Pandas.DataFrame) （因为它可以打印出一些统计信息，并让您调整必须精确匹配的数量） ）。 然后扩展以将该功能传递给Spark Dataframes。
pip install datacompy
DataComPy将尝试在连接列列表或索引上连接两个数据框。 如果两个数据框具有基于联接值的重复项，则匹配过程将按其余字段排序，并根据该行号联接。
 按列比较会尝试匹配值，即使dtypes不匹配也是如此。 因此，例如，如果您在一个数据帧中有一列具有decimal.Decimal值，而在另一个数据帧中具有一个decimal.
				pandas.DataFrame 索引df.loc / df：选择行与列df：选择列df.loc：选择行df.iloc：按整数位置选择行布尔型索引多重索引
df.loc / df：选择行与列
df：选择列
默认一般用于选择列，但也可以选择行
import numpy
import pandas
df = pandas.DataFrame(numpy.random.rand(12).reshape(3,4),
	index = ["one","two","three"],columns = list("abcd"))
print(df)
# 按照列名选择列，只选择一列则输出Series，选择多列
#df2减df1
import pandas as pd
set_diff_df = pd.concat([df1, df2, df1]).drop_duplicates(keep=False)
print(set_diff_df)
Empty DataFrame
表示两个数据集相同
方法二：datacompy包
这个包的详细说明https://capitalone.g
3、可以设置绝对差值和相对差值，比如我们比较有浮点数的数据时，设置下绝对差值为0.01，后面的一系列微小的值就忽略了；
4、在数据报告中，每一列的数据类型、不相等数量、最大差值和空值都详细列出来了；
5、可以把不相等的列单独取出来，取出来就是一个dataframe，可以查看具体哪些是不一样的；
				环境：Python3.6.4 + pandas 0.22主要是DataFrame.apply函数的应用，如果设置axis参数为1则每次函数每次会取出DataFrame的一行来做处理，如果axis为1则每次取一列。如代码所示，判断如果城市名中含有ing字段且年份为2016，则新列test值赋为1，否则为0.import numpy as np
import pandas as pd
data = ...
				import pandas as pd
data = {'year':['2018','2019','2018','2018','2019','2019','2018','2019'],
   '数学':[83,90,98,90,88,88,88,89],
   '英语':[92,89,90,78,83,90,91,95]}
df = pd.DataFrame(data...
				<h3>回答1：</h3><br/>要比较两个pandas dataframe，可以使用pandas的equals()函数。该函数将比较两个dataframe的每个元素，并返回一个布尔值，表示两个dataframe是否相等。如果两个dataframe相等，则返回True，否则返回False。另外，还可以使用pandas的compare()函数来比较两个dataframe的不同之处。该函数将返回一个新的dataframe，其中包含两个dataframe之间的差异。   
<h3>回答2：</h3><br/>Pandas是一种Python的开源数据分析库，包含了各种数据操作的工具，其中比较两个DataFrame的方法也十分方便。
比较两个DataFrame有多种方法，包括使用equals、compare等方法。下面我们来介绍一下这些方法的使用。
1. equals方法
equals方法比较两个DataFrame所有的元素是否相等，返回True或False。可以通过指定参数来控制比较方式，在默认情况下比较排序、列名、数据类型等多方面，如果全部相等则返回True。
使用示例：
```python
import pandas as pd
df1 = pd.read_csv('data1.csv')
df2 = pd.read_csv('data2.csv')
print(df1.equals(df2)) #比较df1和df2是否相等，返回True或False
2. DataFrame.compare方法
DataFrame.compare方法可以比较两个DataFrame中相同列名的数据列，返回一个新的DataFrame。比较的方式包括行、列、数据类型等多方面。
使用示例：
```python
import pandas as pd
df1 = pd.read_csv('data1.csv')
df2 = pd.read_csv('data2.csv')
print(df1.compare(df2)) #比较df1和df2每列数据是否相等，返回一个新的DataFrame
3. merge方法
merge方法可以将两个DataFrame合并成一个新的DataFrame，可以指定合并的列和方式。
使用示例：
```python
import pandas as pd
df1 = pd.read_csv('data1.csv')
df2 = pd.read_csv('data2.csv')
merge_df = pd.merge(df1, df2, on=['id'], how='inner')
print(merge_df) #将df1和df2合并成一个新的DataFrame
以上就是比较两个DataFrame的方法，通过这些方法可以很方便地比较和合并两个DataFrame。当然，根据实际情况选择合适的方法对于数据分析也非常重要。   
<h3>回答3：</h3><br/>Pandas是一个Python的数据处理库，在数据科学和数据分析领域广泛应用。Pandas中的Dataframe是一种基于行和列进行操作的二维数据结构，类似于电子表格或SQL中的表格。
当我们需要对比两个Dataframe的内容时，可以采取以下两种方式：
1. 使用equals()方法进行对比
equals()方法可以比较两个Dataframe是否相等，并返回一个布尔值。如果两个Dataframe的形状、列名、列的数据类型、列的值都相等，则返回True，否则返回False。例如，我们可以使用以下代码比较两个Dataframe：
```python
import pandas as pd
df1 = pd.DataFrame({'A':[1,2,3],'B':[4,5,6]})
df2 = pd.DataFrame({'A':[1,2,3],'B':[4,5,6]})
print(df1.equals(df2))
结果输出为True，说明两个Dataframe相等。
2. 使用compare()方法进行对比
compare()方法可以比较两个Dataframe的差异，并返回一个新的Dataframe。这个新的Dataframe中包含对比后两个Dataframe中列的差异。比较的时候，我们可以指定需要比较的列，也可以使用默认设置比较所有列。
```python
import pandas as pd
df1 = pd.DataFrame({'A':[1,2,3],'B':[4,5,6]})
df2 = pd.DataFrame({'A':[1,2,4],'B':[4,5,6]})
diff = df1.compare(df2)
print(diff)
输出结果如下：
   self other
2    3     4
这个结果表明，两个Dataframe中，第二列的第三行数据不相等，df1中是3，df2中是4。
在实际应用中，我们可以根据需要选择适当的方法进行对比。如果只需要确定两个Dataframe是否完全相等，使用equals()方法就足够；如果需要了解两个Dataframe中具体的差异，使用compare()方法会更加方便。
				Android 执行 gradle test 出错： JAVA_HOME is not set and no 'java' command could be found in your PATH.