data = [[1,1,1,2,3,3], [0.2,0.3,0.4,0.1,0.2,0.4]]
data = pd.DataFrame(data)
data = [[1,1,1,2,3,3], [0.2,0.3,0.4,0.1,0.2,0.4]]
data = pd.DataFrame(data).T
data.columns=['A', 'B']
print (data)
#按 A 列去重,保留 B 列中 最小的一行数据。
#方法一:
print (data.groupby('A', as_index=False)['B'].min())
#方法二:
print(data.pivot_table(index='A', columns=None, values='B', aggfunc=min) )
#方法三:
data.sort_values(by=['B'],ascending=True)
print (data.drop_duplicates(['A']))
项目github地址:bitcarmanlee easy-algorithm-interview-and-practice
欢迎大家star,留言,一起学习进步
去重
获取唯一值是常见的需求,下面我们看看
pandas
里面如何实现
去重
。
直接看代码
import
pandas
as pd
def test():
df = pd.DataFrame({"c1": [1, 1, 2, 3, 1], "c2": [10, 20, 30, 40, 50]})
print(df)
print()
以下是记录自己
数据
分析的一次历程,包括使用
pandas
进行
数据
去重
、筛选、合并、获取目录内容进行匹配,其中遇到了
数据
表的存储和重新获取以固定表结构。包括两个表的合并,合并后
数据
字段的修改、筛选。最后将结果使用Matplotlib进行绘图,分别绘制柱状图和饼状图,过程中遇到如何显示中文标签,状图数目,如何优化图像等问题并逐一解决。
1.
数据
去重
import numpy
import
pandas
as pd
data = pd.read_excel('data.xlsx')
#按照name1,nam
在
数据
处理过程中常常会遇到重复的问题,这里简要介绍遇到过的
数据
重复问题及其如何根据具体的需求进行处理。
筛选出指定字段存在重复的
数据
import
pandas
as pd
student_dict = {"name": ["Joe", "Nat", "Harry", "Nat"], "age": [20, 21, 19, 21], "marks": [85.10, 77.80, 91.54, 77.80]}
# Create DataFrame from dict
student_df = pd
这是一个非常非常强大的库,这里面有着处理
数据
特别简单方便的方法;
下来介绍到就是用于
数据
去重
的drop_duplicate方法
这个方法是对DataFrame格式的
数据
,去除特定列下面的重复行。返回DataFrame格式的
数据
。
这个方法里面有三个可填参数:
DataFrame.drop_duplicates(subset=None, keep=‘f
name_list = [‘kim’, ‘kim’, ‘Amy’, ‘John’, ‘Amy’, ‘Bob’]
result = []
for i in range(len(name_list)):
dt = {
“name”: name_list[i],
在DataFrame中进行
条件
筛选或者
去重
后index将变得不连续,那么如何重设连续的index?转载请注明:【转】http://blog.csdn.net/htbeker/article/details/79417959
datas_33[(datas_33["p_cid"].notnull()) & (datas_33["p_sidx"] != -1) & (datas_33["p_sidx"] != -2 )]
datas_35 = datas_33.copy()
默认deep=True 深拷贝
datas_35 = datas_33.copy(deep=False )
apply
def combine(x):
sentence_depart = jieba.cut(str(
import
pandas
as pd
df = pd.DataFrame({'a': [1, 2, 3], 'b': ['a', 'b', 'c'],'c': ["A","B","C"]})
print(df)
a b c
0 1 a A
1 2 b B
2 3 c C选择某一行print(df.loc[1,:])
a 2
b b
c B
Name:
摘要在进行
数据
分析与清理中,我们可能常常需要在
数据
集中去掉某些异常值。具体来说,看看下面的例子。0.导入我们需要使用的包import
pandas
as pd
pandas
是很常用的
数据
分析,
数据
处理的包。anaconda已经有这个包了,纯净版python的可以自行pip安装。1.去掉某些具体值
数据
集df中,对于属性appPlatform(最后一列),我们想删除掉取值为2的那些样本。如何做?非常简单...