1. 数据筛选与修改

数据的增删改查是 pandas 数据分析中最高频的操作,在分组、聚合、透视、可视化等多个操作中,数据的筛选、修改操作也会不断出现。

1.1 加载数据

数据集下载

import sys
import os
import pandas as pd
df = pd.read_csv("东京奥运会奖牌数据.csv") 

输出为:

image


1.2 数据修改

1. 数据修改–修改列名

把Unnamed: 2 Unnamed: 3 Unnamed: 4 分别代表 金牌数 银牌数 铜牌数

输出为:


image


2. 数据修改–修改行索引

将第(国家奥委会)一列设置为索引


输出为:

image


输出为:

image

数据修改–修改索引名为 金牌排名:

输出为:

image


3. 数据修改–修改值

输出为:

image


4. 数据修改–替换值

替换值(单值)

输出为:

image


替换值(多值)

输出为:

image


输出为:

image


5. 数据修改-修改数据类型

** 将 金牌数 列类型修改为 int**

输出为:

image


1.3 数据新增

1. 数据新增-增加列 固定值

固定值 新增一列 比赛地点,值为 东京

输出为:

image


2. 数据新增-增加列 计算值

计算值 新增一列 金银牌总数列,值为该国家金银牌总数

输出为:

image


输出为:

查看行数据中指定多列中的最大值

如果查看每个国家中金牌数银牌数铜牌数的最大值

输出为:

新增一列计算值,值为每行中[“金牌数”, “银牌数”,‘铜牌数’]几列的最大值

输出为:

image

3. 数据新增-增加列 比较值

新增一列比较值,如果一个国家的金牌数大于 20 则值为 是,反之为 否

输出为:

image


4. 数据新增-新增多列

金铜牌总数(金牌数+铜牌数) 银铜牌总数(银牌数+铜牌数)

输出为:

image


5. 数据新增-增加列引用变量

计算金牌总数

输出为:

340

新增一列,金牌占比

输出为:

image

小数转百分比