数据分析-SQL查询总结
1. 简单查询
(1)创建数据库名为school,包含四张表student、成绩表、教师表、课程表。
(2)简单查询
1. 查询‘猴%’
select *
from student
where 姓名 like '猴%'
2. 查询 '%猴'
select *
from student
where 姓名 like '%猴'
3. 查询名字中有猴的学生
select *
from student
where 姓名 like '%猴%'
4. 查询姓“孟”老师的个数
select count(教师号)
from 教师表
where 教师姓名 like '孟%';
2. 汇总分析
查询课程编号为“0002”的总成绩
/*
select 查询结果 [总成绩:汇总函数sum]
from 从哪张表中查找数据[成绩表]
where 查询条件 [课程号0002]
select sum(成绩)
from 成绩表
where 课程号 = '0002';
查询选了课程的学生人数
/*
翻译成大白话就是:查询有多少人选了课程
select 学号,成绩表里学号有重复值需要去掉
from 从课程表查找score;
select count(distinct 学号) as 学生人数
from score;
查询各科成绩最高和最低的分, 以如下的形式显示:课程号,最高分,最低分
/*
select 查询结果 [课程ID:是课程号的别名,最高分:max(成绩),最低分:min(成绩)]
from 从哪张表中查找数据 [成绩表]
where 查询条件 [没有]
group by 分组 [各科成绩:也就是每门课程的成绩,需要按课程号分组];
select 课程号,max(成绩) as 最高分,min(成绩) as 最低分
from 成绩表
group by 课程号
查询每门课程被选修的学生数
/*
select 查询结果 [课程号,选修该课程的学生数:汇总函数count]
from 从哪张表中查找数据 [成绩表]
where 查询条件 [没有]
group by 分组 [每门课程:按课程号分组];
select 课程号, count(学号)
from 成绩表
group by 课程号;
查询男生、女生人数
/*
select 查询结果 [性别,对应性别的人数:汇总函数count]
from 从哪张表中查找数据 [性别在学生表中,所以查找的是学生表student]
where 查询条件 [没有]
group by 分组 [男生、女生人数:按性别分组]
having 对分组结果指定条件 [没有]
order by 对查询结果排序[没有];
select 性别,count(*)
from student
group by 性别;
查询平均成绩大于60分学生的学号和平均成绩
/*
题目翻译成大白话:
平均成绩:展开来说就是计算每个学生的平均成绩
这里涉及到“每个”就是要分组了
平均成绩大于60分,就是对分组结果指定条件
select 查询结果 [学号,平均成绩:汇总函数avg(成绩)]
from 从哪张表中查找数据 [成绩在成绩表中,所以查找的是成绩表]
where 查询条件 [没有]
group by 分组 [平均成绩:先按学号分组,再计算平均成绩]
having 对分组结果指定条件 [平均成绩大于60分]
select 学号, avg(成绩)
from 成绩表
group by 学号
having avg(成绩)›60;
查询至少选修两门课程的学生学号
/*
翻译成大白话:
第1步,需要先计算出每个学生选修的课程数据,需要按学号分组
第2步,至少选修两门课程:也就是每个学生选修课程数目›=2,对分组结果指定条件
select 查询结果 [学号,每个学生选修课程数目:汇总函数count]
from 从哪张表中查找数据 [课程的学生学号:课程表]
where 查询条件 [至少选修两门课程:需要先计算出每个学生选修了多少门课,需要用分组,所以这里没有where子句]
group by 分组 [每个学生选修课程数目:按课程号分组,然后用汇总函数count计算出选修了多少门课]
having 对分组结果指定条件 [至少选修两门课程:每个学生选修课程数目›=2]
select 学号, count(课程号) as 选修课程数目
from 成绩表
group by 学号
having count(课程号)›=2;
查询不及格的课程并按课程号从大到小排列
/*
select 查询结果 [课程号]
from 从哪张表中查找数据 [成绩表]
where 查询条件 [不及格:成绩 ‹60]
group by 分组 [没有]
having 对分组结果指定条件 [没有]
order by 对查询结果排序[课程号从大到小排列:降序desc];
select 课程号
from 成绩表
where 成绩<60
order by 课程号 desc;
查询每门课程的平均成绩,结果按平均成绩升序排序,平均成绩相同时,按课程号降序排列
/*
select 查询结果 [课程号,平均成绩:汇总函数avg(成绩)]
from 从哪张表中查找数据 [成绩表]
where 查询条件 [没有]
group by 分组 [每门课程:按课程号分组]
having 对分组结果指定条件 [没有]
order by 对查询结果排序[按平均成绩升序排序:asc,平均成绩相同时,按课程号降序排列:desc];
select 课程号, avg(成绩) as 平均成绩
from 成绩表
group by 课程号
order by 平均成绩 asc,课程号 desc;
检索课程编号为“0004”且分数小于60的学生学号,结果按按分数降序排列
/*
select 查询结果 []
from 从哪张表中查找数据 [成绩表]
where 查询条件 [课程编号为“04”且分数小于60]
group by 分组 [没有]
having 对分组结果指定条件 []
order by 对查询结果排序[查询结果按按分数降序排列];
select 学号
from 成绩表
where 课程号='04' and 成绩 ‹60
order by 成绩 desc;
统计每门课程的学生选修人数(超过2人的课程才统计)
要求输出课程号和选修人数,查询结果按人数降序排序,若人数相同,按课程号升序排序
/*
select 查询结果 [要求输出课程号和选修人数]
from 从哪张表中查找数据 []
where 查询条件 []
group by 分组 [每门课程:按课程号分组]
having 对分组结果指定条件 [学生选修人数(超过2人的课程才统计):每门课程学生人数›2]
order by 对查询结果排序[查询结果按人数降序排序,若人数相同,按课程号升序排序];
select 课程号, count(学号) as 选修人数
from 成绩表
group by 课程号
having count(学号)›2
order by count(学号) desc,课程号 asc;
查询两门以上不及格课程的同学的学号及其平均成绩
/*
先分解题目:
1)[两门以上][不及格课程]限制条件
2)[同学的学号及其平均成绩],也就是每个学生的平均成绩,显示学号,平均成绩
分析过程:
第1步:得到每个学生的平均成绩,显示学号,平均成绩
第2步:再加上限制条件:
1)不及格课程
2)两门以上[不及格课程]:课程数目›2
第1步:得到每个学生的平均成绩,显示学号,平均成绩
select 查询结果 [学号,平均成绩:汇总函数avg(成绩)]
from 从哪张表中查找数据 [涉及到成绩:成绩表]
where 查询条件 [没有]
group by 分组 [每个学生的平均:按学号分组]
having 对分组结果指定条件 [没有]
order by 对查询结果排序[没有];
select 学号, avg(成绩) as 平均成绩
from 成绩表
group by 学号;
第2步:再加上限制条件:
1)不及格课程
2)两门以上[不及格课程]
select 查询结果 [学号,平均成绩:汇总函数avg(成绩)]
from 从哪张表中查找数据 [涉及到成绩:成绩表]
where 查询条件 [限制条件:不及格课程,平均成绩‹60]
group by 分组 [每个学生的平均:按学号分组]
having 对分组结果指定条件 [限制条件:课程数目›2,汇总函数count(课程号)›2]
order by 对查询结果排序[没有];
select 学号, avg(成绩) as 平均成绩
from 成绩表
where 成绩 ‹60
group by 学号
having count(课程号)›=2;
思考:where 和 having 都可以添加限制条件,两者要结合着使用。
3. 复杂查询
查询所有课程成绩小于60分学生的学号、姓名
【知识点】子查询
1.翻译成大白话
1)查询结果:学生学号,姓名
2)查询条件:所有课程成绩 ‹ 60 的学生,需要从成绩表里查找,用到子查询
第1步,写子查询(所有课程成绩 ‹ 60 的学生)
select 查询结果[学号]
from 从哪张表中查找数据[成绩表]
where 查询条件[成绩 ‹ 60]
group by 分组[按学号分组]
having 对分组结果指定条件[这名学生选修课程里最大值‹60]
order by 对查询结果排序[没有]
limit 从查询结果中取出指定行[没有];
select 学号
from 成绩表
group by 学号
having max(成绩)‹ 60;
第2步,查询结果:学生学号,姓名,条件是前面1步查到的学号
select 查询结果[学号,姓名]
from 从哪张表中查找数据[学生表:student]
where 查询条件[用到运算符in]
group by 分组[没有]
having 对分组结果指定条件[没有]
order by 对查询结果排序[没有]
limit 从查询结果中取出指定行[没有];
select 学号,姓名
from student
where 学号 in (
select 学号
from 成绩表
group by 学号
having max(成绩)‹ 60
);
查询没有学全所有课的学生的学号、姓名|
/*
查找出学号,条件:没有学全所有课,也就是该学生选修的课程数 ‹ 总的课程数
【考察知识点】in,子查询
select 学号,姓名
from student
where 学号 in(
select 学号
from 成绩表
group by 学号
having count(课程号) ‹ (select count(课程号) from 课程表)
);
查询出只选修了两门课程的全部学生的学号和姓名|
select 学号,姓名
from student
where 学号 in(
select 学号
from 成绩表
group by 学号
having count(课程号)=2);
1990年出生的学生名单
【面试题类型】topN问题
工作中会经常遇到这样的业务问题:
如何找到每个类别下用户最喜欢的产品是哪个?
如果找到每个类别下用户点击最多的5个商品是什么?
这类问题其实就是常见的:分组取每组最大值、最小值,每组最大的N条(top N)记录。
下面我们通过成绩表的例子来给出答案。
成绩表是学生的成绩,里面有学号(学生的学号),课程号(学生选修课程的课程号),成绩(学生选修该课程取得的成绩)
- 分组取每组最大值
案例:按课程号分组取成绩最大值所在行的数据
我们可以使用分组(group by)和汇总函数得到每个组里的一个值(最大值,最小值,平均值等)。但是无法得到成绩最大值所在行的数据。(复杂查询是要有子查询才能查询到要查的数据,不添加子查询无法一次性完成查询)
select 课程号,max(成绩) as 最大成绩
from 成绩表
group by 课程号;
我们可以使用关联子查询来实现:
select *
from 成绩表 as a
where 成绩 = ( select max(成绩) from 成绩表 as b where b.课程号 = a.课程号
group by 课程号)
- 分组取每组最小值
案例:按课程号分组取成绩最小值所在行的数据
同样的使用关联子查询来实现
select *
from 成绩表 as a
where 成绩 = (
select min(成绩)
from 成绩表 as b
where b.课程号 = a.课程号
group by 课程号);
- 每组最大的N条记录
案例:查询各科成绩前两名的记录
第1步,查出有哪些组
我们可以按课程号分组,查询出有哪些组,对应这个问题里就是有哪些课程号
select 课程号,max(成绩) as 最大成绩
from 成绩表
group by 课程号;
第2步:先使用order by子句按成绩降序排序(desc),然后使用limt子句返回topN(对应这个问题返回的成绩前两名)
-- 课程号'0001' 这一组里成绩前2名
select *
from 成绩表
where 课程号 = '0001'
order by 成绩 desc
limit 2;
同样的,可以写出其他组的(其他课程号)取出成绩前2名的sql
第3步,使用union all 将每组选出的数据合并到一起
-- 左右滑动可以可拿到全部sql
(select * from 成绩表 where 课程号 = '0001' order by 成绩 desc limit 2)
union all
(select * from 成绩表 where 课程号 = '0002' order by 成绩 desc limit 2)
union all
(select * from 成绩表 where 课程号 = '0003' order by 成绩 desc limit 2);
前面我们使用order by子句按某个列降序排序(desc)得到的是每组最大的N个记录。如果想要达到每组最小的N个记录,将order by子句按某个列升序排序(asc)即可。
4. 多表查询
【题目】
下面是学生的名单,表名为“学生表”;近视学生的名单,表名为“近视学生表”。请问不是近视眼的学生都有谁?
(“学生表”表中的学号与“近视学生”表中的学生学号一一对应)
【解题思路】
1.我们先来拆解问题:不是近视眼的学生都有谁?
1) “不是近视眼” 的学生,近视信息在“近视学生”表里
2) “学生都有谁?” ,要求的是“学生姓名”,所以我们的输出答案应该是“学生姓名”,这在“学生”表里。
涉及2张以上表的查询时,我们需要用到多表联结。
2.使用哪种联结呢?
在《从零学会SQL:多表查询》这个课里讲过各个联结的情况:
其中上图黑色框里的sql解决的问题是: 不在表里的数据 ,也就是在表A里的数据,但是不在表B里的数据。
3.多表如何联结?
题目已给出,联结两表的关键依据分别为“学号”和“学生学号”。示意图如下:
【解题步骤】
使用分析思路里的sql语句联结两表
select a.姓名 as 不近视的学生名单
from 学生表 as a left join 近视学生表 as b
on a.学号=b.学生学号
where b.序号 is null;
1)在不加where字句的情况下,两表联结得到下图的表
2)假设where字句(where b.序号 is null;)就会把b.序号这一列里为空值(NULL)的行选出来,就是题目要求的不近视的学生。(下图绿色框里的行)
【举一反三】
查找“不在表里的数据”应用案例:
某网站包含两个表,顾客姓名表(表名Customers)和 购买记录表(表名Orders)。找出所有从不订购任何东西的客户。
(“顾客姓名表”中的ID与“购买记录”表中的学生学号CustomerId一一对应)
select a.Name as Customers
from Customers as a left join Orders as b
on a.Id=b.CustomerId
where b.CustomerId is null;
结果:
查询所有学生的学号、姓名、选课数、总成绩
【解题思路】
select a.学号,a.姓名,count(b.课程号) as 选课数,sum(b.成绩) as 总成绩
from student as a left join score as b
on a.学号 = b.学号
group by a.学号;
查询平均成绩大于85的所有学生的学号、姓名和平均成绩
【解题思路】
select a.学号,a.姓名, avg(b.成绩) as 平均成绩
from student as a left join score as b
on a.学号 = b.学号
group by a.学号
having avg(b.成绩)›85;
查询学生的选课情况:学号,姓名,课程号,课程名称
【解题思路】
select a.学号, a.姓名, c.课程号,c.课程名称
from student as a inner join 成绩表 as b on a.学号=b.学号
inner join 课程表 as c on b.课程号=c.课程号;
下面是学生的成绩表(表名score,列名:学号、课程号、成绩)
使用sql实现将该表行转列为下面的表结构
【举一反三】
这类题目属于行列如何互换,解题思路如下:
【解答】
1)第1步,使用常量列输出目标表的结构
可以看到查询结果已经和目标表非常接近了
select 学号,'课程号0001','课程号0002','课程号0003'
from score;
2)第2步,使用case表达式,替换常量列为对应的成绩
select 学号,
(case 课程号 when '0001' then 成绩 else 0 end) as '课程号0001',
(case 课程号 when '0002' then 成绩 else 0 end) as '课程号0002',
(case 课程号 when '0003' then 成绩 else 0 end) as '课程号0003'
from 成绩表;