SQL作为流行的数据库语言,有着很广泛的用途,而数据分析这部分的应用是可以较快上手实操的,因此决定写下此篇经验总结,希望可以帮助到想快速了解SQL在数据分析中应用的小伙伴们。
既然想好要跨入SQL的大门了,那么先看看它的定义:
结构化查询语言(Structured Query Language)简称SQL,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。
从上面的定义可以看出SQL有两大特点:
1.它是一个管理数据库的工具,这说明它的使用是需要与对应的方法配合的;
2.它还是一个程序语言,这说明它的书写需要符合制定的语法规范。
实际工作中也是先确定要使用SQL达到什么效果,然后按照语法规范写出代码,即编程设计。
接下来就从这2大特点入手,介绍SQL是怎么辅助数据分析的。
数据分析中的SQL
数据分析流程大致分为5步,如下图所示:
其中,在第2,3,4步才需要用到SQL操作数据库。上图也说明了在使用SQL之前需要做好一些准备:
1)安装SQL好环境,连接好要分析的数据库;
2)明确本次分析目标,根据目标确定需要的字段。
接下来介绍这3个步骤的目标以及用到的SQL功能:
数据探索与收集
这一步目标是了解数据表字段名对应的数据,并收集本次分析需要字段的数据,主要使用SQL的查询功能,依次是:数据字典查询 和 字段查询。
1.使用数据字典查询,了解数据表字段名
数据字典相当于数据库的花名册,可以通过它了解字段名及其对应的数据含义,以便确定要收集的字段名。这个操作有固定的SQL代码:
DESC 数据表名 ; #一次一个数据表名
2.使用字段查询,收集字段的数据
确定了要查询的字段名后,就可以开始数据收集了,这个操作对应的SQL语句是:
SELECT 字段名 FROM 数据表名 ; #查询多个字段名时用逗号隔开
数据清洗与整理
这一步的目标是定位异常数据,并进行处理,获得更为干净的数据,主要使用SQL的字段统计,数据删除、更新,以及数据筛选功能。
1.使用字段值去重计数,定位异常数据
这个方法适合有明确答案数量的字段,通过count函数去重计数可以快速了解字段是否存在异常值,例如是否毕业这样的字段,这明确是2种答案,是和否,可如果去重计数得到3,则说明肯定存在一个异常值,这个操作对应的SQL语句是:
SELECT COUNT(DISTINCT 字段名) FROM 数据表名 ; #括号里的DISTINCT表示去重
2.数据清洗
找到异常数据后,根据出错的数据占比,如果超过了90%,则说明这个字段的数据无参考价值,可用delete函数进行删除处理,这个操作对应的SQL语句是:
DELETE FROM 表名 WHERE 筛选条件 ; #筛选条件用于定位删除的区域,例如字段名='异常值'
如果是知道某个异常数据的正确的数据是多少,可以使用update更新数据,这个操作对应的SQL语句是:
UPDATE 表名 SET 字段名='正确值' WHERE 字段名='异常值' ;
3.数据筛选
说明两个示例代码里,都有用到where来筛选数据,这是经常与其他函数配合使用的语句,筛选条件通常是锁定范围的表达式,例如 字段名='异常值' 。
数据分析与可视化
这一步的目标,是进一步分析数据之间的关联,得出一些决策建议并用可视化图表展示出来,由于SQL语言没有可视化的功能,所以这一步主要使用到SQL的数据表拼接、数据统计和筛选排序等功能。
1.数据表拼接
如果要同时查询来自两个不同数据表的字段对比,就需要用到join来拼接数据表,例如查询用户中已经注册会员的人数占比,则需要以用户ID为基准拼接用户注册表和会员注册表。这个操作对应的SQL语句是:
SELECT 字段1 FROM 表a JOIN 表b ON 表a.字段2=表b.字段2 ;#字段2就是拼接的基准字段
2.数据统计
关于数据统计,SQL有3个函数:count用于记录数求和,sum用于字段数值求和,avg用于字段数值求平均数。这3个操作的代码格式是一样的,仅函数名不同,其中count记录数求和对应的SQL语句是:
SELECT COUNT(DISTINCT 字段名) FROM 数据表名 ; #括号里的DISTINCT表示重复记录不计数
3.数据排序
得出统计结果后,往往还需要使用order by来进行数据排序,以便后续决策。使用后,指定字段默认是升序排列的,需要降序的话,需要在字段名右边加上desc。这个操作对应的SQL语句是:
SELECT 函数(字段名) FROM 表名 GROUP BY 字段名 DESC ;