MYSQL用户行为分析指标体系建设
一、数据集介绍
该数据集来源于阿里云天池,数据选取了淘宝APP2014年11月18日至2014年12月18日的用户行为数据。•数据来源于:
包含6个字段(用户id、商品id、用户行为类型、用户所在地理位置、品类id、用户操作时间),一共有1048575条数据,这里只选取了80万左右得数据,在2014-11-18到2014-12-18之间发生的行为记录,具有包括点击、购买、加购物车和收藏商品的行为。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。。
字段信息说明:
字段 | 说明 |
---|---|
user_id | 用户身份,id,脱敏 |
item_id | 商品id,脱敏 |
behavior_type | 用户行为类型(包含点击、收藏、加购物车、支付四种行为,分别用数字1,2,3,4表示) |
user_geohash | 地理位置 |
item_category | 品类id,(商品所属品类) |
timestamp | 用户行为发生时间 |
根据现有数据及分析目的,从多方面进行分析:
•第一个维度:用户购物情况整体分析以PV、UV、跳失率等指标,分析用户最活跃的日期及活跃时段,了解用户行为习惯
•第二个维度:商品购买情况分析从成交量、人均购买次数等指标,探索用户对商品的购买偏好,了解商品的销售规律
•第三个维度:用户行为转化漏斗分析从收藏转化率、购物车转化率、成交转化率,对用户行为从浏览到购买进行漏斗分析
•第四个维度:参照复购率、RFM模型对用户进行分类,找出有价值的用户
二、数据清洗
原字段没有列名,在创建csv是,创建了一行字段,时间戳timestamp的数据类型直接导入的结果是10位的数字,把这一列数据在csv中已做过简单处理转换为日期加时间格式,并将其设置为字符串格式。
导入数据
2.1、缺失值处理:
user_geohash列地理位置得数据大多都是空值null,且位置信息被加密,难以研究,后面不做关于地理位置得分析
2.2、数据一致化处理
由于time字段得时间包含(年-月-日)和小时,为了方便分析,将该字段拆分为两个字段,日期date和时间time