MYSQL用户行为分析指标体系建设

一、数据集介绍

该数据集来源于阿里云天池,数据选取了淘宝APP2014年11月18日至2014年12月18日的用户行为数据。•数据来源于:

包含6个字段(用户id、商品id、用户行为类型、用户所在地理位置、品类id、用户操作时间),一共有1048575条数据,这里只选取了80万左右得数据,在2014-11-18到2014-12-18之间发生的行为记录,具有包括点击、购买、加购物车和收藏商品的行为。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。。

字段信息说明:

字段 说明
user_id 用户身份,id,脱敏
item_id 商品id,脱敏
behavior_type 用户行为类型(包含点击、收藏、加购物车、支付四种行为,分别用数字1,2,3,4表示)
user_geohash 地理位置
item_category 品类id,(商品所属品类)
timestamp 用户行为发生时间

根据现有数据及分析目的,从多方面进行分析:

•第一个维度:用户购物情况整体分析以PV、UV、跳失率等指标,分析用户最活跃的日期及活跃时段,了解用户行为习惯

•第二个维度:商品购买情况分析从成交量、人均购买次数等指标,探索用户对商品的购买偏好,了解商品的销售规律

•第三个维度:用户行为转化漏斗分析从收藏转化率、购物车转化率、成交转化率,对用户行为从浏览到购买进行漏斗分析

•第四个维度:参照复购率、RFM模型对用户进行分类,找出有价值的用户

二、数据清洗

原字段没有列名,在创建csv是,创建了一行字段,时间戳timestamp的数据类型直接导入的结果是10位的数字,把这一列数据在csv中已做过简单处理转换为日期加时间格式,并将其设置为字符串格式。

导入数据


2.1、缺失值处理:

user_geohash列地理位置得数据大多都是空值null,且位置信息被加密,难以研究,后面不做关于地理位置得分析

2.2、数据一致化处理

由于time字段得时间包含(年-月-日)和小时,为了方便分析,将该字段拆分为两个字段,日期date和时间time

编辑于 2021-05-14 00:28