一、明确目的——以业务为核心目的
案例背景:有一份“淘宝母婴用品店的销售数据”需要帮助商家实现盈利最大化
目标:确定产品销量和哪些因素有关。产品种类、时间、用户年龄段、客户性别。以及它们之间的变化趋势,找出可以改善的点
二、理解数据
①商品购买记录数据
有表格如下
近3w条数据,7个字段,分别代表如下意义
字段英文名 | 字段中文名 | 注释 |
---|---|---|
user_id | 用户id | 具有唯一识别性,可作为分析主键 分析某一个用户的行为时,作为识别键 |
auction_id | 购买行为ID | 购买行为的唯一标识编号 可以用来细化用户的购买行为数据 |
cat1 | 商品大类 | 用户购买的商品类别 可通过该数据分析用户喜欢的商品类型 |
cat_id | 商品小类 | 用户购买商品的细分小类 可进一步分析用户喜欢的类型 |
property | 商品属性 | 简单理解分析数据集,发现商品属性字段分析意义不大 所以后面将会在表中隐藏 |
buy_mount | 购买数量 | 用户购买商品数量的真实情况 进一步可通过多用户购买数量判断该商品是否热销 |
day | 购买时间 | 用户购买行为发生的时间 可推测商品销售趋势,也是比较重要的字段 |
P.S:ctrl+tab键可以快速切换到另一个表
购买用户信息表
有表格如下
900+数据,3个字段,分别代表如下意义
字段英文名 | 字段中文名 | 注释 |
---|---|---|
user_id | 用户id | 用户账户名称,我们将会通过这个字段来连接两张表 |
birthday |