大数据之淘宝母婴用品销售分析

实践目标

婴儿信息表(工作表1)和该数据集中的信息包含用户ID,宝宝生日,宝宝性别(0代表“女”;1代表“男”,2代表“未知”)。两个数据集都有用户ID字段。

2.数据清洗

为了使数据集能更好的反映我想要分析的问题,需要先对当前的数据集进行处理。数据清洗的一般步骤包括选择子集,重命名列名,删除重复值,缺失值处理,一致化处理,数据排序,异常值处理等步骤。

2.1选择子集

商品购买记录(工作表2)的E列property里面包含众多,但此数据集未提供能说明此字段具体含义的信息,所以此列信息无法被采用。

故隐藏该列:

2.2 重命名列名

2.3 多表联动匹配宝宝生日与宝宝性别

使用Vlookup函数,以用户ID来关联两张Excel表,将婴儿信息匹配到各个用户ID。

=VLOOKUP(A2,工作表1婴儿信息表!$A$2:$C$954,2,FALSE),匹配宝宝生日。
=VLOOKUP(A2,工作表1婴儿信息表!$A$2:$C$954,3,FALSE),匹配宝宝性别。

其中VLOOKUP第4个函数为可选,默认为TRUE:近似匹配,可以设置为FALSE:精确匹配,本实验为精准匹配。

在本实验中,我们要批量对所有销售数据进行多表联动,匹配宝宝生日,可以通过选择H列,在H2单元格输入公式后,按CTRL+回车批量设置公式。

批量设置公式时,其中VLOOKUP中的第1个参数就是相对定位,第2个参数就是绝对定位,绝对定位在批量设定时是不变的。

2.4 处理日期格式

为操作能顺利进行,需将表示购买日期和出生日期的两列格式变为标准日期格式,方便系统辨认。

现在"购买日期"和"宝宝生日"均为8位连续数据,不是标准日期格式。

标准日期格式为:年/月/日

因前一步操作,经匹配得来的婴儿出生日期列为公式,

无法直接转换为日期格式,需要将公式格式的单元格转换为数值,复制此列,在原列粘贴,粘贴时选择仅粘贴"值",如下,

将此列转化为日期显示,通过数据选项卡中的分列功能将此列转化为日期。

第2步默认,在第3步中设置列数据格式为日期:YMD格式。

显示结果如下。

2.5 处理性别格式

与婴儿出生日期一样,婴儿性别一列是用vlookup函数匹配过来的,单元格为公式,显示为数字0,1,2,将此列在原地复制粘贴为"值",在此基础上进行查找替换。

如何只替换某一列中的内容

2.6 计算购买商品时宝宝的年龄

公式:(购买日期-婴儿出生日期)/365

从得出数据发现婴儿年龄列有负数,忽略记录错误的原因,相信绝大部分负值代表孕时的购买情况或其他目的。

3. 构建模型

3.1 描绘婴儿年龄与购买量的相关性

将婴儿年龄段划分为小于0岁,0-3岁,3-6岁,6-9岁,9-12岁和大于12岁。利用数据透视表,建立年龄段购买量模型,以婴儿年龄为行,求和项为购买量,并创建年龄分组。设置起始为0,终止于12,步长为3。

3.1.1 建立透视表

点击"插入"工具栏中的"数据透视表",将宝宝年龄拖拽到"行"所在区域,将购买数量拖拽到"值"所在区域,并设置计算类型为求和。

3.1.2 设置年龄分组

选择行标签所在列的任意单元格,点击"分析"工具栏中的"组选择",设置分区区间,完成如下结果:

可看出,3岁之前婴儿商品市场需求量最大。

3.2描绘婴儿性别与购买量的相关性
3.2.1建立透视表

点击"插入"工具栏中的"数据透视表",将宝宝性别拖拽到"行"所在区域,将购买数量拖拽到"值"所在区域,并设置计算类型为求和,结果如下。

3.2.2 新增购买数量百分比

继续添加一个求和"值",在数据透视表字段区域,"购买数量"上右键,选择"添加到值"。

设置后添加的求和项,值显示方式为"总计的百分比"。

结果如下。

由上述情况可说明,在其他变量相同的情况下,一件男女均可用的商品,女宝家庭选择购买的几率胜于男宝家庭(基于该数据集,只能男宝用或女宝用的商品占比几乎可忽略不计的假设),即女婴产品市场需求量更大一些。

3.3 全年龄段(样本范围0到12岁),最受欢迎的20件儿童商品。
3.3.1 建立透视图

点击"插入"工具栏中的"数据透视表",将商品种类编号和商品序列号分别拖拽到"行"和"列"所在区域,将购买数量拖拽到"值"所在区域,并设置计算类型为求和,将宝宝年龄拖拽到"删选器"区域,结果如下。

3.3.2设定年龄范围(0-12) 选择宝宝年龄下拉框,选择多选模式。

设定行标签名称为商品类别,列标签名称为商品序列,选择值为前20行,按商品类别总计进行降序排列,结果如下。

可见,商品序列号为28,商品类别序列号为50011993的商品最畅销;前20项最畅销商品中,商品序列号为28的商品占了12项,商家在产品结构上,为增加销量,可适当增加类别号为28 的商品。