北京母婴坊婴童用品有限公司致力于婴童健康成长事业,广泛涉足婴童产品的研发、生产、婴童科学护理及早期寓教于乐等领域,是集产品研发、生产、销售、终端服务于一体的专业孕婴童服饰用品生产企业。 现企划部对公司婴童产品淘宝销售记录进行整理,形成婴儿信息表(工作表1)和商品购买记录(工作表2)数据,现利用Excel电子表格工具进行数据分析,找出受欢迎的商品进行扩大生产。
商品购买记录(工作表2)该数据集中的信息包含用户ID,商品编号,商品种类编号,商品序列号,property,购买的商品数量,购买日期。
婴儿信息表(工作表1)和该数据集中的信息包含用户ID,宝宝生日,宝宝性别(0代表“女”;1代表“男”,2代表“未知”)。两个数据集都有用户ID字段。
为了使数据集能更好的反映我想要分析的问题,需要先对当前的数据集进行处理。数据清洗的一般步骤包括选择子集,重命名列名,删除重复值,缺失值处理,一致化处理,数据排序,异常值处理等步骤。
商品购买记录(工作表2)的E列property里面包含众多,但此数据集未提供能说明此字段具体含义的信息,所以此列信息无法被采用。
故隐藏该列:
使用Vlookup函数,以用户ID来关联两张Excel表,将婴儿信息匹配到各个用户ID。
=VLOOKUP(A2,工作表1婴儿信息表!$A$2:$C$954,2,FALSE),匹配宝宝生日。
=VLOOKUP(A2,工作表1婴儿信息表!$A$2:$C$954,3,FALSE),匹配宝宝性别。
其中VLOOKUP第4个函数为可选,默认为TRUE:近似匹配,可以设置为FALSE:精确匹配,本实验为精准匹配。
在本实验中,我们要批量对所有销售数据进行多表联动,匹配宝宝生日,可以通过选择H列,在H2单元格输入公式后,按CTRL+回车批量设置公式。
批量设置公式时,其中VLOOKUP中的第1个参数就是相对定位,第2个参数就是绝对定位,绝对定位在批量设定时是不变的。
为操作能顺利进行,需将表示购买日期和出生日期的两列格式变为标准日期格式,方便系统辨认。
现在"购买日期"和"宝宝生日"均为8位连续数据,不是标准日期格式。
标准日期格式为:年/月/日
因前一步操作,经匹配得来的婴儿出生日期列为公式,
无法直接转换为日期格式,需要将公式格式的单元格转换为数值,复制此列,在原列粘贴,粘贴时选择仅粘贴"值",如下,
将此列转化为日期显示,通过数据选项卡中的分列功能将此列转化为日期。
第2步默认,在第3步中设置列数据格式为日期:YMD格式。
显示结果如下。
与婴儿出生日期一样,婴儿性别一列是用vlookup函数匹配过来的,单元格为公式,显示为数字0,1,2,将此列在原地复制粘贴为"值",在此基础上进行查找替换。
如何只替换某一列中的内容
- 选中此列,按CTRL+F,输入查找内容:0,点击"查找全部"按钮。
- 在列表区域按CTRL+A,全部选择后,再进行替换。
公式:(购买日期-婴儿出生日期)/365
从得出数据发现婴儿年龄列有负数,忽略记录错误的原因,相信绝大部分负值代表孕时的购买情况或其他目的。
将婴儿年龄段划分为小于0岁,0-3岁,3-6岁,6-9岁,9-12岁和大于12岁。利用数据透视表,建立年龄段购买量模型,以婴儿年龄为行,求和项为购买量,并创建年龄分组。设置起始为0,终止于12,步长为3。
点击"插入"工具栏中的"数据透视表",将宝宝年龄拖拽到"行"所在区域,将购买数量拖拽到"值"所在区域,并设置计算类型为求和。
选择行标签所在列的任意单元格,点击"分析"工具栏中的"组选择",设置分区区间,完成如下结果:
可看出,3岁之前婴儿商品市场需求量最大。
点击"插入"工具栏中的"数据透视表",将宝宝性别拖拽到"行"所在区域,将购买数量拖拽到"值"所在区域,并设置计算类型为求和,结果如下。
继续添加一个求和"值",在数据透视表字段区域,"购买数量"上右键,选择"添加到值"。
设置后添加的求和项,值显示方式为"总计的百分比"。
结果如下。
由上述情况可说明,在其他变量相同的情况下,一件男女均可用的商品,女宝家庭选择购买的几率胜于男宝家庭(基于该数据集,只能男宝用或女宝用的商品占比几乎可忽略不计的假设),即女婴产品市场需求量更大一些。
点击"插入"工具栏中的"数据透视表",将商品种类编号和商品序列号分别拖拽到"行"和"列"所在区域,将购买数量拖拽到"值"所在区域,并设置计算类型为求和,将宝宝年龄拖拽到"删选器"区域,结果如下。
3.3.2设定年龄范围(0-12) 选择宝宝年龄下拉框,选择多选模式。
设定行标签名称为商品类别,列标签名称为商品序列,选择值为前20行,按商品类别总计进行降序排列,结果如下。
可见,商品序列号为28,商品类别序列号为50011993的商品最畅销;前20项最畅销商品中,商品序列号为28的商品占了12项,商家在产品结构上,为增加销量,可适当增加类别号为28 的商品。