数据分析的一般流程和常用手段

在这个大数据驱动的互联网时代,数据尤为重要,企业靠着大数据算法杀熟、靠着数据分析用户需求,实现持久盈利、紧贴市场行情

今天就谈谈一次数据分析的一般流程和常用手段

数据分析的一般流程和常用手段

前提:

1、明确分析目的,不要为了分析而分析,带着问题去分析

2、估一个预期,有预期才能和结果进行对比,结果出来后,是达到预期比较满意,还是说未达到预期有优化空间

一、数据获取

数据获取是数据分析的前提,没有数据何来数据分析一说

线上线下调查

需要的数据量较大的时候,一般都采用线上问卷调研的方式,直接推送用户,让大部分的用户做出客观的评价,涉及到的问题应当在不要让用户觉得侵犯个人隐私的前提下设题

网上获取

数据分析的一般流程和常用手段

下载网上已有数据分析平台出的数据报告、调研报告、统计报表等,大部分都是最新市场、某一新行业、某一细分领域的数据

服务器访问日志

数据分析的一般流程和常用手段

服务器返回的用户操作的记录,用户在产品上的每一步后台服务器都有记录,可以找服务器的负责人要服务器里面的访问数据

数据库

产品的数据库里的数据是现成的数据,可通过技术手段命令行的方式对数据库进行筛选,以便找到有用的数据,也可以通过一些图形化操作的工具对数据库的数据进行筛选,比如php管理工具phpmysdmin他就提供了数据库访问的一种图形化访问操作界面,大大降低了获取数据库内筛选数据的技术门槛

应用程序接口API

数据可以通过应用对外开放的接口API,比如微博的API可以返回给企业,点赞数,浏览量,转发数等等

技术抓取手段

通过爬虫的手段对某些网站的数据进行抓取,某些数据不是为了让去数据分析的,所以得通过一些手段去获取这些数据,

以上几种是一般途径,当然还有很多人有很多的其他途径来获取一些数据,这个还要看个人公司内外的渠道资源

二、数据清洗

数据清洗是对收集到的信息进行一个整理,在对结果不会有直接性、间接性的影响的基础上,对部分不合格数据进行增删改的操作

下面自己造了一条数据作为例子:

昵称:猫不理

用户ID:1234342312

性别:

年龄:153

出生日期:20年2/2日

手机号:13645676789

所在地:北京朝阳区

月收入区间:40亿-80亿

标签:文艺青年、旅行、岛国特产收藏者

缺失值:性别(空)

单条数据缺少的参数,

就要采用相应的处理,如果数据量比较多可以直接删除这一条,这一条不会对结果产生什么影响;如果数据量不是很大,或者说这个字段用处、对结果的影响不是很大,可以根据用户的其他信息,推理出缺失的信息

垃圾信息:年龄(153)

多出现于问卷调查里,对应的处理方式:

1、抛弃这一条数据

2、修改年龄为数据统计的平均值(年龄对于数据分析的结果来说不重要)

3、如果这条数据较为重要,可以在问卷调查前设置题目的时候,采用一个问题两种问法的形式、或限制输入框输入规格

规范化:出生日期(20年2/2日)

数据的格式要规范化,要一致

针对这条数据,出生年月日的格式肯定是不对的,

4、重复记录:一个用户有两条数据

有两条数据的用户,合并两条数据为一条数据、或删除重复的一条数据

特殊值:月收入区间(40亿-80亿)

部分特殊用户的数据会直接影响到结果,月收入区间几十亿,这是赤裸裸的打击,二话不说直接酸酸的给它抛弃

合并数据集:用户调研数据、后天数据库的数据合并在一张数据表内

要对分散在不同表内的数据,采取合并的操作,可减少数据分析过程的的成本

三、数据分析

画像分群

每个人都是一个独立存在的个体,用户画像就是根据某些指标、行为、来将所有某一符合这个条件的用户和所有人分开,并基于各种画像用户的特点,设计产品、优化产品

趋势分析

趋势分析一般用于核心指标的长期跟踪,不断进行对比分析,数据有哪些趋势上的变化,有没有周期性,有没有拐点,并分析背后的内部原因和外部原因

漏斗洞察

整条用户操作流程、业务流程,哪一个步骤的转化率低,哪一个步骤导致用户流失多,分析其原因,究竟是因为出现bug,还是用户体验,还是其他什么原因

行为轨迹分析

按照用户使用产品某一功能的行为轨迹,分析用户场景,找到阻挠用户继续走向下一步的点,并分析其原因,是因为这个按钮放的位置不合适,还是这个信息这一步不该出现,还是用户注意力被页面其他不重要的东西吸引走了,分析其原因

留存分析

每个产品都有自己的留存标准,有的产品就是注册了就是留存,有的产品是进入APP就算留存,根据公司情况制定留存标准,找到留存的最低点点

A/B测试:(曾影响M国竞选总统的一种数据分析方法)

一个问题两个或多个解决方案没有拿定主意,可以用A/B测试测一下,

几种方案全投入使用,分别指定一批用户,跟进使用过程中的数据变动,一段周期后,根据每个方案的市场反馈数据,进行分析,决策

四、验证发现:

警惕下面三种结论的发生

虚假相关

正面案例:

因为5月平均温度比4月高,所以人们更多不 愿意出门,外卖订单量相比四月稍有上升

(温度高、和使用微信的频率没有一毛毛的直接关系)

反面案例:

因为5月平均温度比4月平均温度高, 所以人们每天打开微信的次数变高;

因果倒置

正面案例:

据统计会有20%的人在空闲时间会读电子书

反面案例:

据统计有20%的人因为想看电子书,所以都有空闲时间

沉默数据:注重核心的数据,不要被表面的数据所迷惑

二战期间,美国空军派出去的飞机,回来的一般都所剩无几,飞机成本这么高,这样太浪费资源了,于是就想办法买了一批防弹材料装在飞机上,但是材料有限,每个飞机只能覆盖四分之一的地方,于是美国空军经过大数据分析发现,回来的飞机上中弹最多的地方是机翼,于是把材料装在了机翼上,结果还是不理想,那么应该装在那呢?,——驾驶舱挡板上

驾驶员挡板就是沉默数据,由于被回来的飞机中弹较多的机翼所迷惑了,所以导致没人想起来,驾驶舱才是一架飞机的核心位置,人都不在了,飞机肯定回不来!不能被表面的数据结果所迷惑,应该分析出最深层的需求

五、数据可视化

人们更喜欢看图说话,从而不喜欢长篇大论的报告、文字,

有研究表明,80%的人会记得他们所看到的图像,但只有20%的人记得他们阅读的文字!

在这里介绍几种图表形式有矩形图、扇形图、折线图、热力图、散点图、思维导图、形象图等等

数据分析的一般流程和常用手段
数据分析的一般流程和常用手段

以上内容参考三节课范冰老师讲的《数据分析的五个步骤》,个人笔记,如有侵犯,请联系我删除,

本文来自毛小驴PM,本文观点不代表 PmTemple 立场,转载请联系原作者。原文链接:

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
研究院精选的头像研究院精选认证编辑
上一篇 2021年4月25日 上午9:39
下一篇 2021年5月6日 上午9:44

相关推荐

发表回复

登录后才能评论
微信公众号
微信公众号
edgesensor_high 小程序
小程序
分享本页
返回顶部