十种常用的数据分析方法

数据分析是一个从数据中通过分析手段发现业务价值的过程。这个过程的起点是获取一份数据,这个过程的终点是发现业务价值。这些分析手段即为数据分析的方法,这里总结了常用的十种数据分析方法供参考。

一、对比分析法

对比分析法也称比较分析法,是将两个或两个以上相互联系的指标数据进行比较,分析其变化情况,了解事物的本质特征和发展规律。在数据分析中,常用到的分三类:时间对比、空间对比以及标准对比。

(1)、时间对比:

最常用的就是同比和环比,通过时间周期的数据对比,了解目前数据水平的高低。

(2)、空间对比:

在相同时间范围内与不同空间指标数据进行对比。

(3)、标准对比:

标准对比可以通过目前数据与设定的目标计划之间的对比,了解目前发展进程,完成进度等,了解差距后可以及时调整策略。

二、细分分析法

在本来的数据分析上做更为深入和精细化,可以通过几种方式,将整体数据和细分数据都进行分析,实现细分分析方法。

(1)、多层钻取:

通过多层钻取,直接在图表中点击查看细分数据,每层数据均可选择适合的图表类型进行展示。

(2)、聚焦下钻

在整体分析中,想要查看特别关注的部分数据详情,可以使用聚焦及下钻的功能,进行自由分析。

三、指标分析法

直接运用统计学中的一些基础指标来做数据分析,比如平均数、众数、中位数、最大值、最小值等。在选择具体使用哪个基础指标时,需要考虑结果的取向性。

(1)、平均数:

表现同类数据在不同的时间段的数据情况,用于总结趋势和在普遍规律中发现问题。

(2)、中位数:/p>

按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。因为是通过排序得到的,它不受最大、最小两个极端数值的影响。部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常可以用它来描述这组数据的集中趋势。

(3)、最大(小)值:

最大(小)值常可以用来展现数据中的“异常”情况,在某些数据分析中,异常值可以忽略,但有些最大(小)值的分析,可以研究影响因素,从而找到突破性的动作或可避免的方法,从而推动业务的增长。

四、漏斗分析法

漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率和流失率情况。帮助我们把握每个转化节点的效率,从而优化整个业务流程。

(1)、从开始到结尾,整体的转化效率是多少?

(2)、每一步的转化率是多少?

(3)、哪一步流失最多,原因在什么地方?流失的用户符合哪些特征?

漏斗分析除了能帮助运营者找到那些环节生泄漏,进一步分析堵住泄漏点,排除影响主进程转化的意外环节外,还可以结合时间趋势对比、多维度对比、客户类型细分分析、表单分析等高级分析功能,帮助我们分析转化趋势,挖掘用户细节行为。

五、方差分析法

方差分析(ANOVA)又称“变异数分析”或“F检验”,用于两个及两个以上样本均数差别的显著性检验 。其基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。方差分析法分为四类:

(1)、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系。

(2)、多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系 。

(3)、多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系 。

(4)、协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法。

六、回归分析法

回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

回归分析研究的主要问题是:

(1)、确定Y与X间的定量关系表达式,这种表达式称为回归方程;

(2)、对求得的回归方程的可信度进行检验;

(3)、判断自变量X对因变量Y有无影响;

(4)、利用所求得的回归方程进行预测和控制。

七、聚类分析法

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。

(1)、性质分类:

Q型聚类分析:对样本进行分类处理,又称样本聚类分祈 使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等 。

R型聚类分析:对指标进行分类处理,又称指标聚类分析 使用相似系数作为统计量衡量相似度,相关系数、列联系数等。

(2)、方法分类:

a、系统聚类法: 适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类。

b、逐步聚类法 :适用于大样本的样本聚类。

c、其他聚类法 :两步聚类、K均值聚类等。

八、时间序列分析法

时间序列分析(Time series analysis)是一种对动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。一般用于系统描述、系统分析、预测未来等。一个时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。

时间序列分析的主要用途:

(1)、系统描述:根据对系统进行观测得到的时间序列数据,用曲线拟合方法对系统进行客观的描述。

(2)、系统分析:当观测值取自两个以上变量时,可用一个时间序列中的变化去说明另一个时间序列中的变化,从而深入了解给定时间序列产生的机理。

(3)、预测未来:一般用ARMA模型拟合时间序列,预测该时间序列未来值。

(4)、决策和控制:根据时间序列模型可调整输入变量使系统发展过程保持在目标值上,即预测到过程要偏离目标时便可进行必要的控制。

九、典型相关分析

典型相关分析两组变量(如3个学术能力指标与5个在校成绩表现指标)之间相关性的一种统计分析方法。典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

十、R0C分析法

R0C曲线是根据一系列不同的二分类方式(分界值或决定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线 。

时间序列分析的主要用途:

(1)、R0C曲线能很容易地査出任意界限值时的对疾病的识别能力 。

(2)、选择最佳的诊断界限值。R0C曲线越靠近左上角,试验的准确性就越高。

(3)、两种或两种以上不同诊断试验对疾病识别能力的比较,一股用R0C曲线下面积反映诊断系统的准确性。

针对这么多方法用什么工具进行分析呢?BIOS iLook是一款基于探索式分析的数据可视化分析平台,提供智能数据可视化、图表协同、维度数据钻取、数据挖掘和数据预警功能,帮助用户快速定位并发现业务问题,实现商业智能。

有产品 有技术 服务好 可信赖

免费试用

仅需1分钟,即可体验新一代企业级Java报表工具,充分挖掘数据价值,引领企业增长!