多指标关联根因分析 关联分析与相关性分析
一、标关质量方法论12—关联图法
1、联根联分概述
关联图,因分又称关系图,析关析相管理指标间的关性关联分析,是分析一种用箭头连接来表示事物之间“原因与结果”、“目的标关与手段”等复杂逻辑关系,并从此逻辑关系中寻找出主要因素和解决问题方法的联根联分图示方法。
2、因分分类
常见的析关析相关联图主要有四种:中央集中型、单项汇集型、关性应用关联型、分析关系表示型。标关
中央集中型:将要分析的联根联分问题放在图中央位置,因素向四周层层展开。因分
单项汇集型:将要分析的问题放在图的一侧,因素向相反的方向层层展开。
应用关联型:将关联图与其他图形联合应用,以解决质量问题的方式。
关联表示型:由两个或两个以上目的组成的关联图。
注:绘制时,箭头只进不出是“问题”;箭头只出不进是“主因”;箭头有进有出是“中间因素”。出多于进的中间因素是“关键中间因素”。
3、实施步骤
(1)确定需分析的问题,并将质量问题相关的管理者和员工组成一个小组,小组针对所需要分析的问题,广泛收集信息,充分发表意见
(2)小组成员应运用“头脑风暴”等方法列出质量问题所有可能的原因,将分析出的原因列在纸上,并用圈线或方框圈起
(3)找出各个因素和问题之间的逻辑关系,并用箭头连接,形成关联图草图,箭头应从原因指向结果、手段指向目的
(4)小组成员需对草图提出修改意见,并根据意见修改和完善草图,修改时应减少或消除交叉箭头,并清理所有问题或原因之间的逻辑关系
(5)根据箭头的指向,确定出要因和问题,将图中的要因用粗线圈起,问题用双线圈起,制定问题的解决对策
(6)对对策实施结果进行分析总结并调整,重复以上步骤,直到问题解决
4、应用要点
(1)关联图应尽量使用简练的文字和语言
(2)应尽可能找出根因,不考虑中间原因
(3)草图后要不断修正,反复分析研究,寻找重点问题和根本原因
(4)需重视关联图的评价和修改工作
二、在一个实验有多种处理时如何进行相关性分析
分析:
统计学意义(p值)
结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)在许多研究领域,0.05的p值通常被认为是可接受错误的边界水平。
如何判定结果具有真实的显著性
在最后结论中判断什么样的显著性水平具有统计学意义,不可避免地带有武断性。换句话说,认为结果无效而被拒绝接受的水平的选择具有武断性。实践中,最后的决定通常依赖于数据集比较和分析过程中结果是先验性还是仅仅为均数之间的两两>比较,依赖于总体数据集里结论一致的支持性证据的数量,依赖于以往该研究领域的惯例。通常,许多的科学领域中产生p值的结果≤0.05被认为是统计学意义的边界线,但是这显著性水平还包含了相当高的犯错可能性。结果0.05≥p>0.01被认为是具有统计学意义,而0.01≥p≥0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。
所有的检验统计都是正态分布的吗?
并不完全如此,但大多数检验都直接或间接与之有关,可以从正态分布中推导出来,如t检验、f检验或卡方检验。这些检验一般都要求:所分析变量在总体中呈正态分布,即满足所谓的正态假设。许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因。当人们用在正态分布基础上建立的检验分析非正态分布变量的数据时问题就产生了,(参阅非参数和方差分析的正态性检验)。这种条件下有两种方法:一是用替代的非参数检验(即无分布性检验),但这种方法不方便,因为从它所提供的结论形式看,这种方法统计效率低下、不灵活。另一种方法是:当确定样本量足够大的情况下,通常还是可以使用基于正态分布前提下的检验。后一种方法是基于一个相当重要的原则产生的,该原则对正态方程基础上的总体检验有极其重要的作用。即,随着样本量的增加,样本分布形状趋于正态,即使所研究的变量分布并不呈正态。
1统计软件的选择
在进行统计分析时,作者常使用非专门的数理统计软件Excel进行统计分析。由于Excel提供的统计分析功能十分有限,很难满足实际需要。目前,国际上已开发出的专门用于统计分析的商业软件很多,比较著名有SPSS(Statistical Package for Social Sciences)、SAS(Statistical Analysis System)、BMDP和STATISTICA等。其中,SPSS是专门为社会科学领域的研究者设计的(但是,此软件在自然科学领域也得到广泛应用);BMDP是专门为生物学和医学领域研究者编制的统计软件。目前,国际学术界有一条不成文的约定:凡是用SPSS和SAS软件进行统计分析所获得的结果,在国际学术交流中不必说明具体算法。由此可见,SPSS和SAS软件已被各领域研究者普遍认可。建议作者们在进行统计分析时尽量使用这2个专门的统计软件。
2均值的计算
在处理实验数据或采样数据时,经常会遇到对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。此时,多数作者会不假思索地直接给出算术平均值和标准差。显然,这种做法是不严谨的。在数理统计学中,作为描述随机变量总体大小特征的统计量有算术平均值、几何平均值和中位数等。何时用算术平均值?何时用几何平均值?以及何时用中位数?这不能由研究者根据主观意愿随意确定,而要根据随机变量的分布特征确定。反映随机变量总体大小特征的统计量是数学期望,而在随机变量的分布服从正态分布时,其总体的数学期望就是其算术平均值。此时,可用样本的算术平均值描述随机变量的大小特征。如果所研究的随机变量不服从正态分布,则算术平均值不能准确反映该变量的大小特征。在这种情况下,可通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正态分布,则可用几何平均值描述该随机变量总体的大小。此时,就可以计算变量的几何平均值。如果随机变量既不服从正态分布也不服从对数正态分布,则按现有的数理统计学知识,尚无合适的统计量描述该变量的大小特征。退而求其次,此时可用中位数来描述变量的大小特征。
3相关分析中相关系数的选择
在相关分析中,作者们常犯的错误是简单地计算Pearson积矩相关系数,而且既不给出正态分布检验结果,也往往不明确指出所计算的相关系数就是Pearson积矩相关系数。常用的相关系数除有Pearson积矩相关系数外,还有Spearman秩相关系数和Kendall秩相关系数等。其中,Pearson积矩相关系数可用于描述2个随机变量的线性相关程度(相应的相关分析方法称为“参数相关分析”,该方法的检验功效高,检验结果明确);Spearman或Kendall秩相关系数用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势,而不考虑其变化的幅度(相应的相关分析称为“非参数相关分析”,该方法的检验功效较参数方法稍差,检验结果也不如参数方法明确)。各种成熟的统计软件如SPSS、SAS等均提供了这些相关系数的计算模块。在相关分析中,计算各种相关系数是有前提的。对于二元相关分析,如果2个随机变量服从二元正态分布,或2个随机变量经数据变换后服从二元正态分布,则可以用Pearson积矩相关系数描述这2个随机变量间的相关关系(此时描述的是线性相关关系),而不宜选用功效较低的Spearman或Kendall秩相关系数。如果样本数据或其变换值不服从正态分布,则计算Pearson积矩相关系数就毫无意义。退而求其次,此时只能计算Spearman或Kendall秩相关系数(尽管这样做会导致检验功效的降低)。因此,在报告相关分析结果时,还应提供正态分布检验结果,以证明计算所选择的相关系数是妥当的。需要指出的是,由于Spearman或Kendall秩相关系数是基于顺序变量(秩)设计的相关系数,因此,如果所采集的数据不是确定的数值而仅仅是秩,则使用Spearman或Kendall秩相关系数进行非参数相关分析就成为唯一的选择。
4相关分析与回归分析的区别
相关分析和回归分析是极为常用的2种数理统计方法,在地质学研究领域有着广泛的用途。然而,由于这2种数理统计方法在计算方面存在很多相似之处,且在一些数理统计教科书中没有系统阐明这2种数理统计方法的内在差别,从而使一些研究者不能严格区分相关分析与回归分析。最常见的错误是,用回归分析的结果解释相关性问题。例如,作者将“回归直线(曲线)图”称为“相关性图”或“相关关系图”;将回归直线的R2(拟合度,或称“可决系数”)错误地称为“相关系数”或“相关系数的平方”;根据回归分析的结果宣称2个变量之间存在正的或负的相关关系。这些情况在国内极为普遍。
相关分析与回归分析均为研究2个或多个随机变量间关联性的方法,但2种数理统计方法存在本质的差别,即它们用于不同的研究目的。相关分析的目的在于检验两个随机变量的共变趋势(即共同变化的程度),回归分析的目的则在于试图用自变量来预测因变量的值。在相关分析中,两个变量必须同时都是随机变量,如果其中的一个变量不是随机变量,就不能进行相关分析。这是相关分析方法本身所决定的。对于回归分析,其中的因变量肯定为随机变量(这是回归分析方法本身所决定的),而自变量则可以是普通变量(规范的叫法是“固定变量”,有确定的取值)也可以是随机变量。如果自变量是普通变量,采用的回归方法就是最为常用的“最小二乘法”,即模型Ⅰ回归分析;如果自变量是随机变量,所采用的回归方法与计算者的目的有关---在以预测为目的的情况下,仍采用“最小二乘法”,在以估值为目的的情况下须使用相对严谨的“主轴法”、“约化主轴法”或“Bartlett法”,即模型Ⅱ回归分析。显然,对于回归分析,如果是模型Ⅰ回归分析,就根本不可能回答变量的“相关性”问题,因为普通变量与随机变量之间不存在“相关性”这一概念(问题在于,大多数的回归分析都是模型Ⅰ回归分析!)。此时,即使作者想描述2个变量间的“共变趋势”而改用相关分析,也会因相关分析的前提不存在而使分析结果毫无意义。如果是模型Ⅱ回归分析,鉴于两个随机变量客观上存在“相关性”问题,但因回归分析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段,因此,若以预测为目的,最好不提“相关性”问题;若以探索两者的“共变趋势”为目的,建议作者改用相关分析。
三、数据分析的8个流程与7个常用思路
数据分析的8个流程与7个常用思路
在产品运营过程中,数据分析具有极其重要的战略意义,是产品优化和产品决策的核心大脑。因此做好数据分析,是产品运营中最重要的环节之一。
那么如何做好支付的数据分析呢?以下梳理出数据分析的8步流程,以及常见的7种分析思路。新手在启动数据分析前,最好跟主管或数据经验较丰富的童鞋确认每一步的分析流程。
一、数据分析八流程:
为什么分析?
首先,你得知道为什么分析?弄清楚此次数据分析的目的。比如,这次短信方式的数据分析,为什么要做这个分析。你所有的分析都的围绕这个为什么来回答。避免不符合目标反复返工,这个过程会很痛苦。
分析目标是谁?
分析目标是谁?要牢记清楚的分析因子,统计维度是订单,还是用户,还是金额,还是用户行为。避免把订单当用户算,把用户当订单算(上周运营同学真实案例),算出的结果是差别非常大的。
想达到什么效果?
通过分析各个维度的用户,订单,找到真正的问题。例如这次的XX通道的分析,全盘下线,或维持现状不动,都不符合利益最大化原则。通过分析,找到真正的问题根源,发现用户精细化运营已经非常必要了。
需要哪些数据?
支付的数据,茫茫大海,数据繁多,用“海”来形容一点都不为过。需要哪些源数据?付费总额,付费人数?新老用户维度?付费次数?转移人数?留存率?用户特征?画像?先整理好思路,列一个表。避免数据部门同学今天跑一个数据,明天又跑一个数据,数据部门同学也会比较烦。
如何采集?
直接数据库调取?或者交给程序猿导出?自己写SQL?运营同学不妨都学一下SQL,自力更生。
如何整理?
整理数据是门技术活。不得不承认EXCEL是个强大工具,数据透视表的熟练使用和技巧,作为支付数据分析必不可少,各种函数和公式也需要略懂一二,避免低效率的数据整理。Spss也是一个非常优秀的数据处理工具,特别在数据量比较大,而且当字段由特殊字符的时候,比较好用。
如何分析?
整理完毕,如何对数据进行综合分析,相关分析?这个是很考验逻辑思维和推理能力的。同时分析推理过程中,需要对产品了如指掌,对用户很了解,对渠道很熟悉。看似一个简单的数据分析,其实是各方面能力的体现。首先是技术层面,对数据来源的抽取-转换-载入原理的理解和认识;其实是全局观,对季节性、公司等层面的业务有清晰的了解;最后是专业度,对业务的流程、设计等了如指掌。练就数据分析的洪荒之力并非一朝一夕之功,而是在实践中不断成长和升华。一个好的数据分析应该以价值为导向,放眼全局、立足业务,用数据来驱动增长。运营同学比较容易聚在某个点上转圈走不出来。
如何展现和输出?
数据可视化也是一个学问。如何用合适的图表表现?每一种图表的寓意是什么?下面列举下常用的8个图表:
(1)、折线图:合适用于随时间而变化的连续数据,例如随时间收入变化,及增长率变化。
(2)、柱型图:主要用来表示各组数据之间的差别。主要有二维柱形图、三维柱形图、圆柱图、圆锥图和棱锥图。如支付宝与微信覆盖率差别。
(3)、堆积柱形图:堆积柱形图不仅可以显示同类别中每种数据的大小,还可以显示总量的大小。例如我们需要表示各个支付方式的人数及总人数时。
(4)、线-柱图:这种类型的图不仅可以显示出同类别的比较,还可以显示出趋势情况。
(5)、条形图:类似于横向的柱状图,和柱状图的展示效果相同,主要用于各项类的比较。
(6)、饼图:主要显示各项占比情况。饼图一般慎用,除非占比区别非常明显。因为肉眼对对饼图的占比比例分辨并不直观。而且饼图的项,一般不要超过6项。6项后建议用柱形图更为直观。
(7)、复合饼图:一般是对某项比例的下一步分析。
(8)、母子饼图:可直观地分析项目的组成结构与比重。例如上次短信支付能力用户中,没有第3方支付能力的用户,中间有X%比例是没银行卡,X%比例是没微信支付账号等。
图表不必太花哨,一个表说一个问题就好。用友好的可视化图表,节省阅读者的时间,也是对阅读者的尊重。
有一些数据,辛辛苦苦做了整理和分析,最后发现对结论输出是没有关系的,虽然做了很多工作,但不能为了体现工作量而堆砌数据。
在展现的过程中,请注明数据的来源,时间,指标的说明,公式的算法,不仅体现数据分析的专业度,更是对报告阅读者的尊重。
二、数据分析七思路:
简单趋势
通过实时访问趋势了解产品使用情况。如总流水,总用户,总成功率,总转化率。
多维分解
根据分析需要,从多维度对指标进行分解。例如新老用户、支付方式、游戏维度、产品版本维度、推广渠道、来源、地区、设备品牌等等维度。
转化漏斗
按照已知的转化路径,借助漏斗模型分析总体和每一步的转化情况。常见的转化情境有下单率,成功转化率等。
用户分群
在精细化分析中,常常需要对有某个特定行为的用户群组进行分析和比对;数据分析需要将多维度和多指标作为分群条件,有针对性地优化产品,提升用户体验。例如我们这次对短信这类用户,短信里又有第3方和无第3方支付能力的,需要再进行分群的运营。
细查路径
数据分析可以观察用户的行为轨迹,探索用户与产品的交互过程;进而从中发现问题、激发灵感亦或验证假设。例如我们这次对新用户的运营,也非常有意思。
留存分析
留存分析是探索用户行为与回访之间的关联。一般我们讲的留存率,是指“新增用户”在一段时间内“回访”的比例。通过分析不同用户群组的留存差异、使用过不同功能用户的留存差异来找到产品的增长点。
A/B测试
A/B测试就是同时进行多个方案并行测试,但是每个方案仅有一个变量不同;然后以某种规则(例如用户体验、数据指标等)优胜略汰选择最优的方案。数据分析需要在这个过程中选择合理的分组样本、监测数据指标、事后数据分析和不同方案评估。
不单是支付的数据分析,其他的产品运营数据分析流程和思路也一样适用,只是支付数据相对其他产品而言,维度很多,以及组合的维度也非常多,因此就需要更清晰的思路和大局观,避免陷入到数据海洋中。
参考资料:全栈可观测