数理基础-5
21、相关系数(字节跳动)
参考答案
协方差的大小受变量的相关程度及变量的方差影响,并不能真实反映两个变量的相关程度,而统计学家皮尔逊为了充分反映变量之间线性相关程度,设计了相关系数这一应用广泛的统计指标。其公式如下: 相关系数在协方差基础上进行了标准化,消除了两个变量变化幅度的影响,能够充分反应两个变量的相关关系。与协方差不同的是,相关系数的波动范围是有限的,上下浮动范围是[-1,1]。相关系数越趋近于0,表示两个变量相关程度越弱。相关系数越接近于1,两个变量的正相关程度越高。相关系数越接近于-1,两个变量的负相关程度越高。
22、如何估计样本量(字节跳动)
参考答案
按照功效分析的方法,根据预期的功效、效应值、显著性水平来计算样本大小。
答案解析
当我们在设计一个实验的时候,需要考虑很多问题,其中一个就是实验流量的分发大小,也就是这个实验中需要需要多少样本才能有意义。
这类问题可以通过功效分析(power analysis)来进行计算,在实验前计算得到所需要的样本量,或者预估在给定样本量下得到不同实验效果的概率。功效分析可以帮助在给定显著性水平的情况下,判断检测到给定效应值时所需的样本大小。 反过来, 它也可以帮助你在给定显著性水平情况下,计算在某样本大小内能检测到给定效应值的概率。
我们在功效分析中一般关注四个量:功效、样本大小、效应值、显著性水平,当我们给定任意三个量后,就可以推算出第四个量。比如,在给定功效、显著性水平、效应值的情况下,我们可以推算需要多大的样本量。
- 样本大小指的
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
数据分析面试宝典 文章被收录于专栏
本面试宝典均来自校招面试题目大数据进行的整理