数据玄学家

02-07 15:34 复旦大学数据分析师发布于上海

关注

Day7: 统计学知识点总结(part 2)

5、参数估计

定义：参数估计（parameter estimation），统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看，区分为点估计与区间估计；

常见点估计方法：矩估计、最小二乘估计、极大似然估计、贝叶斯估计

区间估计：利用已知的抽样分布、利用区间估计与假设检验的联系、利用大样本理论

1) 点估计

a、矩估计

矩估计法的理论依据是大数定律。矩估计是基于一种简单的“替换”思想，即用样本矩估计总体矩

优点：简单易行, 并不需要事先知道总体是什么分布。（根据均值方差来计算未知参数）

缺点：当总体类型已知时，没有充分利用分布提供的信息（有一定随意性）

b、最小二乘估计

对于最小二乘估计来说，最合理的参数估计量应该使得模型能最好地拟合样本数据，也就是估计值与观测值之差的平方和最小。

目标最小化估计值与观测值之差的平方和。Q表示误差平方和，Yi表示估计值，Ŷ i表示观测值

c、极大似然估计

对于最大似然估计来说，最合理的参数估计量应该使得从模型中抽取该n组样本的观测值的概率最大，也就是概率分布函数或者似然函数最大。

2）区间估计

定义：区间估计 = 点估计 ± 边际误差

根据样本求出未知参数的估计区间，并使这个区间包含未知参数的可靠程度达到预定要求（这个预定要求就是个置信度，用上α位分点来体现这个置信度）。

步骤：

参数估计和假设检验的联系：参数估计和假设检验都是样本去估计总体，都是建立在概率基础上的统计，可以相互转换

参数估计和假设检验的区别是：

a.参数估计是用样本统计量估计总体参数的方法；假设检验是先对总体参数提出一个假设，然后利用样本信息去检验这个假设是否成立

b.参数估计是以置信区间(大概率)估计总体参数；假设检验是利用小概率事件是否发生来判断假设是否成立

c.区间估计求得的是求以样本估计值为中心的双侧置信区间，假设检验既有双侧检验，也有单侧检验；

6、辛普森悖论

定义：在对样本集合进行分组研究时，在分组比较中都占优势的一方，在总评中有时反而是失势的一方，这种有悖常理的现象，就成为 “辛普森悖论”。

实例：

xx学校两个学院男生录取率均高于女生，但该学校女生录取率则高于男生，这个例子便是一典型的辛普森悖论现象

原因：为什么会出现辛普森悖论现象，从上面这个例子可以看到，男生虽然每个学院的录取率都高于女生，但男生中有100个人(5/6的比例)报了录取率较低的法学院，出现了严重的数据数量不平衡，因此导致男生整体的录取率偏低。

另外，录取率这个变量应该跟专业有较大关系，而不同性别的学生报考不同专业的比例不同，性别这个变量是因为跟报考专业相关，才呈现出跟录取率相关的现象，从本质上讲，这个变量设置并不合理。

如何避免辛普森悖论：

辛普森悖论会导致统计上的一些错误结论，要避免掉入辛普森悖论的陷阱，要从一下两方面着手：

1. 进行合理的变量设计，进行合理的变量关系验证

如上述实例，出现辛普森悖论的很大一个原因是由于变量设计不合理，在研究之初就漏掉了“专业”这个重要潜伏变量(，而直接将性别与录取率建立了联系。因此，在进行变量设计时，一是要尽量多查阅文献以了解自变量，因变量及其他重要变量之间的关系，二是积累相关的经验，能够敏锐地察觉到某个变量的重要性。

(这个重要潜伏变量指的是与实验分析的因果都有关系的变量，这一变量的缺失可能会掩盖或颠倒研究变量的原有关系。

比如在录取率这个例子中，专业既与录取率有关，不同专业难度不同，录取率自然有差异，又与性别有关，女生和男生趋向报考的专业不同。因此专业就是一个重要潜伏变量。)

2. 进行科学合理的抽样

在进行抽样调查时应选择合适的抽样方法或多种抽样方法并存，保证抽取的样本处于远离极端范围的中间区域，在进行非比例抽样时，应慎重考虑权重的问题。

拓展知识点(低频、难度较大，选择性掌握)

1、幸存者偏差

定义：幸存者偏差是一种选择偏倚，就是忽略了筛选条件，把经过筛选的结果当成随机结果。

实例：统计结果显示，机翼中弹的飞机生还概率远高于驾驶舱和机尾中弹的飞机。但驾驶舱和机尾中弹的飞机很少回来，基本不在样本之中

如何避免：谨慎进行样本选择，当样本出现严重偏斜时，考虑出现原因及合理性。

2、相关性分析（皮尔森person相关系数、spersman相关系数、肯德尔kendall秩相关系数）

定义：相关性分析是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。常用的相关系数有皮尔森person相关系数、spersman相关系数、肯德尔kendall秩相关系数

皮尔森person相关系数：两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商。

person相关系数取值区间[-1,1]，若person相关系数接近0，无相关性；person相关系数接近-1或+1，有较强相关性

spersman相关系数：采用的是取值等级进行相关性计算，

计算过程：首先对两个变量（X, Y）的数据进行排序，然后记下排序以后的位置（X’, Y’），（X’, Y’）的值就称为秩次，秩次的差值就是上面公式中的，n就是变量中数据的个数，最后带入公式就可求解结果。举例说明，假设我们实验的数据如下：

利用计算出的秩次差的平方代入上述公式进行计算，便可得到spersman相关系数

特点：1. 即便在变量值没有变化的情况下，也不会出现像皮尔森系数那样分母为0而无法计算的情况。另外，即使出现异常值，由于异常值的秩次通常不会有明显的变化（比如过大或者过小，那要么排第一，要么排最后），相对于皮尔森相关系数，斯皮尔曼相关系数对于数据错误和极端值的反应不敏感。

2. 斯皮尔曼相关性系数没有数据条件要求，适用的范围较广，在生物实验数据分析中，尤其在分析多组交叉数据中说明不同组数据之间的相关性时，使用的频率很高。

Kendall相关系数：肯德尔(Kendall)系数又称一致性系数，是表示多列等级变量相关程度的一种方法，也是一种秩相关系数，计算对象是分类变量，适用于两个分类变量均为有序分类的情况。

适用情况：评委对选手的评分（优、中、差等），想看两个（或者多个）评委对几位选手的评价标准是否一致；或者医院的尿糖化验报告，想检验各个医院对尿糖的化验结果是否一致，这时候就可以使用肯德尔相关性系数进行衡量。

因计算公式过于复杂，不予展示

面试问题

1、简述中心极限定理、大数定律（字节、拼多多）

2、假设检验的定义、第一类错误、第二类错误（字节跳动、快手）

3、T检验、Z检验、F检验、卡方检验的定义、适用情况(快手、腾讯、小米)

4、辛普森悖论的定义及实例（腾讯、字节）

5、幸存者偏差现象（腾讯）

6、相关系数的取值范围及相关系数为0的意义(阿里)

7、参数估计有哪些方法

8、点估计和区间估计的区别和联系（字节）

9、极大似然估计是什么（字节）

10、参数估计和假设检验的联系和区别（阿里）

#数据分析##笔试题目##面经##笔经##秋招##学习路径##校招#

全部评论

推荐最新楼层

11-20 15:23

华南理工大学 C++

offer帮选

第一个 TCL实业 软件工程中心 C/C++开发 说是手机/平板等的系统或驱动开发22k*(12+0~5) base 惠州 6个月试用，薪资不打折，强度未知，基数为薪资*0.65，比例5%个人觉得优点：惠州生活成本较低，偏宜居，这个薪资说不上很高，但在惠州算不错了个人觉得缺点：感觉TCL品牌竞争力和市占率好像一般，加上这个岗位不清楚未来发展如何，好不好跳第二个 优必选 C++开发（ros方向）框架或者服务开发？据说下周开奖，薪资待遇未知，offershow没看到这个岗位的参考。base深圳南山，好像是研究院，说是相对wlb，强度比周边科技企业要低，具体不清楚。个人觉得优点：深圳城市好，交通方便...

offer帮选

点赞评论收藏

11-12 13:59

华东师范大学前端工程师

途游三四面泡池子

流程太长了，等结果出已经要一个多月了三面：1、面试官介绍业务2、自我介绍3、学习路径4、项目难点5、两道场景题（题目忘了只记得特别难）6、对ai看法7、反问hrbp面：就面了十分钟，不会要寄了吧？1、调查前面面试感受2、offer情况3、base北京能不能接受4、对秋招流程期望（想快点接还是再看看）5、期望薪资（我同意了面试官提出的薪资，但是说高2～3k会更好）6、学校有没有要签三方7、前面那个offer为什么不选终面其实没出结果，但是感觉像走流程所以归类为泡池子吧，hrbp也说一周之后会给整个offer的结果

查看10道真题和解析

点赞评论收藏

11-22 11:35

百度_测试开发实习生(实习员工)

百度测开（商业）面经

1. 阐述项目平台的功能？2. 商家端的话有什么功能呢？3. 用户端又有什么功能？4. rabbitmq 通过延时消息加死信交换机如何实现的订单 30 分钟未支付自动取消呢？5. 跟传统的相比，这个优势是什么？除了能够降低定时任务的轮询对数据库的压力。传统定时任务轮询有什么问题？6. 旁路缓存的工作模式是什么？7. 那你是把什么数据缓存到了 redis 中呢？8. 如果把全部店铺信息和热门数据放到 redis，压力也不小吧？你是怎么区分数据该不该放缓存呢？9. 解释一下对于写操作，先更新 DB 再删缓存？10. 你说对于删除缓存失败引入了 MQ 重试的机制，你来讲一下你是如何重试的？那你如果重试多次依然失败了，有什么应对策略吗？11. 解释一下你这个 redis 使用 bitMap 实现签到的功能？12. 解释一下分布式锁和 lua 脚本在秒杀场景里扮演的角色？13. java 的==与 equals 的区别？说说对于基本数据类型和对象类型的区别，举个例子？14. 重载跟重写的区别是什么？15. 深拷贝和浅拷贝的区别是什么？16. 静态变量和实例变量的区别是什么？17. ArrayList 的优缺点是什么？(这里感觉面试官是照着某八股网站念的)18. 手撕有效的括号总体来说不是特别难，但是问的很细致，而且重在广度。如果你的项目用某个技术实现了对应功能，请好好思考使用当前技术的原因、传统技术的问题、当前技术带来的优化、以及当前技术带来的新的问题和应对策略。1. 项目做过自测吗？2. 了解过 Agent 开发吗？简单介绍了下 agent 开发3. 手撕合并 K 个升序链表（不可以用 list，需要自定义链表结构）4. 如果不用优先队列，你还有别的方法吗？这里只答出了顺序合并，还可以优化为分治合并5. 针对这个题写个测试用例，比如说你可以认为这是对外提供的接口，你会怎么设计呢？套模板，必有的四个方面：功能测试、性能测试、兼容性测试、安全性测试，其他可以自己想到啥，说一下。功能测试：测试传入链表，功能是否成功执行。边界值测试，如果传入空链表，是否会提示请输入有效数据。性能测试：● 对接口进行压力测试(jmeter)，查看接口的 qps、tps 是否在可接受的范围内● 对接口进行长时间的持续访问测试，观察系统 cpu 是否飙高、是否有出现性能下降、内存泄漏的问题。兼容性测试：● 输入参数的兼容性：对各种参数，包括正常、异常参数，是否有正确处理● 环境兼容性：接口在不同的环境中要表现一致：开发环境、测试环境、生产环境安全性测试：● 如果接口涉及到隐私性参数，是否以加密形式存在，被抓包后是否容易被破解。● 检验 SQL 注入、XXS 攻击6. 你在测接口时，跑了大概 100 条，90%成功，返回 200，但是有 10%的 case 返回的是 502，你怎么去排查这个问题？通常是 Nginx(网关)无法连接到上游 Java 服务，可能挂了7. 如果 Nginx 日志正常呢，没有发现特别异常的日志，还可能是什么问题？8. 假设所有问题线下都测试完了，这个接口没问题，准备上线。你认为从质量保障的角度来看，还需要做哪些工作？9. 如果系统在某天突然崩溃了，你怎么及时知道这个情况呢？监控告警。10. 你的项目中用 mq 做订单超时支付的判断，怎么做的？定时任务轮询、轮询带来的问题、引入 mq 的延时消息和死信交换机、带来的新的问题、怎么解决新的问题、效果11. 大模型日常有使用吗，你认为大模型对平常测试有什么帮助？

查看29道真题和解析

点赞评论收藏

11-23 19:13

The University of Sydney 安全工程师

网安秋招0offer

海本硕 有oscp+和htb的cpts证书 投了将近一百多家目前只有三个面试 全是一面挂 已经崩溃了 不知道下一步何去何从了

点赞评论收藏

11-03 00:45

南京邮电大学 Java

Offer帮选

投票

南京21k  vs  深圳25k该怎么选呀，大佬们能给意见么

offer帮选

点赞评论收藏

全站热榜

创作者周榜

正在热议