数理基础-2
6、问:统计学的基本方法论,也就是拿到数据怎么分析?(京东数科)
参考答案:
统计学是一门综合性的学科,会通过收集、处理、分析、描述等一系列步骤从数据中得出结论。以下分别介绍包括描述统计和推断统计在内的统计学的基本方法论,以这两种方法论为分析主线能够较为全面地对数据进行分析。
1) 描述统计
描述统计通过图表或数学方法,对样本数据进行整理、分析,然后概括总结出反映客观现象的规律。其中图表描述方法就是使用各类图表在不同的维度下描述数据,比如直方图、饼图、雷达图、散点图等等。而数学描述方法的分析方法更丰富,常有集中趋势分析、离散程度分析、相关分析三种分析方法。
A. 集中趋势分析
平均数、中数、众数等是集中趋势分析常用来表示数据集中趋势的统计指标,通过这些指标能够反映样本数据的一般水平。
B. 离散程度分析
离中趋势分析主要依赖标准差、方差(协方差)等统计指标来研究数据的离散程度,能够出色地表示数据之间的差异程度。
C. 相关分析
无论是自变量与自变量之间还是自变量与因变量之间都存在潜在地关联性,相关分析探讨的就是变量之间是否具有统计学上的关联性。进行相关分析时,变量数量可以是两个也可以是多个,能够进行单一或多重相关关系分析。
2) 推断统计
推断统计是一种通过样本数据来推断总体特征的统计方法,以部分抽样样本进行延伸推论,并进一步给出推理性结论。
A. 参数估计
顾名思义,参数估计就是根据样本数据对总体参数进行估计的过程,可分为点估计和区间估计两种分析方法。点估计是以样本具体数值为代表数据,区间估计是根据样本数据,计算置信区间及该区间的置信度。
B. 假设检验
假设检验是一种先假设后推理论证检验的思想。首先对总体参数提出一个假设,然后基于样本数据判断该假设是否成立,做出接受还是拒绝该假设的结论。
7、问:如何用统计学的角度看待新冠疫情?(用统计学知识对疫情相关指标进行分析/解释)(京东数科)
参考答案:
- 新冠病毒潜伏期(统计学知识点:数据分布)
疾病的潜伏期通常可以用对数正态分布来近似,我们现阶段采取的隔离措施是将一般潜伏期设定为14天内,但是在后续的病例中我们发现个别患者的潜伏期长达24天,并不是病毒发生了变异,而是新冠病毒的潜伏期实际呈右偏状态,属于长尾分布,较长潜伏期的病例并非不会出现,而是概率很小。 - 新冠病毒传播(统计学知识点:随机过程) 病毒传播实际上是一个随机事件,这一过程可以用随机微分方程来进行模拟,比如SEIR模型。 (1)易感状态S (Susceptible)∶表示潜在的可感染个体。在以往的一些文章中,会有学者将S设置为一个地区的总人口数,导致模型中的感染人数预测结果偏高,这是因为实际上只有有机会接触到感染者的个体才属于易感人群,因此易感状态个体的数量最好由实际数据去拟合。 (2)潜伏状态E(Exposed)∶已被感染但尚未表现出感染症状的个体。 (3)感染状态I(Infected)∶已有感染症状并且可以将疾病传染给其他人的个体。 (4)移除状态R(R
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
本面试宝典均来自校招面试题目大数据进行的整理
