首页 > 试题广场 >

下面选项中有关异常值检测说法错误的是()

[单选题]

下面选项中有关异常值检测说法错误的是()

  • 使用3σ方法需要保证历史异常值较少

  • 可以使用pandas库的describe()方法来简单统计

  • 使用3σ方法必须保证数据为正态分布

  • DBSCAN聚类算法可以用来异常值检测

该原理一般在工程科学中比较常用。3sigma原理可以简单描述为:若数据服从正态分布,则异常值被定义为一组结果值中与平均值的偏差超过三倍标准差的值。即在正态分布的假设下,距离平均值三倍 \sigma(标准差)之外的值出现的概率很小,因此可认为是异常值。


若数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述(这就使该原理可以适用于不同的业务场景,只是需要根据经验来确定 k sigma中的k值,这个k值就可以认为是阈值)。
发表于 2023-02-20 16:44:11 回复(0)
好难啊
发表于 2022-05-05 14:24:16 回复(0)