2020-12-04 13:39 已编辑四川外国语大学成都学院数据分析师

关注

双峰偏态数据如何转变为正态分布数据

最近掌柜遇到这样一组数据，它呈现出双峰偏态形状：

大家都知道，在构建模型的时候都尽量要让偏态数据转换为正态分布数据。

所以问题又来了？为什么偏态数据要尽量转换为正态分布数据呢？
因为很多模型假设数据服从正态分布后，它的样本均值和方差就相互独立，这样就能更好的进行统计推断和假设验证。比如熟悉的线性回归就是假设误差服从正态分布。

好了，现在回到这里，刚刚上图显示的是双峰偏态数据，掌柜查阅了一下，发现如果要转换成正态分布形式的话，可以使用Sklearn里面的QuantileTransformer方法。具体使用方法如下：

from sklearn.preprocessing import QuantileTransformer

QuantileTransformer(data, n_quantiles = 300，output_distribution='normal', random_state=0)

这里的参数n_quantiles指的是要计算的分位数，默认取值是1000。而通过设置另一个参数 output_distribution='normal' 就可以把这里的双峰偏态数据转换成一个正态分布的形式。

下图👇就是掌柜用QuantileTransformer对上面的变量进行转换后得到的对比图：
🧐接下来就可以愉快的进行模型的构建了。

参考资料：
Sklearn官网之映射数据为正态分布
 数据的偏态分布

全部评论

推荐最新楼层

12-22 17:45

美团_前端开发实习生(实习员工)

B站秋招二面（主动结束流程）

问offer情况什么时候开始学编程为什么会想到这个方向性能优化的策略面试官说明B站情况，劝我先签，放弃B站面试（流程较慢）聊天（聊了半小时，和面试官请教了非常多东西，聊的非常开心）

点赞评论收藏

12-22 23:37

复旦大学 Java

日常分析大厂面经-淘天一面

大家好，我是花海，B站技术专家，平时会在牛客分享一些面试复盘和技术思考。如果你在准备面试、修改简历，或者对职业规划有疑问，可以找我免费帮你看看简历、聊聊思路。目的是帮大家少走点弯路，今天我们来继续看面经。今天这份面经聚焦于操作系统和Linux底层原理，问题非常经典，从概念辨析到实战排查都有涉及，能系统性地考察候选人的基本功和解决问题的能力。1.Linux平常使用吗？线程和进程的区别，还有什么类似进程和线程的吗？什么是协程？这个问题旨在确认你的开发环境熟悉度，并深入考察对并发核心概念的理解层级。进程是系统资源分配的基本单位，拥有独立的虚拟地址空间、文件描述符等资源，隔离性强但创建和切换开销大。线...

查看9道真题和解析

点赞评论收藏

11-04 19:05

已编辑

东莞城市学院单片机

这offer是不是不太对劲啊

不知道怎么取名字_：你这个要实习两年？哪有这么久的，感觉就是即使你毕业了，但还按实习的话，是不是不用给你缴社保公积金啥的

点赞评论收藏

11-10 10:37

湖南大学安卓

听劝，这样的简历能oc吗

偶然看到一篇帖子，北京大学本科竟然0面试，现在的秋招到底怎么了，高赞给的建议是把简历上所有的东西都抹去，只留下北京大学加粗的四个大字，既滑稽又幽默，充满了趣味性，妥妥的就是一个黑色幽默，实实在在的反应了当下秋招的现状……所以，我听劝，改了一下简历，这样的简历能oc吗？

牛客41406533...：面试官一看，安卓大学

秋招，不懂就问

点赞评论收藏

12-22 15:40

门头沟学院安卓

现在互联网也越来越不正经了，小红书搜东西，B站上大学，王者学国粹

都说人要不忘初心，始终如一，但是真的做到太难了，所以互联网也越来越不正经，忘记自己的初心了。小 红书：百度（百度天天拿着广告赚钱，用百度搜索根本搜不到有用信息了，现在小红书已经成为很多人的搜索工具了）；百度：看病量刑（源于百度问医，然后百度为了盈利把一些骗人的医生和医院置于靠前为主，官媒《人民日报》都diss过，所以“度娘成名医”大家就都知道了 ）；微博：维权/吃瓜/发疯（微博热搜是舆情的风向标，很多大瓜都是在这上面爆料的，看看今天有啥瓜没有）；微信：工作、钱包（工作用微信群，支付用微信钱包）；哔哩哔哩：上大学（最早应该是宋浩《高等数学》同济版教学视频、名校公开课等免费课程在 B 站上，大量大...

投递美团等公司9个岗位

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 离家近房租贵VS离家远但房租低，怎么选 #

# 各大公司公布25年Q3财报，你怎么看？ #