机器学习与数据挖掘-4
16.lstm的原理、lstm和rdd的区别(猿辅导)
参考答案
LSTM原理:
LSTM 是一种特殊的RNN。通过精巧的设计(CNN中的深度残差网络也是类似)解决长序列训练过程中的梯度消失和梯度爆炸问题(即远距离传递导致的信息丢失问题)。标准RNN由简单的神经网络模块按时序展开成链式。这个重复模块往往结构简单且单一,如一个tanh层。这种记忆叠加方式显得简单粗暴。LSTM内部有较为复杂的结构。能通过门控状态来选择调整传输的信息,记住需要长时记忆的信息,忘记不重要的信息。LSTM关键在于增加一条贯穿与链上的信息传送带,称为细胞状态(cell state)。LSTM通过精心设计门结构来对cell state上的信息进行增添和移除。门是使得信息选择式通过的方法。包含一个 sigmoid 神经网络层和一个 pointwise 乘法操作。Sigmoid 层输出0到1之间的数值,描述每个部分有多少量可以通过。0 代表“不许任何量通过”,1 代表“允许任意量通过”。LSTM通过三个门结构来维护cell state上的信息。
RNN和LSTM的区别如下:
1.RNN没有细胞状态;LSTM通过细胞状态记忆信息。
2.RNN激活函数只有tanh;LSTM通过输入门、遗忘门、输出门引入sigmoid函数并结合tanh函数,添加求和操作,减少梯度消失和梯度爆炸的可能性。
3.RNN只能够处理短期依赖问题;LSTM既能够处理短期依赖问题,又能够处理长期依赖问题。
答案解析
这道题主要是考察对LSTM的理解,以及与其他神经网络算法的区别
17.处理噪声数据方法(京东)
参考答案
1、分箱
分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
(1)统一权重
也称等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
(2)统一区间
也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
(3)用户自定义区间
用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。
例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
统一权重:设定权重(箱子深度)为4,分箱后
箱1:800 1000 1200 1500
箱2:1500 1800 2000 2300
箱3:2500 2800 3000 3500
箱4:4000 4500 4800 5000
统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后
箱1:800 1000 1200 1500 1500 1800
箱2:2000 2300 2500 2800 3000
箱3:3500 4000 4500
箱4:4800 5000
用户自定义:如将客户收入划分为1000元以下、、2000-3000、3000-000和4000元以上几组,分箱后
箱1:800
箱2:1000 1200 1500 1500 1800 2000
箱3:2300 2500 2800 3000
箱4:3500 4000
箱5:4500 4800 5000
(4)数据平滑方法 数据平滑方法又可以细分为:平均值平滑、按边界值平滑和按中值平滑。 按平均值平滑 对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。 按边界值平滑 用距离较小的边界值替代箱中每一数据。 按中值平滑 取箱子的中值,用来替代箱子中的所有数据。 2、聚类 将物理的或抽象对象的集合分组为由类似的对象组成的多个类。 找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。 3、回归 试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
本面试宝典均来自校招面试题目大数据进行的整理
