关注
K-means优化:
k-means++:假设已经选取了n个初始聚类中心(0<n<k),则在选取第n+1个聚类中心时:距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心,在选取第一个聚类中心(n=1)时同样通过随机的方法。可以说这也符合我们的直觉:聚类中心当然是互相离得越远越好。
ISODATA:类别数目随着聚类过程而变化,对类别数的‘合并’(当聚类结果某一类中样本数太少,或两个类间聚类太近),‘分裂’(当聚类结果中某一类的内方差太大,将该类进行分裂)。
Kernel K-means:将每个样本进行一个投射到高维空间的处理,然后再将处理后的数据使用普通的K-means算法进行聚类。
二分K-means:将所有的点作为一个簇,然后将该簇一分为二。之后选择能最大限度降低聚类代价函数(也就是误差平方和)和簇划分为两个簇,依次进行下去,知道簇的数目等于用户给定的数目K为止。隐含的一个原则是:因为聚类的误差平方和能够衡量聚类性能,该值越小表示数据点越接近于他们的质心,聚类效果就越好。所有我们就需要对误差平方和最大的簇进行再一次划分,因为误差平方和越大,表示这个簇的聚类效果越不好,越有可能是多个簇被当成了一个簇,所有我们首先需要对这个簇进行划分。二分K均值算法可以加速K-means算法的执行速度,因为它的相似度计算少了不受初始化问题的影响,因为这里不存在随机点的选取,且每一个都保证了误差最小。
Mini Batch K-means(适合大数据的聚类算法):通过样本量大于一万做聚类时,需要考虑选用此算法。他使用了一种叫做Mini Batch(分批处理)的方法对数据点之间的距离进行计算。Mini Batch的好处是计算过程中不必使用所有的数据样本,二十从不同类别的样本中抽取一部分样本来代表各自类型进行计算。由于计算样本量少,所以会相应的减少运行时间,但另一方面抽样也必然会带来准确度的下降。
查看原帖
4 评论
相关推荐
12-18 17:51
浙江大学 Java 点赞 评论 收藏
分享
解zj:大三的第一段面试居然是这样的结局
查看15道真题和解析 点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# 什么是优秀的实习经历 #
8404次浏览 211人参与
# 实习简历求拷打 #
12363次浏览 158人参与
# 被上班搭子“传染”了哪些习惯 #
5570次浏览 99人参与
# 秋招被挂春招仍然能投的公司 #
6821次浏览 99人参与
# 工作后,你落下了哪些病根 #
13460次浏览 188人参与
# mt对你说过最有启发的一句话 #
35911次浏览 428人参与
# 外包能不能当跳板? #
54093次浏览 256人参与
# 作业帮求职进展汇总 #
83030次浏览 547人参与
# 摸鱼被leader发现了怎么办 #
101337次浏览 642人参与
# 秋招特别不鸣谢 #
15720次浏览 177人参与
# 考研失败就一定是坏事吗? #
201043次浏览 1371人参与
# 选实习,你更看重哪方面? #
14088次浏览 216人参与
# 投格力的你,拿到offer了吗? #
152552次浏览 817人参与
# 今年秋招你收到了多少封邮件? #
18024次浏览 219人参与
# 京东美团大战,你怎么看? #
158116次浏览 860人参与
# 机械/制造每日一题 #
80254次浏览 1411人参与
# 担心入职之后被发现很菜怎么办 #
266283次浏览 1133人参与
# 第一次面试 #
1036489次浏览 13683人参与
# 携程求职进展汇总 #
840130次浏览 5533人参与
# 毕业论文进行时 #
20903次浏览 131人参与
叮咚买菜工作强度 163人发布