1.可以考虑下每个词的重要性,比如分成了A,B,C,D,E这5个词,比如A在很多book中出现了,说明这个词不是很重要,比如“的”,“地”这些词(可以参考下TF-IDF算法),不过这些词可以利用分词工具,词性判断过滤掉; 2.可以考虑下词之间的聚合度,比如A和B经常在同一篇文章中出现,可以将AB做聚合索引,将AB放入自定义词库,分词时就不会被分为A/B 3.至于回退,可以按顺序来交集,A,B,C,D,E按重要性排序后(A1,B1,C1,D1,E1),根据重要性回退,如果A1,B1,C1,D1,E1交集为空,取A1,B1,C1,D1,再为空取A1,B1,C1,E1 4.至于交集,我觉得肯定是要做的,排序的话我觉得没有必要,可以只显示一部分,或者是top100(搜索热度,相关性)。
点赞 1

相关推荐

11-13 20:16
已编辑
厦门理工学院 软件测试
专业嗎喽:硕佬,把学校背景放后面几段,学校背景双非还学院,让人看了就不想往下看。 把实习经历和个人奖项放前面,用数字化简述自己实习的成果和掌握的技能,比如负责项目一次通过率90%,曾4次发现项目潜在问题风险为公司减少损失等等
点赞 评论 收藏
分享
看起来名字可以很长:笑死 我暑期实习阿里云的意向也被 qq 邮箱放在垃圾箱了
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务