1.可以考虑下每个词的重要性,比如分成了A,B,C,D,E这5个词,比如A在很多book中出现了,说明这个词不是很重要,比如“的”,“地”这些词(可以参考下TF-IDF算法),不过这些词可以利用分词工具,词性判断过滤掉; 2.可以考虑下词之间的聚合度,比如A和B经常在同一篇文章中出现,可以将AB做聚合索引,将AB放入自定义词库,分词时就不会被分为A/B 3.至于回退,可以按顺序来交集,A,B,C,D,E按重要性排序后(A1,B1,C1,D1,E1),根据重要性回退,如果A1,B1,C1,D1,E1交集为空,取A1,B1,C1,D1,再为空取A1,B1,C1,E1 4.至于交集,我觉得肯定是要做的,排序的话我觉得没有必要,可以只显示一部分,或者是top100(搜索热度,相关性)。
点赞 1

相关推荐

牛客网
牛客网在线编程
牛客网题解
牛客企业服务