首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
给定a,b两个文件,各存放50亿个url,每个url各占64
[问答题]
给定a,b两个文件,各存放50亿个url,每个url各占64个字节,内存限制是4G,让你找出a,b文件共同的url。
添加笔记
求解答(20)
邀请回答
收藏(13)
分享
纠错
3个回答
添加回答
1
韩玉
散列映射+hashset统计
1)散列映射
将文件a通过散列映射分为若干个小文件,如1000个,则文件为a0,a1...a999。
同理对b进行同样操作,得到文件b
0,b1...b999,只需要查找ai-bi(i=0,1...,999)共同url即可
2)
hashset统计
可将一个文件中URL存储到
hashset,遍历另一个文件查看是存在url即可。
发表于 2016-09-06 19:25:50
回复(0)
0
Centos
用布隆过滤器的知识解答
发表于 2016-09-06 22:24:47
回复(2)
0
牛客352991号
mapreduce+trie树可解否?
发表于 2016-09-06 15:07:02
回复(0)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
海量数据
欢聚集团
上传者:
小牧魔法袋
难度:
3条回答
13收藏
11439浏览
热门推荐
相关试题
给40亿个不重复的unsigned...
腾讯
海量数据
评论
(1)
一个文件记录中有50M个URL, ...
查找
海量数据
评论
(2)
类声明中,声明一个类不能再被继承的...
欢聚集团
Java
JavaSE
评论
(29)
请问以下有关 Promise 内置...
Javascript
评论
(1)
宏定义是C语言中非常实用的一种计算...
C语言
评论
(1)
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题