
大数据
文章平均质量分 53
张荣华_csdn
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
布隆过滤器
它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。生成布隆过滤器的过程:1.注意到题目允许有一定的失误率;2.根据样本的个数n和允许的失误率p,求出bitarray的大小m:m=-nInp/(In2*In2);3.根据m求得哈希函数个数k:k=In2*(m/n)=0...原创 2018-06-15 08:46:20 · 164 阅读 · 0 评论 -
TOP K问题
题目:搜索关键词的TOP K问题。 搜索引擎每天会把用户检索使用的关键词都记录下来,并保存到日志文件中,每个关键词的长度为1-255字节。假设目前有1000万个记录(这些关键词的重复度较高,虽然总数是1000万,但去重后不超过300万。一个关键词的重复度越高,说明检索它的用户越多,也就是越热门的关键词。)请你统计最热门的10个关键词,要求使用的内存不超过1G。 解决这类问题,原则上分为两步:1...原创 2018-07-26 00:06:16 · 477 阅读 · 0 评论