
url
文章平均质量分 81
cool_bomb
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
URL去重
http://blog.csdn.net/historyasamirror/article/details/6746217 发现我有好几篇blog的前缀都是用的“不简单”,它大概描述了这样一个状态:一个看起来很简单的任务在实践之后,发现其实很不容易。很多事情都是这样,如果不是亲自去做,如果不是仔细钻研,那就只能处于雾里看花的状态。 这让我想到另一个故事,在我毕业的那年曾经被某公司的转载 2013-02-19 21:02:03 · 2034 阅读 · 0 评论 -
url去重
有10亿个url,每一个页面都非常大。怎样删除重复的url? You have a billion urls, where each is a huge page. How do you detect the duplicate documents? 1.页面巨大,所以把他们全部存入内存很费事。可以在内存中存储页面的简短表示。很明显使用hash是个好的选择。 2.由于urls太多了翻译 2013-02-20 22:03:50 · 4435 阅读 · 0 评论