最近在参加2020年博客之星的评选活动,第一次参加这样的活动,很开心,但对于我来说,更想了解的是哪些大佬给我投了票,尤其是那些连续多日给我投票的大佬,非常感谢你们对我的支持,可是到底哪些大佬连续给我投了票呢?那就用爬虫来实现这个需求吧。开始之前先说一下,该需求可使用selenium和Ajax数据爬取两种实现方式。
1. 问题难点
如下图所示,初始页面只能显示一小部分的内容,怎么才能展示出全部内容呢?提前剧透一下,使用seleinum的driver.execute_script(“window.scrollTo(0, document.body.scrollHeight);”)是无法下拉页面展示更多内容的?
另外,就算实现了下拉页面,那下拉到什么哪里才能保证数据完整呢?
最后再说一个不太难的点,就是本次任务不需要保存和加载cookie。说完这几个难点,希望学习的同学在不参考下面的代码的基础上,自己进行代码实现。爬虫的目标网站地址为https://bss.csdn.net/m/topic/blog_star2020/detail?username=herosunly
2. selenium原理与代码实现
首先说明一下,遇到此类的问题如下拉页面,可以自己先使用鼠标和键盘进行实际操作,直到能够达到期望的结果,而不是盲目的用代码进