
爬虫
是晨星啊
keep coding...
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python 爬虫爬取内容时, \xa0 、 \u3000 的含义与处理方法
https://blog.csdn.net/thewindkee/article/details/79890207\xa0 是不间断空白符   \u3000 是全角的空白符转载 2018-06-20 17:50:44 · 16551 阅读 · 0 评论 -
xpath学习
属性获取 例如<li class="item-0"><a href="https://ask.hellobi.com/link1.html">first item</a&a原创 2018-06-17 13:11:28 · 271 阅读 · 0 评论 -
爬虫经验总结
查看网页源代码,如果正文的文本在源代码中出现,并且可以找到url,那么就不需要监听; 如果网页源代码找不到正文内容,那么去监听里面找相关文件。...原创 2018-06-19 22:52:37 · 323 阅读 · 0 评论 -
selenium 问题:OSError: [WinError 6] 句柄无效
selenium 问题:OSError: [WinError 6] 句柄无效 解决方案: 关闭driver 时 , 使用 driver.quit()代替 driver.close()。分析: 之前使用 driver.close() 时,用例执行结束有时会不能成功关闭chromedriver.exe,导致后台含有多个chromedriver.exe 进程(可以通过任务管理器查看)。改用...转载 2018-07-05 15:15:33 · 12886 阅读 · 3 评论 -
cmd 下关闭不需要的进程
chromedriver.exe 打开了很多个,电脑变得很卡,于是就有了今天的内容。tasklist + 回车taskkill /im sogoucloud.exe /f 然后回车通过上面的方法我们可以试着去关闭一些任务管理器中无法关闭的进程,但是这种方法也不能保证,无法关闭的进程就给关闭。所以我们还要想一些其它的方法来处理这个问题。找到每个进程的PIDwin10: 进...转载 2018-07-05 20:11:08 · 1574 阅读 · 0 评论 -
瀑布流式网页翻页爬取
scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法 https://blog.csdn.net/skellebest/article/details/80367741 https://www.jianshu.com/p/644e10f3ae4f转载 2019-05-08 12:07:36 · 2651 阅读 · 0 评论