python网络爬虫小项目(爬取评论)超级简单
学习python网络爬虫的完整路径:
(第一章)
(第三章)
即此篇文章
爬取商品好评
完整代码
代码如下:
from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By
import time
# 定义获取页面内容的函数
def get_content(driver):
# 等待页面加载完成,可以考虑用 WebDriverWait 来代替 time.sleep
time.sleep(3)
# 以追加模式打开文件 '好评.txt',准备写入内容
file = open('好评.txt', 'a', encoding='utf-8')
# 找到所有 class 为 'body-content' 的元素,这些元素包含评论的正文内容
contents = driver.find_elements(By.CLASS_NAME, 'body-content')
# 遍历所有找到的评论内容
for content in contents:
# 给予写入文件内容的时间
time.sleep(3)
# 将评论文本写入文件
file.write(content.text)
file.write('\n')
# 写入完成后关闭文件
file.close()
# 配置 Edge 浏览器选项
edge_options = Options()
# 设置 Edge 浏览器的二进制路径
edge_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"
# 初始化 Edge 浏览器驱动
driver = webdriver.Edge(options=edge_options)
# 打开指定的 URL 网页
driver.get("https://review.suning.com/cluster_cmmdty_review/cluster-38249278-000000012389328846-0000000000-1-good.htm?originalCmmdtyType=general&safp=d488778a.10004.loverRight.166")
# 调用 get_content 函数获取当前页面的评论内容
get_content(driver)
# 获取“下一页”按钮
next_rv_maidian = driver.find_element(By.CSS_SELECTOR, '.next.rv-maidian')
# 使用 while 循环来点击“下一页”按钮并继续抓取页面评论
while next_rv_maidian != []:
# 获取“下一页”按钮元素
next_rv_maidian = driver.find_element(By.CSS_SELECTOR, '.next.rv-maidian')
# 点击“下一页”按钮
next_rv_maidian.click()
# 获取当前页的评论内容
get_content(driver)
如何寻找页面元素:
网页右键检查,
点击左上角按键:
点击左方要爬取的内容:
观察到右边:class="body-content"
此行代码即可捕获相应内容:
contents = driver.find_elements(By.CLASS_NAME, 'body-content')