近期开始学习python,目前以爬虫方向为主,打算在这个过程中通过代码的实践来记录学习过程,顺带当成笔记。
我的第一个完全由自己编写的爬虫代码产生啦!
主要是抓取新闻标题、时间等
本次写代码代码用到的库:
import requests
import csv
from bs4 import BeautifulSoup
首先设置url等基本信息:
news_list = []
head = ['新闻标题','时间','主要内容']
url = '这里输入url'
headers = {'User-Agent':'这里输入自己电脑的请求头headers'}
使用request.get请求网页:
res = requests.get(url,headers=headers)
#本来demo这一段是没有的,但是常规解码跑出来是乱码,这里用了暴力解码
demo = res.text.encode("iso-8859-1").decode("GBK")
bs = BeautifulSoup(demo,'html.parser')
开始抓取:(由