python 爬网站下载图片

最新推荐文章于 2022-06-05 21:36:58 发布

fdx真好

最新推荐文章于 2022-06-05 21:36:58 发布

阅读量361

点赞数

CC 4.0 BY-SA版权

分类专栏： python 爬虫

本文链接：https://blog.csdn.net/fzz19960915/article/details/77408030

爬虫同时被 2 个专栏收录

2 篇文章

订阅专栏

python

1 篇文章

订阅专栏

本文介绍使用Python进行网页爬取的具体实践，包括如何利用BeautifulSoup解析网页内容，筛选并抓取图片链接，并通过requests库将图片下载到本地。此外，还提供了几种不同的下载方式供读者参考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天看了一个爬虫。感觉（python）基础真的很重要，知道是这样做，但不知道为什么，就是人生一大悲哀。真的。。。
然后就试着爬了一下网页的链接，把图片的链接都爬下来了。就想能不能用这个链接直接把图片下载呢。

就这样，在原来获得链接的基础上加上两行搞定了。（不算命名的）
看一下，过程（python真的最好入门），因为python运行就比较慢，它也不是下载一个就出来一个，要等一下。

from bs4 import BeautifulSoup
import requests
url = 'https://pixabay.com/zh/'
req = requests.get(url)              #根据网址获取信息。返回是200，就是返回成功，想要看类似与全部代码的信息，只需要打印req.text
req.encoding = 'utf-8'               #看一下会不会有乱码。有的话改成utf-8

beautiful = BeautifulSoup(req.text,'html.parser') #这里就是你获取内部代码信息的

num = 1 #为了给图片命名做铺垫
for i in beautiful.select('img'): # 在代码中找属性为img的
    if i['src'][0] is 'h': # 做一下过滤，把src中第一个字母为h的留下，就是链接了（http://...），有的不是，执行后面容易报错。
        r = requests.get(i['src']) # 得到过滤后的链接
        num += 1
        with open(str(num) + '.jpg','wb') as f: #剩下的就是下载了
         f.write(r.content)

现在执行肯定可以得到图片的。可能你看的时候，网址换了，自己换一下就行了。下面的代码是在网上收集的关于下载的代码。我只试了第三种。里面刚开始也爆错。要写的严谨一点啊。剩下的两个也自己看看吧。我还没有试，我去吃饭了。（wget，我只在控制台用过，但这里我试了没有成功就不写了。）

# Python 2 code
import urllib
import urllib2
import requests

url = 'http://192.168.1.100/test.zip'

print("downloading with urllib")
urllib.urlretrieve(url, "code.zip")

print("downloading with urllib2")
f = urllib2.urlopen(url)
data = f.read()
with open("code2.zip", "wb") as code:
    code.write(data)

print("downloading with requests")
r = requests.get(url)
with open("code3.zip", "wb") as code:
    code.write(r.content)