python 练习0013

最新推荐文章于 2025-07-25 08:18:14 发布

原创最新推荐文章于 2025-07-25 08:18:14 发布 · 244 阅读

0 ·

CC 4.0 BY-SA版权

Python 练习册，每天一个小程序专栏收录该内容

12 篇文章

订阅专栏

本文介绍了一种使用Python和BeautifulSoup库从指定链接爬取图片的方法，特别关注于抓取具有特定属性的图片链接，并提供了详细的代码实现及注释说明。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题

用 Python 写一个爬图片的程序，爬这个链接里的日本妹子图片 ?
( 这妹子真漂亮…

代码

from bs4 import BeautifulSoup 
import requests, os

def get_html(url):
    html = requests.get(url)
    # print(html.text)
    return html.text

def get_pic_urls(html):
    bs = BeautifulSoup(html, 'html.parser')
    urls = set()
    for image in bs.find_all('img'):
        try:
            if image.get('pic_type'):
                urls.add(image['src'])
                # print('ok', image['src'])
        except:
            continue
    return urls

def download_pics(urls, path):
    if not os.path.exists(path):
        os.mkdir(path)
    os.chdir(path)
    sum = 0
    for url in urls:
        try:
            r = requests.get(url)
            pic_name = url[-10:]
            with open(pic_name, 'wb') as f:
                f.write(r.content)
                sum += 1
                f.close()
        except:
            continue
    print('success download ', sum)

if __name__ == '__main__':
    url = 'http://tieba.baidu.com/p/2166231880';
    html = get_html(url)
    urls = get_pic_urls(html)
    # print(urls)
    download_pics(urls, './shanbenyoumei')

注解

要分析要下载链接的格式:

<img pic_type="0" class="BDE_Image" src="http://imgsrc.baidu.com/forum/w%3D580%3Bcp%3Dtieba%2C10%2C302%3Bap%3D%C9%BC%B1%BE%D3%D0%C3%C0%B0%C9%2C90%2C310/sign=8800a2e3b3119313c743ffb855036fa7/1e29460fd9f9d72abb1a7c3cd52a2834349bbb7e.jpg"
 bdwater="杉本有美吧,955,550" width="560" height="323" changedsize="true">