python数据处理之批量下载

采用多线程的方式来提高下载速度。

在Python中,可以使用threading模块创建多个线程来同时执行下载任务。下面是一个示例代码,其中创建了4个线程同时执行下载任务:

import os
import urllib.request
import pymysql
import threading
def download_file(url, filepath):
    """
    下载文件
    :param url: 文件下载链接
    :param filepath: 文件保存路径
    :return: 下载成功返回 True,否则返回 False
    """
    try:
#  这个模块是体现下载进度
        def progress(count, block_size, total_size):
            percent = int(count * block_size * 100 / total_size)
            print("\r已下载 %d%%" % percent, end="")
            if count * block_size >= total_size:
                print()
# 下面的代码主要是判断是否下载成功
        urllib.request.urlretrieve(url, filepath, reporthook=progress)
        return True
    except:
        print("\n下载失败:", url)
        return False
def download_thread(urls, thread_id):
    error_urls = []
    for url in urls:
        filename = url.split("/")[-1]
        filepath = "D:/AA/" + filename
        if os.path.exists(filepath):
            print("文件已存在:", filepath)
            continue
        success = download_file(url, filepath)
        if not success:
            error_urls.append(url)
    with lock:
        failed_urls.extend(error_urls)
        print("线程 %d 下载完成,失败 %d 个链接" % (thread_id, len(error_urls)))
# 连接数据库---编码设置成utf-8,不然容易报错----设置用户名密码,数据库实例名,如果是远程机器则修改host
conn = pymysql.connect(host='localhost', user='root', password='password', db='database_name', charset='utf8')
cursor = conn.cursor()
# 查询下载链接
query = "SELECT download_url FROM table_name"
cursor.execute(query)
results = cursor.fetchall()
# 将链接分成4组
num_threads = 4
num_urls = len(results)
urls_per_thread = num_urls // num_threads
urls_list = [results[i:i+urls_per_thread] for i in range(0, num_urls, urls_per_thread)]
# 创建线程并开始下载
threads = []
failed_urls = []
lock = threading.Lock()
for i in range(num_threads):
    t = threading.Thread(target=download_thread, args=(urls_list[i], i+1))
    t.start()
    threads.append(t)
# 等待所有线程下载完成
for t in threads:
    t.join()
# 保存错误链接
if failed_urls:
    with open("error_urls.txt", "w") as f:
        for url in failed_urls:
            f.write(url + "\n", encoding="utf-8")
# 关闭数据库连接
cursor.close()
conn.close()

在这个代码中,我们首先将所有下载链接分成4组,并为每组创建一个线程,使用 threading.Lock() 创建一个锁,以避免多个线程同时访问错误链接列表时出现冲突。在 download_thread() 函数中,每个线程依次处理自己的链接列表,下载完成后将错误链接加入到共享的错误链接列表中。在主线程中,我们等待所有线程都执行完毕后,将错误链接保存到文件中。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值