python数据处理之批量下载

最新推荐文章于 2025-06-19 22:29:14 发布

原创最新推荐文章于 2025-06-19 22:29:14 发布 · 2.6k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

采用多线程的方式来提高下载速度。

在Python中，可以使用threading模块创建多个线程来同时执行下载任务。下面是一个示例代码，其中创建了4个线程同时执行下载任务：

import os
import urllib.request
import pymysql
import threading
def download_file(url, filepath):
    """
    下载文件
    :param url: 文件下载链接
    :param filepath: 文件保存路径
    :return: 下载成功返回 True，否则返回 False
    """
    try:
#  这个模块是体现下载进度
        def progress(count, block_size, total_size):
            percent = int(count * block_size * 100 / total_size)
            print("\r已下载 %d%%" % percent, end="")
            if count * block_size >= total_size:
                print()
# 下面的代码主要是判断是否下载成功
        urllib.request.urlretrieve(url, filepath, reporthook=progress)
        return True
    except:
        print("\n下载失败:", url)
        return False
def download_thread(urls, thread_id):
    error_urls = []
    for url in urls:
        filename = url.split("/")[-1]
        filepath = "D:/AA/" + filename
        if os.path.exists(filepath):
            print("文件已存在:", filepath)
            continue
        success = download_file(url, filepath)
        if not success:
            error_urls.append(url)
    with lock:
        failed_urls.extend(error_urls)
        print("线程 %d 下载完成，失败 %d 个链接" % (thread_id, len(error_urls)))
# 连接数据库---编码设置成utf-8，不然容易报错----设置用户名密码，数据库实例名，如果是远程机器则修改host
conn = pymysql.connect(host='localhost', user='root', password='password', db='database_name', charset='utf8')
cursor = conn.cursor()
# 查询下载链接
query = "SELECT download_url FROM table_name"
cursor.execute(query)
results = cursor.fetchall()
# 将链接分成4组
num_threads = 4
num_urls = len(results)
urls_per_thread = num_urls // num_threads
urls_list = [results[i:i+urls_per_thread] for i in range(0, num_urls, urls_per_thread)]
# 创建线程并开始下载
threads = []
failed_urls = []
lock = threading.Lock()
for i in range(num_threads):
    t = threading.Thread(target=download_thread, args=(urls_list[i], i+1))
    t.start()
    threads.append(t)
# 等待所有线程下载完成
for t in threads:
    t.join()
# 保存错误链接
if failed_urls:
    with open("error_urls.txt", "w") as f:
        for url in failed_urls:
            f.write(url + "\n", encoding="utf-8")
# 关闭数据库连接
cursor.close()
conn.close()

在这个代码中，我们首先将所有下载链接分成4组，并为每组创建一个线程，使用 threading.Lock() 创建一个锁，以避免多个线程同时访问错误链接列表时出现冲突。在 download_thread() 函数中，每个线程依次处理自己的链接列表，下载完成后将错误链接加入到共享的错误链接列表中。在主线程中，我们等待所有线程都执行完毕后，将错误链接保存到文件中。