采用多线程的方式来提高下载速度。
在Python中,可以使用threading模块创建多个线程来同时执行下载任务。下面是一个示例代码,其中创建了4个线程同时执行下载任务:
import os
import urllib.request
import pymysql
import threading
def download_file(url, filepath):
"""
下载文件
:param url: 文件下载链接
:param filepath: 文件保存路径
:return: 下载成功返回 True,否则返回 False
"""
try:
# 这个模块是体现下载进度
def progress(count, block_size, total_size):
percent = int(count * block_size * 100 / total_size)
print("\r已下载 %d%%" % percent, end="")
if count * block_size >= total_size:
print()
# 下面的代码主要是判断是否下载成功
urllib.request.urlretrieve(url, filepath, reporthook=progress)
return True
except:
print("\n下载失败:", url)
return False
def download_thread(urls, thread_id):
error_urls = []
for url in urls:
filename = url.split("/")[-1]
filepath = "D:/AA/" + filename
if os.path.exists(filepath):
print("文件已存在:", filepath)
continue
success = download_file(url, filepath)
if not success:
error_urls.append(url)
with lock:
failed_urls.extend(error_urls)
print("线程 %d 下载完成,失败 %d 个链接" % (thread_id, len(error_urls)))
# 连接数据库---编码设置成utf-8,不然容易报错----设置用户名密码,数据库实例名,如果是远程机器则修改host
conn = pymysql.connect(host='localhost', user='root', password='password', db='database_name', charset='utf8')
cursor = conn.cursor()
# 查询下载链接
query = "SELECT download_url FROM table_name"
cursor.execute(query)
results = cursor.fetchall()
# 将链接分成4组
num_threads = 4
num_urls = len(results)
urls_per_thread = num_urls // num_threads
urls_list = [results[i:i+urls_per_thread] for i in range(0, num_urls, urls_per_thread)]
# 创建线程并开始下载
threads = []
failed_urls = []
lock = threading.Lock()
for i in range(num_threads):
t = threading.Thread(target=download_thread, args=(urls_list[i], i+1))
t.start()
threads.append(t)
# 等待所有线程下载完成
for t in threads:
t.join()
# 保存错误链接
if failed_urls:
with open("error_urls.txt", "w") as f:
for url in failed_urls:
f.write(url + "\n", encoding="utf-8")
# 关闭数据库连接
cursor.close()
conn.close()
在这个代码中,我们首先将所有下载链接分成4组,并为每组创建一个线程,使用 threading.Lock() 创建一个锁,以避免多个线程同时访问错误链接列表时出现冲突。在 download_thread() 函数中,每个线程依次处理自己的链接列表,下载完成后将错误链接加入到共享的错误链接列表中。在主线程中,我们等待所有线程都执行完毕后,将错误链接保存到文件中。