「科班UI圈视我为邪教🔥,Adobe信徒骂我叛道离经🖌️——今天本怪蜀黎炮口抬高一寸,轰穿设计圈天花板!
老夫乃:
🖼️设计界的符咒道士——不用PS,只写Python像素炼丹术🧪
📸摄影界的码农哨兵——敢把《芥子园画谱》编译成OpenCV算法🌄
🎬视频界的ERP土匪——抢素材如探囊取物,哈希去重如秋风扫落叶🍂
懵逼否?😵 愤怒否?💢
要的就是你们跪求Adobe订阅又舍不得删我脚本的样子!😎」
[------------------------------------------------------]
💥开头:
「老板出差回来,丢过来一个文件夹说:‘这些风景照拍得不错,帮我整理成图册/视频素材!’ 📂
打开一看——好家伙!🌲同一棵树连拍10张、🌊同一个湖角度雷同、🏔️雪山重复到怀疑人生…
手动删到眼瞎还容易漏,怎么办?😫
今天分享一个Python自动化脚本,专治各种重复照片强迫症!
✅ 递归扫描9种格式图片(JPG/PNG/GIF/WEBP/EPS/PSD/AI…)
✅ 多线程计算哈希(MD5+文件大小混合指纹)⚡
✅ 3种删除策略(保留最新/最旧/手动选择)🛡️
✅ 生成可视化HTML报告,删除前后一目了然📊
亲测1000张照片去重只要3秒钟,老板看完直呼内行~👏」
[-----------------------------------------------------------------]
🚀过程:
1️⃣ 扫描阶段
🔍 递归爬取文件夹,锁定9类图片格式(连设计师的PSD/AI稿都不放过!)
📦 自动按文件大小分组——大小不同直接跳过,加速比对!
2️⃣ 哈希计算
⚡ 多线程并发计算(CPU核数×2,火力全开!)
🧬 混合指纹:文件大小+MD5内容哈希,双重保险防误杀!
3️⃣ 去重策略
🕰️ 保留最旧:怀旧党必备(原始素材最珍贵)
🔥 保留最新:更新党狂喜(留最新拍摄版本)
✋ 手动选择:选择困难症福音(逐个确认再删)
4️⃣ 可视化报告
📝 自动生成HTML报告,带缩略图对比+文件信息(路径/大小/时间)
🎯 删除前预览,避免误删老板心头好!
5️⃣ 一键执行
🐍 代码复制即用,路径/策略随心配置
💾 释放磁盘空间,顺便拯救发际线!
[----------------------------------------------------------------]
科班设计师怎么做?
❌用肉眼筛到瞳孔地震
❌用PS批量调到手指抽筋
❌用Final Cut渲染到天亮
本怪蜀黎野路子:
✅哈希去重——一招MD5+文件大小混合指纹,重复照片瞬间现形(今天更新)
✅自动拆分归档——5000张图片随意按除以倍数分割到文件夹(下篇我会更新)
✅视频素材预处理——批量调尺寸+加滤镜+转格式,直接喂给剪映PR
[--------------------------------------------------------------------]
# 伪代码预览(完整代码见下文)
1. 扫描所有图片 → 🗂️
2. 按大小分组 → 📊
3. 多线程哈希比对 → ⚡
4. 生成报告 → 📝
5. 执行删除 → 🗑️
🔔安全警告(醒目强调版):
⚠️ 操作前必读(防翻车指南):
1️⃣ 备份原文件:
📦 运行脚本前,务必先复制一份原始照片文件夹!
💥 防止误删珍贵素材,数据无价,删错不赔!
2️⃣ 路径输入格式:
🗂️ 支持绝对路径(如C:\Users\老板\旅游照)或相对路径(如./老板照片)
🔍 示例:直接粘贴文件夹路径,不用加引号!
3️⃣ 模式选择提示:
🔄 脚本启动后会问删除策略:
输入 keep_oldest → 保留最旧文件(默认)
输入 keep_newest → 保留最新文件
输入 manual → 手动选择保留(逐个确认)
4️⃣ 确认环节:
👀 生成HTML报告后会自动弹出预览!
✅ 仔细核对重复组,确认无误再删!
🚀示例运行流程:
请输入要扫描的目录路径: D:\老板的旅游照
请选择删除策略(keep_oldest/keep_newest/manual): manual
⚡ 开始扫描 D:\老板的旅游照...
🔍 找到 1588 个图片文件
🎯 发现 42 组重复文件
📊 可视化报告已生成:D:\老板的旅游照\重复文件报告.html
是否查看报告后再删除?(y/n) y
(报告自动打开,请核对缩略图!)
确认执行删除操作?(y/n) y
🗑️ 已删除:D:\老板的旅游照\雪山(1)