【CV数据集介绍-39】皮肤癌研究利器:HAM10000 数据集详解与应用

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者,提供AI相关的技术咨询、项目开发和个性化解决方案等服务,如有需要请站内私信或者联系任意文章底部的的VX名片(ID:xf982831907

💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份,助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本,送真活跃粉丝,助你提升文章热度。有兴趣的加文末联系方式,备注自己的CSDN昵称,拉你进群,互相学习共同进步。

在这里插入图片描述

一、引言

  在皮肤癌研究领域,高质量的数据集是推动诊断技术进步的关键。HAM10000 数据集凭借其丰富的样本和多样的病变类型,成为了皮肤癌分割和分类任务的热门选择。本文将深入介绍 HAM10000 数据集的特点、样本构成以及在图像分割和分类任务中的应用。
在这里插入图片描述

二、数据集概述

  HAM10000 数据集包含约 10015 张皮肤镜图像,涵盖多种常见色素性皮肤病变。这些图像采集自奥地利维也纳医科大学和澳大利亚昆士兰大学的皮肤癌诊所,时间跨度达 20 年。数据集中的图像经过标准化处理,存储为常见格式,方便研究人员直接使用。

三、数据样本数量与类别详解

3.1 样本数量

  HAM10000 数据集包含 10015 张图像,这些图像涵盖了多种皮肤病变类型,为皮肤癌研究提供了丰富的数据资源。每个类别都有足够数量的图像,以支持机器学习模型的训练和验证。

3.2 类别及含义

  1. 光化性角化病和上皮内癌 / Bowen 病(AKIEC)
      这类病变是鳞状细胞癌的非侵袭性变体,通常表现为皮肤表面的鳞屑状斑块。它们可能会进展为侵袭性鳞状细胞癌,但本身通常没有色素。光化性角化病常见于面部,而 Bowen 病则更多见于其他身体部位。
  2. 基底细胞癌(BCC)
      基底细胞癌是一种常见的皮肤癌类型,通常生长缓慢,很少转移,但如果未经治疗会局部破坏组织。它有多种形态变体,如平坦型、结节型、色素型和囊肿型等。
  3. 良性角化病样病变(日光性雀斑 / 脂溢性角化病和扁平苔藓样角化病,BKL)
      这类病变包括脂溢性角化病(也称为 “老年疣”)、日光性雀斑以及扁平苔藓样角化病。虽然它们在皮肤镜下可能呈现不同的特征,但在生物学特性和组织病理学报告中常被归为一类。
  4. 皮肤纤维瘤(DF)
      皮肤纤维瘤是一种良性皮肤病变,可能是对轻微创伤的反应性增生或炎症反应。其典型的皮肤镜表现为周边网状线条和中央白色斑块。
  5. 黑色素瘤(MEL)
      黑色素瘤是一种恶性黑色素细胞肿瘤,早期切除可以治愈。它有多种变体,包括原位黑色素瘤和侵袭性黑色素瘤。黑色素瘤的皮肤镜特征因解剖部位而异。
  6. 黑色素细胞痣(NV)
      黑色素细胞痣是黑色素细胞的良性肿瘤,有多种形态变体。与黑色素瘤不同,它们通常在颜色和结构分布上是对称的。
  7. 血管病变(血管瘤、血管角化瘤、化脓性肉芽肿和出血,VASC)
      这类病变包括樱桃血管瘤、血管角化瘤、化脓性肉芽肿和出血等。它们在皮肤镜下通常呈现红色或紫色,且边界清晰。

  部分数据的展示如下:
在这里插入图片描述
在这里插入图片描述

3.3 每个类别图片数量

在 HAM10000 数据集中,各个类别的图片数量分布如下:

类别名称图片数量
AKIEC315
BCC514
BKL714
DF103
MEL1113
NV6305
VASC142

四、数据集应用

4.1 图像分割

  在图像分割任务中,HAM10000 数据集可用于训练和评估分割模型。通过对皮肤病变区域和正常皮肤区域的像素级标注,模型可以学习如何准确识别和分割病变区域。这有助于医生更精确地确定病变的边界,为后续的诊断和治疗提供重要依据。
在这里插入图片描述

4.2 图像分类

  对于图像分类任务,HAM10000 数据集的多类别标注使其成为理想的训练数据。研究人员可以利用这些数据训练深度学习模型,使其能够自动识别和分类不同类型的皮肤病变。这不仅可以辅助医生进行快速准确的诊断,还能提高诊断效率,尤其是在大规模筛查中。
在这里插入图片描述

五、总结

  HAM10000 数据集凭借其丰富的样本数量、全面的类别覆盖以及高质量的图像,成为了皮肤癌研究领域的重要资源。无论是用于图像分割还是分类任务,该数据集都展现出了巨大的潜力和价值。如果您正在从事皮肤癌相关的研究或开发工作,HAM10000 数据集无疑是您不可或缺的得力助手。

以上内容仅供参考,您可以根据实际需求进行调整和补充。希望这篇博客能够帮助更多人了解 HAM10000 数据集及其在皮肤癌研究中的重要应用。

【资源介绍】 基于HAM10000数据集实现皮肤癌分类python源码+使用说明.zip 这是一个用于训练图像分类模型的代码。在运行代码之前,用户需要安装以下依赖库:argparse, os, pandas, numpy, PIL, datasets, torchvision, tqdm和transformers。用户还需要从Hugging Face上下载所需的预训练模型。 参数说明 - `--metadata_path`:metadata文件的路径。默认为"./archive/HAM10000_metadata.csv"。 - `--images_dir`:图像文件夹的路径。默认为"./archive/HAM10000_images/"。 - `--model_dir`:预训练模型的路径。默认为"../model/vit-large-patch16-224-in21k"。 - `--checkpoints_dir`:保存检查点文件的文件夹路径。默认为"./checkpoints"。 - `--learning_rate`:学习率。默认为1e-5。 - `--batch_size`:批大小。默认为64。 - `--epochs`:训练轮数。默认为5。 - `--warmup_ratio`:预热步骤的比例。默认为0.1。 - `--split`:训练-验证数据集的分割比例。默认为0.8。 - `--gpu`:指定使用哪张GPU。默认为"0"。 - `--logging_steps`:每隔多少步记录一次训练日志。默认为50。 用户可以在命令行中传递这些参数,例如: ```shell python train-hf.py --metadata_path ./archive/HAM4000_metadata.csv \ --images_dir ./archive/HAM10000_images/ \ --checkpoints_dir ./checkpoints \ --learning_rate 1e-4 \ --batch_size 64 \ --epochs 20 \ --warmup_ratio 0.1 \ --model_dir ../model/vit-large-patch16-224-in21k \ --gpu 5,6,7 \ --logging_steps 1 ``` 在代码运行过程中,会执行以下步骤: 1. 读取metadata文件,获取图像文件名和标签。 2. 将图像读入内存,并随机打乱。 3. 将数据集划分为训练集和验证集。 4. 对图像进行预处理,包括随机裁剪、归一化和转换为tensor。 5. 加载预训练模型,构建分类器。 6. 训练模型,并在验证集上评估模型性能。 7. 在训练过程中,每隔logging_steps步记录一次训练日志,包括损失值、准确率等指标。 8. 在训练结束后,保存模型的权重文件到checkpoints_dir文件夹中。 【备注】 该项目是个人毕设/课设/大作业项目,代码都经过本地调试测试,功能ok才上传,高分作品,可快速上手运行!欢迎下载使用,可用于小白学习、进阶。 该资源主要针对计算机、通信、人工智能、自动化等相关专业的学生、老师或从业者下载使用,亦可作为期末课程设计、课程大作业、毕业设计等。 项目整体具有较高的学习借鉴价值!基础能力强的可以在此基础上修改调整,以实现不同的功能。 欢迎下载使用,也欢迎交流学习!
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云天徽上

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值