0% found this document useful (0 votes)

14 views7 pages

Multimodal GenAi Pranav

The document discusses the use of multimodal generative AI for interpreting medical images, specifically focusing on disease classification from 2D chest X-rays and report generation. It outlines various deep learning models, techniques, and evaluation metrics used for image classification and report generation, including CNNs, Vision Transformers, and encoder-decoder architectures. Additionally, it provides a summary of tools and frameworks utilized in these processes, emphasizing the importance of transfer learning, multi-label classification, and data augmentation.

Uploaded by

Kongu Vinith

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views7 pages

Multimodal GenAi Pranav

Uploaded by

Kongu Vinith

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Multimodal Generative AI for Interpreting Medical Images

1. Disease Classification from 2D Medical Images (e.g., Chest X-rays)

Objective

To automatically detect and classify thoracic diseases from single 2D

radiographs using deep learning models.

Input

● Grayscale or RGB chest X-ray image (commonly resized to 224×224

or 512×512 pixels).

Commonly Used Models

1. Convolutional Neural Networks (CNNs)

○ ResNet-50

○ DenseNet-121

○ EfficientNet

2. Vision Transformers (ViTs)

○ ViT-B/16 or ViT-L for long-range dependency modeling

Model Structure

Backbone:
● Deep CNN (e.g., DenseNet-121) extracts hierarchical features from
the image.

Classification Head:

● Global Average Pooling layer

● Fully Connected (Dense) Layer

● Sigmoid activation for multi-label output (e.g., prediction of multiple

diseases)

Datasets Used

● NIH ChestX-ray14

● CheXpert

● MIMIC-CXR

Evaluation Metrics

● Area Under the Receiver Operating Characteristic Curve (AUC-ROC)

● F1-score, Precision, Recall

● Mean Average Precision (mAP)

3. Report Generation (Medical Transcription)

Objective
To generate diagnostic reports from the image features extracted by the
model, mimicking the style of human radiologists.

Techniques Used

1. Encoder-Decoder Architectures

○ CNN or ViT encodes the image

○ LSTM, GRU, or Transformer decodes the features into text

2. Pretrained Language Models

○ BERT-based: ClinicalBERT, BioBERT

○ GPT-based: BioGPT, GPT-2 fine-tuned on medical corpus

Common Models

● R2Gen (image-to-text)

● M2Trans (multi-modal transformer)

● Med-PaLM (multimodal large language model)

● LLaVA-Med (language–vision alignment model)

● GLoRIA (Vision–Language Pretraining for Radiology)

Input

● Image features (from CNN/Vision Transformer)

● Optional patient metadata or prior reports

Output

● Structured report (e.g., “No cardiomegaly. No pleural effusion.”)

● Can be used as a radiology draft or for automated transcription

Evaluation Metrics

● BLEU, METEOR, ROUGE (text similarity metrics)

● Clinical Efficacy metrics (e.g., precision of finding mentions)

Summary of Tools and Frameworks:

Task Tools / Libraries / Models

Image Classification ResNet, DenseNet, EfficientNet

(2D)

Image Classification 3D ResNet, 3D U-Net, V-Net

(3D)

Report Generation R2Gen, ClinicalBERT, BioGPT,

Med-PaLM
Frameworks PyTorch, TensorFlow, MONAI,
Hugging Face

Preprocessing OpenCV, SimpleITK, NiBabel,

pydicom

Model Summary:

2D Image Classification (e.g., Chest X-rays)

Model Type Examples Purpose

CNN (Convolutional ResNet-50, Extract image features,

Neural Network) DenseNet-121, classify diseases
EfficientNet

Vision Transformers ViT-B/16, Swin Handle long-range spatial

Transformer dependencies

Hybrid CNN + CoAtNet, ConvNeXt Combine CNN local detail

Transformer + ViT with Transformer global
context

Techniques:

Technique Description

Transfer Learning Pretrained models (on ImageNet or

RadImageNet) fine-tuned on medical data
Multi-label Classification Predict multiple diseases simultaneously
from one image (e.g., pneumonia + effusion)

Attention Mechanisms Focus on critical regions (e.g., lungs, heart)

in image for better accuracy

Class Activation Mapping Visual explanation of which part of the image

(CAM, Grad-CAM) influenced the model prediction

Data Augmentation Improve generalization (rotation, flips,

intensity variation)

Ensemble Learning Combine predictions from multiple models

for improved robustness

Tools & Frameworks:

Tool / Library Purpose

PyTorch / TensorFlow Building and training custom CNN or

Transformer models

MONAI Specialized deep learning toolkit for medical

imaging (3D and 2D)

TorchXRayVision Pretrained models and utilities for chest X-ray

classification

Hugging Face For Vision Transformers and multi-modal

Transformers models

pydicom / SimpleITK / Loading and preprocessing DICOM/3D

NiBabel imaging data

SSRN 5273371
No ratings yet
SSRN 5273371
30 pages
MedViT: Robust Medical Image Classifier
No ratings yet
MedViT: Robust Medical Image Classifier
15 pages
AI For Healthcare Module2 Final
No ratings yet
AI For Healthcare Module2 Final
32 pages
2............... EFFResNet-ViT A Fusion-Based Convolutional and Vision Transformer Model For Explainable Medical Image Classification
No ratings yet
2............... EFFResNet-ViT A Fusion-Based Convolutional and Vision Transformer Model For Explainable Medical Image Classification
29 pages
Comparison of Vision Transformers and Convolutional Neural Networks in Medical Image Analysis: A Systematic Review
No ratings yet
Comparison of Vision Transformers and Convolutional Neural Networks in Medical Image Analysis: A Systematic Review
22 pages
Explainable AI For Medical Image Diagnosis Using Hybrid Lightweight CNN-Transformer With Explainability Techniques
No ratings yet
Explainable AI For Medical Image Diagnosis Using Hybrid Lightweight CNN-Transformer With Explainability Techniques
11 pages
ChestX-ray8: A Large-Scale Dataset
No ratings yet
ChestX-ray8: A Large-Scale Dataset
19 pages
Chest X-Ray Image Classification Using Transfer Learning and Hyperparameter Customization For Lung Dis
No ratings yet
Chest X-Ray Image Classification Using Transfer Learning and Hyperparameter Customization For Lung Dis
16 pages
Deep Convolutional Neural Networks For Computer-Aided Detection: CNN Architectures, Dataset Characteristics and Transfer Learning
No ratings yet
Deep Convolutional Neural Networks For Computer-Aided Detection: CNN Architectures, Dataset Characteristics and Transfer Learning
14 pages
Jointly Learning Convolutional Representations To Compress Radiological Images and Classify Thoracic Diseases in The Compressed Domain
No ratings yet
Jointly Learning Convolutional Representations To Compress Radiological Images and Classify Thoracic Diseases in The Compressed Domain
8 pages
Diagnostics: Transmed: Transformers Advance Multi-Modal Medical Image Classification
No ratings yet
Diagnostics: Transmed: Transformers Advance Multi-Modal Medical Image Classification
15 pages
Deep Learning An Update For Radiologists
No ratings yet
Deep Learning An Update For Radiologists
19 pages
Convolutional Vision Transformers for X-ray Disease Classification
No ratings yet
Convolutional Vision Transformers for X-ray Disease Classification
16 pages
Machine Learning in Medical Imaging
No ratings yet
Machine Learning in Medical Imaging
6 pages
Literature Survey ML Radiographic
No ratings yet
Literature Survey ML Radiographic
4 pages
Vision Transformer for X-ray Classification
No ratings yet
Vision Transformer for X-ray Classification
12 pages
Deep Neural Networks in Medical Imaging
No ratings yet
Deep Neural Networks in Medical Imaging
35 pages
Bharath Simha Reddy 2021 IOP Conf. Ser. Mater. Sci. Eng. 1022 012020
No ratings yet
Bharath Simha Reddy 2021 IOP Conf. Ser. Mater. Sci. Eng. 1022 012020
11 pages
1 s2.0 S1566253525005792 Main
No ratings yet
1 s2.0 S1566253525005792 Main
58 pages
Iclr2022 Should We Replace Cnns With TR
No ratings yet
Iclr2022 Should We Replace Cnns With TR
15 pages
Advanced Neural Networks for Medical Imaging
No ratings yet
Advanced Neural Networks for Medical Imaging
6 pages
MedNet: CNN for Medical Imaging Tasks
No ratings yet
MedNet: CNN for Medical Imaging Tasks
4 pages
MedMNISTv2 2110.14795v2
No ratings yet
MedMNISTv2 2110.14795v2
11 pages
JHC-RTF 20240402 Short
No ratings yet
JHC-RTF 20240402 Short
29 pages
Pulmonary Detection
No ratings yet
Pulmonary Detection
35 pages
Medical Image Captioning Using Deep Learning - Rohan Paul
No ratings yet
Medical Image Captioning Using Deep Learning - Rohan Paul
14 pages
Chester: A Web Delivered Locally Computed Chest X-Ray Disease Prediction System
No ratings yet
Chester: A Web Delivered Locally Computed Chest X-Ray Disease Prediction System
16 pages
Medical AI Framework for Developers
No ratings yet
Medical AI Framework for Developers
34 pages
Deep Learning in Medical Diagnosis
No ratings yet
Deep Learning in Medical Diagnosis
2 pages
Machine Learning and Machine Learned Prediction in Chest X-Ray Images
No ratings yet
Machine Learning and Machine Learned Prediction in Chest X-Ray Images
8 pages
Merlin: A Vision Language Foundation Model For 3D Computed Tomography
No ratings yet
Merlin: A Vision Language Foundation Model For 3D Computed Tomography
28 pages
Disease Classification Model for Healthcare
No ratings yet
Disease Classification Model for Healthcare
9 pages
Research Paper
No ratings yet
Research Paper
12 pages
Review Article: Advances in Deep Learning-Based Medical Image Analysis
No ratings yet
Review Article: Advances in Deep Learning-Based Medical Image Analysis
14 pages
Medmnist V2 - A Large-Scale Lightweight Benchmark For 2D and 3D Biomedical Image Classification
No ratings yet
Medmnist V2 - A Large-Scale Lightweight Benchmark For 2D and 3D Biomedical Image Classification
10 pages
Garvit Project
No ratings yet
Garvit Project
10 pages
A Review of Transfer Learning For Medical Image CL
No ratings yet
A Review of Transfer Learning For Medical Image CL
27 pages
AI for Accurate Chest X-Ray Reports
No ratings yet
AI for Accurate Chest X-Ray Reports
81 pages
Deep Learning in Medical Imaging Guide
No ratings yet
Deep Learning in Medical Imaging Guide
21 pages
Verma 2021
No ratings yet
Verma 2021
6 pages
Multimodal Disease Classification with LLaMA II
No ratings yet
Multimodal Disease Classification with LLaMA II
9 pages
Deep Learning in Biomedicine Overview
No ratings yet
Deep Learning in Biomedicine Overview
28 pages
Comparative Analysis of Imagenet Pre-Trained Deep Learning Models and Dinov2 in Medical Imaging Classification
No ratings yet
Comparative Analysis of Imagenet Pre-Trained Deep Learning Models and Dinov2 in Medical Imaging Classification
9 pages
AI-Powered Multi-Disease Diagnosis System
No ratings yet
AI-Powered Multi-Disease Diagnosis System
13 pages
Deep Learning for Lung Tumor Detection
No ratings yet
Deep Learning for Lung Tumor Detection
15 pages
Batch 11 Journal Paper
No ratings yet
Batch 11 Journal Paper
16 pages
Deep Learning in Medical Diagnosis
No ratings yet
Deep Learning in Medical Diagnosis
2 pages
Biomedinformatics 04 00008
No ratings yet
Biomedinformatics 04 00008
14 pages
Applsci 11 11185
No ratings yet
Applsci 11 11185
19 pages
Transparency in Diagnosis Unveiling The Power of Deep Learning and Explainable AI For Medical Image Interpretation
No ratings yet
Transparency in Diagnosis Unveiling The Power of Deep Learning and Explainable AI For Medical Image Interpretation
17 pages
Project File
No ratings yet
Project File
4 pages
Chapter 8
No ratings yet
Chapter 8
6 pages
IJRPR23713
No ratings yet
IJRPR23713
7 pages
AI-Enhanced Pneumonia Diagnosis Method
No ratings yet
AI-Enhanced Pneumonia Diagnosis Method
5 pages
AI-Powered Medical Image Diagnosis
No ratings yet
AI-Powered Medical Image Diagnosis
11 pages
A Hybrid Deep Learning Approach Using XceptionNet and - 2025 - Biomedical Signa
No ratings yet
A Hybrid Deep Learning Approach Using XceptionNet and - 2025 - Biomedical Signa
13 pages
Deep Learning in CT & MRI Analysis
No ratings yet
Deep Learning in CT & MRI Analysis
10 pages
Datasheet - Artificial Intelligence Engineer
No ratings yet
Datasheet - Artificial Intelligence Engineer
2 pages
Depth-Gated LSTM for NLP Tasks
No ratings yet
Depth-Gated LSTM for NLP Tasks
5 pages
Designing Machine Learning Systems by Chip Huygen by Rick
100% (1)
Designing Machine Learning Systems by Chip Huygen by Rick
15 pages
NLP Roadmap 1
No ratings yet
NLP Roadmap 1
10 pages
Growing Cosine Unit: A Novel Oscillatory Activation Function That Can Speedup Training and Reduce Parameters in Convolutional Neural Networks
No ratings yet
Growing Cosine Unit: A Novel Oscillatory Activation Function That Can Speedup Training and Reduce Parameters in Convolutional Neural Networks
14 pages
EC360 Soft Computing Course Overview
No ratings yet
EC360 Soft Computing Course Overview
2 pages
Vehicle Accident and Traffic Classification Using Deep Convolutional Neural Networks
No ratings yet
Vehicle Accident and Traffic Classification Using Deep Convolutional Neural Networks
6 pages
Neural Network
No ratings yet
Neural Network
38 pages
Generating AI Image-to-Image A Comprehensive Guide
No ratings yet
Generating AI Image-to-Image A Comprehensive Guide
3 pages
Handwritten Digit Recognition with Neural Networks
No ratings yet
Handwritten Digit Recognition with Neural Networks
16 pages
Research Paper Analysis and Presentation
No ratings yet
Research Paper Analysis and Presentation
4 pages
498 FA2019 Lecture01
No ratings yet
498 FA2019 Lecture01
61 pages
PGP Generative AI and ML
No ratings yet
PGP Generative AI and ML
2 pages
Comparison and Architecture of Pre-Trained Model (VGG-16, VGG-19, ResNet, GoogleNet, AlexNet, Inception - by Muhammad Abdullah - Medium
No ratings yet
Comparison and Architecture of Pre-Trained Model (VGG-16, VGG-19, ResNet, GoogleNet, AlexNet, Inception - by Muhammad Abdullah - Medium
15 pages
Delta Rule
No ratings yet
Delta Rule
3 pages
Deep Learning Course Overview and Syllabus
No ratings yet
Deep Learning Course Overview and Syllabus
13 pages
Deep Learning in Education Innovations
No ratings yet
Deep Learning in Education Innovations
10 pages
Nature-Inspired Algorithms in Deep Learning
No ratings yet
Nature-Inspired Algorithms in Deep Learning
14 pages
Robot Price List Pics and Price
No ratings yet
Robot Price List Pics and Price
6 pages
Python for Computer Vision & Deep Learning
No ratings yet
Python for Computer Vision & Deep Learning
13 pages
Differences Between 1D, 2D, 3D Conv
No ratings yet
Differences Between 1D, 2D, 3D Conv
18 pages
Neural Network Viva Flashcards
No ratings yet
Neural Network Viva Flashcards
1 page
Nov 2024 Aiml
No ratings yet
Nov 2024 Aiml
2 pages
Neural Network for Crab Age Prediction
No ratings yet
Neural Network for Crab Age Prediction
2 pages
Deep Learning Finger Vein Authentication
No ratings yet
Deep Learning Finger Vein Authentication
10 pages
DeepLearning Introduction
No ratings yet
DeepLearning Introduction
19 pages
Deep Learning Assignment 01
No ratings yet
Deep Learning Assignment 01
3 pages
Adaptive Linear Neuron
No ratings yet
Adaptive Linear Neuron
4 pages
Semi-Supervised Radio Galaxy Classification
No ratings yet
Semi-Supervised Radio Galaxy Classification
1 page
CS3491 - Notes - Unit 5 - Neural Networks
No ratings yet
CS3491 - Notes - Unit 5 - Neural Networks
37 pages