AI Video Generation from Text

This project implements a state-of-the-art text-to-video generation model using transformer architecture and diffusion models.

Superman.inside.a.Tesla.Car.mp4

Batman.inside.a.Tesla-Mobile.mp4

dog.mp4

Features

Text-to-Video Generation: Generate videos from natural language descriptions
Transformer Architecture: Modern attention-based model for temporal consistency
Diffusion Process: Denoising diffusion probabilistic models for high-quality generation
Modular Design: Clean, extensible codebase with separate modules for different components
Training Pipeline: Complete training loop with logging and checkpointing
Inference Script: Easy-to-use inference for generating videos from text

Architecture Overview

The model consists of several key components:

Text Encoder: CLIP-based text encoding for understanding text descriptions
Video Encoder: 3D CNN for processing video frames
Temporal Transformer: Attention mechanism for temporal consistency
Diffusion Model: Denoising process for video generation
Decoder: Convolutional layers for final video output

Installation

pip install -r requirements.txt

Usage

Training

python train.py --config configs/training_config.yaml

Inference

python inference.py --text "A cat playing with a ball" --output_path output_video.mp4

Project Structure

├── models/           # Model architectures
├── data/            # Data loading and preprocessing
├── training/        # Training utilities
├── configs/         # Configuration files
├── utils/           # Utility functions
├── train.py         # Main training script
├── inference.py     # Inference script
└── requirements.txt # Dependencies

Model Architecture

The model uses a hybrid approach combining:

CLIP Text Encoder: For text understanding
3D Convolutional Networks: For spatial-temporal feature extraction
Transformer Blocks: For temporal attention and consistency
Diffusion Process: For high-quality video generation

Training Data

The model can be trained on various video datasets:

Kinetics-400/600/700
UCF-101
Custom video datasets

Performance

Resolution: 256x256, 512x512, or 1024x1024
Frame Rate: 8-30 FPS
Duration: 1-10 seconds
Quality: High-fidelity video generation

License

MIT License

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

AI Video Generation from Text

Features

Architecture Overview

Installation

Usage

Training

Inference

Project Structure

Model Architecture

Training Data

Performance

License

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
configs		configs
data		data
models		models
training		training
utils		utils
README.md		README.md
example.py		example.py
inference.py		inference.py
requirements.txt		requirements.txt
setup.py		setup.py
train.py		train.py

daley-mottley/AI-video-generation-model

Folders and files

Latest commit

History

Repository files navigation

AI Video Generation from Text

Features

Architecture Overview

Installation

Usage

Training

Inference

Project Structure

Model Architecture

Training Data

Performance

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages