Ollama ExplorerBeta

MultimodaladvancedVision

llava

LLaVA

🌋 LLaVA is a novel end-to-end trained large multimodal model that combines a vision encoder and Vicuna for general-purpose visual and language understanding. Updated to version 1.6.

12.9M pullsUpdated Feb 26, 202698 tags32K context

Quick start

ollama run llava

Available sizes

Tag	Size	Quantization	Context	Min RAM
llava:latest	4.7GB	q4_k_m	32K context	5.9 GB
llava:13b	8.0GB	q4_k_m	4K context	10 GB
llava:34b	20GB	q4_k_m	4K context	25 GB

Strengths & Limitations

Strengths

Visual and language understanding
End-to-end training
Combines vision and language models

Related models

minicpm-vMultimodal

A series of multimodal LLMs (MLLMs) designed for vision-language understanding.

llava-llama3Multimodal

A LLaVA model fine-tuned from Llama 3 Instruct with better scores in several benchmarks.

qwen3-vlMultimodal

The most powerful vision-language model in the Qwen model family to date.

qwen2.5vlMultimodal

Flagship vision-language model of Qwen and also a significant leap from the previous Qwen2-VL.