Edit Models filters

Multimodal

Audio-Text-to-Text

Image-Text-to-Text

Visual Question Answering

Document Question Answering

Video-Text-to-Text

Computer Vision

Depth Estimation

Image Classification

Object Detection

Image Segmentation

Unconditional Image Generation

Video Classification

Zero-Shot Image Classification

Mask Generation

Zero-Shot Object Detection

Image Feature Extraction

Keypoint Detection

Natural Language Processing

Text Classification

Token Classification

Table Question Answering

Question Answering

Zero-Shot Classification

Feature Extraction

Text Generation

Text2Text Generation

Sentence Similarity

Audio

Automatic Speech Recognition

Audio Classification

Voice Activity Detection

Tabular

Tabular Classification

Tabular Regression

Time Series Forecasting

Reinforcement Learning

Reinforcement Learning

Other

Graph Machine Learning

Models

6,476

Full-text search

Active filters: image-text-to-text

Qwen/Qwen2.5-VL-7B-Instruct

Image-Text-to-Text • Updated about 6 hours ago • 307k • 325

stepfun-ai/GOT-OCR-2.0-hf

Image-Text-to-Text • Updated 6 days ago • 3.08k • 82

Qwen/Qwen2.5-VL-72B-Instruct

Image-Text-to-Text • Updated 10 days ago • 34.5k • 221

Qwen/Qwen2.5-VL-3B-Instruct

Image-Text-to-Text • Updated 2 days ago • 97.6k • 159

deepseek-ai/deepseek-vl2-small

Image-Text-to-Text • Updated Dec 18, 2024 • 11.7k • 89

deepseek-ai/deepseek-vl2

Image-Text-to-Text • Updated Dec 18, 2024 • 5.83k • 193

meta-llama/Llama-3.2-11B-Vision-Instruct

Image-Text-to-Text • Updated Dec 4, 2024 • 2.22M • • 1.29k

HuggingFaceTB/SmolVLM-256M-Instruct

Image-Text-to-Text • Updated 3 days ago • 20.2k • 126

bytedance-research/UI-TARS-7B-DPO

Image-Text-to-Text • Updated 12 days ago • 21k • 118

deepseek-ai/deepseek-vl2-tiny

Image-Text-to-Text • Updated Dec 18, 2024 • 42k • 102

HuggingFaceTB/SmolVLM-500M-Instruct

Image-Text-to-Text • Updated 5 days ago • 14.2k • 94

stepfun-ai/GOT-OCR2_0

Image-Text-to-Text • Updated 2 days ago • 475k • 1.36k

HuggingFaceTB/SmolVLM-Instruct

Image-Text-to-Text • Updated Dec 2, 2024 • 92.8k • 368

microsoft/Florence-2-large

Image-Text-to-Text • Updated Dec 8, 2024 • 596k • 1.38k

bytedance-research/UI-TARS-7B-SFT

Image-Text-to-Text • Updated 12 days ago • 3.43k • 135

vikhyatk/moondream2

Image-Text-to-Text • Updated 28 days ago • 150k • 1.02k

Qwen/QVQ-72B-Preview

Image-Text-to-Text • Updated 25 days ago • 167k • 538

Qwen/Qwen2-VL-7B-Instruct

Image-Text-to-Text • Updated about 6 hours ago • 1.78M • 1.11k

meta-llama/Llama-3.2-11B-Vision

Image-Text-to-Text • Updated Sep 27, 2024 • 232k • 451

nvidia/Eagle2-9B

Image-Text-to-Text • Updated 9 days ago • 2.72k • 36

MiniMaxAI/MiniMax-VL-01

Image-Text-to-Text • Updated 12 days ago • 2.14k • 229

prithivMLmods/ChemQwen2-vL

Image-Text-to-Text • Updated 21 days ago • 182 • 7

unsloth/Qwen2.5-VL-7B-Instruct-unsloth-bnb-4bit

Image-Text-to-Text • Updated 6 days ago • 1.88k • 7

prithivMLmods/LatexMind-2B-Codec

Image-Text-to-Text • Updated about 5 hours ago • 102 • 7

microsoft/Phi-3.5-vision-instruct

Image-Text-to-Text • Updated Sep 26, 2024 • 333k • 657

prithivMLmods/Qwen2-VL-OCR-2B-Instruct

Image-Text-to-Text • Updated 26 days ago • 7.45k • 39

OpenGVLab/InternVL2_5-8B-MPO

Image-Text-to-Text • Updated 1 day ago • 13.8k • 37

prithivMLmods/SmolVLM-4-Exp-8bit

Image-Text-to-Text • Updated 14 days ago • 3 • 7

ibm-granite/granite-vision-3.1-2b-preview

Image-Text-to-Text • Updated 1 day ago • 876 • 6

microsoft/Florence-2-base

Image-Text-to-Text • Updated Nov 4, 2024 • 226k • 212