LLM evaluation datasets - a clefourrier Collection

Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

clefourrier 's Collections

Leaderboards and benchmarks ✨

LLM evaluation datasets

LLM evaluation datasets

updated Nov 28, 2024

facebook/anli

Viewer • Updated Dec 21, 2023 • 169k • 3.25k • 41
codeparrot/apps

Viewer • Updated Oct 20, 2022 • 20k • 5.66k • 151
allenai/ai2_arc

Viewer • Updated Dec 21, 2023 • 7.79k • 219k • 165
EleutherAI/asdiv

Updated Nov 2, 2023 • 477 • 4
facebook/babi_qa

Viewer • Updated Jan 25, 2023 • 10.4k • 423 • 7
heegyu/bbq

Viewer • Updated Jul 14, 2023 • 58.5k • 2.53k • 11
nyu-mll/blimp

Viewer • Updated Jan 23, 2024 • 67k • 16.4k • 37
AlexaAI/bold

Viewer • Updated Oct 6, 2022 • 7.2k • 679 • 10
google/boolq

Viewer • Updated Jan 22, 2024 • 12.7k • 6.57k • 70
cam-cst/cbt

Viewer • Updated Jan 16, 2024 • 687k • 564 • 14
aps/super_glue

Updated Jan 29, 2024 • 111k • 166
nyu-mll/glue

Viewer • Updated Jan 30, 2024 • 1.49M • 339k • 389
google/civil_comments

Viewer • Updated Jan 25, 2024 • 2M • 1.24k • 16
abisee/cnn_dailymail

Viewer • Updated Jan 18, 2024 • 936k • 64.4k • 237
tuetschek/e2e_nlg_cleaned

Updated Jan 18, 2024 • 271 • 3
tau/commonsense_qa

Viewer • Updated Jan 4, 2024 • 12.1k • 56.3k • 85
stanfordnlp/coqa

Viewer • Updated Jan 4, 2024 • 7.7k • 3.48k • 63
ucinlp/drop

Viewer • Updated Jan 17, 2024 • 86.9k • 2.79k • 46
lighteval/DyckLanguage

Viewer • Updated May 12, 2023 • 1.51k • 39
openai/gsm8k

Viewer • Updated Jan 4, 2024 • 17.6k • 234k • 533
Rowan/hellaswag

Viewer • Updated Sep 28, 2023 • 60k • 187k • 106
openai/openai_humaneval

Viewer • Updated Jan 4, 2024 • 164 • 77.4k • 266
stanfordnlp/imdb

Viewer • Updated Jan 4, 2024 • 100k • 96k • 275
cimec/lambada

Viewer • Updated Jan 4, 2024 • 12.7k • 8.37k • 58
lighteval/LegalSupport

Viewer • Updated May 10, 2023 • 20k • 193 • 1
lighteval/lsat_qa

Updated May 16, 2023 • 46 • 4
deepmind/math_dataset

Updated Jan 18, 2024 • 8.02k • 113
deepmind/aqua_rat

Viewer • Updated Jan 9, 2024 • 196k • 1.72k • 48
google-research-datasets/mbpp

Viewer • Updated Jan 4, 2024 • 1.4k • 67.2k • 157
cais/mmlu

Viewer • Updated Mar 8, 2024 • 231k • 122k • 383
microsoft/ms_marco

Viewer • Updated Jan 4, 2024 • 1.11M • 4.9k • 142
CogComp/trec

Updated Jan 18, 2024 • 7.35k • 41
Running on CPU Upgrade

609

609

Open ASR Leaderboard

🏆

Request evaluation results for a speech model

Collection guide
Browse collections

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs