tomg-group-umd
/

huginn-0125

@@ -7,87 +7,87 @@ license: apache-2.0
 language:
 - en
 pipeline_tag: text-generation
-datasets:
-- HuggingFaceTB/smollm-corpus
-- jon-tow/starcoderdata-python-edu
-- ubaada/booksum-complete-cleaned
-- euirim/goodwiki
-- togethercomputer/RedPajama-Data-1T
-- allenai/dolma
-- bigcode/the-stack-v2-train-smol-ids
-- bigcode/starcoderdata
-- m-a-p/Matrix
-- cerebras/SlimPajama-627B
-- open-phi/textbooks
-- open-phi/textbooks_grounded
-- open-phi/programming_books_llama
-- nampdn-ai/tiny-strange-textbooks
-- nampdn-ai/tiny-textbooks
-- nampdn-ai/tiny-code-textbooks
-- nampdn-ai/tiny-orca-textbooks
-- SciPhi/textbooks-are-all-you-need-lite
-- vikp/textbook_quality_programming
-- EleutherAI/proof-pile-2
-- open-web-math/open-web-math
-- biglam/blbooks-parquet
-- storytracer/LoC-PD-Books
-- GAIR/MathPile
-- tomg-group-umd/CLRS-Text-train
-- math-ai/AutoMathText
-- bigcode/commitpackft
-- bigcode/stack-dedup-python-fns
-- vikp/python_code_instructions_filtered
-- mlabonne/chessllm
-- Waterhorse/chess_data
-- EleutherAI/lichess-puzzles
-- chargoddard/WebInstructSub-prometheus
-- Locutusque/hercules-v5.0
-- nvidia/OpenMathInstruct-1
-- meta-math/MetaMathQA
-- m-a-p/CodeFeedback-Filtered-Instruction
-- nvidia/Daring-Anteater
-- nvidia/sft_datablend_v1
-- BAAI/Infinity-Instruct
-- anthracite-org/Stheno-Data-Filtered
-- Nopm/Opus_WritingStruct
-- xinlai/Math-Step-DPO-10K
-- bigcode/self-oss-instruct-sc2-exec-filter-50k
-- HuggingFaceTB/everyday-conversations
-- hkust-nlp/gsm8k-fix
-- HuggingFaceH4/no_robots
-- THUDM/LongWriter-6k
-- THUDM/webglm-qa
-- AlgorithmicResearchGroup/ArXivDLInstruct
-- allenai/tulu-v2-sft-mixture-olmo-4096
-- bigscience/P3
-- Gryphe/Sonnet3.5-SlimOrcaDedupCleaned
-- Gryphe/Opus-WritingPrompts
-- nothingiisreal/Reddit-Dirty-And-WritingPrompts
-- nothingiisreal/Kalomaze-Opus-Instruct-25k-filtered
-- internlm/Lean-Github
-- pkuAI4M/LeanWorkbook
-- casey-martin/multilingual-mathematical-autoformalization
-- AI4M/leandojo-informalized
-- casey-martin/oa_cpp_annotate_gen
-- l3lab/ntp-mathlib-instruct-st
-- ajibawa-2023/Maths-College
-- ajibawa-2023/Maths-Grade-School
-- ajibawa-2023/General-Stories-Collection
-- XinyaoHu/AMPS_mathematica
-- XinyaoHu/AMPS_khan
-- Magpie-Align/Magpie-Pro-MT-300K-v0.1
-- Magpie-Align/Magpie-Reasoning-150K
-- gair-prox/FineWeb-pro
-- gair-prox/c4-pro
-- gair-prox/RedPajama-pro
-- gair-prox/open-web-math-pro
-- togethercomputer/Long-Data-Collections
-- emozilla/pg19
-- MathGenie/MathCode-Pile
-- KingNish/reasoning-base-20k
-- nvidia/OpenMathInstruct-2
-- LLM360/TxT360
-- neuralwork/arxiver
 ---
 # Huginn-0125

 language:
 - en
 pipeline_tag: text-generation
+# datasets: # cannot order these nicely
+# - HuggingFaceTB/smollm-corpus
+# - jon-tow/starcoderdata-python-edu
+# - ubaada/booksum-complete-cleaned
+# - euirim/goodwiki
+# - togethercomputer/RedPajama-Data-1T
+# - allenai/dolma
+# - bigcode/the-stack-v2-train-smol-ids
+# - bigcode/starcoderdata
+# - m-a-p/Matrix
+# - cerebras/SlimPajama-627B
+# - open-phi/textbooks
+# - open-phi/textbooks_grounded
+# - open-phi/programming_books_llama
+# - nampdn-ai/tiny-strange-textbooks
+# - nampdn-ai/tiny-textbooks
+# - nampdn-ai/tiny-code-textbooks
+# - nampdn-ai/tiny-orca-textbooks
+# - SciPhi/textbooks-are-all-you-need-lite
+# - vikp/textbook_quality_programming
+# - EleutherAI/proof-pile-2
+# - open-web-math/open-web-math
+# - biglam/blbooks-parquet
+# - storytracer/LoC-PD-Books
+# - GAIR/MathPile
+# - tomg-group-umd/CLRS-Text-train
+# - math-ai/AutoMathText
+# - bigcode/commitpackft
+# - bigcode/stack-dedup-python-fns
+# - vikp/python_code_instructions_filtered
+# - mlabonne/chessllm
+# - Waterhorse/chess_data
+# - EleutherAI/lichess-puzzles
+# - chargoddard/WebInstructSub-prometheus
+# - Locutusque/hercules-v5.0
+# - nvidia/OpenMathInstruct-1
+# - meta-math/MetaMathQA
+# - m-a-p/CodeFeedback-Filtered-Instruction
+# - nvidia/Daring-Anteater
+# - nvidia/sft_datablend_v1
+# - BAAI/Infinity-Instruct
+# - anthracite-org/Stheno-Data-Filtered
+# - Nopm/Opus_WritingStruct
+# - xinlai/Math-Step-DPO-10K
+# - bigcode/self-oss-instruct-sc2-exec-filter-50k
+# - HuggingFaceTB/everyday-conversations
+# - hkust-nlp/gsm8k-fix
+# - HuggingFaceH4/no_robots
+# - THUDM/LongWriter-6k
+# - THUDM/webglm-qa
+# - AlgorithmicResearchGroup/ArXivDLInstruct
+# - allenai/tulu-v2-sft-mixture-olmo-4096
+# - bigscience/P3
+# - Gryphe/Sonnet3.5-SlimOrcaDedupCleaned
+# - Gryphe/Opus-WritingPrompts
+# - nothingiisreal/Reddit-Dirty-And-WritingPrompts
+# - nothingiisreal/Kalomaze-Opus-Instruct-25k-filtered
+# - internlm/Lean-Github
+# - pkuAI4M/LeanWorkbook
+# - casey-martin/multilingual-mathematical-autoformalization
+# - AI4M/leandojo-informalized
+# - casey-martin/oa_cpp_annotate_gen
+# - l3lab/ntp-mathlib-instruct-st
+# - ajibawa-2023/Maths-College
+# - ajibawa-2023/Maths-Grade-School
+# - ajibawa-2023/General-Stories-Collection
+# - XinyaoHu/AMPS_mathematica
+# - XinyaoHu/AMPS_khan
+# - Magpie-Align/Magpie-Pro-MT-300K-v0.1
+# - Magpie-Align/Magpie-Reasoning-150K
+# - gair-prox/FineWeb-pro
+# - gair-prox/c4-pro
+# - gair-prox/RedPajama-pro
+# - gair-prox/open-web-math-pro
+# - togethercomputer/Long-Data-Collections
+# - emozilla/pg19
+# - MathGenie/MathCode-Pile
+# - KingNish/reasoning-base-20k
+# - nvidia/OpenMathInstruct-2
+# - LLM360/TxT360
+# - neuralwork/arxiver
 ---
 # Huginn-0125