End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +288 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: apache-2.0
 base_model: Qwen/Qwen2.5-7B
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: hp_ablations_qwen_epoch1_dcftv1.2
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # hp_ablations_qwen_epoch1_dcftv1.2
-This model is a fine-tuned version of [Qwen/Qwen2.5-7B](https://huggingface.co/Qwen/Qwen2.5-7B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6407

 base_model: Qwen/Qwen2.5-7B
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: hp_ablations_qwen_epoch1_dcftv1.2
 # hp_ablations_qwen_epoch1_dcftv1.2
+This model is a fine-tuned version of [Qwen/Qwen2.5-7B](https://huggingface.co/Qwen/Qwen2.5-7B) on the mlfoundations-dev/oh-dcft-v1.2_no-curation_gpt-4o-mini dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6407

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 0.9978054133138259,
+    "eval_loss": 0.6406828165054321,
+    "eval_runtime": 345.7045,
+    "eval_samples_per_second": 26.638,
+    "eval_steps_per_second": 0.417,
+    "total_flos": 714820936531968.0,
+    "train_loss": 0.6610767383379671,
+    "train_runtime": 18392.4604,
+    "train_samples_per_second": 9.512,
+    "train_steps_per_second": 0.019
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 0.9978054133138259,
+    "eval_loss": 0.6406828165054321,
+    "eval_runtime": 345.7045,
+    "eval_samples_per_second": 26.638,
+    "eval_steps_per_second": 0.417
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 0.9978054133138259,
+    "total_flos": 714820936531968.0,
+    "train_loss": 0.6610767383379671,
+    "train_runtime": 18392.4604,
+    "train_samples_per_second": 9.512,
+    "train_steps_per_second": 0.019
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,288 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9978054133138259,
+  "eval_steps": 500,
+  "global_step": 341,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.029261155815654718,
+      "grad_norm": 1.3814841088477259,
+      "learning_rate": 5e-06,
+      "loss": 0.7983,
+      "step": 10
+    },
+    {
+      "epoch": 0.058522311631309436,
+      "grad_norm": 1.2887254498462366,
+      "learning_rate": 5e-06,
+      "loss": 0.7383,
+      "step": 20
+    },
+    {
+      "epoch": 0.08778346744696415,
+      "grad_norm": 1.2838337638318262,
+      "learning_rate": 5e-06,
+      "loss": 0.7071,
+      "step": 30
+    },
+    {
+      "epoch": 0.11704462326261887,
+      "grad_norm": 1.0922966245519412,
+      "learning_rate": 5e-06,
+      "loss": 0.6966,
+      "step": 40
+    },
+    {
+      "epoch": 0.14630577907827358,
+      "grad_norm": 1.1509702467959955,
+      "learning_rate": 5e-06,
+      "loss": 0.6871,
+      "step": 50
+    },
+    {
+      "epoch": 0.1755669348939283,
+      "grad_norm": 0.9131326378339343,
+      "learning_rate": 5e-06,
+      "loss": 0.6766,
+      "step": 60
+    },
+    {
+      "epoch": 0.20482809070958302,
+      "grad_norm": 0.6023605382305695,
+      "learning_rate": 5e-06,
+      "loss": 0.67,
+      "step": 70
+    },
+    {
+      "epoch": 0.23408924652523774,
+      "grad_norm": 0.4161189143299673,
+      "learning_rate": 5e-06,
+      "loss": 0.6647,
+      "step": 80
+    },
+    {
+      "epoch": 0.26335040234089246,
+      "grad_norm": 0.4292872692725048,
+      "learning_rate": 5e-06,
+      "loss": 0.662,
+      "step": 90
+    },
+    {
+      "epoch": 0.29261155815654716,
+      "grad_norm": 0.4514981368981087,
+      "learning_rate": 5e-06,
+      "loss": 0.6544,
+      "step": 100
+    },
+    {
+      "epoch": 0.3218727139722019,
+      "grad_norm": 0.42808475020683995,
+      "learning_rate": 5e-06,
+      "loss": 0.6632,
+      "step": 110
+    },
+    {
+      "epoch": 0.3511338697878566,
+      "grad_norm": 0.37727288970274103,
+      "learning_rate": 5e-06,
+      "loss": 0.6681,
+      "step": 120
+    },
+    {
+      "epoch": 0.38039502560351135,
+      "grad_norm": 0.3822819962955356,
+      "learning_rate": 5e-06,
+      "loss": 0.6519,
+      "step": 130
+    },
+    {
+      "epoch": 0.40965618141916604,
+      "grad_norm": 0.36899229568727576,
+      "learning_rate": 5e-06,
+      "loss": 0.6526,
+      "step": 140
+    },
+    {
+      "epoch": 0.4389173372348208,
+      "grad_norm": 0.3468922138887062,
+      "learning_rate": 5e-06,
+      "loss": 0.648,
+      "step": 150
+    },
+    {
+      "epoch": 0.4681784930504755,
+      "grad_norm": 0.3795489753723712,
+      "learning_rate": 5e-06,
+      "loss": 0.6499,
+      "step": 160
+    },
+    {
+      "epoch": 0.49743964886613024,
+      "grad_norm": 0.36716418800909245,
+      "learning_rate": 5e-06,
+      "loss": 0.655,
+      "step": 170
+    },
+    {
+      "epoch": 0.5267008046817849,
+      "grad_norm": 0.33393389585281086,
+      "learning_rate": 5e-06,
+      "loss": 0.6546,
+      "step": 180
+    },
+    {
+      "epoch": 0.5559619604974396,
+      "grad_norm": 0.3581250031024453,
+      "learning_rate": 5e-06,
+      "loss": 0.6431,
+      "step": 190
+    },
+    {
+      "epoch": 0.5852231163130943,
+      "grad_norm": 0.34112480920310834,
+      "learning_rate": 5e-06,
+      "loss": 0.6443,
+      "step": 200
+    },
+    {
+      "epoch": 0.6144842721287491,
+      "grad_norm": 0.3396720319535308,
+      "learning_rate": 5e-06,
+      "loss": 0.6509,
+      "step": 210
+    },
+    {
+      "epoch": 0.6437454279444038,
+      "grad_norm": 0.354125295809357,
+      "learning_rate": 5e-06,
+      "loss": 0.6389,
+      "step": 220
+    },
+    {
+      "epoch": 0.6730065837600585,
+      "grad_norm": 0.3606633109240175,
+      "learning_rate": 5e-06,
+      "loss": 0.6388,
+      "step": 230
+    },
+    {
+      "epoch": 0.7022677395757132,
+      "grad_norm": 0.3251299701359152,
+      "learning_rate": 5e-06,
+      "loss": 0.6457,
+      "step": 240
+    },
+    {
+      "epoch": 0.731528895391368,
+      "grad_norm": 0.33939812328375596,
+      "learning_rate": 5e-06,
+      "loss": 0.6441,
+      "step": 250
+    },
+    {
+      "epoch": 0.7607900512070227,
+      "grad_norm": 0.3366111360440969,
+      "learning_rate": 5e-06,
+      "loss": 0.6467,
+      "step": 260
+    },
+    {
+      "epoch": 0.7900512070226774,
+      "grad_norm": 0.37753830325225896,
+      "learning_rate": 5e-06,
+      "loss": 0.649,
+      "step": 270
+    },
+    {
+      "epoch": 0.8193123628383321,
+      "grad_norm": 0.34478553790521904,
+      "learning_rate": 5e-06,
+      "loss": 0.6477,
+      "step": 280
+    },
+    {
+      "epoch": 0.8485735186539868,
+      "grad_norm": 0.33926125432670784,
+      "learning_rate": 5e-06,
+      "loss": 0.64,
+      "step": 290
+    },
+    {
+      "epoch": 0.8778346744696416,
+      "grad_norm": 0.3502233770134374,
+      "learning_rate": 5e-06,
+      "loss": 0.6318,
+      "step": 300
+    },
+    {
+      "epoch": 0.9070958302852963,
+      "grad_norm": 0.34993547260225705,
+      "learning_rate": 5e-06,
+      "loss": 0.6449,
+      "step": 310
+    },
+    {
+      "epoch": 0.936356986100951,
+      "grad_norm": 0.3358780908708201,
+      "learning_rate": 5e-06,
+      "loss": 0.6369,
+      "step": 320
+    },
+    {
+      "epoch": 0.9656181419166057,
+      "grad_norm": 0.37650022189557825,
+      "learning_rate": 5e-06,
+      "loss": 0.6402,
+      "step": 330
+    },
+    {
+      "epoch": 0.9948792977322605,
+      "grad_norm": 0.3494056493360394,
+      "learning_rate": 5e-06,
+      "loss": 0.6362,
+      "step": 340
+    },
+    {
+      "epoch": 0.9978054133138259,
+      "eval_loss": 0.6406828165054321,
+      "eval_runtime": 343.5643,
+      "eval_samples_per_second": 26.804,
+      "eval_steps_per_second": 0.419,
+      "step": 341
+    },
+    {
+      "epoch": 0.9978054133138259,
+      "step": 341,
+      "total_flos": 714820936531968.0,
+      "train_loss": 0.6610767383379671,
+      "train_runtime": 18392.4604,
+      "train_samples_per_second": 9.512,
+      "train_steps_per_second": 0.019
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 341,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 714820936531968.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed