Training in progress, step 550, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +48 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cbc7a49709e9542b20fff8a8f59756c28115101e94fb4b8bd2ec2fde6b8e564
 size 217931936

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d794f53e490aeabc8e2b197bf939edb0e879efc274e2b013ba6eec75e34c3be
 size 217931936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ed7b26d7e96385d1af34bcc7e0bf79e5a76779452b1836915858d6897ebdf39
 size 111412820

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e2f496fc635dd73d2e05c66edaa3313f1ab7f7e0a4da39f79671d18a22706de
 size 111412820

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb4a2f681cf5e977b9bfcb6e4dd4cbb7858b14001ef3a7b3c46244d4d03bf8cb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:feaac8ff001d8f64c9a27eb373ea7ff9c698577a00b8ba8e83d6dff9874d7c1f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b782a524e5b57eb023365370accae538ac5e68454bafa53a6dd8b2c51cead56
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bb9c0d62d6b3cf0976c16f73e9bd814b298ebffa1786831bc2a68d8e48809b9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.0833667516708374,
-  "best_model_checkpoint": "miner_id_24/checkpoint-500",
-  "epoch": 0.32663726931242854,
   "eval_steps": 50,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -445,6 +445,49 @@
       "eval_samples_per_second": 18.847,
       "eval_steps_per_second": 4.715,
       "step": 500
     }
   ],
   "logging_steps": 10,
@@ -473,7 +516,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.356406596473979e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.081974983215332,
+  "best_model_checkpoint": "miner_id_24/checkpoint-550",
+  "epoch": 0.3593009962436714,
   "eval_steps": 50,
+  "global_step": 550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 18.847,
       "eval_steps_per_second": 4.715,
       "step": 500
+    },
+    {
+      "epoch": 0.33317001469867713,
+      "grad_norm": 0.19704855978488922,
+      "learning_rate": 1.1264792494342857e-05,
+      "loss": 0.8724,
+      "step": 510
+    },
+    {
+      "epoch": 0.33970276008492567,
+      "grad_norm": 0.2699441909790039,
+      "learning_rate": 8.936522714508678e-06,
+      "loss": 0.9602,
+      "step": 520
+    },
+    {
+      "epoch": 0.34623550547117427,
+      "grad_norm": 0.40045005083084106,
+      "learning_rate": 6.866382254766157e-06,
+      "loss": 0.9765,
+      "step": 530
+    },
+    {
+      "epoch": 0.3527682508574228,
+      "grad_norm": 0.8045767545700073,
+      "learning_rate": 5.060239153161872e-06,
+      "loss": 1.0677,
+      "step": 540
+    },
+    {
+      "epoch": 0.3593009962436714,
+      "grad_norm": 1.6138585805892944,
+      "learning_rate": 3.5232131185484076e-06,
+      "loss": 1.4285,
+      "step": 550
+    },
+    {
+      "epoch": 0.3593009962436714,
+      "eval_loss": 1.081974983215332,
+      "eval_runtime": 136.8083,
+      "eval_samples_per_second": 18.844,
+      "eval_steps_per_second": 4.715,
+      "step": 550
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.79289480604287e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null