Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +46 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d8d38ac83a8e303ed1b7abdb5fccb3afe88c0157aab6e53bf021ce66338e39f
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:f62596848930c90aaf8a295cae429766e8f4c7f862b19d5b38814ef218aeaca2
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1019bd96b0eefc041fc0ccf8d6b73f255622d7667f98fc40c093428fd8955b18
 size 81730196

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1f21bf57e66f285c4215b016f8596a14795a81a9d0cadf68fb458fdd2e43646
 size 81730196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d47389ee1b3de37ec651a53269ef11a13ed931143e32476cdbe8d23dc59efaf8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:41ee49ee3ed199338edc0410425a9b650e38ae892510c32bbfe9d82fa579332e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b80fcc7599efca0c6313d990c467c2eb3001742b23ddaadc22e3499c12cea79
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:81007ec48272bbdc4f9622c046f9c026bf8120ed11d1398fd97bb5168a6f3dda
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.02720348204570185,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -58,6 +58,49 @@
       "eval_samples_per_second": 15.988,
       "eval_steps_per_second": 8.015,
       "step": 50
     }
   ],
   "logging_steps": 10,
@@ -77,7 +120,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7719051111432192.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0544069640914037,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.988,
       "eval_steps_per_second": 8.015,
       "step": 50
+    },
+    {
+      "epoch": 0.03264417845484222,
+      "grad_norm": 1.0796252489089966,
+      "learning_rate": 0.0002,
+      "loss": 0.2065,
+      "step": 60
+    },
+    {
+      "epoch": 0.03808487486398259,
+      "grad_norm": 0.3447917103767395,
+      "learning_rate": 0.0002,
+      "loss": 0.1985,
+      "step": 70
+    },
+    {
+      "epoch": 0.04352557127312296,
+      "grad_norm": 0.30337709188461304,
+      "learning_rate": 0.0002,
+      "loss": 0.2268,
+      "step": 80
+    },
+    {
+      "epoch": 0.04896626768226333,
+      "grad_norm": 0.12297934293746948,
+      "learning_rate": 0.0002,
+      "loss": 0.2141,
+      "step": 90
+    },
+    {
+      "epoch": 0.0544069640914037,
+      "grad_norm": 0.2504233121871948,
+      "learning_rate": 0.0002,
+      "loss": 0.185,
+      "step": 100
+    },
+    {
+      "epoch": 0.0544069640914037,
+      "eval_loss": 0.10059353709220886,
+      "eval_runtime": 24.2252,
+      "eval_samples_per_second": 15.975,
+      "eval_steps_per_second": 8.008,
+      "step": 100
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.5233894521503744e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null