Training in progress, step 51, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +130 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2191d75ff3a3cbc5977ee6aa1fa814e46a578f07c9693689328ea208bbf4be39
 size 640009682

 version https://git-lfs.github.com/spec/v1
+oid sha256:face95f531991d1c4ebc8ae39b39d8db4111d815f0a30edbf3c7d0e93d644be1
 size 640009682

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff7d13d5439a9e3c4d151b127166791f2357c478fbaa7a80e57f5222b10418b9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1707c9ccf7c6746c4a9c679bcbea2dd0711edc333e819eb762e01abed56271bb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e1983b20d7ce0214623b79adb071ed1f5c168cabcab4cc0ff2c0c61c63ddce9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c86702c0a3caad6c51746e54805a7289de03dff9cc5abc148a58966cf1f4d339
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.03736007142366596,
   "eval_steps": 50,
-  "global_step": 34,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -253,6 +253,133 @@
       "learning_rate": 0.0001477721794706997,
       "loss": 0.0,
       "step": 34
     }
   ],
   "logging_steps": 1,
@@ -272,7 +399,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0001228862154342e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.05604010713549894,
   "eval_steps": 50,
+  "global_step": 51,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0001477721794706997,
       "loss": 0.0,
       "step": 34
+    },
+    {
+      "epoch": 0.038458897053773776,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001474444369716801,
+      "loss": 0.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.0395577226838816,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001470946271953739,
+      "loss": 0.0,
+      "step": 36
+    },
+    {
+      "epoch": 0.040656548313989425,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014672285669722765,
+      "loss": 0.0,
+      "step": 37
+    },
+    {
+      "epoch": 0.04175537394409724,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014632923872213652,
+      "loss": 0.0,
+      "step": 38
+    },
+    {
+      "epoch": 0.04285419957420507,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014591389316994876,
+      "loss": 0.0,
+      "step": 39
+    },
+    {
+      "epoch": 0.04395302520431289,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001454769465589431,
+      "loss": 0.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.04505185083442071,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014501853198729012,
+      "loss": 0.0,
+      "step": 41
+    },
+    {
+      "epoch": 0.046150676464528535,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014453878909250904,
+      "loss": 0.0,
+      "step": 42
+    },
+    {
+      "epoch": 0.04724950209463636,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014403786400893302,
+      "loss": 0.0,
+      "step": 43
+    },
+    {
+      "epoch": 0.04834832772474418,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014351590932319504,
+      "loss": 0.0,
+      "step": 44
+    },
+    {
+      "epoch": 0.049447153354852,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014297308402774875,
+      "loss": 0.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.05054597898495983,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001424095534724375,
+      "loss": 0.0,
+      "step": 46
+    },
+    {
+      "epoch": 0.051644804615067645,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014182548931412757,
+      "loss": 0.0,
+      "step": 47
+    },
+    {
+      "epoch": 0.05274363024517547,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001412210694644195,
+      "loss": 0.0,
+      "step": 48
+    },
+    {
+      "epoch": 0.05384245587528329,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014059647803545467,
+      "loss": 0.0,
+      "step": 49
+    },
+    {
+      "epoch": 0.05494128150539111,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001399519052838329,
+      "loss": 0.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.05494128150539111,
+      "eval_loss": NaN,
+      "eval_runtime": 638.0326,
+      "eval_samples_per_second": 4.805,
+      "eval_steps_per_second": 2.403,
+      "step": 50
+    },
+    {
+      "epoch": 0.05604010713549894,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013928754755265842,
+      "loss": 0.0,
+      "step": 51
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.0075800178917376e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null