Training in progress, step 34, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +122 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1cc72119ca5ae944a23b14a1d6951b828af94c45d6b53afb236d2154529637ac
 size 640009682

 version https://git-lfs.github.com/spec/v1
+oid sha256:2191d75ff3a3cbc5977ee6aa1fa814e46a578f07c9693689328ea208bbf4be39
 size 640009682

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3caf7344f6170636283039b6767253c00cec6c432f431570e7311bc83261018
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff7d13d5439a9e3c4d151b127166791f2357c478fbaa7a80e57f5222b10418b9
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0abe1a027b3fea2bf654a1c387b6eb2241fa486bab4a282d3a0e829c4308c91
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e1983b20d7ce0214623b79adb071ed1f5c168cabcab4cc0ff2c0c61c63ddce9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.01868003571183298,
   "eval_steps": 50,
-  "global_step": 17,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -134,6 +134,125 @@
       "learning_rate": 0.00012749999999999998,
       "loss": 0.0,
       "step": 17
     }
   ],
   "logging_steps": 1,
@@ -153,7 +272,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.910222681905562e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.03736007142366596,
   "eval_steps": 50,
+  "global_step": 34,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00012749999999999998,
       "loss": 0.0,
       "step": 17
+    },
+    {
+      "epoch": 0.0197788613419408,
+      "grad_norm": NaN,
+      "learning_rate": 0.000135,
+      "loss": 0.0,
+      "step": 18
+    },
+    {
+      "epoch": 0.02087768697204862,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001425,
+      "loss": 0.0,
+      "step": 19
+    },
+    {
+      "epoch": 0.021976512602156446,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015,
+      "loss": 0.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.023075338232264268,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014998857713672935,
+      "loss": 0.0,
+      "step": 21
+    },
+    {
+      "epoch": 0.02417416386237209,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014995431202643217,
+      "loss": 0.0,
+      "step": 22
+    },
+    {
+      "epoch": 0.025272989492479914,
+      "grad_norm": NaN,
+      "learning_rate": 0.000149897215106593,
+      "loss": 0.0,
+      "step": 23
+    },
+    {
+      "epoch": 0.026371815122587735,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001498173037694868,
+      "loss": 0.0,
+      "step": 24
+    },
+    {
+      "epoch": 0.027470640752695556,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001497146023568809,
+      "loss": 0.0,
+      "step": 25
+    },
+    {
+      "epoch": 0.028569466382803377,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014958914215262048,
+      "loss": 0.0,
+      "step": 26
+    },
+    {
+      "epoch": 0.029668292012911202,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014944096137309914,
+      "loss": 0.0,
+      "step": 27
+    },
+    {
+      "epoch": 0.030767117643019024,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014927010515561776,
+      "loss": 0.0,
+      "step": 28
+    },
+    {
+      "epoch": 0.03186594327312685,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014907662554463532,
+      "loss": 0.0,
+      "step": 29
+    },
+    {
+      "epoch": 0.032964768903234666,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001488605814759156,
+      "loss": 0.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.03406359453334249,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014862203875857477,
+      "loss": 0.0,
+      "step": 31
+    },
+    {
+      "epoch": 0.035162420163450316,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001483610700550354,
+      "loss": 0.0,
+      "step": 32
+    },
+    {
+      "epoch": 0.03626124579355813,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014807775485889264,
+      "loss": 0.0,
+      "step": 33
+    },
+    {
+      "epoch": 0.03736007142366596,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001477721794706997,
+      "loss": 0.0,
+      "step": 34
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.0001228862154342e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null