Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +151 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6999e24123d71e266bce59d9e1aba3d3dc179d65fddb2799602f1ec6b06ec88
 size 1579384

 version https://git-lfs.github.com/spec/v1
+oid sha256:16785a61aa31cea9df62cbd18f8208d660df29185f09b9dd0e9aca0d2438e96a
 size 1579384

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a24c8e6f1679121a45e039226c334660e57958441ed30e7b750f382172ca295
 size 857274

 version https://git-lfs.github.com/spec/v1
+oid sha256:9518499bb798c1ce79529bad3ff555316b6ee700915fcec92bf1504941a05032
 size 857274

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86f99ea925931374a371696b51a9fff3344409b7210b2f4affdc7a33396cfaa0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:cace2bb20bc8ba875286724acbfadddec3e5175c4ce467dea9a6adf2fcb4cb03
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1be5e7bccc826efde7cd880e840bc1b1679bfe2c43db648052cc366c4bb703b5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2036ec7b8a4c0dbbd07ada2b2af7c3be05d304eb60a4492cb7e057daf83ea234
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.052824893731170816,
   "eval_steps": 20,
-  "global_step": 80,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -607,6 +607,154 @@
       "eval_samples_per_second": 74.747,
       "eval_steps_per_second": 74.747,
       "step": 80
     }
   ],
   "logging_steps": 1,
@@ -626,7 +774,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 56162839953408.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.06603111716396352,
   "eval_steps": 20,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 74.747,
       "eval_steps_per_second": 74.747,
       "step": 80
+    },
+    {
+      "epoch": 0.05348520490281045,
+      "grad_norm": 259394.6875,
+      "learning_rate": 0.00025777547044259435,
+      "loss": 200.2073,
+      "step": 81
+    },
+    {
+      "epoch": 0.05414551607445008,
+      "grad_norm": 1378326.625,
+      "learning_rate": 0.0002566389691674106,
+      "loss": 100.5475,
+      "step": 82
+    },
+    {
+      "epoch": 0.05480582724608972,
+      "grad_norm": 63462.6875,
+      "learning_rate": 0.00025548995333638197,
+      "loss": 189.407,
+      "step": 83
+    },
+    {
+      "epoch": 0.055466138417729356,
+      "grad_norm": 149989.21875,
+      "learning_rate": 0.00025432855779161076,
+      "loss": 655.0445,
+      "step": 84
+    },
+    {
+      "epoch": 0.05612644958936899,
+      "grad_norm": 161908.9375,
+      "learning_rate": 0.00025315491882801347,
+      "loss": 542.2335,
+      "step": 85
+    },
+    {
+      "epoch": 0.05678676076100862,
+      "grad_norm": 140391.09375,
+      "learning_rate": 0.00025196917417732615,
+      "loss": 178.0071,
+      "step": 86
+    },
+    {
+      "epoch": 0.05744707193264826,
+      "grad_norm": 45774.61328125,
+      "learning_rate": 0.0002507714629919409,
+      "loss": 145.9398,
+      "step": 87
+    },
+    {
+      "epoch": 0.058107383104287896,
+      "grad_norm": 74355.359375,
+      "learning_rate": 0.0002495619258285757,
+      "loss": 162.5158,
+      "step": 88
+    },
+    {
+      "epoch": 0.05876769427592753,
+      "grad_norm": 112329.7265625,
+      "learning_rate": 0.0002483407046317794,
+      "loss": 223.498,
+      "step": 89
+    },
+    {
+      "epoch": 0.05942800544756716,
+      "grad_norm": 488449.875,
+      "learning_rate": 0.00024710794271727413,
+      "loss": 223.1561,
+      "step": 90
+    },
+    {
+      "epoch": 0.0600883166192068,
+      "grad_norm": 146916.296875,
+      "learning_rate": 0.0002458637847551364,
+      "loss": 252.3947,
+      "step": 91
+    },
+    {
+      "epoch": 0.060748627790846436,
+      "grad_norm": 115853.0703125,
+      "learning_rate": 0.00024460837675281926,
+      "loss": 265.611,
+      "step": 92
+    },
+    {
+      "epoch": 0.06140893896248607,
+      "grad_norm": 95760.921875,
+      "learning_rate": 0.00024334186603801807,
+      "loss": 195.9439,
+      "step": 93
+    },
+    {
+      "epoch": 0.06206925013412571,
+      "grad_norm": 58220.4609375,
+      "learning_rate": 0.00024206440124138062,
+      "loss": 173.6973,
+      "step": 94
+    },
+    {
+      "epoch": 0.06272956130576535,
+      "grad_norm": 44573.25390625,
+      "learning_rate": 0.0002407761322790648,
+      "loss": 130.0355,
+      "step": 95
+    },
+    {
+      "epoch": 0.06338987247740498,
+      "grad_norm": 48302.27734375,
+      "learning_rate": 0.00023947721033514512,
+      "loss": 110.2012,
+      "step": 96
+    },
+    {
+      "epoch": 0.0640501836490446,
+      "grad_norm": 18446.73046875,
+      "learning_rate": 0.00023816778784387094,
+      "loss": 118.2505,
+      "step": 97
+    },
+    {
+      "epoch": 0.06471049482068425,
+      "grad_norm": 35311.09375,
+      "learning_rate": 0.0002368480184717773,
+      "loss": 133.5809,
+      "step": 98
+    },
+    {
+      "epoch": 0.06537080599232388,
+      "grad_norm": 38145.79296875,
+      "learning_rate": 0.00023551805709965147,
+      "loss": 129.8271,
+      "step": 99
+    },
+    {
+      "epoch": 0.06603111716396352,
+      "grad_norm": 32865.98046875,
+      "learning_rate": 0.00023417805980435736,
+      "loss": 116.0362,
+      "step": 100
+    },
+    {
+      "epoch": 0.06603111716396352,
+      "eval_loss": 9.961955070495605,
+      "eval_runtime": 6.5733,
+      "eval_samples_per_second": 75.305,
+      "eval_steps_per_second": 75.305,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 65231696953344.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null