Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5fc52138099df4670f14bc8690c0f48cfabf38f490afd76b18b01a4b0a5404b8
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:90919c1368a5b3c3506848efba5b7a545222095f6480d511ef5dc20ee4f752ac
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:530693f3a5f100dc07369324bd6a0578d7bd1cd598ef6b4e255599f96ab3ee8b
 size 320194002

 version https://git-lfs.github.com/spec/v1
+oid sha256:144eec9209a6d9eb6941d6e6756f55b220e3ceb07e72566602d05d41722016fc
 size 320194002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0160325f3cfb2789544f924daf3b9721842346abd05e8dbfa142d277b468e99a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff117b2b37bde812847adc6eed8bdc759c3c07f5d1cbee1f5506533e03306f92
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.037064492216456635,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.219,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.63366161088512e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.07412898443291327,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.219,
       "step": 25
+    },
+    {
+      "epoch": 0.0385470719051149,
+      "grad_norm": 2.5575437545776367,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.5638,
+      "step": 26
+    },
+    {
+      "epoch": 0.04002965159377316,
+      "grad_norm": 3.1489202976226807,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 0.1793,
+      "step": 27
+    },
+    {
+      "epoch": 0.04002965159377316,
+      "eval_loss": 0.14556753635406494,
+      "eval_runtime": 69.5326,
+      "eval_samples_per_second": 8.169,
+      "eval_steps_per_second": 1.021,
+      "step": 27
+    },
+    {
+      "epoch": 0.04151223128243143,
+      "grad_norm": 2.429274559020996,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.4793,
+      "step": 28
+    },
+    {
+      "epoch": 0.042994810971089696,
+      "grad_norm": 1.9509632587432861,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 0.4278,
+      "step": 29
+    },
+    {
+      "epoch": 0.04447739065974796,
+      "grad_norm": 1.8806370496749878,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.3179,
+      "step": 30
+    },
+    {
+      "epoch": 0.04595997034840623,
+      "grad_norm": 1.5672978162765503,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.2368,
+      "step": 31
+    },
+    {
+      "epoch": 0.04744255003706449,
+      "grad_norm": 1.8994029760360718,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.3258,
+      "step": 32
+    },
+    {
+      "epoch": 0.04892512972572276,
+      "grad_norm": 0.3584083914756775,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.0261,
+      "step": 33
+    },
+    {
+      "epoch": 0.050407709414381024,
+      "grad_norm": 20.641138076782227,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.2844,
+      "step": 34
+    },
+    {
+      "epoch": 0.05189028910303929,
+      "grad_norm": 1.0512652397155762,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.078,
+      "step": 35
+    },
+    {
+      "epoch": 0.05337286879169755,
+      "grad_norm": 1.5341689586639404,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.1862,
+      "step": 36
+    },
+    {
+      "epoch": 0.05337286879169755,
+      "eval_loss": 0.10944854468107224,
+      "eval_runtime": 69.5263,
+      "eval_samples_per_second": 8.17,
+      "eval_steps_per_second": 1.021,
+      "step": 36
+    },
+    {
+      "epoch": 0.05485544848035582,
+      "grad_norm": 1.0907577276229858,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.0845,
+      "step": 37
+    },
+    {
+      "epoch": 0.056338028169014086,
+      "grad_norm": 3.018357515335083,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.2438,
+      "step": 38
+    },
+    {
+      "epoch": 0.05782060785767235,
+      "grad_norm": 2.455247640609741,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.2814,
+      "step": 39
+    },
+    {
+      "epoch": 0.05930318754633061,
+      "grad_norm": 1.3131052255630493,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.15,
+      "step": 40
+    },
+    {
+      "epoch": 0.06078576723498888,
+      "grad_norm": 3.73819899559021,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.5374,
+      "step": 41
+    },
+    {
+      "epoch": 0.06226834692364715,
+      "grad_norm": 2.3663792610168457,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.2676,
+      "step": 42
+    },
+    {
+      "epoch": 0.06375092661230541,
+      "grad_norm": 1.835417628288269,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.1357,
+      "step": 43
+    },
+    {
+      "epoch": 0.06523350630096368,
+      "grad_norm": 2.896899461746216,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.1411,
+      "step": 44
+    },
+    {
+      "epoch": 0.06671608598962195,
+      "grad_norm": 1.5244169235229492,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.2247,
+      "step": 45
+    },
+    {
+      "epoch": 0.06671608598962195,
+      "eval_loss": 0.08920716494321823,
+      "eval_runtime": 69.558,
+      "eval_samples_per_second": 8.166,
+      "eval_steps_per_second": 1.021,
+      "step": 45
+    },
+    {
+      "epoch": 0.0681986656782802,
+      "grad_norm": 1.3107813596725464,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.3675,
+      "step": 46
+    },
+    {
+      "epoch": 0.06968124536693847,
+      "grad_norm": 1.982515573501587,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.2806,
+      "step": 47
+    },
+    {
+      "epoch": 0.07116382505559674,
+      "grad_norm": 0.5991136431694031,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.0344,
+      "step": 48
+    },
+    {
+      "epoch": 0.072646404744255,
+      "grad_norm": 0.9610239267349243,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.183,
+      "step": 49
+    },
+    {
+      "epoch": 0.07412898443291327,
+      "grad_norm": 6.47637939453125,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.0722,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.26732322177024e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null