Training in progress, step 120, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +151 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16785a61aa31cea9df62cbd18f8208d660df29185f09b9dd0e9aca0d2438e96a
 size 1579384

 version https://git-lfs.github.com/spec/v1
+oid sha256:393273cdca286ccb40e14205ea36723e7c5c1240080ed35a78dbeb665d070ee9
 size 1579384

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9518499bb798c1ce79529bad3ff555316b6ee700915fcec92bf1504941a05032
 size 857274

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d54a2e2580a8617019d978feb2d6817db3c1af9507f0f49fc2ef229fd5ccdce
 size 857274

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cace2bb20bc8ba875286724acbfadddec3e5175c4ce467dea9a6adf2fcb4cb03
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:eed95f9b60d673089274be5847cbb94c802446b0a76989fa02d0940d21190b7e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2036ec7b8a4c0dbbd07ada2b2af7c3be05d304eb60a4492cb7e057daf83ea234
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a705acd53999263a453e7147fb79a4ea1e0e69c6cfafd3b3b9170876c31d6d7f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.06603111716396352,
   "eval_steps": 20,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -755,6 +755,154 @@
       "eval_samples_per_second": 75.305,
       "eval_steps_per_second": 75.305,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -774,7 +922,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 65231696953344.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.07923734059675622,
   "eval_steps": 20,
+  "global_step": 120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 75.305,
       "eval_steps_per_second": 75.305,
       "step": 100
+    },
+    {
+      "epoch": 0.06669142833560315,
+      "grad_norm": 18817.16796875,
+      "learning_rate": 0.00023282818384051866,
+      "loss": 113.1262,
+      "step": 101
+    },
+    {
+      "epoch": 0.06735173950724278,
+      "grad_norm": 24054.869140625,
+      "learning_rate": 0.00023146858762206489,
+      "loss": 108.1982,
+      "step": 102
+    },
+    {
+      "epoch": 0.06801205067888243,
+      "grad_norm": 34655.8671875,
+      "learning_rate": 0.00023009943070364044,
+      "loss": 108.4203,
+      "step": 103
+    },
+    {
+      "epoch": 0.06867236185052206,
+      "grad_norm": 29425.787109375,
+      "learning_rate": 0.0002287208737618801,
+      "loss": 107.4073,
+      "step": 104
+    },
+    {
+      "epoch": 0.0693326730221617,
+      "grad_norm": 13952.1171875,
+      "learning_rate": 0.00022733307857655325,
+      "loss": 105.1398,
+      "step": 105
+    },
+    {
+      "epoch": 0.06999298419380133,
+      "grad_norm": 20227.431640625,
+      "learning_rate": 0.00022593620801157808,
+      "loss": 115.2134,
+      "step": 106
+    },
+    {
+      "epoch": 0.07065329536544096,
+      "grad_norm": 19999.79296875,
+      "learning_rate": 0.00022453042599590882,
+      "loss": 113.6159,
+      "step": 107
+    },
+    {
+      "epoch": 0.0713136065370806,
+      "grad_norm": 18226.33203125,
+      "learning_rate": 0.00022311589750429787,
+      "loss": 110.2182,
+      "step": 108
+    },
+    {
+      "epoch": 0.07197391770872023,
+      "grad_norm": 15471.123046875,
+      "learning_rate": 0.00022169278853793545,
+      "loss": 98.862,
+      "step": 109
+    },
+    {
+      "epoch": 0.07263422888035986,
+      "grad_norm": 9518.90625,
+      "learning_rate": 0.00022026126610496852,
+      "loss": 100.519,
+      "step": 110
+    },
+    {
+      "epoch": 0.07329454005199951,
+      "grad_norm": 12838.0771484375,
+      "learning_rate": 0.0002188214982009016,
+      "loss": 99.1184,
+      "step": 111
+    },
+    {
+      "epoch": 0.07395485122363914,
+      "grad_norm": 13236.9697265625,
+      "learning_rate": 0.00021737365378888187,
+      "loss": 108.3643,
+      "step": 112
+    },
+    {
+      "epoch": 0.07461516239527878,
+      "grad_norm": 21540.712890625,
+      "learning_rate": 0.00021591790277987043,
+      "loss": 106.4385,
+      "step": 113
+    },
+    {
+      "epoch": 0.07527547356691841,
+      "grad_norm": 13282.7333984375,
+      "learning_rate": 0.00021445441601270276,
+      "loss": 111.6325,
+      "step": 114
+    },
+    {
+      "epoch": 0.07593578473855804,
+      "grad_norm": 32402.203125,
+      "learning_rate": 0.00021298336523403968,
+      "loss": 102.4856,
+      "step": 115
+    },
+    {
+      "epoch": 0.07659609591019768,
+      "grad_norm": 23308.939453125,
+      "learning_rate": 0.0002115049230782124,
+      "loss": 99.6906,
+      "step": 116
+    },
+    {
+      "epoch": 0.07725640708183731,
+      "grad_norm": 21524.953125,
+      "learning_rate": 0.00021001926304696296,
+      "loss": 90.451,
+      "step": 117
+    },
+    {
+      "epoch": 0.07791671825347696,
+      "grad_norm": 13045.5537109375,
+      "learning_rate": 0.00020852655948908316,
+      "loss": 93.52,
+      "step": 118
+    },
+    {
+      "epoch": 0.07857702942511659,
+      "grad_norm": 18377.09375,
+      "learning_rate": 0.0002070269875799538,
+      "loss": 85.6482,
+      "step": 119
+    },
+    {
+      "epoch": 0.07923734059675622,
+      "grad_norm": 12025.564453125,
+      "learning_rate": 0.00020552072330098716,
+      "loss": 89.6598,
+      "step": 120
+    },
+    {
+      "epoch": 0.07923734059675622,
+      "eval_loss": 12.788580894470215,
+      "eval_runtime": 6.5873,
+      "eval_samples_per_second": 75.145,
+      "eval_steps_per_second": 75.145,
+      "step": 120
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 81003622170624.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null