Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13b612a7965f275dc5396b23fd0bd952952c11c2200906b97934bf059371a7f7
 size 159712

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7b2726c067ceb015977b793b11e76c3dd71c19e7f1770c1abf477e6dcc87497
 size 159712

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c3770920a8fd14d121f571323bd06444bc617f6d9c5508d08f99888c54f4d79
 size 336202

 version https://git-lfs.github.com/spec/v1
+oid sha256:80aafa1870be89def46775c0f33f2aa72591701074aae27a7137bfd15797bcc8
 size 336202

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a080d3277fb6ccb5ed989cb90ca2c5dbb10923ca8748d5a82c16ca3dd1e9dbd3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7390d69c035960909a3614dd1bb0738527d72c78eaafed1ea04f6c83d7885b4d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d8615f1aeccd0f9873fc0cf2c0322fde20ac202421c015654a471730a5fa755
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:feed204db996a9f7ac3167cc4686c04dccd6605b9b2a7d539da6ff57c605983d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.08163265306122448,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 1.1736481776669307e-05,
       "loss": 10.8299,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 16501859942400.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.12244897959183673,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.1736481776669307e-05,
       "loss": 10.8299,
       "step": 50
+    },
+    {
+      "epoch": 0.08326530612244898,
+      "grad_norm": 0.4201260507106781,
+      "learning_rate": 1.1391731009600655e-05,
+      "loss": 10.8119,
+      "step": 51
+    },
+    {
+      "epoch": 0.08489795918367347,
+      "grad_norm": 0.39234814047813416,
+      "learning_rate": 1.1045284632676535e-05,
+      "loss": 10.8114,
+      "step": 52
+    },
+    {
+      "epoch": 0.08653061224489796,
+      "grad_norm": 0.39883697032928467,
+      "learning_rate": 1.0697564737441254e-05,
+      "loss": 10.8213,
+      "step": 53
+    },
+    {
+      "epoch": 0.08816326530612245,
+      "grad_norm": 0.3016551434993744,
+      "learning_rate": 1.0348994967025012e-05,
+      "loss": 10.8257,
+      "step": 54
+    },
+    {
+      "epoch": 0.08816326530612245,
+      "eval_loss": 10.823841094970703,
+      "eval_runtime": 3.2735,
+      "eval_samples_per_second": 157.631,
+      "eval_steps_per_second": 19.857,
+      "step": 54
+    },
+    {
+      "epoch": 0.08979591836734693,
+      "grad_norm": 0.3536202907562256,
+      "learning_rate": 1e-05,
+      "loss": 10.8218,
+      "step": 55
+    },
+    {
+      "epoch": 0.09142857142857143,
+      "grad_norm": 0.3456736207008362,
+      "learning_rate": 9.651005032974994e-06,
+      "loss": 10.8277,
+      "step": 56
+    },
+    {
+      "epoch": 0.09306122448979592,
+      "grad_norm": 0.3298264145851135,
+      "learning_rate": 9.302435262558748e-06,
+      "loss": 10.8243,
+      "step": 57
+    },
+    {
+      "epoch": 0.0946938775510204,
+      "grad_norm": 0.4061192274093628,
+      "learning_rate": 8.954715367323468e-06,
+      "loss": 10.8157,
+      "step": 58
+    },
+    {
+      "epoch": 0.0963265306122449,
+      "grad_norm": 0.404811829328537,
+      "learning_rate": 8.60826899039935e-06,
+      "loss": 10.8105,
+      "step": 59
+    },
+    {
+      "epoch": 0.09795918367346938,
+      "grad_norm": 0.40592458844184875,
+      "learning_rate": 8.263518223330698e-06,
+      "loss": 10.8179,
+      "step": 60
+    },
+    {
+      "epoch": 0.09959183673469388,
+      "grad_norm": 0.3541053831577301,
+      "learning_rate": 7.92088309182241e-06,
+      "loss": 10.8242,
+      "step": 61
+    },
+    {
+      "epoch": 0.10122448979591837,
+      "grad_norm": 0.322318971157074,
+      "learning_rate": 7.580781044003324e-06,
+      "loss": 10.827,
+      "step": 62
+    },
+    {
+      "epoch": 0.10285714285714286,
+      "grad_norm": 0.36938780546188354,
+      "learning_rate": 7.243626441830009e-06,
+      "loss": 10.8152,
+      "step": 63
+    },
+    {
+      "epoch": 0.10285714285714286,
+      "eval_loss": 10.82233715057373,
+      "eval_runtime": 3.9005,
+      "eval_samples_per_second": 132.29,
+      "eval_steps_per_second": 16.664,
+      "step": 63
+    },
+    {
+      "epoch": 0.10448979591836735,
+      "grad_norm": 0.3522907495498657,
+      "learning_rate": 6.909830056250527e-06,
+      "loss": 10.813,
+      "step": 64
+    },
+    {
+      "epoch": 0.10612244897959183,
+      "grad_norm": 0.4052838385105133,
+      "learning_rate": 6.579798566743314e-06,
+      "loss": 10.8225,
+      "step": 65
+    },
+    {
+      "epoch": 0.10775510204081633,
+      "grad_norm": 0.3478013575077057,
+      "learning_rate": 6.25393406584088e-06,
+      "loss": 10.8207,
+      "step": 66
+    },
+    {
+      "epoch": 0.10938775510204081,
+      "grad_norm": 0.3661433160305023,
+      "learning_rate": 5.932633569242e-06,
+      "loss": 10.8141,
+      "step": 67
+    },
+    {
+      "epoch": 0.1110204081632653,
+      "grad_norm": 0.30546510219573975,
+      "learning_rate": 5.616288532109225e-06,
+      "loss": 10.8194,
+      "step": 68
+    },
+    {
+      "epoch": 0.1126530612244898,
+      "grad_norm": 0.3616853952407837,
+      "learning_rate": 5.305284372141095e-06,
+      "loss": 10.8135,
+      "step": 69
+    },
+    {
+      "epoch": 0.11428571428571428,
+      "grad_norm": 0.38204777240753174,
+      "learning_rate": 5.000000000000003e-06,
+      "loss": 10.8198,
+      "step": 70
+    },
+    {
+      "epoch": 0.11591836734693878,
+      "grad_norm": 0.347457617521286,
+      "learning_rate": 4.700807357667953e-06,
+      "loss": 10.8235,
+      "step": 71
+    },
+    {
+      "epoch": 0.11755102040816326,
+      "grad_norm": 0.30413001775741577,
+      "learning_rate": 4.408070965292534e-06,
+      "loss": 10.8379,
+      "step": 72
+    },
+    {
+      "epoch": 0.11755102040816326,
+      "eval_loss": 10.821290969848633,
+      "eval_runtime": 3.9229,
+      "eval_samples_per_second": 131.536,
+      "eval_steps_per_second": 16.569,
+      "step": 72
+    },
+    {
+      "epoch": 0.11918367346938775,
+      "grad_norm": 0.3408275246620178,
+      "learning_rate": 4.12214747707527e-06,
+      "loss": 10.823,
+      "step": 73
+    },
+    {
+      "epoch": 0.12081632653061225,
+      "grad_norm": 0.37985777854919434,
+      "learning_rate": 3.8433852467434175e-06,
+      "loss": 10.8096,
+      "step": 74
+    },
+    {
+      "epoch": 0.12244897959183673,
+      "grad_norm": 0.34624186158180237,
+      "learning_rate": 3.5721239031346067e-06,
+      "loss": 10.8258,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 24752789913600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null