Training in progress, step 76, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +277 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15a5e97ee51415c44dfd066e85165f682995c33d73ed3f15e25a657e740c5379
 size 598799664

 version https://git-lfs.github.com/spec/v1
+oid sha256:5184a9f855392b369617a571c4fe8c407c7dbd8eba55d46eea4846faa6eef1da
 size 598799664

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db94711a7ee8f479fb121ace99a38fd30aafe607ad9e798de567f72cbd6eff2a
 size 42898516

 version https://git-lfs.github.com/spec/v1
+oid sha256:123b917ce2349c1a74d8844eac29f8c6cf2dc99b9a864c096be4ff65462b6328
 size 42898516

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23f9d6ab1ccc7fe8b31acc1af34cd4adf9b85aa8b786d6c73f339fc8f77922ac
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:51a053afc2b69b6892ee05d33f3fb3716eac75fd7fbab8c36a6324da423adb8d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2c308cc707c2dec21968b9880f5c59e591a14c9a4dfeed75e541107cfb707ca
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc8e5f98da37dd5d6e76ad1dcd9560295d5ddc12e8c320cbe967800911c3d6c0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.03544776119402985,
   "eval_steps": 38,
-  "global_step": 38,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -289,6 +289,280 @@
       "eval_samples_per_second": 7.503,
       "eval_steps_per_second": 3.751,
       "step": 38
     }
   ],
   "logging_steps": 1,
@@ -308,7 +582,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4981999911567360.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0708955223880597,
   "eval_steps": 38,
+  "global_step": 76,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.503,
       "eval_steps_per_second": 3.751,
       "step": 38
+    },
+    {
+      "epoch": 0.036380597014925374,
+      "grad_norm": 1.4865802526474,
+      "learning_rate": 0.00035912490977635625,
+      "loss": 2.2656,
+      "step": 39
+    },
+    {
+      "epoch": 0.03731343283582089,
+      "grad_norm": 1.3488837480545044,
+      "learning_rate": 0.000356366296493606,
+      "loss": 1.9688,
+      "step": 40
+    },
+    {
+      "epoch": 0.03824626865671642,
+      "grad_norm": 1.4332904815673828,
+      "learning_rate": 0.0003535289480716022,
+      "loss": 2.2615,
+      "step": 41
+    },
+    {
+      "epoch": 0.03917910447761194,
+      "grad_norm": 1.516402006149292,
+      "learning_rate": 0.00035061429320072223,
+      "loss": 2.059,
+      "step": 42
+    },
+    {
+      "epoch": 0.04011194029850746,
+      "grad_norm": 1.4039419889450073,
+      "learning_rate": 0.00034762379949746815,
+      "loss": 2.1295,
+      "step": 43
+    },
+    {
+      "epoch": 0.041044776119402986,
+      "grad_norm": 1.2742645740509033,
+      "learning_rate": 0.0003445589727654783,
+      "loss": 2.1964,
+      "step": 44
+    },
+    {
+      "epoch": 0.04197761194029851,
+      "grad_norm": 1.115033507347107,
+      "learning_rate": 0.0003414213562373095,
+      "loss": 1.8306,
+      "step": 45
+    },
+    {
+      "epoch": 0.04291044776119403,
+      "grad_norm": 1.1708894968032837,
+      "learning_rate": 0.00033821252979737297,
+      "loss": 1.9652,
+      "step": 46
+    },
+    {
+      "epoch": 0.043843283582089554,
+      "grad_norm": 1.185393214225769,
+      "learning_rate": 0.0003349341091864149,
+      "loss": 1.8172,
+      "step": 47
+    },
+    {
+      "epoch": 0.04477611940298507,
+      "grad_norm": 1.1099275350570679,
+      "learning_rate": 0.00033158774518794254,
+      "loss": 1.7576,
+      "step": 48
+    },
+    {
+      "epoch": 0.0457089552238806,
+      "grad_norm": 1.0703908205032349,
+      "learning_rate": 0.0003281751227970048,
+      "loss": 1.9036,
+      "step": 49
+    },
+    {
+      "epoch": 0.04664179104477612,
+      "grad_norm": 1.1421232223510742,
+      "learning_rate": 0.00032469796037174674,
+      "loss": 1.9759,
+      "step": 50
+    },
+    {
+      "epoch": 0.04757462686567164,
+      "grad_norm": 1.1319009065628052,
+      "learning_rate": 0.000321158008768164,
+      "loss": 1.7476,
+      "step": 51
+    },
+    {
+      "epoch": 0.048507462686567165,
+      "grad_norm": 1.1899311542510986,
+      "learning_rate": 0.00031755705045849464,
+      "loss": 1.8308,
+      "step": 52
+    },
+    {
+      "epoch": 0.049440298507462684,
+      "grad_norm": 1.246800184249878,
+      "learning_rate": 0.0003138968986336904,
+      "loss": 1.9183,
+      "step": 53
+    },
+    {
+      "epoch": 0.05037313432835821,
+      "grad_norm": 1.207138180732727,
+      "learning_rate": 0.0003101793962904205,
+      "loss": 1.8768,
+      "step": 54
+    },
+    {
+      "epoch": 0.051305970149253734,
+      "grad_norm": 0.9686072468757629,
+      "learning_rate": 0.00030640641530306733,
+      "loss": 1.6107,
+      "step": 55
+    },
+    {
+      "epoch": 0.05223880597014925,
+      "grad_norm": 1.1268424987792969,
+      "learning_rate": 0.00030257985548118126,
+      "loss": 1.9169,
+      "step": 56
+    },
+    {
+      "epoch": 0.05317164179104478,
+      "grad_norm": 1.3243463039398193,
+      "learning_rate": 0.0002987016436128694,
+      "loss": 2.1651,
+      "step": 57
+    },
+    {
+      "epoch": 0.054104477611940295,
+      "grad_norm": 1.230141043663025,
+      "learning_rate": 0.0002947737324945997,
+      "loss": 2.0871,
+      "step": 58
+    },
+    {
+      "epoch": 0.05503731343283582,
+      "grad_norm": 1.0468418598175049,
+      "learning_rate": 0.00029079809994790937,
+      "loss": 1.7348,
+      "step": 59
+    },
+    {
+      "epoch": 0.055970149253731345,
+      "grad_norm": 1.3394778966903687,
+      "learning_rate": 0.00028677674782351165,
+      "loss": 2.3597,
+      "step": 60
+    },
+    {
+      "epoch": 0.05690298507462686,
+      "grad_norm": 1.2126855850219727,
+      "learning_rate": 0.00028271170099330415,
+      "loss": 2.0063,
+      "step": 61
+    },
+    {
+      "epoch": 0.05783582089552239,
+      "grad_norm": 1.2102502584457397,
+      "learning_rate": 0.00027860500633078477,
+      "loss": 2.0048,
+      "step": 62
+    },
+    {
+      "epoch": 0.058768656716417914,
+      "grad_norm": 1.2987444400787354,
+      "learning_rate": 0.00027445873168038907,
+      "loss": 2.6436,
+      "step": 63
+    },
+    {
+      "epoch": 0.05970149253731343,
+      "grad_norm": 1.1055057048797607,
+      "learning_rate": 0.0002702749648162686,
+      "loss": 1.8015,
+      "step": 64
+    },
+    {
+      "epoch": 0.06063432835820896,
+      "grad_norm": 1.1894230842590332,
+      "learning_rate": 0.00026605581239103347,
+      "loss": 2.0075,
+      "step": 65
+    },
+    {
+      "epoch": 0.061567164179104475,
+      "grad_norm": 0.9544552564620972,
+      "learning_rate": 0.00026180339887498953,
+      "loss": 1.5043,
+      "step": 66
+    },
+    {
+      "epoch": 0.0625,
+      "grad_norm": 1.2134445905685425,
+      "learning_rate": 0.00025751986548640346,
+      "loss": 1.9537,
+      "step": 67
+    },
+    {
+      "epoch": 0.06343283582089553,
+      "grad_norm": 1.061187505722046,
+      "learning_rate": 0.00025320736911333503,
+      "loss": 1.6231,
+      "step": 68
+    },
+    {
+      "epoch": 0.06436567164179105,
+      "grad_norm": 1.1641594171524048,
+      "learning_rate": 0.0002488680812275788,
+      "loss": 1.6016,
+      "step": 69
+    },
+    {
+      "epoch": 0.06529850746268656,
+      "grad_norm": 1.1650375127792358,
+      "learning_rate": 0.0002445041867912629,
+      "loss": 1.8811,
+      "step": 70
+    },
+    {
+      "epoch": 0.06623134328358209,
+      "grad_norm": 1.319548487663269,
+      "learning_rate": 0.00024011788315665458,
+      "loss": 1.7969,
+      "step": 71
+    },
+    {
+      "epoch": 0.06716417910447761,
+      "grad_norm": 1.009516954421997,
+      "learning_rate": 0.00023571137895972733,
+      "loss": 1.4261,
+      "step": 72
+    },
+    {
+      "epoch": 0.06809701492537314,
+      "grad_norm": 1.1219674348831177,
+      "learning_rate": 0.0002312868930080462,
+      "loss": 1.5247,
+      "step": 73
+    },
+    {
+      "epoch": 0.06902985074626866,
+      "grad_norm": 1.0498907566070557,
+      "learning_rate": 0.0002268466531635311,
+      "loss": 1.7131,
+      "step": 74
+    },
+    {
+      "epoch": 0.06996268656716417,
+      "grad_norm": 1.0986140966415405,
+      "learning_rate": 0.00022239289522066157,
+      "loss": 1.7584,
+      "step": 75
+    },
+    {
+      "epoch": 0.0708955223880597,
+      "grad_norm": 1.2214365005493164,
+      "learning_rate": 0.00021792786178068672,
+      "loss": 1.7782,
+      "step": 76
+    },
+    {
+      "epoch": 0.0708955223880597,
+      "eval_loss": 0.47117629647254944,
+      "eval_runtime": 60.2201,
+      "eval_samples_per_second": 7.506,
+      "eval_steps_per_second": 3.753,
+      "step": 76
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9963999823134720.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null