Training in progress, step 400, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/model-00001-of-00006.safetensors +1 -1
last-checkpoint/model-00002-of-00006.safetensors +1 -1
last-checkpoint/model-00003-of-00006.safetensors +1 -1
last-checkpoint/model-00004-of-00006.safetensors +1 -1
last-checkpoint/model-00005-of-00006.safetensors +1 -1
last-checkpoint/model-00006-of-00006.safetensors +1 -1
last-checkpoint/trainer_state.json +61 -901
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model-00001-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f15a4591473556bfaac1ced81957fc050b141200957cfcaf83cb122691e2b8e4
 size 4840658560

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef7402095373828868c6a8c82feed83c288050530180d57b6352e806cf58b1f6
 size 4840658560

last-checkpoint/model-00002-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3cefc26672d6ce6efc7657e0372d89102ee37b12add24160ca5637c8f3cb87b
 size 4857206856

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f62da095bfe2f7bab3bc886fc3bc2b6de500f06f57f897eafb8dc0efb326fd8
 size 4857206856

last-checkpoint/model-00003-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7daa48e544f96116a1eca2e4d7db6bf96f3f00600f37449fe6ba49fc67af58b7
 size 4857206904

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6b096a5676e65903cff59acf69d696927f6cc30a379206e9cf4eeece59d6d7a
 size 4857206904

last-checkpoint/model-00004-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:366ce992bffab8db702b6d7735a5d886cb11fcf6ac0967e8933a867969673dad
 size 4857206904

 version https://git-lfs.github.com/spec/v1
+oid sha256:de37c4d3e07cda4c12efbb271b44e386d980542786ad5bd58846677dc3229213
 size 4857206904

last-checkpoint/model-00005-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf077dce4adbce3723cbd433e7deca629645474c4b4fd0637236ecca4eb608a2
 size 4857206904

 version https://git-lfs.github.com/spec/v1
+oid sha256:64218f8c0e4a08ca5ebf894c332331d6e36968327167e22813cd4ea6e69a0e27
 size 4857206904

last-checkpoint/model-00006-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:409d7d18fbdb4afa35d377f8391ace2cc0ecfdf90d67a7519b93fe2eb4721fba
 size 2684734256

 version https://git-lfs.github.com/spec/v1
+oid sha256:e551d45159d773a5d9a73c93ba8e731328c39b98762114a539357d30098dd964
 size 2684734256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,980 +1,140 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.4,
   "eval_steps": 50,
-  "global_step": 3200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.1,
-      "grad_norm": 12.320382118225098,
-      "learning_rate": 2.8571428571428573e-06,
-      "loss": 1.5302,
       "step": 50
     },
     {
       "epoch": 0.1,
-      "eval_loss": 0.7372924089431763,
-      "eval_runtime": 2.2498,
-      "eval_samples_per_second": 69.34,
-      "eval_steps_per_second": 3.556,
       "step": 50
     },
     {
       "epoch": 0.2,
-      "grad_norm": 4.829532146453857,
-      "learning_rate": 5.7142857142857145e-06,
-      "loss": 0.7541,
       "step": 100
     },
     {
       "epoch": 0.2,
-      "eval_loss": 0.6880614161491394,
-      "eval_runtime": 2.2506,
-      "eval_samples_per_second": 69.315,
-      "eval_steps_per_second": 3.555,
       "step": 100
     },
     {
       "epoch": 0.3,
-      "grad_norm": 5.316766262054443,
-      "learning_rate": 8.571428571428571e-06,
-      "loss": 0.7326,
       "step": 150
     },
     {
       "epoch": 0.3,
-      "eval_loss": 0.679233968257904,
-      "eval_runtime": 2.2535,
-      "eval_samples_per_second": 69.226,
-      "eval_steps_per_second": 3.55,
       "step": 150
     },
     {
       "epoch": 0.4,
-      "grad_norm": 3.7690229415893555,
-      "learning_rate": 1.1428571428571429e-05,
-      "loss": 0.7385,
       "step": 200
     },
     {
       "epoch": 0.4,
-      "eval_loss": 0.6795465350151062,
-      "eval_runtime": 2.2551,
-      "eval_samples_per_second": 69.176,
-      "eval_steps_per_second": 3.547,
       "step": 200
     },
     {
       "epoch": 0.5,
-      "grad_norm": 6.483826160430908,
-      "learning_rate": 1.4285714285714287e-05,
-      "loss": 0.7114,
       "step": 250
     },
     {
       "epoch": 0.5,
-      "eval_loss": 0.69889897108078,
-      "eval_runtime": 2.2533,
-      "eval_samples_per_second": 69.233,
-      "eval_steps_per_second": 3.55,
       "step": 250
     },
     {
       "epoch": 0.6,
-      "grad_norm": 2.980480670928955,
-      "learning_rate": 1.7142857142857142e-05,
-      "loss": 0.7727,
       "step": 300
     },
     {
       "epoch": 0.6,
-      "eval_loss": 0.6955370903015137,
-      "eval_runtime": 2.2574,
-      "eval_samples_per_second": 69.107,
-      "eval_steps_per_second": 3.544,
       "step": 300
     },
     {
       "epoch": 0.7,
-      "grad_norm": 3.5569651126861572,
-      "learning_rate": 2e-05,
-      "loss": 0.7885,
       "step": 350
     },
     {
       "epoch": 0.7,
-      "eval_loss": 0.7241753935813904,
-      "eval_runtime": 2.2593,
-      "eval_samples_per_second": 69.047,
-      "eval_steps_per_second": 3.541,
       "step": 350
     },
     {
       "epoch": 0.8,
-      "grad_norm": 2.674492835998535,
-      "learning_rate": 1.9987569212189224e-05,
-      "loss": 0.7724,
       "step": 400
     },
     {
       "epoch": 0.8,
-      "eval_loss": 0.7127349972724915,
-      "eval_runtime": 2.2547,
-      "eval_samples_per_second": 69.188,
-      "eval_steps_per_second": 3.548,
-      "step": 400
-    },
-    {
-      "epoch": 0.9,
-      "grad_norm": 4.2005743980407715,
-      "learning_rate": 1.9950307753654016e-05,
-      "loss": 0.7883,
-      "step": 450
-    },
-    {
-      "epoch": 0.9,
-      "eval_loss": 0.7130094766616821,
-      "eval_runtime": 2.3009,
-      "eval_samples_per_second": 67.798,
-      "eval_steps_per_second": 3.477,
-      "step": 450
-    },
-    {
-      "epoch": 1.0,
-      "grad_norm": 2.7577402591705322,
-      "learning_rate": 1.9888308262251286e-05,
-      "loss": 0.7819,
-      "step": 500
-    },
-    {
-      "epoch": 1.0,
-      "eval_loss": 0.7020623683929443,
-      "eval_runtime": 2.9849,
-      "eval_samples_per_second": 52.263,
-      "eval_steps_per_second": 2.68,
-      "step": 500
-    },
-    {
-      "epoch": 1.1,
-      "grad_norm": 2.6879160404205322,
-      "learning_rate": 1.9801724878485438e-05,
-      "loss": 0.4665,
-      "step": 550
-    },
-    {
-      "epoch": 1.1,
-      "eval_loss": 0.7426314353942871,
-      "eval_runtime": 3.4217,
-      "eval_samples_per_second": 45.592,
-      "eval_steps_per_second": 2.338,
-      "step": 550
-    },
-    {
-      "epoch": 1.2,
-      "grad_norm": 2.7690176963806152,
-      "learning_rate": 1.969077286229078e-05,
-      "loss": 0.4805,
-      "step": 600
-    },
-    {
-      "epoch": 1.2,
-      "eval_loss": 0.7398442029953003,
-      "eval_runtime": 2.6618,
-      "eval_samples_per_second": 58.606,
-      "eval_steps_per_second": 3.005,
-      "step": 600
-    },
-    {
-      "epoch": 1.3,
-      "grad_norm": 2.0741443634033203,
-      "learning_rate": 1.955572805786141e-05,
-      "loss": 0.4674,
-      "step": 650
-    },
-    {
-      "epoch": 1.3,
-      "eval_loss": 0.7346900701522827,
-      "eval_runtime": 2.2666,
-      "eval_samples_per_second": 68.825,
-      "eval_steps_per_second": 3.529,
-      "step": 650
-    },
-    {
-      "epoch": 1.4,
-      "grad_norm": 1.9551373720169067,
-      "learning_rate": 1.9396926207859085e-05,
-      "loss": 0.4792,
-      "step": 700
-    },
-    {
-      "epoch": 1.4,
-      "eval_loss": 0.7401903867721558,
-      "eval_runtime": 2.2602,
-      "eval_samples_per_second": 69.019,
-      "eval_steps_per_second": 3.539,
-      "step": 700
-    },
-    {
-      "epoch": 1.5,
-      "grad_norm": 1.8908940553665161,
-      "learning_rate": 1.921476211870408e-05,
-      "loss": 0.4717,
-      "step": 750
-    },
-    {
-      "epoch": 1.5,
-      "eval_loss": 0.7299663424491882,
-      "eval_runtime": 2.2563,
-      "eval_samples_per_second": 69.14,
-      "eval_steps_per_second": 3.546,
-      "step": 750
-    },
-    {
-      "epoch": 1.6,
-      "grad_norm": 2.781102418899536,
-      "learning_rate": 1.900968867902419e-05,
-      "loss": 0.4765,
-      "step": 800
-    },
-    {
-      "epoch": 1.6,
-      "eval_loss": 0.7422571182250977,
-      "eval_runtime": 2.2558,
-      "eval_samples_per_second": 69.156,
-      "eval_steps_per_second": 3.546,
-      "step": 800
-    },
-    {
-      "epoch": 1.7,
-      "grad_norm": 2.0381083488464355,
-      "learning_rate": 1.8782215733702286e-05,
-      "loss": 0.4982,
-      "step": 850
-    },
-    {
-      "epoch": 1.7,
-      "eval_loss": 0.7189474701881409,
-      "eval_runtime": 2.8175,
-      "eval_samples_per_second": 55.369,
-      "eval_steps_per_second": 2.839,
-      "step": 850
-    },
-    {
-      "epoch": 1.8,
-      "grad_norm": 2.6000654697418213,
-      "learning_rate": 1.8532908816321557e-05,
-      "loss": 0.4798,
-      "step": 900
-    },
-    {
-      "epoch": 1.8,
-      "eval_loss": 0.7210726141929626,
-      "eval_runtime": 4.1738,
-      "eval_samples_per_second": 37.376,
-      "eval_steps_per_second": 1.917,
-      "step": 900
-    },
-    {
-      "epoch": 1.9,
-      "grad_norm": 2.4208157062530518,
-      "learning_rate": 1.826238774315995e-05,
-      "loss": 0.4977,
-      "step": 950
-    },
-    {
-      "epoch": 1.9,
-      "eval_loss": 0.7182486057281494,
-      "eval_runtime": 3.4468,
-      "eval_samples_per_second": 45.259,
-      "eval_steps_per_second": 2.321,
-      "step": 950
-    },
-    {
-      "epoch": 2.0,
-      "grad_norm": 2.4245738983154297,
-      "learning_rate": 1.7971325072229227e-05,
-      "loss": 0.4679,
-      "step": 1000
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 0.7213618755340576,
-      "eval_runtime": 2.7343,
-      "eval_samples_per_second": 57.053,
-      "eval_steps_per_second": 2.926,
-      "step": 1000
-    },
-    {
-      "epoch": 2.1,
-      "grad_norm": 2.163320302963257,
-      "learning_rate": 1.766044443118978e-05,
-      "loss": 0.2305,
-      "step": 1050
-    },
-    {
-      "epoch": 2.1,
-      "eval_loss": 0.8159535527229309,
-      "eval_runtime": 2.2585,
-      "eval_samples_per_second": 69.074,
-      "eval_steps_per_second": 3.542,
-      "step": 1050
-    },
-    {
-      "epoch": 2.2,
-      "grad_norm": 1.630889654159546,
-      "learning_rate": 1.7330518718298263e-05,
-      "loss": 0.2266,
-      "step": 1100
-    },
-    {
-      "epoch": 2.2,
-      "eval_loss": 0.8228777647018433,
-      "eval_runtime": 2.295,
-      "eval_samples_per_second": 67.975,
-      "eval_steps_per_second": 3.486,
-      "step": 1100
-    },
-    {
-      "epoch": 2.3,
-      "grad_norm": 2.260448455810547,
-      "learning_rate": 1.698236818086073e-05,
-      "loss": 0.2317,
-      "step": 1150
-    },
-    {
-      "epoch": 2.3,
-      "eval_loss": 0.8190523982048035,
-      "eval_runtime": 2.2571,
-      "eval_samples_per_second": 69.114,
-      "eval_steps_per_second": 3.544,
-      "step": 1150
-    },
-    {
-      "epoch": 2.4,
-      "grad_norm": 1.3863478899002075,
-      "learning_rate": 1.6616858375968596e-05,
-      "loss": 0.2342,
-      "step": 1200
-    },
-    {
-      "epoch": 2.4,
-      "eval_loss": 0.8243977427482605,
-      "eval_runtime": 2.2587,
-      "eval_samples_per_second": 69.067,
-      "eval_steps_per_second": 3.542,
-      "step": 1200
-    },
-    {
-      "epoch": 2.5,
-      "grad_norm": 2.200590133666992,
-      "learning_rate": 1.6234898018587336e-05,
-      "loss": 0.239,
-      "step": 1250
-    },
-    {
-      "epoch": 2.5,
-      "eval_loss": 0.8106646537780762,
-      "eval_runtime": 2.4225,
-      "eval_samples_per_second": 64.395,
-      "eval_steps_per_second": 3.302,
-      "step": 1250
-    },
-    {
-      "epoch": 2.6,
-      "grad_norm": 1.6970518827438354,
-      "learning_rate": 1.5837436722347902e-05,
-      "loss": 0.2391,
-      "step": 1300
-    },
-    {
-      "epoch": 2.6,
-      "eval_loss": 0.830450713634491,
-      "eval_runtime": 3.5213,
-      "eval_samples_per_second": 44.302,
-      "eval_steps_per_second": 2.272,
-      "step": 1300
-    },
-    {
-      "epoch": 2.7,
-      "grad_norm": 1.6799397468566895,
-      "learning_rate": 1.5425462638657597e-05,
-      "loss": 0.2348,
-      "step": 1350
-    },
-    {
-      "epoch": 2.7,
-      "eval_loss": 0.8164975047111511,
-      "eval_runtime": 4.3755,
-      "eval_samples_per_second": 35.653,
-      "eval_steps_per_second": 1.828,
-      "step": 1350
-    },
-    {
-      "epoch": 2.8,
-      "grad_norm": 1.6129848957061768,
-      "learning_rate": 1.5000000000000002e-05,
-      "loss": 0.2383,
-      "step": 1400
-    },
-    {
-      "epoch": 2.8,
-      "eval_loss": 0.8099900484085083,
-      "eval_runtime": 4.1168,
-      "eval_samples_per_second": 37.894,
-      "eval_steps_per_second": 1.943,
-      "step": 1400
-    },
-    {
-      "epoch": 2.9,
-      "grad_norm": 1.9729114770889282,
-      "learning_rate": 1.4562106573531632e-05,
-      "loss": 0.2357,
-      "step": 1450
-    },
-    {
-      "epoch": 2.9,
-      "eval_loss": 0.8040891289710999,
-      "eval_runtime": 2.2676,
-      "eval_samples_per_second": 68.796,
-      "eval_steps_per_second": 3.528,
-      "step": 1450
-    },
-    {
-      "epoch": 3.0,
-      "grad_norm": 1.3552831411361694,
-      "learning_rate": 1.4112871031306118e-05,
-      "loss": 0.2418,
-      "step": 1500
-    },
-    {
-      "epoch": 3.0,
-      "eval_loss": 0.7948845028877258,
-      "eval_runtime": 2.2537,
-      "eval_samples_per_second": 69.22,
-      "eval_steps_per_second": 3.55,
-      "step": 1500
-    },
-    {
-      "epoch": 3.1,
-      "grad_norm": 1.5692390203475952,
-      "learning_rate": 1.3653410243663953e-05,
-      "loss": 0.1423,
-      "step": 1550
-    },
-    {
-      "epoch": 3.1,
-      "eval_loss": 0.8620080947875977,
-      "eval_runtime": 2.2569,
-      "eval_samples_per_second": 69.12,
-      "eval_steps_per_second": 3.545,
-      "step": 1550
-    },
-    {
-      "epoch": 3.2,
-      "grad_norm": 1.1803256273269653,
-      "learning_rate": 1.3184866502516846e-05,
-      "loss": 0.1409,
-      "step": 1600
-    },
-    {
-      "epoch": 3.2,
-      "eval_loss": 0.8848384022712708,
-      "eval_runtime": 2.2588,
-      "eval_samples_per_second": 69.062,
-      "eval_steps_per_second": 3.542,
-      "step": 1600
-    },
-    {
-      "epoch": 3.3,
-      "grad_norm": 1.1109460592269897,
-      "learning_rate": 1.2708404681430054e-05,
-      "loss": 0.1496,
-      "step": 1650
-    },
-    {
-      "epoch": 3.3,
-      "eval_loss": 0.8655369281768799,
-      "eval_runtime": 4.4935,
-      "eval_samples_per_second": 34.717,
-      "eval_steps_per_second": 1.78,
-      "step": 1650
-    },
-    {
-      "epoch": 3.4,
-      "grad_norm": 1.0697747468948364,
-      "learning_rate": 1.2225209339563144e-05,
-      "loss": 0.1491,
-      "step": 1700
-    },
-    {
-      "epoch": 3.4,
-      "eval_loss": 0.8790720701217651,
-      "eval_runtime": 2.9231,
-      "eval_samples_per_second": 53.369,
-      "eval_steps_per_second": 2.737,
-      "step": 1700
-    },
-    {
-      "epoch": 3.5,
-      "grad_norm": 1.5176475048065186,
-      "learning_rate": 1.1736481776669307e-05,
-      "loss": 0.1475,
-      "step": 1750
-    },
-    {
-      "epoch": 3.5,
-      "eval_loss": 0.8695181608200073,
-      "eval_runtime": 2.8158,
-      "eval_samples_per_second": 55.401,
-      "eval_steps_per_second": 2.841,
-      "step": 1750
-    },
-    {
-      "epoch": 3.6,
-      "grad_norm": 2.0232934951782227,
-      "learning_rate": 1.1243437046474854e-05,
-      "loss": 0.1481,
-      "step": 1800
-    },
-    {
-      "epoch": 3.6,
-      "eval_loss": 0.8817379474639893,
-      "eval_runtime": 3.4544,
-      "eval_samples_per_second": 45.159,
-      "eval_steps_per_second": 2.316,
-      "step": 1800
-    },
-    {
-      "epoch": 3.7,
-      "grad_norm": 2.0155882835388184,
-      "learning_rate": 1.0747300935864245e-05,
-      "loss": 0.1514,
-      "step": 1850
-    },
-    {
-      "epoch": 3.7,
-      "eval_loss": 0.8860240578651428,
-      "eval_runtime": 2.2629,
-      "eval_samples_per_second": 68.939,
       "eval_steps_per_second": 3.535,
-      "step": 1850
-    },
-    {
-      "epoch": 3.8,
-      "grad_norm": 1.2712018489837646,
-      "learning_rate": 1.0249306917380731e-05,
-      "loss": 0.1421,
-      "step": 1900
-    },
-    {
-      "epoch": 3.8,
-      "eval_loss": 0.8792973756790161,
-      "eval_runtime": 2.2679,
-      "eval_samples_per_second": 68.786,
-      "eval_steps_per_second": 3.528,
-      "step": 1900
-    },
-    {
-      "epoch": 3.9,
-      "grad_norm": 1.3542224168777466,
-      "learning_rate": 9.750693082619274e-06,
-      "loss": 0.1446,
-      "step": 1950
-    },
-    {
-      "epoch": 3.9,
-      "eval_loss": 0.8789901733398438,
-      "eval_runtime": 2.2568,
-      "eval_samples_per_second": 69.126,
-      "eval_steps_per_second": 3.545,
-      "step": 1950
-    },
-    {
-      "epoch": 4.0,
-      "grad_norm": 1.1753352880477905,
-      "learning_rate": 9.252699064135759e-06,
-      "loss": 0.1458,
-      "step": 2000
-    },
-    {
-      "epoch": 4.0,
-      "eval_loss": 0.8896375894546509,
-      "eval_runtime": 2.2586,
-      "eval_samples_per_second": 69.069,
-      "eval_steps_per_second": 3.542,
-      "step": 2000
-    },
-    {
-      "epoch": 4.1,
-      "grad_norm": 1.1664059162139893,
-      "learning_rate": 8.756562953525151e-06,
-      "loss": 0.0943,
-      "step": 2050
-    },
-    {
-      "epoch": 4.1,
-      "eval_loss": 0.9453464150428772,
-      "eval_runtime": 2.7602,
-      "eval_samples_per_second": 56.517,
-      "eval_steps_per_second": 2.898,
-      "step": 2050
-    },
-    {
-      "epoch": 4.2,
-      "grad_norm": 0.8652101755142212,
-      "learning_rate": 8.263518223330698e-06,
-      "loss": 0.0936,
-      "step": 2100
-    },
-    {
-      "epoch": 4.2,
-      "eval_loss": 0.9263865947723389,
-      "eval_runtime": 2.7019,
-      "eval_samples_per_second": 57.738,
-      "eval_steps_per_second": 2.961,
-      "step": 2100
-    },
-    {
-      "epoch": 4.3,
-      "grad_norm": 1.1194976568222046,
-      "learning_rate": 7.774790660436857e-06,
-      "loss": 0.0944,
-      "step": 2150
-    },
-    {
-      "epoch": 4.3,
-      "eval_loss": 0.9188054203987122,
-      "eval_runtime": 2.4797,
-      "eval_samples_per_second": 62.91,
-      "eval_steps_per_second": 3.226,
-      "step": 2150
-    },
-    {
-      "epoch": 4.4,
-      "grad_norm": 0.8499676585197449,
-      "learning_rate": 7.291595318569951e-06,
-      "loss": 0.0946,
-      "step": 2200
-    },
-    {
-      "epoch": 4.4,
-      "eval_loss": 0.9282132387161255,
-      "eval_runtime": 4.1021,
-      "eval_samples_per_second": 38.03,
-      "eval_steps_per_second": 1.95,
-      "step": 2200
-    },
-    {
-      "epoch": 4.5,
-      "grad_norm": 0.9869304299354553,
-      "learning_rate": 6.815133497483157e-06,
-      "loss": 0.0914,
-      "step": 2250
-    },
-    {
-      "epoch": 4.5,
-      "eval_loss": 0.9421446323394775,
-      "eval_runtime": 2.2639,
-      "eval_samples_per_second": 68.908,
-      "eval_steps_per_second": 3.534,
-      "step": 2250
-    },
-    {
-      "epoch": 4.6,
-      "grad_norm": 0.7122153043746948,
-      "learning_rate": 6.34658975633605e-06,
-      "loss": 0.0927,
-      "step": 2300
-    },
-    {
-      "epoch": 4.6,
-      "eval_loss": 0.9317699074745178,
-      "eval_runtime": 2.2762,
-      "eval_samples_per_second": 68.535,
-      "eval_steps_per_second": 3.515,
-      "step": 2300
-    },
-    {
-      "epoch": 4.7,
-      "grad_norm": 0.7879806756973267,
-      "learning_rate": 5.887128968693887e-06,
-      "loss": 0.0926,
-      "step": 2350
-    },
-    {
-      "epoch": 4.7,
-      "eval_loss": 0.9379280209541321,
-      "eval_runtime": 2.2587,
-      "eval_samples_per_second": 69.065,
-      "eval_steps_per_second": 3.542,
-      "step": 2350
-    },
-    {
-      "epoch": 4.8,
-      "grad_norm": 0.7589277625083923,
-      "learning_rate": 5.43789342646837e-06,
-      "loss": 0.096,
-      "step": 2400
-    },
-    {
-      "epoch": 4.8,
-      "eval_loss": 0.9322577118873596,
-      "eval_runtime": 2.2566,
-      "eval_samples_per_second": 69.13,
-      "eval_steps_per_second": 3.545,
-      "step": 2400
-    },
-    {
-      "epoch": 4.9,
-      "grad_norm": 1.010057806968689,
-      "learning_rate": 5.000000000000003e-06,
-      "loss": 0.093,
-      "step": 2450
-    },
-    {
-      "epoch": 4.9,
-      "eval_loss": 0.9507681131362915,
-      "eval_runtime": 2.3695,
-      "eval_samples_per_second": 65.835,
-      "eval_steps_per_second": 3.376,
-      "step": 2450
-    },
-    {
-      "epoch": 5.0,
-      "grad_norm": 0.8985171914100647,
-      "learning_rate": 4.5745373613424075e-06,
-      "loss": 0.0923,
-      "step": 2500
-    },
-    {
-      "epoch": 5.0,
-      "eval_loss": 0.9445481896400452,
-      "eval_runtime": 2.455,
-      "eval_samples_per_second": 63.545,
-      "eval_steps_per_second": 3.259,
-      "step": 2500
-    },
-    {
-      "epoch": 5.1,
-      "grad_norm": 0.7004356384277344,
-      "learning_rate": 4.162563277652104e-06,
-      "loss": 0.0534,
-      "step": 2550
-    },
-    {
-      "epoch": 5.1,
-      "eval_loss": 1.019740343093872,
-      "eval_runtime": 3.8097,
-      "eval_samples_per_second": 40.949,
-      "eval_steps_per_second": 2.1,
-      "step": 2550
-    },
-    {
-      "epoch": 5.2,
-      "grad_norm": 1.2868136167526245,
-      "learning_rate": 3.7651019814126656e-06,
-      "loss": 0.0552,
-      "step": 2600
-    },
-    {
-      "epoch": 5.2,
-      "eval_loss": 1.0226831436157227,
-      "eval_runtime": 3.5746,
-      "eval_samples_per_second": 43.641,
-      "eval_steps_per_second": 2.238,
-      "step": 2600
-    },
-    {
-      "epoch": 5.3,
-      "grad_norm": 1.0688791275024414,
-      "learning_rate": 3.3831416240314085e-06,
-      "loss": 0.0523,
-      "step": 2650
-    },
-    {
-      "epoch": 5.3,
-      "eval_loss": 1.0200960636138916,
-      "eval_runtime": 2.26,
-      "eval_samples_per_second": 69.026,
-      "eval_steps_per_second": 3.54,
-      "step": 2650
-    },
-    {
-      "epoch": 5.4,
-      "grad_norm": 0.46982139348983765,
-      "learning_rate": 3.017631819139273e-06,
-      "loss": 0.0534,
-      "step": 2700
-    },
-    {
-      "epoch": 5.4,
-      "eval_loss": 1.0137168169021606,
-      "eval_runtime": 2.2646,
-      "eval_samples_per_second": 68.885,
-      "eval_steps_per_second": 3.533,
-      "step": 2700
-    },
-    {
-      "epoch": 5.5,
-      "grad_norm": 0.4713106155395508,
-      "learning_rate": 2.669481281701739e-06,
-      "loss": 0.0541,
-      "step": 2750
-    },
-    {
-      "epoch": 5.5,
-      "eval_loss": 1.0238293409347534,
-      "eval_runtime": 2.2586,
-      "eval_samples_per_second": 69.068,
-      "eval_steps_per_second": 3.542,
-      "step": 2750
-    },
-    {
-      "epoch": 5.6,
-      "grad_norm": 0.5023716688156128,
-      "learning_rate": 2.339555568810221e-06,
-      "loss": 0.0518,
-      "step": 2800
-    },
-    {
-      "epoch": 5.6,
-      "eval_loss": 1.0314223766326904,
-      "eval_runtime": 2.2586,
-      "eval_samples_per_second": 69.069,
-      "eval_steps_per_second": 3.542,
-      "step": 2800
-    },
-    {
-      "epoch": 5.7,
-      "grad_norm": 0.9530413150787354,
-      "learning_rate": 2.0286749277707783e-06,
-      "loss": 0.053,
-      "step": 2850
-    },
-    {
-      "epoch": 5.7,
-      "eval_loss": 1.0339645147323608,
-      "eval_runtime": 3.1056,
-      "eval_samples_per_second": 50.232,
-      "eval_steps_per_second": 2.576,
-      "step": 2850
-    },
-    {
-      "epoch": 5.8,
-      "grad_norm": 0.38149017095565796,
-      "learning_rate": 1.7376122568400533e-06,
-      "loss": 0.053,
-      "step": 2900
-    },
-    {
-      "epoch": 5.8,
-      "eval_loss": 1.0364776849746704,
-      "eval_runtime": 3.5002,
-      "eval_samples_per_second": 44.569,
-      "eval_steps_per_second": 2.286,
-      "step": 2900
-    },
-    {
-      "epoch": 5.9,
-      "grad_norm": 0.5894300937652588,
-      "learning_rate": 1.467091183678444e-06,
-      "loss": 0.054,
-      "step": 2950
-    },
-    {
-      "epoch": 5.9,
-      "eval_loss": 1.0346895456314087,
-      "eval_runtime": 2.446,
-      "eval_samples_per_second": 63.778,
-      "eval_steps_per_second": 3.271,
-      "step": 2950
-    },
-    {
-      "epoch": 6.0,
-      "grad_norm": 0.565856397151947,
-      "learning_rate": 1.2177842662977136e-06,
-      "loss": 0.0527,
-      "step": 3000
-    },
-    {
-      "epoch": 6.0,
-      "eval_loss": 1.0345444679260254,
-      "eval_runtime": 3.2958,
-      "eval_samples_per_second": 47.333,
-      "eval_steps_per_second": 2.427,
-      "step": 3000
-    },
-    {
-      "epoch": 6.1,
-      "grad_norm": 0.31733566522598267,
-      "learning_rate": 9.903113209758098e-07,
-      "loss": 0.0437,
-      "step": 3050
-    },
-    {
-      "epoch": 6.1,
-      "eval_loss": 1.053617238998413,
-      "eval_runtime": 2.2676,
-      "eval_samples_per_second": 68.795,
-      "eval_steps_per_second": 3.528,
-      "step": 3050
-    },
-    {
-      "epoch": 6.2,
-      "grad_norm": 0.4090058207511902,
-      "learning_rate": 7.852378812959227e-07,
-      "loss": 0.0435,
-      "step": 3100
-    },
-    {
-      "epoch": 6.2,
-      "eval_loss": 1.0663079023361206,
-      "eval_runtime": 2.2592,
-      "eval_samples_per_second": 69.051,
-      "eval_steps_per_second": 3.541,
-      "step": 3100
-    },
-    {
-      "epoch": 6.3,
-      "grad_norm": 0.33440783619880676,
-      "learning_rate": 6.030737921409169e-07,
-      "loss": 0.0436,
-      "step": 3150
-    },
-    {
-      "epoch": 6.3,
-      "eval_loss": 1.075048565864563,
-      "eval_runtime": 2.2569,
-      "eval_samples_per_second": 69.123,
-      "eval_steps_per_second": 3.545,
-      "step": 3150
-    },
-    {
-      "epoch": 6.4,
-      "grad_norm": 0.398806631565094,
-      "learning_rate": 4.4427194213859216e-07,
-      "loss": 0.0442,
-      "step": 3200
-    },
-    {
-      "epoch": 6.4,
-      "eval_loss": 1.0798892974853516,
-      "eval_runtime": 2.2538,
-      "eval_samples_per_second": 69.216,
-      "eval_steps_per_second": 3.55,
-      "step": 3200
     }
   ],
   "logging_steps": 50,
-  "max_steps": 3500,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 400,
-  "total_flos": 1.5453085957829427e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8,
   "eval_steps": 50,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.1,
+      "grad_norm": 10.53576374053955,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 1.6618,
       "step": 50
     },
     {
       "epoch": 0.1,
+      "eval_loss": 0.7731789350509644,
+      "eval_runtime": 2.2494,
+      "eval_samples_per_second": 69.353,
+      "eval_steps_per_second": 3.557,
       "step": 50
     },
     {
       "epoch": 0.2,
+      "grad_norm": 5.800010681152344,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.7629,
       "step": 100
     },
     {
       "epoch": 0.2,
+      "eval_loss": 0.6901325583457947,
+      "eval_runtime": 2.2539,
+      "eval_samples_per_second": 69.213,
+      "eval_steps_per_second": 3.549,
       "step": 100
     },
     {
       "epoch": 0.3,
+      "grad_norm": 4.960265636444092,
+      "learning_rate": 6e-06,
+      "loss": 0.7256,
       "step": 150
     },
     {
       "epoch": 0.3,
+      "eval_loss": 0.6716309785842896,
+      "eval_runtime": 2.2526,
+      "eval_samples_per_second": 69.254,
+      "eval_steps_per_second": 3.551,
       "step": 150
     },
     {
       "epoch": 0.4,
+      "grad_norm": 5.574848651885986,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.7243,
       "step": 200
     },
     {
       "epoch": 0.4,
+      "eval_loss": 0.6644517779350281,
+      "eval_runtime": 2.2546,
+      "eval_samples_per_second": 69.193,
+      "eval_steps_per_second": 3.548,
       "step": 200
     },
     {
       "epoch": 0.5,
+      "grad_norm": 3.0581891536712646,
+      "learning_rate": 1e-05,
+      "loss": 0.6918,
       "step": 250
     },
     {
       "epoch": 0.5,
+      "eval_loss": 0.6718080043792725,
+      "eval_runtime": 2.255,
+      "eval_samples_per_second": 69.18,
+      "eval_steps_per_second": 3.548,
       "step": 250
     },
     {
       "epoch": 0.6,
+      "grad_norm": 3.797400712966919,
+      "learning_rate": 1.2e-05,
+      "loss": 0.7433,
       "step": 300
     },
     {
       "epoch": 0.6,
+      "eval_loss": 0.67710280418396,
+      "eval_runtime": 2.2558,
+      "eval_samples_per_second": 69.155,
+      "eval_steps_per_second": 3.546,
       "step": 300
     },
     {
       "epoch": 0.7,
+      "grad_norm": 8.121636390686035,
+      "learning_rate": 1.4e-05,
+      "loss": 0.7523,
       "step": 350
     },
     {
       "epoch": 0.7,
+      "eval_loss": 0.680716335773468,
+      "eval_runtime": 2.2562,
+      "eval_samples_per_second": 69.144,
+      "eval_steps_per_second": 3.546,
       "step": 350
     },
     {
       "epoch": 0.8,
+      "grad_norm": 2.615454912185669,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.7322,
       "step": 400
     },
     {
       "epoch": 0.8,
+      "eval_loss": 0.6906686425209045,
+      "eval_runtime": 2.2633,
+      "eval_samples_per_second": 68.926,
       "eval_steps_per_second": 3.535,
+      "step": 400
     }
   ],
   "logging_steps": 50,
+  "max_steps": 5000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 400,
+  "total_flos": 1.9232917507014656e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fba03d3f9d351b111880aa45bf13251dc9e458d52d5fa6d533828a6b6b0473ec
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:676922c8c88a048a8c76fcb1420a476fbd64daf190286d2f67fca7597684e8c6
 size 5176