Training in progress, step 2800, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model-00001-of-00006.safetensors +1 -1
last-checkpoint/model-00002-of-00006.safetensors +1 -1
last-checkpoint/model-00003-of-00006.safetensors +1 -1
last-checkpoint/model-00004-of-00006.safetensors +1 -1
last-checkpoint/model-00005-of-00006.safetensors +1 -1
last-checkpoint/model-00006-of-00006.safetensors +1 -1
last-checkpoint/trainer_state.json +363 -3

last-checkpoint/model-00001-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd1af5785dab727dd568f182a5a7d20a4d19d85f9c5061fcb4eee97e78e41f19
 size 4840658560

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b3effd21deff73b875cbbbcb7b68b90bbfe8903a0e51be8058c53758b4b69e8
 size 4840658560

last-checkpoint/model-00002-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55b4db8857b8d16de1d15b0ad8fda306ab20929d9845f18cb5e94ed506ca617e
 size 4857206856

 version https://git-lfs.github.com/spec/v1
+oid sha256:e75145539a74937cbcb14393098e0dc3e8f08f26d13afd817a896a7eb3079013
 size 4857206856

last-checkpoint/model-00003-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:527d7d91d8b4744c114e7ed7f2de910a06b292399133d52b7a6df3c0d43419f3
 size 4857206904

 version https://git-lfs.github.com/spec/v1
+oid sha256:6930d75a718de0acda4d53d225f373f929a57fdfb8bfe746b26f86f2e57e68f7
 size 4857206904

last-checkpoint/model-00004-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18fa49b80bdbd4d6cf5d1689c1b1b32d416a6c02263e93e4035781720562e8d3
 size 4857206904

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba3cac452013d3ad33956d1041393fc3156668df0db3bcea8982e4f2071f1d33
 size 4857206904

last-checkpoint/model-00005-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36a75564599468267099c3aae3afef58090fbb57fbbbda643c82dc57f5da6286
 size 4857206904

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2c2b2d4b0276c78e66a79fde63bf7cbecab3654e3af8cfa4967412e8bdb0839
 size 4857206904

last-checkpoint/model-00006-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c744ac3b48f54b66e6e755b9024915c114b92851010d1882a3cf043cb8f0896c
 size 2684734256

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0629ef624962c09361086545ce0d1e1cbce3b48499e371e8107304328d85e5d
 size 2684734256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.2,
   "eval_steps": 50,
-  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -487,6 +487,366 @@
       "eval_samples_per_second": 69.062,
       "eval_steps_per_second": 3.542,
       "step": 1600
     }
   ],
   "logging_steps": 50,
@@ -494,7 +854,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 7,
   "save_steps": 400,
-  "total_flos": 7.727857024158925e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.6,
   "eval_steps": 50,
+  "global_step": 2800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 69.062,
       "eval_steps_per_second": 3.542,
       "step": 1600
+    },
+    {
+      "epoch": 3.3,
+      "grad_norm": 1.1109460592269897,
+      "learning_rate": 1.2708404681430054e-05,
+      "loss": 0.1496,
+      "step": 1650
+    },
+    {
+      "epoch": 3.3,
+      "eval_loss": 0.8655369281768799,
+      "eval_runtime": 4.4935,
+      "eval_samples_per_second": 34.717,
+      "eval_steps_per_second": 1.78,
+      "step": 1650
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 1.0697747468948364,
+      "learning_rate": 1.2225209339563144e-05,
+      "loss": 0.1491,
+      "step": 1700
+    },
+    {
+      "epoch": 3.4,
+      "eval_loss": 0.8790720701217651,
+      "eval_runtime": 2.9231,
+      "eval_samples_per_second": 53.369,
+      "eval_steps_per_second": 2.737,
+      "step": 1700
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 1.5176475048065186,
+      "learning_rate": 1.1736481776669307e-05,
+      "loss": 0.1475,
+      "step": 1750
+    },
+    {
+      "epoch": 3.5,
+      "eval_loss": 0.8695181608200073,
+      "eval_runtime": 2.8158,
+      "eval_samples_per_second": 55.401,
+      "eval_steps_per_second": 2.841,
+      "step": 1750
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 2.0232934951782227,
+      "learning_rate": 1.1243437046474854e-05,
+      "loss": 0.1481,
+      "step": 1800
+    },
+    {
+      "epoch": 3.6,
+      "eval_loss": 0.8817379474639893,
+      "eval_runtime": 3.4544,
+      "eval_samples_per_second": 45.159,
+      "eval_steps_per_second": 2.316,
+      "step": 1800
+    },
+    {
+      "epoch": 3.7,
+      "grad_norm": 2.0155882835388184,
+      "learning_rate": 1.0747300935864245e-05,
+      "loss": 0.1514,
+      "step": 1850
+    },
+    {
+      "epoch": 3.7,
+      "eval_loss": 0.8860240578651428,
+      "eval_runtime": 2.2629,
+      "eval_samples_per_second": 68.939,
+      "eval_steps_per_second": 3.535,
+      "step": 1850
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 1.2712018489837646,
+      "learning_rate": 1.0249306917380731e-05,
+      "loss": 0.1421,
+      "step": 1900
+    },
+    {
+      "epoch": 3.8,
+      "eval_loss": 0.8792973756790161,
+      "eval_runtime": 2.2679,
+      "eval_samples_per_second": 68.786,
+      "eval_steps_per_second": 3.528,
+      "step": 1900
+    },
+    {
+      "epoch": 3.9,
+      "grad_norm": 1.3542224168777466,
+      "learning_rate": 9.750693082619274e-06,
+      "loss": 0.1446,
+      "step": 1950
+    },
+    {
+      "epoch": 3.9,
+      "eval_loss": 0.8789901733398438,
+      "eval_runtime": 2.2568,
+      "eval_samples_per_second": 69.126,
+      "eval_steps_per_second": 3.545,
+      "step": 1950
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 1.1753352880477905,
+      "learning_rate": 9.252699064135759e-06,
+      "loss": 0.1458,
+      "step": 2000
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.8896375894546509,
+      "eval_runtime": 2.2586,
+      "eval_samples_per_second": 69.069,
+      "eval_steps_per_second": 3.542,
+      "step": 2000
+    },
+    {
+      "epoch": 4.1,
+      "grad_norm": 1.1664059162139893,
+      "learning_rate": 8.756562953525151e-06,
+      "loss": 0.0943,
+      "step": 2050
+    },
+    {
+      "epoch": 4.1,
+      "eval_loss": 0.9453464150428772,
+      "eval_runtime": 2.7602,
+      "eval_samples_per_second": 56.517,
+      "eval_steps_per_second": 2.898,
+      "step": 2050
+    },
+    {
+      "epoch": 4.2,
+      "grad_norm": 0.8652101755142212,
+      "learning_rate": 8.263518223330698e-06,
+      "loss": 0.0936,
+      "step": 2100
+    },
+    {
+      "epoch": 4.2,
+      "eval_loss": 0.9263865947723389,
+      "eval_runtime": 2.7019,
+      "eval_samples_per_second": 57.738,
+      "eval_steps_per_second": 2.961,
+      "step": 2100
+    },
+    {
+      "epoch": 4.3,
+      "grad_norm": 1.1194976568222046,
+      "learning_rate": 7.774790660436857e-06,
+      "loss": 0.0944,
+      "step": 2150
+    },
+    {
+      "epoch": 4.3,
+      "eval_loss": 0.9188054203987122,
+      "eval_runtime": 2.4797,
+      "eval_samples_per_second": 62.91,
+      "eval_steps_per_second": 3.226,
+      "step": 2150
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 0.8499676585197449,
+      "learning_rate": 7.291595318569951e-06,
+      "loss": 0.0946,
+      "step": 2200
+    },
+    {
+      "epoch": 4.4,
+      "eval_loss": 0.9282132387161255,
+      "eval_runtime": 4.1021,
+      "eval_samples_per_second": 38.03,
+      "eval_steps_per_second": 1.95,
+      "step": 2200
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 0.9869304299354553,
+      "learning_rate": 6.815133497483157e-06,
+      "loss": 0.0914,
+      "step": 2250
+    },
+    {
+      "epoch": 4.5,
+      "eval_loss": 0.9421446323394775,
+      "eval_runtime": 2.2639,
+      "eval_samples_per_second": 68.908,
+      "eval_steps_per_second": 3.534,
+      "step": 2250
+    },
+    {
+      "epoch": 4.6,
+      "grad_norm": 0.7122153043746948,
+      "learning_rate": 6.34658975633605e-06,
+      "loss": 0.0927,
+      "step": 2300
+    },
+    {
+      "epoch": 4.6,
+      "eval_loss": 0.9317699074745178,
+      "eval_runtime": 2.2762,
+      "eval_samples_per_second": 68.535,
+      "eval_steps_per_second": 3.515,
+      "step": 2300
+    },
+    {
+      "epoch": 4.7,
+      "grad_norm": 0.7879806756973267,
+      "learning_rate": 5.887128968693887e-06,
+      "loss": 0.0926,
+      "step": 2350
+    },
+    {
+      "epoch": 4.7,
+      "eval_loss": 0.9379280209541321,
+      "eval_runtime": 2.2587,
+      "eval_samples_per_second": 69.065,
+      "eval_steps_per_second": 3.542,
+      "step": 2350
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 0.7589277625083923,
+      "learning_rate": 5.43789342646837e-06,
+      "loss": 0.096,
+      "step": 2400
+    },
+    {
+      "epoch": 4.8,
+      "eval_loss": 0.9322577118873596,
+      "eval_runtime": 2.2566,
+      "eval_samples_per_second": 69.13,
+      "eval_steps_per_second": 3.545,
+      "step": 2400
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 1.010057806968689,
+      "learning_rate": 5.000000000000003e-06,
+      "loss": 0.093,
+      "step": 2450
+    },
+    {
+      "epoch": 4.9,
+      "eval_loss": 0.9507681131362915,
+      "eval_runtime": 2.3695,
+      "eval_samples_per_second": 65.835,
+      "eval_steps_per_second": 3.376,
+      "step": 2450
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.8985171914100647,
+      "learning_rate": 4.5745373613424075e-06,
+      "loss": 0.0923,
+      "step": 2500
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.9445481896400452,
+      "eval_runtime": 2.455,
+      "eval_samples_per_second": 63.545,
+      "eval_steps_per_second": 3.259,
+      "step": 2500
+    },
+    {
+      "epoch": 5.1,
+      "grad_norm": 0.7004356384277344,
+      "learning_rate": 4.162563277652104e-06,
+      "loss": 0.0534,
+      "step": 2550
+    },
+    {
+      "epoch": 5.1,
+      "eval_loss": 1.019740343093872,
+      "eval_runtime": 3.8097,
+      "eval_samples_per_second": 40.949,
+      "eval_steps_per_second": 2.1,
+      "step": 2550
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 1.2868136167526245,
+      "learning_rate": 3.7651019814126656e-06,
+      "loss": 0.0552,
+      "step": 2600
+    },
+    {
+      "epoch": 5.2,
+      "eval_loss": 1.0226831436157227,
+      "eval_runtime": 3.5746,
+      "eval_samples_per_second": 43.641,
+      "eval_steps_per_second": 2.238,
+      "step": 2600
+    },
+    {
+      "epoch": 5.3,
+      "grad_norm": 1.0688791275024414,
+      "learning_rate": 3.3831416240314085e-06,
+      "loss": 0.0523,
+      "step": 2650
+    },
+    {
+      "epoch": 5.3,
+      "eval_loss": 1.0200960636138916,
+      "eval_runtime": 2.26,
+      "eval_samples_per_second": 69.026,
+      "eval_steps_per_second": 3.54,
+      "step": 2650
+    },
+    {
+      "epoch": 5.4,
+      "grad_norm": 0.46982139348983765,
+      "learning_rate": 3.017631819139273e-06,
+      "loss": 0.0534,
+      "step": 2700
+    },
+    {
+      "epoch": 5.4,
+      "eval_loss": 1.0137168169021606,
+      "eval_runtime": 2.2646,
+      "eval_samples_per_second": 68.885,
+      "eval_steps_per_second": 3.533,
+      "step": 2700
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 0.4713106155395508,
+      "learning_rate": 2.669481281701739e-06,
+      "loss": 0.0541,
+      "step": 2750
+    },
+    {
+      "epoch": 5.5,
+      "eval_loss": 1.0238293409347534,
+      "eval_runtime": 2.2586,
+      "eval_samples_per_second": 69.068,
+      "eval_steps_per_second": 3.542,
+      "step": 2750
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 0.5023716688156128,
+      "learning_rate": 2.339555568810221e-06,
+      "loss": 0.0518,
+      "step": 2800
+    },
+    {
+      "epoch": 5.6,
+      "eval_loss": 1.0314223766326904,
+      "eval_runtime": 2.2586,
+      "eval_samples_per_second": 69.069,
+      "eval_steps_per_second": 3.542,
+      "step": 2800
     }
   ],
   "logging_steps": 50,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 7,
   "save_steps": 400,
+  "total_flos": 1.3524716052545536e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null