Training in progress, step 2400, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model-00001-of-00006.safetensors +1 -1
last-checkpoint/model-00002-of-00006.safetensors +1 -1
last-checkpoint/model-00003-of-00006.safetensors +1 -1
last-checkpoint/model-00004-of-00006.safetensors +1 -1
last-checkpoint/model-00005-of-00006.safetensors +1 -1
last-checkpoint/model-00006-of-00006.safetensors +1 -1
last-checkpoint/trainer_state.json +123 -3

last-checkpoint/model-00001-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8086d9e9b79193258c5554f4502f9322e00af302641773d3118ce46b980cb3c6
 size 4840658560

 version https://git-lfs.github.com/spec/v1
+oid sha256:e32f3572a879128a25a247a0be200e23f39567f58fd956064c5c68b66cf5b5a9
 size 4840658560

last-checkpoint/model-00002-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56b198c4b83bc1d81404f2070203af281e42ef84f9efe4ca520deca611550340
 size 4857206856

 version https://git-lfs.github.com/spec/v1
+oid sha256:af444108fd67a3c6e63c47ec8640ec8b500d36ed5bf7b185fccf407ad0527f47
 size 4857206856

last-checkpoint/model-00003-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff0a496ba7f4c450a91e1560d520cb6c526da2584f90d9af8c3b2578d54c8252
 size 4857206904

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb92006261485577e7645190694e9087dca6c01dee24ca945f56f7511967919c
 size 4857206904

last-checkpoint/model-00004-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51b63f435bc570582e73f1cae994e9ecad465ba17bcbddac0ff9737665f1e3d3
 size 4857206904

 version https://git-lfs.github.com/spec/v1
+oid sha256:24e2d5176675f79b6e2a0149a55de72ce168b30b40ca8178c6800ec8607f99ac
 size 4857206904

last-checkpoint/model-00005-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0e8e6ddd588b053d675b32801d5114c802e8ffd1780735243c5777c91268be7
 size 4857206904

 version https://git-lfs.github.com/spec/v1
+oid sha256:92e8488c95aae92eb0ae6aa54da0ba180cca2726f5bd061b36b57c208bc2d404
 size 4857206904

last-checkpoint/model-00006-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18a1a50066d187445fef181ad28bef1ec74e799c0ef4a7df5fa6e641e220357b
 size 2684734256

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcfba0ab5a7de6b7625c5951644381b869990b9cf3bc79c0d13d322d631e496f
 size 2684734256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.0,
   "eval_steps": 50,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -607,6 +607,126 @@
       "eval_samples_per_second": 69.033,
       "eval_steps_per_second": 3.54,
       "step": 2000
     }
   ],
   "logging_steps": 50,
@@ -614,7 +734,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 400,
-  "total_flos": 9.65560432024617e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.8,
   "eval_steps": 50,
+  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 69.033,
       "eval_steps_per_second": 3.54,
       "step": 2000
+    },
+    {
+      "epoch": 4.1,
+      "grad_norm": 1.5479576587677002,
+      "learning_rate": 1.469471562785891e-05,
+      "loss": 0.1167,
+      "step": 2050
+    },
+    {
+      "epoch": 4.1,
+      "eval_loss": 0.9011654853820801,
+      "eval_runtime": 2.738,
+      "eval_samples_per_second": 56.976,
+      "eval_steps_per_second": 2.922,
+      "step": 2050
+    },
+    {
+      "epoch": 4.2,
+      "grad_norm": 1.3002970218658447,
+      "learning_rate": 1.4383711467890776e-05,
+      "loss": 0.1186,
+      "step": 2100
+    },
+    {
+      "epoch": 4.2,
+      "eval_loss": 0.9147914052009583,
+      "eval_runtime": 3.018,
+      "eval_samples_per_second": 51.69,
+      "eval_steps_per_second": 2.651,
+      "step": 2100
+    },
+    {
+      "epoch": 4.3,
+      "grad_norm": 1.7996995449066162,
+      "learning_rate": 1.4067366430758004e-05,
+      "loss": 0.1153,
+      "step": 2150
+    },
+    {
+      "epoch": 4.3,
+      "eval_loss": 0.9160046577453613,
+      "eval_runtime": 3.6692,
+      "eval_samples_per_second": 42.516,
+      "eval_steps_per_second": 2.18,
+      "step": 2150
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 1.1670547723770142,
+      "learning_rate": 1.3746065934159123e-05,
+      "loss": 0.1214,
+      "step": 2200
+    },
+    {
+      "epoch": 4.4,
+      "eval_loss": 0.9355931282043457,
+      "eval_runtime": 2.337,
+      "eval_samples_per_second": 66.753,
+      "eval_steps_per_second": 3.423,
+      "step": 2200
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 1.1401852369308472,
+      "learning_rate": 1.342020143325669e-05,
+      "loss": 0.1193,
+      "step": 2250
+    },
+    {
+      "epoch": 4.5,
+      "eval_loss": 0.9175124764442444,
+      "eval_runtime": 2.2626,
+      "eval_samples_per_second": 68.947,
+      "eval_steps_per_second": 3.536,
+      "step": 2250
+    },
+    {
+      "epoch": 4.6,
+      "grad_norm": 0.8389841914176941,
+      "learning_rate": 1.3090169943749475e-05,
+      "loss": 0.1186,
+      "step": 2300
+    },
+    {
+      "epoch": 4.6,
+      "eval_loss": 0.9386661052703857,
+      "eval_runtime": 2.2532,
+      "eval_samples_per_second": 69.235,
+      "eval_steps_per_second": 3.55,
+      "step": 2300
+    },
+    {
+      "epoch": 4.7,
+      "grad_norm": 1.2419942617416382,
+      "learning_rate": 1.2756373558169992e-05,
+      "loss": 0.1187,
+      "step": 2350
+    },
+    {
+      "epoch": 4.7,
+      "eval_loss": 0.9336636662483215,
+      "eval_runtime": 2.2535,
+      "eval_samples_per_second": 69.225,
+      "eval_steps_per_second": 3.55,
+      "step": 2350
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 1.0060522556304932,
+      "learning_rate": 1.2419218955996677e-05,
+      "loss": 0.1245,
+      "step": 2400
+    },
+    {
+      "epoch": 4.8,
+      "eval_loss": 0.9188296794891357,
+      "eval_runtime": 2.2614,
+      "eval_samples_per_second": 68.983,
+      "eval_steps_per_second": 3.538,
+      "step": 2400
     }
   ],
   "logging_steps": 50,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 400,
+  "total_flos": 1.1589925681181491e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null