Training in progress, step 400, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +364 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2442032194c976cff5847746f75b6f65b5cfe9807c93c8b118bca48e6d11275
 size 871457448

 version https://git-lfs.github.com/spec/v1
+oid sha256:0410d2031d6d66039a219772af6611ad10bd041510320a05c3a517ffeed0884c
 size 871457448

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9922e45843eace50dc4696b87dd980e0261fb60de4b4aae0b7429a518e7ec5d6
 size 443280980

 version https://git-lfs.github.com/spec/v1
+oid sha256:64af5ace91296aa57e0190b71ab3906b2d7789e67eaaecf65816c91394d346b1
 size 443280980

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2b752250a74c77f42a613f3b5f70d4ef07d4112f106cbfc45a9accd6c6f511c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7613f69ce1c136cf737b5abb25940901c0be40445eb3bbb4c0bcc408dca61d16
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9096f15f02bac6b0fc27aa7aa4986f85d87d53fca310a75657e0015357af5c5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:705cabf5cbc3a6ab0feb67c77b9b453d59efcc939ce90d310af96e621810f990
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.24323655664920807,
-  "best_model_checkpoint": "miner_id_24/checkpoint-350",
-  "epoch": 0.2874153151303634,
   "eval_steps": 50,
-  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2521,6 +2521,364 @@
       "eval_samples_per_second": 7.051,
       "eval_steps_per_second": 1.764,
       "step": 350
     }
   ],
   "logging_steps": 1,
@@ -2544,12 +2902,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 6.079821099942543e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.2426377534866333,
+  "best_model_checkpoint": "miner_id_24/checkpoint-400",
+  "epoch": 0.3284746458632724,
   "eval_steps": 50,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.051,
       "eval_steps_per_second": 1.764,
       "step": 350
+    },
+    {
+      "epoch": 0.2882365017450216,
+      "grad_norm": 0.24831348657608032,
+      "learning_rate": 3.844650207332562e-06,
+      "loss": 0.2173,
+      "step": 351
+    },
+    {
+      "epoch": 0.2890576883596797,
+      "grad_norm": 0.29482340812683105,
+      "learning_rate": 3.691267552111183e-06,
+      "loss": 0.243,
+      "step": 352
+    },
+    {
+      "epoch": 0.2898788749743379,
+      "grad_norm": 0.35965675115585327,
+      "learning_rate": 3.54088980417534e-06,
+      "loss": 0.2659,
+      "step": 353
+    },
+    {
+      "epoch": 0.2907000615889961,
+      "grad_norm": 0.3628787100315094,
+      "learning_rate": 3.393526721321616e-06,
+      "loss": 0.2395,
+      "step": 354
+    },
+    {
+      "epoch": 0.29152124820365427,
+      "grad_norm": 0.36598777770996094,
+      "learning_rate": 3.249187865729264e-06,
+      "loss": 0.2255,
+      "step": 355
+    },
+    {
+      "epoch": 0.29234243481831246,
+      "grad_norm": 0.4101616144180298,
+      "learning_rate": 3.1078826033397843e-06,
+      "loss": 0.2461,
+      "step": 356
+    },
+    {
+      "epoch": 0.29316362143297064,
+      "grad_norm": 0.3846442699432373,
+      "learning_rate": 2.9696201032491434e-06,
+      "loss": 0.2377,
+      "step": 357
+    },
+    {
+      "epoch": 0.29398480804762883,
+      "grad_norm": 0.3726769983768463,
+      "learning_rate": 2.8344093371128424e-06,
+      "loss": 0.241,
+      "step": 358
+    },
+    {
+      "epoch": 0.294805994662287,
+      "grad_norm": 0.4052610695362091,
+      "learning_rate": 2.70225907856374e-06,
+      "loss": 0.2495,
+      "step": 359
+    },
+    {
+      "epoch": 0.2956271812769452,
+      "grad_norm": 0.4084397554397583,
+      "learning_rate": 2.573177902642726e-06,
+      "loss": 0.2458,
+      "step": 360
+    },
+    {
+      "epoch": 0.2964483678916034,
+      "grad_norm": 0.42254287004470825,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 0.2568,
+      "step": 361
+    },
+    {
+      "epoch": 0.2972695545062615,
+      "grad_norm": 0.3660500943660736,
+      "learning_rate": 2.324256102563188e-06,
+      "loss": 0.2142,
+      "step": 362
+    },
+    {
+      "epoch": 0.2980907411209197,
+      "grad_norm": 0.3869646191596985,
+      "learning_rate": 2.204431630583548e-06,
+      "loss": 0.2636,
+      "step": 363
+    },
+    {
+      "epoch": 0.2989119277355779,
+      "grad_norm": 0.34974104166030884,
+      "learning_rate": 2.087708544541689e-06,
+      "loss": 0.1984,
+      "step": 364
+    },
+    {
+      "epoch": 0.2997331143502361,
+      "grad_norm": 0.39927589893341064,
+      "learning_rate": 1.974094418431388e-06,
+      "loss": 0.275,
+      "step": 365
+    },
+    {
+      "epoch": 0.30055430096489427,
+      "grad_norm": 0.37916234135627747,
+      "learning_rate": 1.8635966245104664e-06,
+      "loss": 0.2321,
+      "step": 366
+    },
+    {
+      "epoch": 0.30137548757955246,
+      "grad_norm": 0.3782179355621338,
+      "learning_rate": 1.7562223328224325e-06,
+      "loss": 0.2227,
+      "step": 367
+    },
+    {
+      "epoch": 0.30219667419421065,
+      "grad_norm": 0.37233802676200867,
+      "learning_rate": 1.6519785107311891e-06,
+      "loss": 0.2032,
+      "step": 368
+    },
+    {
+      "epoch": 0.30301786080886883,
+      "grad_norm": 0.3644430935382843,
+      "learning_rate": 1.5508719224689717e-06,
+      "loss": 0.2159,
+      "step": 369
+    },
+    {
+      "epoch": 0.303839047423527,
+      "grad_norm": 0.3714001476764679,
+      "learning_rate": 1.4529091286973995e-06,
+      "loss": 0.2397,
+      "step": 370
+    },
+    {
+      "epoch": 0.30466023403818515,
+      "grad_norm": 0.36238205432891846,
+      "learning_rate": 1.358096486081778e-06,
+      "loss": 0.2204,
+      "step": 371
+    },
+    {
+      "epoch": 0.30548142065284334,
+      "grad_norm": 0.36938953399658203,
+      "learning_rate": 1.2664401468786114e-06,
+      "loss": 0.2478,
+      "step": 372
+    },
+    {
+      "epoch": 0.3063026072675015,
+      "grad_norm": 0.39639028906822205,
+      "learning_rate": 1.1779460585363944e-06,
+      "loss": 0.263,
+      "step": 373
+    },
+    {
+      "epoch": 0.3071237938821597,
+      "grad_norm": 0.3775864541530609,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 0.2503,
+      "step": 374
+    },
+    {
+      "epoch": 0.3079449804968179,
+      "grad_norm": 0.36484062671661377,
+      "learning_rate": 1.0104673978866164e-06,
+      "loss": 0.2593,
+      "step": 375
+    },
+    {
+      "epoch": 0.3087661671114761,
+      "grad_norm": 0.3943125307559967,
+      "learning_rate": 9.314936930293283e-07,
+      "loss": 0.2753,
+      "step": 376
+    },
+    {
+      "epoch": 0.3095873537261343,
+      "grad_norm": 0.41774439811706543,
+      "learning_rate": 8.557039732283944e-07,
+      "loss": 0.2385,
+      "step": 377
+    },
+    {
+      "epoch": 0.31040854034079246,
+      "grad_norm": 0.3497304916381836,
+      "learning_rate": 7.83103156370113e-07,
+      "loss": 0.2494,
+      "step": 378
+    },
+    {
+      "epoch": 0.31122972695545065,
+      "grad_norm": 0.35694608092308044,
+      "learning_rate": 7.136959534174592e-07,
+      "loss": 0.2479,
+      "step": 379
+    },
+    {
+      "epoch": 0.31205091357010883,
+      "grad_norm": 0.3703640103340149,
+      "learning_rate": 6.474868681043578e-07,
+      "loss": 0.2361,
+      "step": 380
+    },
+    {
+      "epoch": 0.31287210018476697,
+      "grad_norm": 0.3687499463558197,
+      "learning_rate": 5.844801966434832e-07,
+      "loss": 0.2544,
+      "step": 381
+    },
+    {
+      "epoch": 0.31369328679942515,
+      "grad_norm": 0.3702276945114136,
+      "learning_rate": 5.246800274474439e-07,
+      "loss": 0.2288,
+      "step": 382
+    },
+    {
+      "epoch": 0.31451447341408334,
+      "grad_norm": 0.35617271065711975,
+      "learning_rate": 4.680902408635335e-07,
+      "loss": 0.2311,
+      "step": 383
+    },
+    {
+      "epoch": 0.3153356600287415,
+      "grad_norm": 0.3268205225467682,
+      "learning_rate": 4.1471450892189846e-07,
+      "loss": 0.202,
+      "step": 384
+    },
+    {
+      "epoch": 0.3161568466433997,
+      "grad_norm": 0.3945155441761017,
+      "learning_rate": 3.6455629509730136e-07,
+      "loss": 0.2682,
+      "step": 385
+    },
+    {
+      "epoch": 0.3169780332580579,
+      "grad_norm": 0.40699857473373413,
+      "learning_rate": 3.1761885408435054e-07,
+      "loss": 0.2526,
+      "step": 386
+    },
+    {
+      "epoch": 0.3177992198727161,
+      "grad_norm": 0.4202795624732971,
+      "learning_rate": 2.7390523158633554e-07,
+      "loss": 0.2616,
+      "step": 387
+    },
+    {
+      "epoch": 0.3186204064873743,
+      "grad_norm": 0.4231754243373871,
+      "learning_rate": 2.334182641175686e-07,
+      "loss": 0.2372,
+      "step": 388
+    },
+    {
+      "epoch": 0.31944159310203246,
+      "grad_norm": 0.44029873609542847,
+      "learning_rate": 1.9616057881935436e-07,
+      "loss": 0.2181,
+      "step": 389
+    },
+    {
+      "epoch": 0.3202627797166906,
+      "grad_norm": 0.4859876334667206,
+      "learning_rate": 1.6213459328950352e-07,
+      "loss": 0.2382,
+      "step": 390
+    },
+    {
+      "epoch": 0.3210839663313488,
+      "grad_norm": 0.49845609068870544,
+      "learning_rate": 1.3134251542544774e-07,
+      "loss": 0.2548,
+      "step": 391
+    },
+    {
+      "epoch": 0.32190515294600697,
+      "grad_norm": 0.5106012225151062,
+      "learning_rate": 1.0378634328099269e-07,
+      "loss": 0.2547,
+      "step": 392
+    },
+    {
+      "epoch": 0.32272633956066515,
+      "grad_norm": 0.48110705614089966,
+      "learning_rate": 7.946786493666647e-08,
+      "loss": 0.2322,
+      "step": 393
+    },
+    {
+      "epoch": 0.32354752617532334,
+      "grad_norm": 0.5826103687286377,
+      "learning_rate": 5.838865838366792e-08,
+      "loss": 0.3049,
+      "step": 394
+    },
+    {
+      "epoch": 0.32436871278998153,
+      "grad_norm": 0.6699414253234863,
+      "learning_rate": 4.055009142152067e-08,
+      "loss": 0.264,
+      "step": 395
+    },
+    {
+      "epoch": 0.3251898994046397,
+      "grad_norm": 0.6277973651885986,
+      "learning_rate": 2.595332156925534e-08,
+      "loss": 0.2696,
+      "step": 396
+    },
+    {
+      "epoch": 0.3260110860192979,
+      "grad_norm": 0.6204254627227783,
+      "learning_rate": 1.4599295990352924e-08,
+      "loss": 0.3054,
+      "step": 397
+    },
+    {
+      "epoch": 0.3268322726339561,
+      "grad_norm": 0.6760455965995789,
+      "learning_rate": 6.488751431266149e-09,
+      "loss": 0.2705,
+      "step": 398
+    },
+    {
+      "epoch": 0.3276534592486142,
+      "grad_norm": 0.8175690770149231,
+      "learning_rate": 1.622214173602199e-09,
+      "loss": 0.2644,
+      "step": 399
+    },
+    {
+      "epoch": 0.3284746458632724,
+      "grad_norm": 1.2129104137420654,
+      "learning_rate": 0.0,
+      "loss": 0.329,
+      "step": 400
+    },
+    {
+      "epoch": 0.3284746458632724,
+      "eval_loss": 0.2426377534866333,
+      "eval_runtime": 290.7324,
+      "eval_samples_per_second": 7.055,
+      "eval_steps_per_second": 1.765,
+      "step": 400
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.947750106397409e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null