Training in progress, step 450, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:024de3f8e2afb4251670fd08dca4001b5a22b5aa81ae8963df0898d4eaf258bf
 size 578859568

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b0c195b03a78891addfd541c6f5a6e05e308cb677dddc2b5d1e1bc7a4317910
 size 578859568

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbc5bb928545579b4a25c09020cb0ddd259af2200a0a70f135813471914ab7ec
 size 294324692

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ea03775d6f122ef22f9a34fa6d7c975927ce0c5091946eb8c4d70964cfe011e
 size 294324692

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:404ce932a6e24aba5cc2e7fbd9a324e1334ed0f859ca94dba9e1b8e1bea61d54
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a000bcd0fcfbd6dc706ee094bc40e59bcb50a28e8797f55a0743ef881fecdf71
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4fe5dbedd3d0105f98d40d84fbe544af591501f8969d82c59cef4d7bb5f81712
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9443e18e9eff1c8055981c18d9a28ff4f85044c4c7fdc07a0fbff8845c622c60
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7006093859672546,
-  "best_model_checkpoint": "miner_id_24/checkpoint-400",
-  "epoch": 0.011118755255349163,
   "eval_steps": 50,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2879,6 +2879,364 @@
       "eval_samples_per_second": 11.541,
       "eval_steps_per_second": 5.78,
       "step": 400
     }
   ],
   "logging_steps": 1,
@@ -2907,7 +3265,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.5658179794763776e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6939424276351929,
+  "best_model_checkpoint": "miner_id_24/checkpoint-450",
+  "epoch": 0.012508599662267809,
   "eval_steps": 50,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.541,
       "eval_steps_per_second": 5.78,
       "step": 400
+    },
+    {
+      "epoch": 0.011146552143487537,
+      "grad_norm": 0.09276453405618668,
+      "learning_rate": 0.00019476814191464386,
+      "loss": 0.8983,
+      "step": 401
+    },
+    {
+      "epoch": 0.01117434903162591,
+      "grad_norm": 0.08963775634765625,
+      "learning_rate": 0.00019098300562505265,
+      "loss": 0.8343,
+      "step": 402
+    },
+    {
+      "epoch": 0.011202145919764282,
+      "grad_norm": 0.09050919860601425,
+      "learning_rate": 0.0001872311248553974,
+      "loss": 0.7674,
+      "step": 403
+    },
+    {
+      "epoch": 0.011229942807902656,
+      "grad_norm": 0.1092870682477951,
+      "learning_rate": 0.00018351265383080128,
+      "loss": 1.0618,
+      "step": 404
+    },
+    {
+      "epoch": 0.011257739696041028,
+      "grad_norm": 0.08485256880521774,
+      "learning_rate": 0.00017982774540304403,
+      "loss": 0.7261,
+      "step": 405
+    },
+    {
+      "epoch": 0.011285536584179402,
+      "grad_norm": 0.08782031387090683,
+      "learning_rate": 0.00017617655104427832,
+      "loss": 0.7258,
+      "step": 406
+    },
+    {
+      "epoch": 0.011313333472317774,
+      "grad_norm": 0.0893518328666687,
+      "learning_rate": 0.00017255922084080368,
+      "loss": 0.8466,
+      "step": 407
+    },
+    {
+      "epoch": 0.011341130360456147,
+      "grad_norm": 0.07837007939815521,
+      "learning_rate": 0.00016897590348689606,
+      "loss": 0.6156,
+      "step": 408
+    },
+    {
+      "epoch": 0.011368927248594519,
+      "grad_norm": 0.09375711530447006,
+      "learning_rate": 0.00016542674627869735,
+      "loss": 0.7362,
+      "step": 409
+    },
+    {
+      "epoch": 0.011396724136732893,
+      "grad_norm": 0.08803148567676544,
+      "learning_rate": 0.0001619118951081594,
+      "loss": 0.8826,
+      "step": 410
+    },
+    {
+      "epoch": 0.011424521024871266,
+      "grad_norm": 0.09359045326709747,
+      "learning_rate": 0.00015843149445704684,
+      "loss": 0.7686,
+      "step": 411
+    },
+    {
+      "epoch": 0.011452317913009638,
+      "grad_norm": 0.09178245067596436,
+      "learning_rate": 0.00015498568739099906,
+      "loss": 0.7662,
+      "step": 412
+    },
+    {
+      "epoch": 0.011480114801148012,
+      "grad_norm": 0.0961398333311081,
+      "learning_rate": 0.0001515746155536477,
+      "loss": 0.8347,
+      "step": 413
+    },
+    {
+      "epoch": 0.011507911689286384,
+      "grad_norm": 0.1026514321565628,
+      "learning_rate": 0.0001481984191607959,
+      "loss": 0.8207,
+      "step": 414
+    },
+    {
+      "epoch": 0.011535708577424758,
+      "grad_norm": 0.08573547005653381,
+      "learning_rate": 0.0001448572369946539,
+      "loss": 0.6231,
+      "step": 415
+    },
+    {
+      "epoch": 0.01156350546556313,
+      "grad_norm": 0.09467485547065735,
+      "learning_rate": 0.0001415512063981339,
+      "loss": 0.9214,
+      "step": 416
+    },
+    {
+      "epoch": 0.011591302353701503,
+      "grad_norm": 0.0945618599653244,
+      "learning_rate": 0.00013828046326920496,
+      "loss": 0.749,
+      "step": 417
+    },
+    {
+      "epoch": 0.011619099241839875,
+      "grad_norm": 0.10449232906103134,
+      "learning_rate": 0.0001350451420553065,
+      "loss": 1.0501,
+      "step": 418
+    },
+    {
+      "epoch": 0.011646896129978249,
+      "grad_norm": 0.09804502129554749,
+      "learning_rate": 0.0001318453757478215,
+      "loss": 0.6405,
+      "step": 419
+    },
+    {
+      "epoch": 0.011674693018116623,
+      "grad_norm": 0.08781873434782028,
+      "learning_rate": 0.0001286812958766106,
+      "loss": 0.7123,
+      "step": 420
+    },
+    {
+      "epoch": 0.011702489906254995,
+      "grad_norm": 0.09648067504167557,
+      "learning_rate": 0.00012555303250460438,
+      "loss": 0.8559,
+      "step": 421
+    },
+    {
+      "epoch": 0.011730286794393368,
+      "grad_norm": 0.09019096195697784,
+      "learning_rate": 0.00012246071422245718,
+      "loss": 0.761,
+      "step": 422
+    },
+    {
+      "epoch": 0.01175808368253174,
+      "grad_norm": 0.09508346021175385,
+      "learning_rate": 0.000119404468143262,
+      "loss": 0.7989,
+      "step": 423
+    },
+    {
+      "epoch": 0.011785880570670114,
+      "grad_norm": 0.08918111771345139,
+      "learning_rate": 0.00011638441989732473,
+      "loss": 0.6767,
+      "step": 424
+    },
+    {
+      "epoch": 0.011813677458808486,
+      "grad_norm": 0.09687741100788116,
+      "learning_rate": 0.00011340069362699989,
+      "loss": 0.7161,
+      "step": 425
+    },
+    {
+      "epoch": 0.01184147434694686,
+      "grad_norm": 0.10025037080049515,
+      "learning_rate": 0.00011045341198158831,
+      "loss": 0.6706,
+      "step": 426
+    },
+    {
+      "epoch": 0.011869271235085231,
+      "grad_norm": 0.09664606302976608,
+      "learning_rate": 0.00010754269611229428,
+      "loss": 0.6177,
+      "step": 427
+    },
+    {
+      "epoch": 0.011897068123223605,
+      "grad_norm": 0.09703200310468674,
+      "learning_rate": 0.00010466866566724697,
+      "loss": 0.6235,
+      "step": 428
+    },
+    {
+      "epoch": 0.011924865011361979,
+      "grad_norm": 0.09958402812480927,
+      "learning_rate": 0.00010183143878658097,
+      "loss": 0.6999,
+      "step": 429
+    },
+    {
+      "epoch": 0.01195266189950035,
+      "grad_norm": 0.0950227677822113,
+      "learning_rate": 9.903113209758097e-05,
+      "loss": 0.6983,
+      "step": 430
+    },
+    {
+      "epoch": 0.011980458787638724,
+      "grad_norm": 0.09548084437847137,
+      "learning_rate": 9.626786070988657e-05,
+      "loss": 0.609,
+      "step": 431
+    },
+    {
+      "epoch": 0.012008255675777096,
+      "grad_norm": 0.0920906737446785,
+      "learning_rate": 9.354173821076184e-05,
+      "loss": 0.6281,
+      "step": 432
+    },
+    {
+      "epoch": 0.01203605256391547,
+      "grad_norm": 0.09439770877361298,
+      "learning_rate": 9.085287666042507e-05,
+      "loss": 0.6777,
+      "step": 433
+    },
+    {
+      "epoch": 0.012063849452053842,
+      "grad_norm": 0.08835854381322861,
+      "learning_rate": 8.820138658744304e-05,
+      "loss": 0.4624,
+      "step": 434
+    },
+    {
+      "epoch": 0.012091646340192216,
+      "grad_norm": 0.09508516639471054,
+      "learning_rate": 8.558737698418762e-05,
+      "loss": 0.5111,
+      "step": 435
+    },
+    {
+      "epoch": 0.012119443228330588,
+      "grad_norm": 0.10829413682222366,
+      "learning_rate": 8.301095530235491e-05,
+      "loss": 0.9261,
+      "step": 436
+    },
+    {
+      "epoch": 0.012147240116468961,
+      "grad_norm": 0.11397778987884521,
+      "learning_rate": 8.047222744854943e-05,
+      "loss": 0.6988,
+      "step": 437
+    },
+    {
+      "epoch": 0.012175037004607335,
+      "grad_norm": 0.12012533843517303,
+      "learning_rate": 7.79712977799295e-05,
+      "loss": 0.6691,
+      "step": 438
+    },
+    {
+      "epoch": 0.012202833892745707,
+      "grad_norm": 0.12243448197841644,
+      "learning_rate": 7.550826909991859e-05,
+      "loss": 0.649,
+      "step": 439
+    },
+    {
+      "epoch": 0.01223063078088408,
+      "grad_norm": 0.10324777662754059,
+      "learning_rate": 7.308324265397836e-05,
+      "loss": 0.5844,
+      "step": 440
+    },
+    {
+      "epoch": 0.012258427669022453,
+      "grad_norm": 0.10553352534770966,
+      "learning_rate": 7.069631812544808e-05,
+      "loss": 0.4693,
+      "step": 441
+    },
+    {
+      "epoch": 0.012286224557160826,
+      "grad_norm": 0.11548332124948502,
+      "learning_rate": 6.834759363144594e-05,
+      "loss": 0.6917,
+      "step": 442
+    },
+    {
+      "epoch": 0.012314021445299198,
+      "grad_norm": 0.12441360205411911,
+      "learning_rate": 6.603716571883689e-05,
+      "loss": 0.7703,
+      "step": 443
+    },
+    {
+      "epoch": 0.012341818333437572,
+      "grad_norm": 0.12251102924346924,
+      "learning_rate": 6.37651293602628e-05,
+      "loss": 0.6202,
+      "step": 444
+    },
+    {
+      "epoch": 0.012369615221575944,
+      "grad_norm": 0.13246478140354156,
+      "learning_rate": 6.153157795023956e-05,
+      "loss": 0.6897,
+      "step": 445
+    },
+    {
+      "epoch": 0.012397412109714318,
+      "grad_norm": 0.12585890293121338,
+      "learning_rate": 5.9336603301317516e-05,
+      "loss": 0.5828,
+      "step": 446
+    },
+    {
+      "epoch": 0.012425208997852691,
+      "grad_norm": 0.1446872502565384,
+      "learning_rate": 5.718029564030702e-05,
+      "loss": 0.5442,
+      "step": 447
+    },
+    {
+      "epoch": 0.012453005885991063,
+      "grad_norm": 0.14832744002342224,
+      "learning_rate": 5.5062743604570865e-05,
+      "loss": 0.5683,
+      "step": 448
+    },
+    {
+      "epoch": 0.012480802774129437,
+      "grad_norm": 0.1458773910999298,
+      "learning_rate": 5.298403423837883e-05,
+      "loss": 0.4833,
+      "step": 449
+    },
+    {
+      "epoch": 0.012508599662267809,
+      "grad_norm": 0.19131259620189667,
+      "learning_rate": 5.094425298933136e-05,
+      "loss": 0.507,
+      "step": 450
+    },
+    {
+      "epoch": 0.012508599662267809,
+      "eval_loss": 0.6939424276351929,
+      "eval_runtime": 49.9667,
+      "eval_samples_per_second": 11.548,
+      "eval_steps_per_second": 5.784,
+      "step": 450
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.879669611266048e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null