ErrorAI commited on
Commit
231385c
·
verified ·
1 Parent(s): fd42548

Training in progress, step 1569, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7097972878e2da8ee9d6df0695da3b4fed331b53d7c8fb7aab82a38230111681
3
  size 5752
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:875978a9e15118a4a938537bce4d28a90550225e3c8c74ba119bd96b6f8c297d
3
  size 5752
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f6e9337ab38ff83536679b3452abd1bdc18ef819f5a2e94e6a1b96c1bb68b405
3
  size 15814
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7421a53b982409b252d33acf57ef55db760c0c0cb94f3f7fc72365b294d98561
3
  size 15814
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6c8ed40ec98a023147d5dc738d793bbc1a12d076092bf16d3e44b95b06849d3f
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b70ac0261b218442aed944e476fc98123a75eb5e472055f845bdf1266ed36d44
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:cdb13b8c6991a8e6c24240153e92953c477c8d38bd18c11f2f31cb9dcb4f08c9
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d47c943291779f5dce4e7a180d3b70d5d1ea5763673dabfc3f9b6bddb69d2b3c
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.023732600621999455,
5
  "eval_steps": 393,
6
- "global_step": 1179,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -8292,6 +8292,2736 @@
8292
  "eval_samples_per_second": 165.016,
8293
  "eval_steps_per_second": 82.508,
8294
  "step": 1179
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8295
  }
8296
  ],
8297
  "logging_steps": 1,
@@ -8306,12 +11036,12 @@
8306
  "should_evaluate": false,
8307
  "should_log": false,
8308
  "should_save": true,
8309
- "should_training_stop": false
8310
  },
8311
  "attributes": {}
8312
  }
8313
  },
8314
- "total_flos": 27139941187584.0,
8315
  "train_batch_size": 2,
8316
  "trial_name": null,
8317
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.031583079199251185,
5
  "eval_steps": 393,
6
+ "global_step": 1569,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
8292
  "eval_samples_per_second": 165.016,
8293
  "eval_steps_per_second": 82.508,
8294
  "step": 1179
8295
+ },
8296
+ {
8297
+ "epoch": 0.02375273005424882,
8298
+ "grad_norm": 0.00120261637493968,
8299
+ "learning_rate": 2.9182534103793825e-05,
8300
+ "loss": 46.0,
8301
+ "step": 1180
8302
+ },
8303
+ {
8304
+ "epoch": 0.023772859486498182,
8305
+ "grad_norm": 0.0013184483395889401,
8306
+ "learning_rate": 2.9040402068702977e-05,
8307
+ "loss": 46.0,
8308
+ "step": 1181
8309
+ },
8310
+ {
8311
+ "epoch": 0.023792988918747548,
8312
+ "grad_norm": 0.0016656328225508332,
8313
+ "learning_rate": 2.8898558183539283e-05,
8314
+ "loss": 46.0,
8315
+ "step": 1182
8316
+ },
8317
+ {
8318
+ "epoch": 0.02381311835099691,
8319
+ "grad_norm": 0.0012708749854937196,
8320
+ "learning_rate": 2.8757003024296768e-05,
8321
+ "loss": 46.0,
8322
+ "step": 1183
8323
+ },
8324
+ {
8325
+ "epoch": 0.023833247783246275,
8326
+ "grad_norm": 0.0014254259876906872,
8327
+ "learning_rate": 2.8615737165796974e-05,
8328
+ "loss": 46.0,
8329
+ "step": 1184
8330
+ },
8331
+ {
8332
+ "epoch": 0.023853377215495637,
8333
+ "grad_norm": 0.0012592601124197245,
8334
+ "learning_rate": 2.8474761181686772e-05,
8335
+ "loss": 46.0,
8336
+ "step": 1185
8337
+ },
8338
+ {
8339
+ "epoch": 0.023873506647745,
8340
+ "grad_norm": 0.001736863050609827,
8341
+ "learning_rate": 2.8334075644435807e-05,
8342
+ "loss": 46.0,
8343
+ "step": 1186
8344
+ },
8345
+ {
8346
+ "epoch": 0.023893636079994365,
8347
+ "grad_norm": 0.0012428145855665207,
8348
+ "learning_rate": 2.8193681125334393e-05,
8349
+ "loss": 46.0,
8350
+ "step": 1187
8351
+ },
8352
+ {
8353
+ "epoch": 0.023913765512243727,
8354
+ "grad_norm": 0.001219391357153654,
8355
+ "learning_rate": 2.805357819449098e-05,
8356
+ "loss": 46.0,
8357
+ "step": 1188
8358
+ },
8359
+ {
8360
+ "epoch": 0.023933894944493092,
8361
+ "grad_norm": 0.0018028883496299386,
8362
+ "learning_rate": 2.7913767420830105e-05,
8363
+ "loss": 46.0,
8364
+ "step": 1189
8365
+ },
8366
+ {
8367
+ "epoch": 0.023954024376742454,
8368
+ "grad_norm": 0.001996217295527458,
8369
+ "learning_rate": 2.7774249372089688e-05,
8370
+ "loss": 46.0,
8371
+ "step": 1190
8372
+ },
8373
+ {
8374
+ "epoch": 0.023974153808991816,
8375
+ "grad_norm": 0.0012688592541962862,
8376
+ "learning_rate": 2.7635024614819205e-05,
8377
+ "loss": 46.0,
8378
+ "step": 1191
8379
+ },
8380
+ {
8381
+ "epoch": 0.02399428324124118,
8382
+ "grad_norm": 0.0006761057302355766,
8383
+ "learning_rate": 2.749609371437697e-05,
8384
+ "loss": 46.0,
8385
+ "step": 1192
8386
+ },
8387
+ {
8388
+ "epoch": 0.024014412673490543,
8389
+ "grad_norm": 0.0008217204012908041,
8390
+ "learning_rate": 2.735745723492815e-05,
8391
+ "loss": 46.0,
8392
+ "step": 1193
8393
+ },
8394
+ {
8395
+ "epoch": 0.02403454210573991,
8396
+ "grad_norm": 0.0008044593851082027,
8397
+ "learning_rate": 2.7219115739442215e-05,
8398
+ "loss": 46.0,
8399
+ "step": 1194
8400
+ },
8401
+ {
8402
+ "epoch": 0.02405467153798927,
8403
+ "grad_norm": 0.0011257351143285632,
8404
+ "learning_rate": 2.7081069789690883e-05,
8405
+ "loss": 46.0,
8406
+ "step": 1195
8407
+ },
8408
+ {
8409
+ "epoch": 0.024074800970238633,
8410
+ "grad_norm": 0.001486622029915452,
8411
+ "learning_rate": 2.694331994624567e-05,
8412
+ "loss": 46.0,
8413
+ "step": 1196
8414
+ },
8415
+ {
8416
+ "epoch": 0.024094930402488,
8417
+ "grad_norm": 0.0016462607309222221,
8418
+ "learning_rate": 2.6805866768475663e-05,
8419
+ "loss": 46.0,
8420
+ "step": 1197
8421
+ },
8422
+ {
8423
+ "epoch": 0.02411505983473736,
8424
+ "grad_norm": 0.0006136257434263825,
8425
+ "learning_rate": 2.666871081454533e-05,
8426
+ "loss": 46.0,
8427
+ "step": 1198
8428
+ },
8429
+ {
8430
+ "epoch": 0.024135189266986726,
8431
+ "grad_norm": 0.0008609068463556468,
8432
+ "learning_rate": 2.6531852641412082e-05,
8433
+ "loss": 46.0,
8434
+ "step": 1199
8435
+ },
8436
+ {
8437
+ "epoch": 0.024155318699236088,
8438
+ "grad_norm": 0.0013050955021753907,
8439
+ "learning_rate": 2.6395292804824244e-05,
8440
+ "loss": 46.0,
8441
+ "step": 1200
8442
+ },
8443
+ {
8444
+ "epoch": 0.024175448131485453,
8445
+ "grad_norm": 0.00126195780467242,
8446
+ "learning_rate": 2.625903185931853e-05,
8447
+ "loss": 46.0,
8448
+ "step": 1201
8449
+ },
8450
+ {
8451
+ "epoch": 0.024195577563734815,
8452
+ "grad_norm": 0.001260231714695692,
8453
+ "learning_rate": 2.612307035821805e-05,
8454
+ "loss": 46.0,
8455
+ "step": 1202
8456
+ },
8457
+ {
8458
+ "epoch": 0.024215706995984177,
8459
+ "grad_norm": 0.0008337153121829033,
8460
+ "learning_rate": 2.5987408853629846e-05,
8461
+ "loss": 46.0,
8462
+ "step": 1203
8463
+ },
8464
+ {
8465
+ "epoch": 0.024235836428233543,
8466
+ "grad_norm": 0.0017989326734095812,
8467
+ "learning_rate": 2.5852047896442853e-05,
8468
+ "loss": 46.0,
8469
+ "step": 1204
8470
+ },
8471
+ {
8472
+ "epoch": 0.024255965860482905,
8473
+ "grad_norm": 0.0008393581956624985,
8474
+ "learning_rate": 2.5716988036325386e-05,
8475
+ "loss": 46.0,
8476
+ "step": 1205
8477
+ },
8478
+ {
8479
+ "epoch": 0.02427609529273227,
8480
+ "grad_norm": 0.001092239166609943,
8481
+ "learning_rate": 2.5582229821723257e-05,
8482
+ "loss": 46.0,
8483
+ "step": 1206
8484
+ },
8485
+ {
8486
+ "epoch": 0.024296224724981632,
8487
+ "grad_norm": 0.0011140386341139674,
8488
+ "learning_rate": 2.5447773799857244e-05,
8489
+ "loss": 46.0,
8490
+ "step": 1207
8491
+ },
8492
+ {
8493
+ "epoch": 0.024316354157230994,
8494
+ "grad_norm": 0.0014232645044103265,
8495
+ "learning_rate": 2.5313620516721105e-05,
8496
+ "loss": 46.0,
8497
+ "step": 1208
8498
+ },
8499
+ {
8500
+ "epoch": 0.02433648358948036,
8501
+ "grad_norm": 0.0015523895854130387,
8502
+ "learning_rate": 2.5179770517079093e-05,
8503
+ "loss": 46.0,
8504
+ "step": 1209
8505
+ },
8506
+ {
8507
+ "epoch": 0.02435661302172972,
8508
+ "grad_norm": 0.0020029693841934204,
8509
+ "learning_rate": 2.5046224344464074e-05,
8510
+ "loss": 46.0,
8511
+ "step": 1210
8512
+ },
8513
+ {
8514
+ "epoch": 0.024376742453979087,
8515
+ "grad_norm": 0.0009358267998322845,
8516
+ "learning_rate": 2.4912982541175033e-05,
8517
+ "loss": 46.0,
8518
+ "step": 1211
8519
+ },
8520
+ {
8521
+ "epoch": 0.02439687188622845,
8522
+ "grad_norm": 0.0009875150863081217,
8523
+ "learning_rate": 2.4780045648274975e-05,
8524
+ "loss": 46.0,
8525
+ "step": 1212
8526
+ },
8527
+ {
8528
+ "epoch": 0.02441700131847781,
8529
+ "grad_norm": 0.0015209922567009926,
8530
+ "learning_rate": 2.4647414205588827e-05,
8531
+ "loss": 46.0,
8532
+ "step": 1213
8533
+ },
8534
+ {
8535
+ "epoch": 0.024437130750727176,
8536
+ "grad_norm": 0.0008846839773468673,
8537
+ "learning_rate": 2.451508875170104e-05,
8538
+ "loss": 46.0,
8539
+ "step": 1214
8540
+ },
8541
+ {
8542
+ "epoch": 0.024457260182976538,
8543
+ "grad_norm": 0.0009960222523659468,
8544
+ "learning_rate": 2.4383069823953663e-05,
8545
+ "loss": 46.0,
8546
+ "step": 1215
8547
+ },
8548
+ {
8549
+ "epoch": 0.024477389615225904,
8550
+ "grad_norm": 0.001352517050690949,
8551
+ "learning_rate": 2.4251357958443867e-05,
8552
+ "loss": 46.0,
8553
+ "step": 1216
8554
+ },
8555
+ {
8556
+ "epoch": 0.024497519047475266,
8557
+ "grad_norm": 0.0013506961986422539,
8558
+ "learning_rate": 2.4119953690022025e-05,
8559
+ "loss": 46.0,
8560
+ "step": 1217
8561
+ },
8562
+ {
8563
+ "epoch": 0.02451764847972463,
8564
+ "grad_norm": 0.0009574260911904275,
8565
+ "learning_rate": 2.3988857552289333e-05,
8566
+ "loss": 46.0,
8567
+ "step": 1218
8568
+ },
8569
+ {
8570
+ "epoch": 0.024537777911973993,
8571
+ "grad_norm": 0.0007269601919688284,
8572
+ "learning_rate": 2.3858070077595908e-05,
8573
+ "loss": 46.0,
8574
+ "step": 1219
8575
+ },
8576
+ {
8577
+ "epoch": 0.024557907344223355,
8578
+ "grad_norm": 0.0006699137156829238,
8579
+ "learning_rate": 2.372759179703822e-05,
8580
+ "loss": 46.0,
8581
+ "step": 1220
8582
+ },
8583
+ {
8584
+ "epoch": 0.02457803677647272,
8585
+ "grad_norm": 0.0015291008166968822,
8586
+ "learning_rate": 2.3597423240457395e-05,
8587
+ "loss": 46.0,
8588
+ "step": 1221
8589
+ },
8590
+ {
8591
+ "epoch": 0.024598166208722082,
8592
+ "grad_norm": 0.002010623225942254,
8593
+ "learning_rate": 2.3467564936436703e-05,
8594
+ "loss": 46.0,
8595
+ "step": 1222
8596
+ },
8597
+ {
8598
+ "epoch": 0.024618295640971448,
8599
+ "grad_norm": 0.0008198167197406292,
8600
+ "learning_rate": 2.3338017412299663e-05,
8601
+ "loss": 46.0,
8602
+ "step": 1223
8603
+ },
8604
+ {
8605
+ "epoch": 0.02463842507322081,
8606
+ "grad_norm": 0.0006754023488610983,
8607
+ "learning_rate": 2.3208781194107664e-05,
8608
+ "loss": 46.0,
8609
+ "step": 1224
8610
+ },
8611
+ {
8612
+ "epoch": 0.024658554505470172,
8613
+ "grad_norm": 0.0009974197018891573,
8614
+ "learning_rate": 2.3079856806658107e-05,
8615
+ "loss": 46.0,
8616
+ "step": 1225
8617
+ },
8618
+ {
8619
+ "epoch": 0.024678683937719537,
8620
+ "grad_norm": 0.0012742577819153666,
8621
+ "learning_rate": 2.2951244773481995e-05,
8622
+ "loss": 46.0,
8623
+ "step": 1226
8624
+ },
8625
+ {
8626
+ "epoch": 0.0246988133699689,
8627
+ "grad_norm": 0.0013213262427598238,
8628
+ "learning_rate": 2.2822945616841963e-05,
8629
+ "loss": 46.0,
8630
+ "step": 1227
8631
+ },
8632
+ {
8633
+ "epoch": 0.024718942802218265,
8634
+ "grad_norm": 0.0006177601171657443,
8635
+ "learning_rate": 2.2694959857730204e-05,
8636
+ "loss": 46.0,
8637
+ "step": 1228
8638
+ },
8639
+ {
8640
+ "epoch": 0.024739072234467627,
8641
+ "grad_norm": 0.0009409788763150573,
8642
+ "learning_rate": 2.256728801586616e-05,
8643
+ "loss": 46.0,
8644
+ "step": 1229
8645
+ },
8646
+ {
8647
+ "epoch": 0.02475920166671699,
8648
+ "grad_norm": 0.001638015266507864,
8649
+ "learning_rate": 2.2439930609694658e-05,
8650
+ "loss": 46.0,
8651
+ "step": 1230
8652
+ },
8653
+ {
8654
+ "epoch": 0.024779331098966354,
8655
+ "grad_norm": 0.000653863069601357,
8656
+ "learning_rate": 2.231288815638356e-05,
8657
+ "loss": 46.0,
8658
+ "step": 1231
8659
+ },
8660
+ {
8661
+ "epoch": 0.024799460531215716,
8662
+ "grad_norm": 0.001285205944441259,
8663
+ "learning_rate": 2.2186161171821885e-05,
8664
+ "loss": 46.0,
8665
+ "step": 1232
8666
+ },
8667
+ {
8668
+ "epoch": 0.02481958996346508,
8669
+ "grad_norm": 0.001490448834374547,
8670
+ "learning_rate": 2.2059750170617523e-05,
8671
+ "loss": 46.0,
8672
+ "step": 1233
8673
+ },
8674
+ {
8675
+ "epoch": 0.024839719395714444,
8676
+ "grad_norm": 0.0018423368455842137,
8677
+ "learning_rate": 2.1933655666095275e-05,
8678
+ "loss": 46.0,
8679
+ "step": 1234
8680
+ },
8681
+ {
8682
+ "epoch": 0.02485984882796381,
8683
+ "grad_norm": 0.0011196645209565759,
8684
+ "learning_rate": 2.180787817029468e-05,
8685
+ "loss": 46.0,
8686
+ "step": 1235
8687
+ },
8688
+ {
8689
+ "epoch": 0.02487997826021317,
8690
+ "grad_norm": 0.000826796458568424,
8691
+ "learning_rate": 2.168241819396808e-05,
8692
+ "loss": 46.0,
8693
+ "step": 1236
8694
+ },
8695
+ {
8696
+ "epoch": 0.024900107692462533,
8697
+ "grad_norm": 0.0005586759652942419,
8698
+ "learning_rate": 2.1557276246578307e-05,
8699
+ "loss": 46.0,
8700
+ "step": 1237
8701
+ },
8702
+ {
8703
+ "epoch": 0.0249202371247119,
8704
+ "grad_norm": 0.0011236952850595117,
8705
+ "learning_rate": 2.1432452836296914e-05,
8706
+ "loss": 46.0,
8707
+ "step": 1238
8708
+ },
8709
+ {
8710
+ "epoch": 0.02494036655696126,
8711
+ "grad_norm": 0.001449284260161221,
8712
+ "learning_rate": 2.1307948470001782e-05,
8713
+ "loss": 46.0,
8714
+ "step": 1239
8715
+ },
8716
+ {
8717
+ "epoch": 0.024960495989210626,
8718
+ "grad_norm": 0.0007015886367298663,
8719
+ "learning_rate": 2.1183763653275378e-05,
8720
+ "loss": 46.0,
8721
+ "step": 1240
8722
+ },
8723
+ {
8724
+ "epoch": 0.024980625421459988,
8725
+ "grad_norm": 0.0011342605575919151,
8726
+ "learning_rate": 2.1059898890402473e-05,
8727
+ "loss": 46.0,
8728
+ "step": 1241
8729
+ },
8730
+ {
8731
+ "epoch": 0.02500075485370935,
8732
+ "grad_norm": 0.0012565052602440119,
8733
+ "learning_rate": 2.0936354684368163e-05,
8734
+ "loss": 46.0,
8735
+ "step": 1242
8736
+ },
8737
+ {
8738
+ "epoch": 0.025020884285958715,
8739
+ "grad_norm": 0.001035231165587902,
8740
+ "learning_rate": 2.0813131536855913e-05,
8741
+ "loss": 46.0,
8742
+ "step": 1243
8743
+ },
8744
+ {
8745
+ "epoch": 0.025041013718208077,
8746
+ "grad_norm": 0.0019417139701545238,
8747
+ "learning_rate": 2.0690229948245365e-05,
8748
+ "loss": 46.0,
8749
+ "step": 1244
8750
+ },
8751
+ {
8752
+ "epoch": 0.025061143150457443,
8753
+ "grad_norm": 0.0015144539065659046,
8754
+ "learning_rate": 2.0567650417610485e-05,
8755
+ "loss": 46.0,
8756
+ "step": 1245
8757
+ },
8758
+ {
8759
+ "epoch": 0.025081272582706805,
8760
+ "grad_norm": 0.0014989918563514948,
8761
+ "learning_rate": 2.0445393442717308e-05,
8762
+ "loss": 46.0,
8763
+ "step": 1246
8764
+ },
8765
+ {
8766
+ "epoch": 0.025101402014956167,
8767
+ "grad_norm": 0.0018054774263873696,
8768
+ "learning_rate": 2.032345952002218e-05,
8769
+ "loss": 46.0,
8770
+ "step": 1247
8771
+ },
8772
+ {
8773
+ "epoch": 0.025121531447205532,
8774
+ "grad_norm": 0.0009529809467494488,
8775
+ "learning_rate": 2.0201849144669525e-05,
8776
+ "loss": 46.0,
8777
+ "step": 1248
8778
+ },
8779
+ {
8780
+ "epoch": 0.025141660879454894,
8781
+ "grad_norm": 0.002208658494055271,
8782
+ "learning_rate": 2.0080562810489935e-05,
8783
+ "loss": 46.0,
8784
+ "step": 1249
8785
+ },
8786
+ {
8787
+ "epoch": 0.02516179031170426,
8788
+ "grad_norm": 0.0007078711641952395,
8789
+ "learning_rate": 1.995960100999814e-05,
8790
+ "loss": 46.0,
8791
+ "step": 1250
8792
+ },
8793
+ {
8794
+ "epoch": 0.02518191974395362,
8795
+ "grad_norm": 0.0010136510245501995,
8796
+ "learning_rate": 1.983896423439109e-05,
8797
+ "loss": 46.0,
8798
+ "step": 1251
8799
+ },
8800
+ {
8801
+ "epoch": 0.025202049176202987,
8802
+ "grad_norm": 0.0018538066651672125,
8803
+ "learning_rate": 1.9718652973545758e-05,
8804
+ "loss": 46.0,
8805
+ "step": 1252
8806
+ },
8807
+ {
8808
+ "epoch": 0.02522217860845235,
8809
+ "grad_norm": 0.0011417543282732368,
8810
+ "learning_rate": 1.9598667716017417e-05,
8811
+ "loss": 46.0,
8812
+ "step": 1253
8813
+ },
8814
+ {
8815
+ "epoch": 0.02524230804070171,
8816
+ "grad_norm": 0.000996634247712791,
8817
+ "learning_rate": 1.947900894903739e-05,
8818
+ "loss": 46.0,
8819
+ "step": 1254
8820
+ },
8821
+ {
8822
+ "epoch": 0.025262437472951076,
8823
+ "grad_norm": 0.001392628182657063,
8824
+ "learning_rate": 1.9359677158511334e-05,
8825
+ "loss": 46.0,
8826
+ "step": 1255
8827
+ },
8828
+ {
8829
+ "epoch": 0.02528256690520044,
8830
+ "grad_norm": 0.000720780692063272,
8831
+ "learning_rate": 1.9240672829017014e-05,
8832
+ "loss": 46.0,
8833
+ "step": 1256
8834
+ },
8835
+ {
8836
+ "epoch": 0.025302696337449804,
8837
+ "grad_norm": 0.001160190673545003,
8838
+ "learning_rate": 1.9121996443802482e-05,
8839
+ "loss": 46.0,
8840
+ "step": 1257
8841
+ },
8842
+ {
8843
+ "epoch": 0.025322825769699166,
8844
+ "grad_norm": 0.002251293743029237,
8845
+ "learning_rate": 1.9003648484784166e-05,
8846
+ "loss": 46.0,
8847
+ "step": 1258
8848
+ },
8849
+ {
8850
+ "epoch": 0.025342955201948528,
8851
+ "grad_norm": 0.00043235233169980347,
8852
+ "learning_rate": 1.8885629432544717e-05,
8853
+ "loss": 46.0,
8854
+ "step": 1259
8855
+ },
8856
+ {
8857
+ "epoch": 0.025363084634197893,
8858
+ "grad_norm": 0.0007145190611481667,
8859
+ "learning_rate": 1.8767939766331287e-05,
8860
+ "loss": 46.0,
8861
+ "step": 1260
8862
+ },
8863
+ {
8864
+ "epoch": 0.025383214066447255,
8865
+ "grad_norm": 0.0006261473754420877,
8866
+ "learning_rate": 1.865057996405336e-05,
8867
+ "loss": 46.0,
8868
+ "step": 1261
8869
+ },
8870
+ {
8871
+ "epoch": 0.02540334349869662,
8872
+ "grad_norm": 0.0010795745765790343,
8873
+ "learning_rate": 1.8533550502281015e-05,
8874
+ "loss": 46.0,
8875
+ "step": 1262
8876
+ },
8877
+ {
8878
+ "epoch": 0.025423472930945983,
8879
+ "grad_norm": 0.0009830056224018335,
8880
+ "learning_rate": 1.8416851856242868e-05,
8881
+ "loss": 46.0,
8882
+ "step": 1263
8883
+ },
8884
+ {
8885
+ "epoch": 0.025443602363195345,
8886
+ "grad_norm": 0.0014814147725701332,
8887
+ "learning_rate": 1.83004844998241e-05,
8888
+ "loss": 46.0,
8889
+ "step": 1264
8890
+ },
8891
+ {
8892
+ "epoch": 0.02546373179544471,
8893
+ "grad_norm": 0.0011380594223737717,
8894
+ "learning_rate": 1.8184448905564743e-05,
8895
+ "loss": 46.0,
8896
+ "step": 1265
8897
+ },
8898
+ {
8899
+ "epoch": 0.025483861227694072,
8900
+ "grad_norm": 0.0006726674037054181,
8901
+ "learning_rate": 1.8068745544657484e-05,
8902
+ "loss": 46.0,
8903
+ "step": 1266
8904
+ },
8905
+ {
8906
+ "epoch": 0.025503990659943437,
8907
+ "grad_norm": 0.0017750106053426862,
8908
+ "learning_rate": 1.7953374886946006e-05,
8909
+ "loss": 46.0,
8910
+ "step": 1267
8911
+ },
8912
+ {
8913
+ "epoch": 0.0255241200921928,
8914
+ "grad_norm": 0.0011626784689724445,
8915
+ "learning_rate": 1.7838337400922855e-05,
8916
+ "loss": 46.0,
8917
+ "step": 1268
8918
+ },
8919
+ {
8920
+ "epoch": 0.025544249524442165,
8921
+ "grad_norm": 0.0009647434344515204,
8922
+ "learning_rate": 1.772363355372776e-05,
8923
+ "loss": 46.0,
8924
+ "step": 1269
8925
+ },
8926
+ {
8927
+ "epoch": 0.025564378956691527,
8928
+ "grad_norm": 0.002181010087952018,
8929
+ "learning_rate": 1.7609263811145537e-05,
8930
+ "loss": 46.0,
8931
+ "step": 1270
8932
+ },
8933
+ {
8934
+ "epoch": 0.02558450838894089,
8935
+ "grad_norm": 0.0012630668934434652,
8936
+ "learning_rate": 1.74952286376043e-05,
8937
+ "loss": 46.0,
8938
+ "step": 1271
8939
+ },
8940
+ {
8941
+ "epoch": 0.025604637821190254,
8942
+ "grad_norm": 0.0009720325469970703,
8943
+ "learning_rate": 1.738152849617356e-05,
8944
+ "loss": 46.0,
8945
+ "step": 1272
8946
+ },
8947
+ {
8948
+ "epoch": 0.025624767253439616,
8949
+ "grad_norm": 0.0007137717329896986,
8950
+ "learning_rate": 1.72681638485624e-05,
8951
+ "loss": 46.0,
8952
+ "step": 1273
8953
+ },
8954
+ {
8955
+ "epoch": 0.02564489668568898,
8956
+ "grad_norm": 0.0014153624651953578,
8957
+ "learning_rate": 1.715513515511743e-05,
8958
+ "loss": 46.0,
8959
+ "step": 1274
8960
+ },
8961
+ {
8962
+ "epoch": 0.025665026117938344,
8963
+ "grad_norm": 0.001465531880967319,
8964
+ "learning_rate": 1.7042442874821164e-05,
8965
+ "loss": 46.0,
8966
+ "step": 1275
8967
+ },
8968
+ {
8969
+ "epoch": 0.025685155550187706,
8970
+ "grad_norm": 0.0011013116454705596,
8971
+ "learning_rate": 1.693008746528988e-05,
8972
+ "loss": 46.0,
8973
+ "step": 1276
8974
+ },
8975
+ {
8976
+ "epoch": 0.02570528498243707,
8977
+ "grad_norm": 0.0005420059314928949,
8978
+ "learning_rate": 1.681806938277205e-05,
8979
+ "loss": 46.0,
8980
+ "step": 1277
8981
+ },
8982
+ {
8983
+ "epoch": 0.025725414414686433,
8984
+ "grad_norm": 0.0007358815055340528,
8985
+ "learning_rate": 1.6706389082146244e-05,
8986
+ "loss": 46.0,
8987
+ "step": 1278
8988
+ },
8989
+ {
8990
+ "epoch": 0.0257455438469358,
8991
+ "grad_norm": 0.00043846582411788404,
8992
+ "learning_rate": 1.6595047016919373e-05,
8993
+ "loss": 46.0,
8994
+ "step": 1279
8995
+ },
8996
+ {
8997
+ "epoch": 0.02576567327918516,
8998
+ "grad_norm": 0.0007551101734861732,
8999
+ "learning_rate": 1.6484043639224955e-05,
9000
+ "loss": 46.0,
9001
+ "step": 1280
9002
+ },
9003
+ {
9004
+ "epoch": 0.025785802711434522,
9005
+ "grad_norm": 0.0011386704863980412,
9006
+ "learning_rate": 1.6373379399821033e-05,
9007
+ "loss": 46.0,
9008
+ "step": 1281
9009
+ },
9010
+ {
9011
+ "epoch": 0.025805932143683888,
9012
+ "grad_norm": 0.0014110167976468801,
9013
+ "learning_rate": 1.6263054748088658e-05,
9014
+ "loss": 46.0,
9015
+ "step": 1282
9016
+ },
9017
+ {
9018
+ "epoch": 0.02582606157593325,
9019
+ "grad_norm": 0.0017660473240539432,
9020
+ "learning_rate": 1.6153070132029723e-05,
9021
+ "loss": 46.0,
9022
+ "step": 1283
9023
+ },
9024
+ {
9025
+ "epoch": 0.025846191008182615,
9026
+ "grad_norm": 0.0021693487651646137,
9027
+ "learning_rate": 1.604342599826548e-05,
9028
+ "loss": 46.0,
9029
+ "step": 1284
9030
+ },
9031
+ {
9032
+ "epoch": 0.025866320440431977,
9033
+ "grad_norm": 0.001375765772536397,
9034
+ "learning_rate": 1.593412279203447e-05,
9035
+ "loss": 46.0,
9036
+ "step": 1285
9037
+ },
9038
+ {
9039
+ "epoch": 0.025886449872681343,
9040
+ "grad_norm": 0.001402435707859695,
9041
+ "learning_rate": 1.5825160957190798e-05,
9042
+ "loss": 46.0,
9043
+ "step": 1286
9044
+ },
9045
+ {
9046
+ "epoch": 0.025906579304930705,
9047
+ "grad_norm": 0.002132172929123044,
9048
+ "learning_rate": 1.5716540936202363e-05,
9049
+ "loss": 46.0,
9050
+ "step": 1287
9051
+ },
9052
+ {
9053
+ "epoch": 0.025926708737180067,
9054
+ "grad_norm": 0.00138960184995085,
9055
+ "learning_rate": 1.5608263170149095e-05,
9056
+ "loss": 46.0,
9057
+ "step": 1288
9058
+ },
9059
+ {
9060
+ "epoch": 0.025946838169429432,
9061
+ "grad_norm": 0.0014584781602025032,
9062
+ "learning_rate": 1.5500328098721017e-05,
9063
+ "loss": 46.0,
9064
+ "step": 1289
9065
+ },
9066
+ {
9067
+ "epoch": 0.025966967601678794,
9068
+ "grad_norm": 0.0017797322943806648,
9069
+ "learning_rate": 1.5392736160216635e-05,
9070
+ "loss": 46.0,
9071
+ "step": 1290
9072
+ },
9073
+ {
9074
+ "epoch": 0.02598709703392816,
9075
+ "grad_norm": 0.002001388929784298,
9076
+ "learning_rate": 1.5285487791541e-05,
9077
+ "loss": 46.0,
9078
+ "step": 1291
9079
+ },
9080
+ {
9081
+ "epoch": 0.02600722646617752,
9082
+ "grad_norm": 0.0019802197348326445,
9083
+ "learning_rate": 1.5178583428204085e-05,
9084
+ "loss": 46.0,
9085
+ "step": 1292
9086
+ },
9087
+ {
9088
+ "epoch": 0.026027355898426884,
9089
+ "grad_norm": 0.0018057803390547633,
9090
+ "learning_rate": 1.5072023504318867e-05,
9091
+ "loss": 46.0,
9092
+ "step": 1293
9093
+ },
9094
+ {
9095
+ "epoch": 0.02604748533067625,
9096
+ "grad_norm": 0.0009447969496250153,
9097
+ "learning_rate": 1.496580845259965e-05,
9098
+ "loss": 46.0,
9099
+ "step": 1294
9100
+ },
9101
+ {
9102
+ "epoch": 0.02606761476292561,
9103
+ "grad_norm": 0.0007863205391913652,
9104
+ "learning_rate": 1.4859938704360365e-05,
9105
+ "loss": 46.0,
9106
+ "step": 1295
9107
+ },
9108
+ {
9109
+ "epoch": 0.026087744195174976,
9110
+ "grad_norm": 0.0012318964581936598,
9111
+ "learning_rate": 1.475441468951263e-05,
9112
+ "loss": 46.0,
9113
+ "step": 1296
9114
+ },
9115
+ {
9116
+ "epoch": 0.02610787362742434,
9117
+ "grad_norm": 0.001262698438949883,
9118
+ "learning_rate": 1.4649236836564263e-05,
9119
+ "loss": 46.0,
9120
+ "step": 1297
9121
+ },
9122
+ {
9123
+ "epoch": 0.0261280030596737,
9124
+ "grad_norm": 0.0010360804153606296,
9125
+ "learning_rate": 1.4544405572617259e-05,
9126
+ "loss": 46.0,
9127
+ "step": 1298
9128
+ },
9129
+ {
9130
+ "epoch": 0.026148132491923066,
9131
+ "grad_norm": 0.001501108636148274,
9132
+ "learning_rate": 1.4439921323366323e-05,
9133
+ "loss": 46.0,
9134
+ "step": 1299
9135
+ },
9136
+ {
9137
+ "epoch": 0.026168261924172428,
9138
+ "grad_norm": 0.0006216936744749546,
9139
+ "learning_rate": 1.4335784513096929e-05,
9140
+ "loss": 46.0,
9141
+ "step": 1300
9142
+ },
9143
+ {
9144
+ "epoch": 0.026188391356421793,
9145
+ "grad_norm": 0.0012842519208788872,
9146
+ "learning_rate": 1.4231995564683732e-05,
9147
+ "loss": 46.0,
9148
+ "step": 1301
9149
+ },
9150
+ {
9151
+ "epoch": 0.026208520788671155,
9152
+ "grad_norm": 0.0013369874795898795,
9153
+ "learning_rate": 1.412855489958873e-05,
9154
+ "loss": 46.0,
9155
+ "step": 1302
9156
+ },
9157
+ {
9158
+ "epoch": 0.02622865022092052,
9159
+ "grad_norm": 0.0011299944017082453,
9160
+ "learning_rate": 1.4025462937859768e-05,
9161
+ "loss": 46.0,
9162
+ "step": 1303
9163
+ },
9164
+ {
9165
+ "epoch": 0.026248779653169883,
9166
+ "grad_norm": 0.0018812668276950717,
9167
+ "learning_rate": 1.3922720098128527e-05,
9168
+ "loss": 46.0,
9169
+ "step": 1304
9170
+ },
9171
+ {
9172
+ "epoch": 0.026268909085419245,
9173
+ "grad_norm": 0.001090607256628573,
9174
+ "learning_rate": 1.3820326797609129e-05,
9175
+ "loss": 46.0,
9176
+ "step": 1305
9177
+ },
9178
+ {
9179
+ "epoch": 0.02628903851766861,
9180
+ "grad_norm": 0.0012601654743775725,
9181
+ "learning_rate": 1.371828345209618e-05,
9182
+ "loss": 46.0,
9183
+ "step": 1306
9184
+ },
9185
+ {
9186
+ "epoch": 0.026309167949917972,
9187
+ "grad_norm": 0.0014517259551212192,
9188
+ "learning_rate": 1.361659047596332e-05,
9189
+ "loss": 46.0,
9190
+ "step": 1307
9191
+ },
9192
+ {
9193
+ "epoch": 0.026329297382167337,
9194
+ "grad_norm": 0.0019068201072514057,
9195
+ "learning_rate": 1.3515248282161319e-05,
9196
+ "loss": 46.0,
9197
+ "step": 1308
9198
+ },
9199
+ {
9200
+ "epoch": 0.0263494268144167,
9201
+ "grad_norm": 0.0016664571594446898,
9202
+ "learning_rate": 1.3414257282216535e-05,
9203
+ "loss": 46.0,
9204
+ "step": 1309
9205
+ },
9206
+ {
9207
+ "epoch": 0.02636955624666606,
9208
+ "grad_norm": 0.0009046939085237682,
9209
+ "learning_rate": 1.3313617886229269e-05,
9210
+ "loss": 46.0,
9211
+ "step": 1310
9212
+ },
9213
+ {
9214
+ "epoch": 0.026389685678915427,
9215
+ "grad_norm": 0.0005408989964053035,
9216
+ "learning_rate": 1.3213330502871956e-05,
9217
+ "loss": 46.0,
9218
+ "step": 1311
9219
+ },
9220
+ {
9221
+ "epoch": 0.02640981511116479,
9222
+ "grad_norm": 0.0008995769894681871,
9223
+ "learning_rate": 1.3113395539387674e-05,
9224
+ "loss": 46.0,
9225
+ "step": 1312
9226
+ },
9227
+ {
9228
+ "epoch": 0.026429944543414154,
9229
+ "grad_norm": 0.0012701263185590506,
9230
+ "learning_rate": 1.3013813401588315e-05,
9231
+ "loss": 46.0,
9232
+ "step": 1313
9233
+ },
9234
+ {
9235
+ "epoch": 0.026450073975663516,
9236
+ "grad_norm": 0.001226755790412426,
9237
+ "learning_rate": 1.2914584493853144e-05,
9238
+ "loss": 46.0,
9239
+ "step": 1314
9240
+ },
9241
+ {
9242
+ "epoch": 0.026470203407912878,
9243
+ "grad_norm": 0.0015894804382696748,
9244
+ "learning_rate": 1.2815709219126959e-05,
9245
+ "loss": 46.0,
9246
+ "step": 1315
9247
+ },
9248
+ {
9249
+ "epoch": 0.026490332840162244,
9250
+ "grad_norm": 0.0014253195840865374,
9251
+ "learning_rate": 1.2717187978918544e-05,
9252
+ "loss": 46.0,
9253
+ "step": 1316
9254
+ },
9255
+ {
9256
+ "epoch": 0.026510462272411606,
9257
+ "grad_norm": 0.0009140470647253096,
9258
+ "learning_rate": 1.2619021173299051e-05,
9259
+ "loss": 46.0,
9260
+ "step": 1317
9261
+ },
9262
+ {
9263
+ "epoch": 0.02653059170466097,
9264
+ "grad_norm": 0.0010910599958151579,
9265
+ "learning_rate": 1.2521209200900397e-05,
9266
+ "loss": 46.0,
9267
+ "step": 1318
9268
+ },
9269
+ {
9270
+ "epoch": 0.026550721136910333,
9271
+ "grad_norm": 0.000989207299426198,
9272
+ "learning_rate": 1.2423752458913518e-05,
9273
+ "loss": 46.0,
9274
+ "step": 1319
9275
+ },
9276
+ {
9277
+ "epoch": 0.0265708505691597,
9278
+ "grad_norm": 0.0009602408390492201,
9279
+ "learning_rate": 1.2326651343086937e-05,
9280
+ "loss": 46.0,
9281
+ "step": 1320
9282
+ },
9283
+ {
9284
+ "epoch": 0.02659098000140906,
9285
+ "grad_norm": 0.0004408732638694346,
9286
+ "learning_rate": 1.2229906247724998e-05,
9287
+ "loss": 46.0,
9288
+ "step": 1321
9289
+ },
9290
+ {
9291
+ "epoch": 0.026611109433658423,
9292
+ "grad_norm": 0.0010518889175727963,
9293
+ "learning_rate": 1.2133517565686381e-05,
9294
+ "loss": 46.0,
9295
+ "step": 1322
9296
+ },
9297
+ {
9298
+ "epoch": 0.026631238865907788,
9299
+ "grad_norm": 0.002272763755172491,
9300
+ "learning_rate": 1.2037485688382421e-05,
9301
+ "loss": 46.0,
9302
+ "step": 1323
9303
+ },
9304
+ {
9305
+ "epoch": 0.02665136829815715,
9306
+ "grad_norm": 0.0020480677485466003,
9307
+ "learning_rate": 1.1941811005775538e-05,
9308
+ "loss": 46.0,
9309
+ "step": 1324
9310
+ },
9311
+ {
9312
+ "epoch": 0.026671497730406515,
9313
+ "grad_norm": 0.002253229497000575,
9314
+ "learning_rate": 1.1846493906377743e-05,
9315
+ "loss": 46.0,
9316
+ "step": 1325
9317
+ },
9318
+ {
9319
+ "epoch": 0.026691627162655877,
9320
+ "grad_norm": 0.0012804159196093678,
9321
+ "learning_rate": 1.1751534777248885e-05,
9322
+ "loss": 46.0,
9323
+ "step": 1326
9324
+ },
9325
+ {
9326
+ "epoch": 0.02671175659490524,
9327
+ "grad_norm": 0.0019482570933178067,
9328
+ "learning_rate": 1.1656934003995302e-05,
9329
+ "loss": 46.0,
9330
+ "step": 1327
9331
+ },
9332
+ {
9333
+ "epoch": 0.026731886027154605,
9334
+ "grad_norm": 0.0008674189448356628,
9335
+ "learning_rate": 1.1562691970768014e-05,
9336
+ "loss": 46.0,
9337
+ "step": 1328
9338
+ },
9339
+ {
9340
+ "epoch": 0.026752015459403967,
9341
+ "grad_norm": 0.0017704269848763943,
9342
+ "learning_rate": 1.1468809060261399e-05,
9343
+ "loss": 46.0,
9344
+ "step": 1329
9345
+ },
9346
+ {
9347
+ "epoch": 0.026772144891653332,
9348
+ "grad_norm": 0.0014249221421778202,
9349
+ "learning_rate": 1.1375285653711399e-05,
9350
+ "loss": 46.0,
9351
+ "step": 1330
9352
+ },
9353
+ {
9354
+ "epoch": 0.026792274323902694,
9355
+ "grad_norm": 0.0009925938211381435,
9356
+ "learning_rate": 1.1282122130894202e-05,
9357
+ "loss": 46.0,
9358
+ "step": 1331
9359
+ },
9360
+ {
9361
+ "epoch": 0.026812403756152056,
9362
+ "grad_norm": 0.0008217705762945116,
9363
+ "learning_rate": 1.1189318870124531e-05,
9364
+ "loss": 46.0,
9365
+ "step": 1332
9366
+ },
9367
+ {
9368
+ "epoch": 0.02683253318840142,
9369
+ "grad_norm": 0.002136779949069023,
9370
+ "learning_rate": 1.1096876248254228e-05,
9371
+ "loss": 46.0,
9372
+ "step": 1333
9373
+ },
9374
+ {
9375
+ "epoch": 0.026852662620650784,
9376
+ "grad_norm": 0.0014067484298720956,
9377
+ "learning_rate": 1.1004794640670602e-05,
9378
+ "loss": 46.0,
9379
+ "step": 1334
9380
+ },
9381
+ {
9382
+ "epoch": 0.02687279205290015,
9383
+ "grad_norm": 0.0008450828609056771,
9384
+ "learning_rate": 1.0913074421295022e-05,
9385
+ "loss": 46.0,
9386
+ "step": 1335
9387
+ },
9388
+ {
9389
+ "epoch": 0.02689292148514951,
9390
+ "grad_norm": 0.0005786415422335267,
9391
+ "learning_rate": 1.0821715962581302e-05,
9392
+ "loss": 46.0,
9393
+ "step": 1336
9394
+ },
9395
+ {
9396
+ "epoch": 0.026913050917398876,
9397
+ "grad_norm": 0.0012445749016478658,
9398
+ "learning_rate": 1.0730719635514296e-05,
9399
+ "loss": 46.0,
9400
+ "step": 1337
9401
+ },
9402
+ {
9403
+ "epoch": 0.02693318034964824,
9404
+ "grad_norm": 0.0017225752817466855,
9405
+ "learning_rate": 1.0640085809608257e-05,
9406
+ "loss": 46.0,
9407
+ "step": 1338
9408
+ },
9409
+ {
9410
+ "epoch": 0.0269533097818976,
9411
+ "grad_norm": 0.0006431869696825743,
9412
+ "learning_rate": 1.0549814852905427e-05,
9413
+ "loss": 46.0,
9414
+ "step": 1339
9415
+ },
9416
+ {
9417
+ "epoch": 0.026973439214146966,
9418
+ "grad_norm": 0.0006889837677590549,
9419
+ "learning_rate": 1.0459907131974578e-05,
9420
+ "loss": 46.0,
9421
+ "step": 1340
9422
+ },
9423
+ {
9424
+ "epoch": 0.026993568646396328,
9425
+ "grad_norm": 0.0007062877994030714,
9426
+ "learning_rate": 1.0370363011909368e-05,
9427
+ "loss": 46.0,
9428
+ "step": 1341
9429
+ },
9430
+ {
9431
+ "epoch": 0.027013698078645693,
9432
+ "grad_norm": 0.0020865912083536386,
9433
+ "learning_rate": 1.0281182856327075e-05,
9434
+ "loss": 46.0,
9435
+ "step": 1342
9436
+ },
9437
+ {
9438
+ "epoch": 0.027033827510895055,
9439
+ "grad_norm": 0.000669913541059941,
9440
+ "learning_rate": 1.019236702736689e-05,
9441
+ "loss": 46.0,
9442
+ "step": 1343
9443
+ },
9444
+ {
9445
+ "epoch": 0.027053956943144417,
9446
+ "grad_norm": 0.001416582614183426,
9447
+ "learning_rate": 1.0103915885688686e-05,
9448
+ "loss": 46.0,
9449
+ "step": 1344
9450
+ },
9451
+ {
9452
+ "epoch": 0.027074086375393783,
9453
+ "grad_norm": 0.0017289246898144484,
9454
+ "learning_rate": 1.0015829790471288e-05,
9455
+ "loss": 46.0,
9456
+ "step": 1345
9457
+ },
9458
+ {
9459
+ "epoch": 0.027094215807643145,
9460
+ "grad_norm": 0.0016691044438630342,
9461
+ "learning_rate": 9.928109099411265e-06,
9462
+ "loss": 46.0,
9463
+ "step": 1346
9464
+ },
9465
+ {
9466
+ "epoch": 0.02711434523989251,
9467
+ "grad_norm": 0.0008188973879441619,
9468
+ "learning_rate": 9.840754168721289e-06,
9469
+ "loss": 46.0,
9470
+ "step": 1347
9471
+ },
9472
+ {
9473
+ "epoch": 0.027134474672141872,
9474
+ "grad_norm": 0.0006958742160350084,
9475
+ "learning_rate": 9.753765353128863e-06,
9476
+ "loss": 46.0,
9477
+ "step": 1348
9478
+ },
9479
+ {
9480
+ "epoch": 0.027154604104391234,
9481
+ "grad_norm": 0.0026792276185005903,
9482
+ "learning_rate": 9.667143005874679e-06,
9483
+ "loss": 46.0,
9484
+ "step": 1349
9485
+ },
9486
+ {
9487
+ "epoch": 0.0271747335366406,
9488
+ "grad_norm": 0.0012797150993719697,
9489
+ "learning_rate": 9.580887478711376e-06,
9490
+ "loss": 46.0,
9491
+ "step": 1350
9492
+ },
9493
+ {
9494
+ "epoch": 0.02719486296888996,
9495
+ "grad_norm": 0.0014746271772310138,
9496
+ "learning_rate": 9.494999121901948e-06,
9497
+ "loss": 46.0,
9498
+ "step": 1351
9499
+ },
9500
+ {
9501
+ "epoch": 0.027214992401139327,
9502
+ "grad_norm": 0.0014366628602147102,
9503
+ "learning_rate": 9.409478284218465e-06,
9504
+ "loss": 46.0,
9505
+ "step": 1352
9506
+ },
9507
+ {
9508
+ "epoch": 0.02723512183338869,
9509
+ "grad_norm": 0.0005030794418416917,
9510
+ "learning_rate": 9.32432531294054e-06,
9511
+ "loss": 46.0,
9512
+ "step": 1353
9513
+ },
9514
+ {
9515
+ "epoch": 0.027255251265638054,
9516
+ "grad_norm": 0.001364423893392086,
9517
+ "learning_rate": 9.239540553853987e-06,
9518
+ "loss": 46.0,
9519
+ "step": 1354
9520
+ },
9521
+ {
9522
+ "epoch": 0.027275380697887416,
9523
+ "grad_norm": 0.002308462280780077,
9524
+ "learning_rate": 9.155124351249434e-06,
9525
+ "loss": 46.0,
9526
+ "step": 1355
9527
+ },
9528
+ {
9529
+ "epoch": 0.02729551013013678,
9530
+ "grad_norm": 0.0006031619850546122,
9531
+ "learning_rate": 9.071077047920807e-06,
9532
+ "loss": 46.0,
9533
+ "step": 1356
9534
+ },
9535
+ {
9536
+ "epoch": 0.027315639562386144,
9537
+ "grad_norm": 0.0008249651291407645,
9538
+ "learning_rate": 8.987398985164108e-06,
9539
+ "loss": 46.0,
9540
+ "step": 1357
9541
+ },
9542
+ {
9543
+ "epoch": 0.027335768994635506,
9544
+ "grad_norm": 0.0013380757300183177,
9545
+ "learning_rate": 8.904090502775875e-06,
9546
+ "loss": 46.0,
9547
+ "step": 1358
9548
+ },
9549
+ {
9550
+ "epoch": 0.02735589842688487,
9551
+ "grad_norm": 0.0014677924336865544,
9552
+ "learning_rate": 8.821151939051953e-06,
9553
+ "loss": 46.0,
9554
+ "step": 1359
9555
+ },
9556
+ {
9557
+ "epoch": 0.027376027859134233,
9558
+ "grad_norm": 0.0010561698582023382,
9559
+ "learning_rate": 8.73858363078589e-06,
9560
+ "loss": 46.0,
9561
+ "step": 1360
9562
+ },
9563
+ {
9564
+ "epoch": 0.027396157291383595,
9565
+ "grad_norm": 0.0006301281973719597,
9566
+ "learning_rate": 8.656385913267872e-06,
9567
+ "loss": 46.0,
9568
+ "step": 1361
9569
+ },
9570
+ {
9571
+ "epoch": 0.02741628672363296,
9572
+ "grad_norm": 0.0013005957007408142,
9573
+ "learning_rate": 8.574559120283099e-06,
9574
+ "loss": 46.0,
9575
+ "step": 1362
9576
+ },
9577
+ {
9578
+ "epoch": 0.027436416155882323,
9579
+ "grad_norm": 0.0025409117806702852,
9580
+ "learning_rate": 8.493103584110595e-06,
9581
+ "loss": 46.0,
9582
+ "step": 1363
9583
+ },
9584
+ {
9585
+ "epoch": 0.027456545588131688,
9586
+ "grad_norm": 0.0010066272225230932,
9587
+ "learning_rate": 8.412019635521784e-06,
9588
+ "loss": 46.0,
9589
+ "step": 1364
9590
+ },
9591
+ {
9592
+ "epoch": 0.02747667502038105,
9593
+ "grad_norm": 0.0008767693652771413,
9594
+ "learning_rate": 8.331307603779137e-06,
9595
+ "loss": 46.0,
9596
+ "step": 1365
9597
+ },
9598
+ {
9599
+ "epoch": 0.027496804452630412,
9600
+ "grad_norm": 0.0005324966041371226,
9601
+ "learning_rate": 8.250967816634914e-06,
9602
+ "loss": 46.0,
9603
+ "step": 1366
9604
+ },
9605
+ {
9606
+ "epoch": 0.027516933884879777,
9607
+ "grad_norm": 0.0013536482583731413,
9608
+ "learning_rate": 8.171000600329682e-06,
9609
+ "loss": 46.0,
9610
+ "step": 1367
9611
+ },
9612
+ {
9613
+ "epoch": 0.02753706331712914,
9614
+ "grad_norm": 0.0011457927757874131,
9615
+ "learning_rate": 8.091406279591207e-06,
9616
+ "loss": 46.0,
9617
+ "step": 1368
9618
+ },
9619
+ {
9620
+ "epoch": 0.027557192749378505,
9621
+ "grad_norm": 0.0013843755004927516,
9622
+ "learning_rate": 8.012185177632914e-06,
9623
+ "loss": 46.0,
9624
+ "step": 1369
9625
+ },
9626
+ {
9627
+ "epoch": 0.027577322181627867,
9628
+ "grad_norm": 0.0013142600655555725,
9629
+ "learning_rate": 7.933337616152747e-06,
9630
+ "loss": 46.0,
9631
+ "step": 1370
9632
+ },
9633
+ {
9634
+ "epoch": 0.027597451613877232,
9635
+ "grad_norm": 0.0014753196155652404,
9636
+ "learning_rate": 7.854863915331745e-06,
9637
+ "loss": 46.0,
9638
+ "step": 1371
9639
+ },
9640
+ {
9641
+ "epoch": 0.027617581046126594,
9642
+ "grad_norm": 0.0005986293544992805,
9643
+ "learning_rate": 7.776764393832825e-06,
9644
+ "loss": 46.0,
9645
+ "step": 1372
9646
+ },
9647
+ {
9648
+ "epoch": 0.027637710478375956,
9649
+ "grad_norm": 0.001749454764649272,
9650
+ "learning_rate": 7.69903936879941e-06,
9651
+ "loss": 46.0,
9652
+ "step": 1373
9653
+ },
9654
+ {
9655
+ "epoch": 0.02765783991062532,
9656
+ "grad_norm": 0.0005876508657820523,
9657
+ "learning_rate": 7.6216891558542395e-06,
9658
+ "loss": 46.0,
9659
+ "step": 1374
9660
+ },
9661
+ {
9662
+ "epoch": 0.027677969342874684,
9663
+ "grad_norm": 0.0010496970498934388,
9664
+ "learning_rate": 7.54471406909798e-06,
9665
+ "loss": 46.0,
9666
+ "step": 1375
9667
+ },
9668
+ {
9669
+ "epoch": 0.02769809877512405,
9670
+ "grad_norm": 0.0011588014895096421,
9671
+ "learning_rate": 7.468114421107997e-06,
9672
+ "loss": 46.0,
9673
+ "step": 1376
9674
+ },
9675
+ {
9676
+ "epoch": 0.02771822820737341,
9677
+ "grad_norm": 0.002383692190051079,
9678
+ "learning_rate": 7.391890522937139e-06,
9679
+ "loss": 46.0,
9680
+ "step": 1377
9681
+ },
9682
+ {
9683
+ "epoch": 0.027738357639622773,
9684
+ "grad_norm": 0.0012233968591317534,
9685
+ "learning_rate": 7.3160426841123676e-06,
9686
+ "loss": 46.0,
9687
+ "step": 1378
9688
+ },
9689
+ {
9690
+ "epoch": 0.02775848707187214,
9691
+ "grad_norm": 0.0014729154063388705,
9692
+ "learning_rate": 7.240571212633618e-06,
9693
+ "loss": 46.0,
9694
+ "step": 1379
9695
+ },
9696
+ {
9697
+ "epoch": 0.0277786165041215,
9698
+ "grad_norm": 0.0009423243463970721,
9699
+ "learning_rate": 7.165476414972416e-06,
9700
+ "loss": 46.0,
9701
+ "step": 1380
9702
+ },
9703
+ {
9704
+ "epoch": 0.027798745936370866,
9705
+ "grad_norm": 0.0012143378844484687,
9706
+ "learning_rate": 7.090758596070801e-06,
9707
+ "loss": 46.0,
9708
+ "step": 1381
9709
+ },
9710
+ {
9711
+ "epoch": 0.027818875368620228,
9712
+ "grad_norm": 0.0015902521554380655,
9713
+ "learning_rate": 7.016418059339879e-06,
9714
+ "loss": 46.0,
9715
+ "step": 1382
9716
+ },
9717
+ {
9718
+ "epoch": 0.02783900480086959,
9719
+ "grad_norm": 0.001080973306670785,
9720
+ "learning_rate": 6.942455106658785e-06,
9721
+ "loss": 46.0,
9722
+ "step": 1383
9723
+ },
9724
+ {
9725
+ "epoch": 0.027859134233118955,
9726
+ "grad_norm": 0.0013885076623409986,
9727
+ "learning_rate": 6.868870038373332e-06,
9728
+ "loss": 46.0,
9729
+ "step": 1384
9730
+ },
9731
+ {
9732
+ "epoch": 0.027879263665368317,
9733
+ "grad_norm": 0.0010777899296954274,
9734
+ "learning_rate": 6.795663153294896e-06,
9735
+ "loss": 46.0,
9736
+ "step": 1385
9737
+ },
9738
+ {
9739
+ "epoch": 0.027899393097617683,
9740
+ "grad_norm": 0.0009947263170033693,
9741
+ "learning_rate": 6.7228347486990365e-06,
9742
+ "loss": 46.0,
9743
+ "step": 1386
9744
+ },
9745
+ {
9746
+ "epoch": 0.027919522529867045,
9747
+ "grad_norm": 0.0010311356745660305,
9748
+ "learning_rate": 6.6503851203245205e-06,
9749
+ "loss": 46.0,
9750
+ "step": 1387
9751
+ },
9752
+ {
9753
+ "epoch": 0.02793965196211641,
9754
+ "grad_norm": 0.0013068821281194687,
9755
+ "learning_rate": 6.57831456237189e-06,
9756
+ "loss": 46.0,
9757
+ "step": 1388
9758
+ },
9759
+ {
9760
+ "epoch": 0.027959781394365772,
9761
+ "grad_norm": 0.0010487777180969715,
9762
+ "learning_rate": 6.506623367502418e-06,
9763
+ "loss": 46.0,
9764
+ "step": 1389
9765
+ },
9766
+ {
9767
+ "epoch": 0.027979910826615134,
9768
+ "grad_norm": 0.0008867370779626071,
9769
+ "learning_rate": 6.4353118268368986e-06,
9770
+ "loss": 46.0,
9771
+ "step": 1390
9772
+ },
9773
+ {
9774
+ "epoch": 0.0280000402588645,
9775
+ "grad_norm": 0.0019279102561995387,
9776
+ "learning_rate": 6.3643802299543696e-06,
9777
+ "loss": 46.0,
9778
+ "step": 1391
9779
+ },
9780
+ {
9781
+ "epoch": 0.02802016969111386,
9782
+ "grad_norm": 0.001558710471726954,
9783
+ "learning_rate": 6.293828864891105e-06,
9784
+ "loss": 46.0,
9785
+ "step": 1392
9786
+ },
9787
+ {
9788
+ "epoch": 0.028040299123363227,
9789
+ "grad_norm": 0.0016826376086100936,
9790
+ "learning_rate": 6.223658018139245e-06,
9791
+ "loss": 46.0,
9792
+ "step": 1393
9793
+ },
9794
+ {
9795
+ "epoch": 0.02806042855561259,
9796
+ "grad_norm": 0.0012350878678262234,
9797
+ "learning_rate": 6.153867974645833e-06,
9798
+ "loss": 46.0,
9799
+ "step": 1394
9800
+ },
9801
+ {
9802
+ "epoch": 0.02808055798786195,
9803
+ "grad_norm": 0.0007092293817549944,
9804
+ "learning_rate": 6.084459017811473e-06,
9805
+ "loss": 46.0,
9806
+ "step": 1395
9807
+ },
9808
+ {
9809
+ "epoch": 0.028100687420111316,
9810
+ "grad_norm": 0.0008784400415606797,
9811
+ "learning_rate": 6.015431429489371e-06,
9812
+ "loss": 46.0,
9813
+ "step": 1396
9814
+ },
9815
+ {
9816
+ "epoch": 0.02812081685236068,
9817
+ "grad_norm": 0.0008223768672905862,
9818
+ "learning_rate": 5.946785489983941e-06,
9819
+ "loss": 46.0,
9820
+ "step": 1397
9821
+ },
9822
+ {
9823
+ "epoch": 0.028140946284610044,
9824
+ "grad_norm": 0.0015569966053590178,
9825
+ "learning_rate": 5.87852147804997e-06,
9826
+ "loss": 46.0,
9827
+ "step": 1398
9828
+ },
9829
+ {
9830
+ "epoch": 0.028161075716859406,
9831
+ "grad_norm": 0.002495410619303584,
9832
+ "learning_rate": 5.810639670891216e-06,
9833
+ "loss": 46.0,
9834
+ "step": 1399
9835
+ },
9836
+ {
9837
+ "epoch": 0.028181205149108768,
9838
+ "grad_norm": 0.0011495595099404454,
9839
+ "learning_rate": 5.743140344159459e-06,
9840
+ "loss": 46.0,
9841
+ "step": 1400
9842
+ },
9843
+ {
9844
+ "epoch": 0.028201334581358133,
9845
+ "grad_norm": 0.0013125301338732243,
9846
+ "learning_rate": 5.676023771953265e-06,
9847
+ "loss": 46.0,
9848
+ "step": 1401
9849
+ },
9850
+ {
9851
+ "epoch": 0.028221464013607495,
9852
+ "grad_norm": 0.0009252792806364596,
9853
+ "learning_rate": 5.6092902268169986e-06,
9854
+ "loss": 46.0,
9855
+ "step": 1402
9856
+ },
9857
+ {
9858
+ "epoch": 0.02824159344585686,
9859
+ "grad_norm": 0.0010239135008305311,
9860
+ "learning_rate": 5.542939979739559e-06,
9861
+ "loss": 46.0,
9862
+ "step": 1403
9863
+ },
9864
+ {
9865
+ "epoch": 0.028261722878106223,
9866
+ "grad_norm": 0.0005345203098841012,
9867
+ "learning_rate": 5.47697330015341e-06,
9868
+ "loss": 46.0,
9869
+ "step": 1404
9870
+ },
9871
+ {
9872
+ "epoch": 0.028281852310355588,
9873
+ "grad_norm": 0.0007038481417112052,
9874
+ "learning_rate": 5.411390455933463e-06,
9875
+ "loss": 46.0,
9876
+ "step": 1405
9877
+ },
9878
+ {
9879
+ "epoch": 0.02830198174260495,
9880
+ "grad_norm": 0.0007712701335549355,
9881
+ "learning_rate": 5.346191713395888e-06,
9882
+ "loss": 46.0,
9883
+ "step": 1406
9884
+ },
9885
+ {
9886
+ "epoch": 0.028322111174854312,
9887
+ "grad_norm": 0.0020393729209899902,
9888
+ "learning_rate": 5.2813773372971995e-06,
9889
+ "loss": 46.0,
9890
+ "step": 1407
9891
+ },
9892
+ {
9893
+ "epoch": 0.028342240607103678,
9894
+ "grad_norm": 0.0008605642360635102,
9895
+ "learning_rate": 5.216947590833032e-06,
9896
+ "loss": 46.0,
9897
+ "step": 1408
9898
+ },
9899
+ {
9900
+ "epoch": 0.02836237003935304,
9901
+ "grad_norm": 0.0014623169554397464,
9902
+ "learning_rate": 5.152902735637166e-06,
9903
+ "loss": 46.0,
9904
+ "step": 1409
9905
+ },
9906
+ {
9907
+ "epoch": 0.028382499471602405,
9908
+ "grad_norm": 0.0009752597543410957,
9909
+ "learning_rate": 5.089243031780389e-06,
9910
+ "loss": 46.0,
9911
+ "step": 1410
9912
+ },
9913
+ {
9914
+ "epoch": 0.028402628903851767,
9915
+ "grad_norm": 0.0009389633196406066,
9916
+ "learning_rate": 5.025968737769548e-06,
9917
+ "loss": 46.0,
9918
+ "step": 1411
9919
+ },
9920
+ {
9921
+ "epoch": 0.02842275833610113,
9922
+ "grad_norm": 0.0007833832642063498,
9923
+ "learning_rate": 4.963080110546336e-06,
9924
+ "loss": 46.0,
9925
+ "step": 1412
9926
+ },
9927
+ {
9928
+ "epoch": 0.028442887768350494,
9929
+ "grad_norm": 0.0010727515909820795,
9930
+ "learning_rate": 4.90057740548645e-06,
9931
+ "loss": 46.0,
9932
+ "step": 1413
9933
+ },
9934
+ {
9935
+ "epoch": 0.028463017200599856,
9936
+ "grad_norm": 0.0007540370570495725,
9937
+ "learning_rate": 4.838460876398365e-06,
9938
+ "loss": 46.0,
9939
+ "step": 1414
9940
+ },
9941
+ {
9942
+ "epoch": 0.028483146632849222,
9943
+ "grad_norm": 0.0013027754612267017,
9944
+ "learning_rate": 4.776730775522464e-06,
9945
+ "loss": 46.0,
9946
+ "step": 1415
9947
+ },
9948
+ {
9949
+ "epoch": 0.028503276065098584,
9950
+ "grad_norm": 0.0007448008400388062,
9951
+ "learning_rate": 4.715387353529855e-06,
9952
+ "loss": 46.0,
9953
+ "step": 1416
9954
+ },
9955
+ {
9956
+ "epoch": 0.028523405497347946,
9957
+ "grad_norm": 0.0008857371867634356,
9958
+ "learning_rate": 4.654430859521519e-06,
9959
+ "loss": 46.0,
9960
+ "step": 1417
9961
+ },
9962
+ {
9963
+ "epoch": 0.02854353492959731,
9964
+ "grad_norm": 0.002097605960443616,
9965
+ "learning_rate": 4.593861541027155e-06,
9966
+ "loss": 46.0,
9967
+ "step": 1418
9968
+ },
9969
+ {
9970
+ "epoch": 0.028563664361846673,
9971
+ "grad_norm": 0.0014931777259334922,
9972
+ "learning_rate": 4.53367964400423e-06,
9973
+ "loss": 46.0,
9974
+ "step": 1419
9975
+ },
9976
+ {
9977
+ "epoch": 0.02858379379409604,
9978
+ "grad_norm": 0.001164833316579461,
9979
+ "learning_rate": 4.473885412837065e-06,
9980
+ "loss": 46.0,
9981
+ "step": 1420
9982
+ },
9983
+ {
9984
+ "epoch": 0.0286039232263454,
9985
+ "grad_norm": 0.0007305769831873477,
9986
+ "learning_rate": 4.414479090335644e-06,
9987
+ "loss": 46.0,
9988
+ "step": 1421
9989
+ },
9990
+ {
9991
+ "epoch": 0.028624052658594766,
9992
+ "grad_norm": 0.0013536449987441301,
9993
+ "learning_rate": 4.355460917734866e-06,
9994
+ "loss": 46.0,
9995
+ "step": 1422
9996
+ },
9997
+ {
9998
+ "epoch": 0.028644182090844128,
9999
+ "grad_norm": 0.0007573326583951712,
10000
+ "learning_rate": 4.296831134693358e-06,
10001
+ "loss": 46.0,
10002
+ "step": 1423
10003
+ },
10004
+ {
10005
+ "epoch": 0.02866431152309349,
10006
+ "grad_norm": 0.0009904114995151758,
10007
+ "learning_rate": 4.238589979292651e-06,
10008
+ "loss": 46.0,
10009
+ "step": 1424
10010
+ },
10011
+ {
10012
+ "epoch": 0.028684440955342855,
10013
+ "grad_norm": 0.0010607121512293816,
10014
+ "learning_rate": 4.180737688036096e-06,
10015
+ "loss": 46.0,
10016
+ "step": 1425
10017
+ },
10018
+ {
10019
+ "epoch": 0.028704570387592217,
10020
+ "grad_norm": 0.001276315306313336,
10021
+ "learning_rate": 4.1232744958479955e-06,
10022
+ "loss": 46.0,
10023
+ "step": 1426
10024
+ },
10025
+ {
10026
+ "epoch": 0.028724699819841583,
10027
+ "grad_norm": 0.0012834541266784072,
10028
+ "learning_rate": 4.066200636072604e-06,
10029
+ "loss": 46.0,
10030
+ "step": 1427
10031
+ },
10032
+ {
10033
+ "epoch": 0.028744829252090945,
10034
+ "grad_norm": 0.001088009332306683,
10035
+ "learning_rate": 4.0095163404732075e-06,
10036
+ "loss": 46.0,
10037
+ "step": 1428
10038
+ },
10039
+ {
10040
+ "epoch": 0.028764958684340307,
10041
+ "grad_norm": 0.0008485732250846922,
10042
+ "learning_rate": 3.953221839231125e-06,
10043
+ "loss": 46.0,
10044
+ "step": 1429
10045
+ },
10046
+ {
10047
+ "epoch": 0.028785088116589672,
10048
+ "grad_norm": 0.00294103124178946,
10049
+ "learning_rate": 3.897317360944874e-06,
10050
+ "loss": 46.0,
10051
+ "step": 1430
10052
+ },
10053
+ {
10054
+ "epoch": 0.028805217548839034,
10055
+ "grad_norm": 0.0009056427516043186,
10056
+ "learning_rate": 3.841803132629107e-06,
10057
+ "loss": 46.0,
10058
+ "step": 1431
10059
+ },
10060
+ {
10061
+ "epoch": 0.0288253469810884,
10062
+ "grad_norm": 0.001108710654079914,
10063
+ "learning_rate": 3.786679379713842e-06,
10064
+ "loss": 46.0,
10065
+ "step": 1432
10066
+ },
10067
+ {
10068
+ "epoch": 0.02884547641333776,
10069
+ "grad_norm": 0.0013181203976273537,
10070
+ "learning_rate": 3.731946326043423e-06,
10071
+ "loss": 46.0,
10072
+ "step": 1433
10073
+ },
10074
+ {
10075
+ "epoch": 0.028865605845587124,
10076
+ "grad_norm": 0.0015622148057445884,
10077
+ "learning_rate": 3.677604193875639e-06,
10078
+ "loss": 46.0,
10079
+ "step": 1434
10080
+ },
10081
+ {
10082
+ "epoch": 0.02888573527783649,
10083
+ "grad_norm": 0.001430216245353222,
10084
+ "learning_rate": 3.6236532038809167e-06,
10085
+ "loss": 46.0,
10086
+ "step": 1435
10087
+ },
10088
+ {
10089
+ "epoch": 0.02890586471008585,
10090
+ "grad_norm": 0.0011702035553753376,
10091
+ "learning_rate": 3.5700935751412644e-06,
10092
+ "loss": 46.0,
10093
+ "step": 1436
10094
+ },
10095
+ {
10096
+ "epoch": 0.028925994142335217,
10097
+ "grad_norm": 0.0011749324621632695,
10098
+ "learning_rate": 3.5169255251495283e-06,
10099
+ "loss": 46.0,
10100
+ "step": 1437
10101
+ },
10102
+ {
10103
+ "epoch": 0.02894612357458458,
10104
+ "grad_norm": 0.0011062580160796642,
10105
+ "learning_rate": 3.464149269808392e-06,
10106
+ "loss": 46.0,
10107
+ "step": 1438
10108
+ },
10109
+ {
10110
+ "epoch": 0.028966253006833944,
10111
+ "grad_norm": 0.001277309376746416,
10112
+ "learning_rate": 3.411765023429625e-06,
10113
+ "loss": 46.0,
10114
+ "step": 1439
10115
+ },
10116
+ {
10117
+ "epoch": 0.028986382439083306,
10118
+ "grad_norm": 0.002218514448031783,
10119
+ "learning_rate": 3.3597729987330796e-06,
10120
+ "loss": 46.0,
10121
+ "step": 1440
10122
+ },
10123
+ {
10124
+ "epoch": 0.029006511871332668,
10125
+ "grad_norm": 0.0007218050304800272,
10126
+ "learning_rate": 3.3081734068459045e-06,
10127
+ "loss": 46.0,
10128
+ "step": 1441
10129
+ },
10130
+ {
10131
+ "epoch": 0.029026641303582033,
10132
+ "grad_norm": 0.0006786247249692678,
10133
+ "learning_rate": 3.25696645730168e-06,
10134
+ "loss": 46.0,
10135
+ "step": 1442
10136
+ },
10137
+ {
10138
+ "epoch": 0.029046770735831395,
10139
+ "grad_norm": 0.0008958657272160053,
10140
+ "learning_rate": 3.2061523580395824e-06,
10141
+ "loss": 46.0,
10142
+ "step": 1443
10143
+ },
10144
+ {
10145
+ "epoch": 0.02906690016808076,
10146
+ "grad_norm": 0.0011994513915851712,
10147
+ "learning_rate": 3.155731315403465e-06,
10148
+ "loss": 46.0,
10149
+ "step": 1444
10150
+ },
10151
+ {
10152
+ "epoch": 0.029087029600330123,
10153
+ "grad_norm": 0.001030144514515996,
10154
+ "learning_rate": 3.1057035341411357e-06,
10155
+ "loss": 46.0,
10156
+ "step": 1445
10157
+ },
10158
+ {
10159
+ "epoch": 0.029107159032579485,
10160
+ "grad_norm": 0.0007214623037725687,
10161
+ "learning_rate": 3.056069217403401e-06,
10162
+ "loss": 46.0,
10163
+ "step": 1446
10164
+ },
10165
+ {
10166
+ "epoch": 0.02912728846482885,
10167
+ "grad_norm": 0.001022842712700367,
10168
+ "learning_rate": 3.006828566743358e-06,
10169
+ "loss": 46.0,
10170
+ "step": 1447
10171
+ },
10172
+ {
10173
+ "epoch": 0.029147417897078212,
10174
+ "grad_norm": 0.0007378848385997117,
10175
+ "learning_rate": 2.957981782115471e-06,
10176
+ "loss": 46.0,
10177
+ "step": 1448
10178
+ },
10179
+ {
10180
+ "epoch": 0.029167547329327578,
10181
+ "grad_norm": 0.001484018168412149,
10182
+ "learning_rate": 2.909529061874816e-06,
10183
+ "loss": 46.0,
10184
+ "step": 1449
10185
+ },
10186
+ {
10187
+ "epoch": 0.02918767676157694,
10188
+ "grad_norm": 0.0008505574078299105,
10189
+ "learning_rate": 2.861470602776317e-06,
10190
+ "loss": 46.0,
10191
+ "step": 1450
10192
+ },
10193
+ {
10194
+ "epoch": 0.0292078061938263,
10195
+ "grad_norm": 0.0009992974810302258,
10196
+ "learning_rate": 2.8138065999738337e-06,
10197
+ "loss": 46.0,
10198
+ "step": 1451
10199
+ },
10200
+ {
10201
+ "epoch": 0.029227935626075667,
10202
+ "grad_norm": 0.000925807689782232,
10203
+ "learning_rate": 2.766537247019485e-06,
10204
+ "loss": 46.0,
10205
+ "step": 1452
10206
+ },
10207
+ {
10208
+ "epoch": 0.02924806505832503,
10209
+ "grad_norm": 0.001936123939231038,
10210
+ "learning_rate": 2.7196627358627713e-06,
10211
+ "loss": 46.0,
10212
+ "step": 1453
10213
+ },
10214
+ {
10215
+ "epoch": 0.029268194490574394,
10216
+ "grad_norm": 0.0008978885016404092,
10217
+ "learning_rate": 2.673183256849876e-06,
10218
+ "loss": 46.0,
10219
+ "step": 1454
10220
+ },
10221
+ {
10222
+ "epoch": 0.029288323922823756,
10223
+ "grad_norm": 0.001972075318917632,
10224
+ "learning_rate": 2.627098998722799e-06,
10225
+ "loss": 46.0,
10226
+ "step": 1455
10227
+ },
10228
+ {
10229
+ "epoch": 0.029308453355073122,
10230
+ "grad_norm": 0.001669483259320259,
10231
+ "learning_rate": 2.58141014861869e-06,
10232
+ "loss": 46.0,
10233
+ "step": 1456
10234
+ },
10235
+ {
10236
+ "epoch": 0.029328582787322484,
10237
+ "grad_norm": 0.0009523354819975793,
10238
+ "learning_rate": 2.536116892069007e-06,
10239
+ "loss": 46.0,
10240
+ "step": 1457
10241
+ },
10242
+ {
10243
+ "epoch": 0.029348712219571846,
10244
+ "grad_norm": 0.0025416603311896324,
10245
+ "learning_rate": 2.4912194129988353e-06,
10246
+ "loss": 46.0,
10247
+ "step": 1458
10248
+ },
10249
+ {
10250
+ "epoch": 0.02936884165182121,
10251
+ "grad_norm": 0.0017256122082471848,
10252
+ "learning_rate": 2.4467178937260692e-06,
10253
+ "loss": 46.0,
10254
+ "step": 1459
10255
+ },
10256
+ {
10257
+ "epoch": 0.029388971084070573,
10258
+ "grad_norm": 0.0008214665576815605,
10259
+ "learning_rate": 2.4026125149607225e-06,
10260
+ "loss": 46.0,
10261
+ "step": 1460
10262
+ },
10263
+ {
10264
+ "epoch": 0.02940910051631994,
10265
+ "grad_norm": 0.0010338842403143644,
10266
+ "learning_rate": 2.3589034558041624e-06,
10267
+ "loss": 46.0,
10268
+ "step": 1461
10269
+ },
10270
+ {
10271
+ "epoch": 0.0294292299485693,
10272
+ "grad_norm": 0.001692043850198388,
10273
+ "learning_rate": 2.3155908937484093e-06,
10274
+ "loss": 46.0,
10275
+ "step": 1462
10276
+ },
10277
+ {
10278
+ "epoch": 0.029449359380818663,
10279
+ "grad_norm": 0.0017285742796957493,
10280
+ "learning_rate": 2.2726750046754175e-06,
10281
+ "loss": 46.0,
10282
+ "step": 1463
10283
+ },
10284
+ {
10285
+ "epoch": 0.029469488813068028,
10286
+ "grad_norm": 0.0008371649892069399,
10287
+ "learning_rate": 2.2301559628563062e-06,
10288
+ "loss": 46.0,
10289
+ "step": 1464
10290
+ },
10291
+ {
10292
+ "epoch": 0.02948961824531739,
10293
+ "grad_norm": 0.0009613548754714429,
10294
+ "learning_rate": 2.1880339409507288e-06,
10295
+ "loss": 46.0,
10296
+ "step": 1465
10297
+ },
10298
+ {
10299
+ "epoch": 0.029509747677566756,
10300
+ "grad_norm": 0.0014171084621921182,
10301
+ "learning_rate": 2.146309110006128e-06,
10302
+ "loss": 46.0,
10303
+ "step": 1466
10304
+ },
10305
+ {
10306
+ "epoch": 0.029529877109816118,
10307
+ "grad_norm": 0.0011761389905586839,
10308
+ "learning_rate": 2.1049816394570486e-06,
10309
+ "loss": 46.0,
10310
+ "step": 1467
10311
+ },
10312
+ {
10313
+ "epoch": 0.02955000654206548,
10314
+ "grad_norm": 0.0011704186908900738,
10315
+ "learning_rate": 2.064051697124425e-06,
10316
+ "loss": 46.0,
10317
+ "step": 1468
10318
+ },
10319
+ {
10320
+ "epoch": 0.029570135974314845,
10321
+ "grad_norm": 0.0009983095806092024,
10322
+ "learning_rate": 2.0235194492149832e-06,
10323
+ "loss": 46.0,
10324
+ "step": 1469
10325
+ },
10326
+ {
10327
+ "epoch": 0.029590265406564207,
10328
+ "grad_norm": 0.0015483457827940583,
10329
+ "learning_rate": 1.983385060320453e-06,
10330
+ "loss": 46.0,
10331
+ "step": 1470
10332
+ },
10333
+ {
10334
+ "epoch": 0.029610394838813572,
10335
+ "grad_norm": 0.0015588031383231282,
10336
+ "learning_rate": 1.943648693416966e-06,
10337
+ "loss": 46.0,
10338
+ "step": 1471
10339
+ },
10340
+ {
10341
+ "epoch": 0.029630524271062934,
10342
+ "grad_norm": 0.00174389174208045,
10343
+ "learning_rate": 1.9043105098643931e-06,
10344
+ "loss": 46.0,
10345
+ "step": 1472
10346
+ },
10347
+ {
10348
+ "epoch": 0.0296506537033123,
10349
+ "grad_norm": 0.001446812180802226,
10350
+ "learning_rate": 1.865370669405675e-06,
10351
+ "loss": 46.0,
10352
+ "step": 1473
10353
+ },
10354
+ {
10355
+ "epoch": 0.029670783135561662,
10356
+ "grad_norm": 0.000889250251930207,
10357
+ "learning_rate": 1.82682933016618e-06,
10358
+ "loss": 46.0,
10359
+ "step": 1474
10360
+ },
10361
+ {
10362
+ "epoch": 0.029690912567811024,
10363
+ "grad_norm": 0.0005816498887725174,
10364
+ "learning_rate": 1.7886866486530374e-06,
10365
+ "loss": 46.0,
10366
+ "step": 1475
10367
+ },
10368
+ {
10369
+ "epoch": 0.02971104200006039,
10370
+ "grad_norm": 0.0008788988925516605,
10371
+ "learning_rate": 1.7509427797545718e-06,
10372
+ "loss": 46.0,
10373
+ "step": 1476
10374
+ },
10375
+ {
10376
+ "epoch": 0.02973117143230975,
10377
+ "grad_norm": 0.0010405541397631168,
10378
+ "learning_rate": 1.7135978767395588e-06,
10379
+ "loss": 46.0,
10380
+ "step": 1477
10381
+ },
10382
+ {
10383
+ "epoch": 0.029751300864559117,
10384
+ "grad_norm": 0.0011400578077882528,
10385
+ "learning_rate": 1.676652091256714e-06,
10386
+ "loss": 46.0,
10387
+ "step": 1478
10388
+ },
10389
+ {
10390
+ "epoch": 0.02977143029680848,
10391
+ "grad_norm": 0.0015322790713980794,
10392
+ "learning_rate": 1.6401055733340164e-06,
10393
+ "loss": 46.0,
10394
+ "step": 1479
10395
+ },
10396
+ {
10397
+ "epoch": 0.02979155972905784,
10398
+ "grad_norm": 0.0007389390957541764,
10399
+ "learning_rate": 1.6039584713781308e-06,
10400
+ "loss": 46.0,
10401
+ "step": 1480
10402
+ },
10403
+ {
10404
+ "epoch": 0.029811689161307206,
10405
+ "grad_norm": 0.0011101323179900646,
10406
+ "learning_rate": 1.5682109321737637e-06,
10407
+ "loss": 46.0,
10408
+ "step": 1481
10409
+ },
10410
+ {
10411
+ "epoch": 0.029831818593556568,
10412
+ "grad_norm": 0.0012494990369305015,
10413
+ "learning_rate": 1.5328631008831197e-06,
10414
+ "loss": 46.0,
10415
+ "step": 1482
10416
+ },
10417
+ {
10418
+ "epoch": 0.029851948025805933,
10419
+ "grad_norm": 0.0019527755212038755,
10420
+ "learning_rate": 1.497915121045268e-06,
10421
+ "loss": 46.0,
10422
+ "step": 1483
10423
+ },
10424
+ {
10425
+ "epoch": 0.029872077458055295,
10426
+ "grad_norm": 0.0015624084044247866,
10427
+ "learning_rate": 1.4633671345755884e-06,
10428
+ "loss": 46.0,
10429
+ "step": 1484
10430
+ },
10431
+ {
10432
+ "epoch": 0.029892206890304657,
10433
+ "grad_norm": 0.0013834653655067086,
10434
+ "learning_rate": 1.4292192817651706e-06,
10435
+ "loss": 46.0,
10436
+ "step": 1485
10437
+ },
10438
+ {
10439
+ "epoch": 0.029912336322554023,
10440
+ "grad_norm": 0.0015040615107864141,
10441
+ "learning_rate": 1.3954717012802599e-06,
10442
+ "loss": 46.0,
10443
+ "step": 1486
10444
+ },
10445
+ {
10446
+ "epoch": 0.029932465754803385,
10447
+ "grad_norm": 0.001884009805507958,
10448
+ "learning_rate": 1.3621245301617014e-06,
10449
+ "loss": 46.0,
10450
+ "step": 1487
10451
+ },
10452
+ {
10453
+ "epoch": 0.02995259518705275,
10454
+ "grad_norm": 0.0003439519787207246,
10455
+ "learning_rate": 1.3291779038243745e-06,
10456
+ "loss": 46.0,
10457
+ "step": 1488
10458
+ },
10459
+ {
10460
+ "epoch": 0.029972724619302112,
10461
+ "grad_norm": 0.0009911386296153069,
10462
+ "learning_rate": 1.2966319560566264e-06,
10463
+ "loss": 46.0,
10464
+ "step": 1489
10465
+ },
10466
+ {
10467
+ "epoch": 0.029992854051551478,
10468
+ "grad_norm": 0.001606732839718461,
10469
+ "learning_rate": 1.2644868190197501e-06,
10470
+ "loss": 46.0,
10471
+ "step": 1490
10472
+ },
10473
+ {
10474
+ "epoch": 0.03001298348380084,
10475
+ "grad_norm": 0.0009569000103510916,
10476
+ "learning_rate": 1.2327426232474626e-06,
10477
+ "loss": 46.0,
10478
+ "step": 1491
10479
+ },
10480
+ {
10481
+ "epoch": 0.0300331129160502,
10482
+ "grad_norm": 0.002008062554523349,
10483
+ "learning_rate": 1.201399497645328e-06,
10484
+ "loss": 46.0,
10485
+ "step": 1492
10486
+ },
10487
+ {
10488
+ "epoch": 0.030053242348299567,
10489
+ "grad_norm": 0.0015580368926748633,
10490
+ "learning_rate": 1.1704575694902686e-06,
10491
+ "loss": 46.0,
10492
+ "step": 1493
10493
+ },
10494
+ {
10495
+ "epoch": 0.03007337178054893,
10496
+ "grad_norm": 0.0017130931373685598,
10497
+ "learning_rate": 1.1399169644300323e-06,
10498
+ "loss": 46.0,
10499
+ "step": 1494
10500
+ },
10501
+ {
10502
+ "epoch": 0.030093501212798295,
10503
+ "grad_norm": 0.0015125928912311792,
10504
+ "learning_rate": 1.1097778064827257e-06,
10505
+ "loss": 46.0,
10506
+ "step": 1495
10507
+ },
10508
+ {
10509
+ "epoch": 0.030113630645047657,
10510
+ "grad_norm": 0.0013810923555865884,
10511
+ "learning_rate": 1.0800402180362158e-06,
10512
+ "loss": 46.0,
10513
+ "step": 1496
10514
+ },
10515
+ {
10516
+ "epoch": 0.03013376007729702,
10517
+ "grad_norm": 0.0014871679013594985,
10518
+ "learning_rate": 1.0507043198477617e-06,
10519
+ "loss": 46.0,
10520
+ "step": 1497
10521
+ },
10522
+ {
10523
+ "epoch": 0.030153889509546384,
10524
+ "grad_norm": 0.0008668963564559817,
10525
+ "learning_rate": 1.0217702310433842e-06,
10526
+ "loss": 46.0,
10527
+ "step": 1498
10528
+ },
10529
+ {
10530
+ "epoch": 0.030174018941795746,
10531
+ "grad_norm": 0.00135446572676301,
10532
+ "learning_rate": 9.93238069117508e-07,
10533
+ "loss": 46.0,
10534
+ "step": 1499
10535
+ },
10536
+ {
10537
+ "epoch": 0.03019414837404511,
10538
+ "grad_norm": 0.0012777193915098906,
10539
+ "learning_rate": 9.651079499323978e-07,
10540
+ "loss": 46.0,
10541
+ "step": 1500
10542
+ },
10543
+ {
10544
+ "epoch": 0.030214277806294473,
10545
+ "grad_norm": 0.0014395661419257522,
10546
+ "learning_rate": 9.373799877177236e-07,
10547
+ "loss": 46.0,
10548
+ "step": 1501
10549
+ },
10550
+ {
10551
+ "epoch": 0.030234407238543835,
10552
+ "grad_norm": 0.0019440649775788188,
10553
+ "learning_rate": 9.100542950701063e-07,
10554
+ "loss": 46.0,
10555
+ "step": 1502
10556
+ },
10557
+ {
10558
+ "epoch": 0.0302545366707932,
10559
+ "grad_norm": 0.0007341218297369778,
10560
+ "learning_rate": 8.831309829526291e-07,
10561
+ "loss": 46.0,
10562
+ "step": 1503
10563
+ },
10564
+ {
10565
+ "epoch": 0.030274666103042563,
10566
+ "grad_norm": 0.0010124749969691038,
10567
+ "learning_rate": 8.566101606944266e-07,
10568
+ "loss": 46.0,
10569
+ "step": 1504
10570
+ },
10571
+ {
10572
+ "epoch": 0.030294795535291928,
10573
+ "grad_norm": 0.0011337018804624677,
10574
+ "learning_rate": 8.304919359901963e-07,
10575
+ "loss": 46.0,
10576
+ "step": 1505
10577
+ },
10578
+ {
10579
+ "epoch": 0.03031492496754129,
10580
+ "grad_norm": 0.0006525327335111797,
10581
+ "learning_rate": 8.047764148997883e-07,
10582
+ "loss": 46.0,
10583
+ "step": 1506
10584
+ },
10585
+ {
10586
+ "epoch": 0.030335054399790656,
10587
+ "grad_norm": 0.0014475996140390635,
10588
+ "learning_rate": 7.794637018477824e-07,
10589
+ "loss": 46.0,
10590
+ "step": 1507
10591
+ },
10592
+ {
10593
+ "epoch": 0.030355183832040018,
10594
+ "grad_norm": 0.0006679428042843938,
10595
+ "learning_rate": 7.545538996230228e-07,
10596
+ "loss": 46.0,
10597
+ "step": 1508
10598
+ },
10599
+ {
10600
+ "epoch": 0.03037531326428938,
10601
+ "grad_norm": 0.001389230601489544,
10602
+ "learning_rate": 7.300471093782624e-07,
10603
+ "loss": 46.0,
10604
+ "step": 1509
10605
+ },
10606
+ {
10607
+ "epoch": 0.030395442696538745,
10608
+ "grad_norm": 0.0013642680132761598,
10609
+ "learning_rate": 7.059434306297075e-07,
10610
+ "loss": 46.0,
10611
+ "step": 1510
10612
+ },
10613
+ {
10614
+ "epoch": 0.030415572128788107,
10615
+ "grad_norm": 0.000978952506557107,
10616
+ "learning_rate": 6.822429612566184e-07,
10617
+ "loss": 46.0,
10618
+ "step": 1511
10619
+ },
10620
+ {
10621
+ "epoch": 0.030435701561037472,
10622
+ "grad_norm": 0.0009029002394527197,
10623
+ "learning_rate": 6.589457975009205e-07,
10624
+ "loss": 46.0,
10625
+ "step": 1512
10626
+ },
10627
+ {
10628
+ "epoch": 0.030455830993286834,
10629
+ "grad_norm": 0.002438169904053211,
10630
+ "learning_rate": 6.360520339668163e-07,
10631
+ "loss": 46.0,
10632
+ "step": 1513
10633
+ },
10634
+ {
10635
+ "epoch": 0.030475960425536196,
10636
+ "grad_norm": 0.0020010732114315033,
10637
+ "learning_rate": 6.135617636204072e-07,
10638
+ "loss": 46.0,
10639
+ "step": 1514
10640
+ },
10641
+ {
10642
+ "epoch": 0.030496089857785562,
10643
+ "grad_norm": 0.0014994231751188636,
10644
+ "learning_rate": 5.91475077789272e-07,
10645
+ "loss": 46.0,
10646
+ "step": 1515
10647
+ },
10648
+ {
10649
+ "epoch": 0.030516219290034924,
10650
+ "grad_norm": 0.0007911003194749355,
10651
+ "learning_rate": 5.697920661621558e-07,
10652
+ "loss": 46.0,
10653
+ "step": 1516
10654
+ },
10655
+ {
10656
+ "epoch": 0.03053634872228429,
10657
+ "grad_norm": 0.0011950345942750573,
10658
+ "learning_rate": 5.485128167885933e-07,
10659
+ "loss": 46.0,
10660
+ "step": 1517
10661
+ },
10662
+ {
10663
+ "epoch": 0.03055647815453365,
10664
+ "grad_norm": 0.0012883899034932256,
10665
+ "learning_rate": 5.276374160784858e-07,
10666
+ "loss": 46.0,
10667
+ "step": 1518
10668
+ },
10669
+ {
10670
+ "epoch": 0.030576607586783013,
10671
+ "grad_norm": 0.002167344558984041,
10672
+ "learning_rate": 5.071659488018688e-07,
10673
+ "loss": 46.0,
10674
+ "step": 1519
10675
+ },
10676
+ {
10677
+ "epoch": 0.03059673701903238,
10678
+ "grad_norm": 0.0008158805430866778,
10679
+ "learning_rate": 4.870984980884341e-07,
10680
+ "loss": 46.0,
10681
+ "step": 1520
10682
+ },
10683
+ {
10684
+ "epoch": 0.03061686645128174,
10685
+ "grad_norm": 0.00043665210250765085,
10686
+ "learning_rate": 4.674351454273307e-07,
10687
+ "loss": 46.0,
10688
+ "step": 1521
10689
+ },
10690
+ {
10691
+ "epoch": 0.030636995883531106,
10692
+ "grad_norm": 0.0012343135895207524,
10693
+ "learning_rate": 4.481759706666755e-07,
10694
+ "loss": 46.0,
10695
+ "step": 1522
10696
+ },
10697
+ {
10698
+ "epoch": 0.030657125315780468,
10699
+ "grad_norm": 0.0007814933778718114,
10700
+ "learning_rate": 4.2932105201339835e-07,
10701
+ "loss": 46.0,
10702
+ "step": 1523
10703
+ },
10704
+ {
10705
+ "epoch": 0.030677254748029834,
10706
+ "grad_norm": 0.0008475257782265544,
10707
+ "learning_rate": 4.1087046603279777e-07,
10708
+ "loss": 46.0,
10709
+ "step": 1524
10710
+ },
10711
+ {
10712
+ "epoch": 0.030697384180279196,
10713
+ "grad_norm": 0.0010306923650205135,
10714
+ "learning_rate": 3.9282428764827463e-07,
10715
+ "loss": 46.0,
10716
+ "step": 1525
10717
+ },
10718
+ {
10719
+ "epoch": 0.030717513612528557,
10720
+ "grad_norm": 0.0033900176640599966,
10721
+ "learning_rate": 3.751825901410433e-07,
10722
+ "loss": 46.0,
10723
+ "step": 1526
10724
+ },
10725
+ {
10726
+ "epoch": 0.030737643044777923,
10727
+ "grad_norm": 0.0020439354702830315,
10728
+ "learning_rate": 3.579454451498099e-07,
10729
+ "loss": 46.0,
10730
+ "step": 1527
10731
+ },
10732
+ {
10733
+ "epoch": 0.030757772477027285,
10734
+ "grad_norm": 0.0013795166742056608,
10735
+ "learning_rate": 3.411129226704945e-07,
10736
+ "loss": 46.0,
10737
+ "step": 1528
10738
+ },
10739
+ {
10740
+ "epoch": 0.03077790190927665,
10741
+ "grad_norm": 0.0019550782162696123,
10742
+ "learning_rate": 3.246850910559318e-07,
10743
+ "loss": 46.0,
10744
+ "step": 1529
10745
+ },
10746
+ {
10747
+ "epoch": 0.030798031341526012,
10748
+ "grad_norm": 0.001795038697309792,
10749
+ "learning_rate": 3.0866201701560406e-07,
10750
+ "loss": 46.0,
10751
+ "step": 1530
10752
+ },
10753
+ {
10754
+ "epoch": 0.030818160773775374,
10755
+ "grad_norm": 0.0019376088166609406,
10756
+ "learning_rate": 2.9304376561539726e-07,
10757
+ "loss": 46.0,
10758
+ "step": 1531
10759
+ },
10760
+ {
10761
+ "epoch": 0.03083829020602474,
10762
+ "grad_norm": 0.0016611182363703847,
10763
+ "learning_rate": 2.7783040027726804e-07,
10764
+ "loss": 46.0,
10765
+ "step": 1532
10766
+ },
10767
+ {
10768
+ "epoch": 0.030858419638274102,
10769
+ "grad_norm": 0.0016700802370905876,
10770
+ "learning_rate": 2.630219827790659e-07,
10771
+ "loss": 46.0,
10772
+ "step": 1533
10773
+ },
10774
+ {
10775
+ "epoch": 0.030878549070523467,
10776
+ "grad_norm": 0.0005473219207488,
10777
+ "learning_rate": 2.4861857325421123e-07,
10778
+ "loss": 46.0,
10779
+ "step": 1534
10780
+ },
10781
+ {
10782
+ "epoch": 0.03089867850277283,
10783
+ "grad_norm": 0.0012385062873363495,
10784
+ "learning_rate": 2.346202301915068e-07,
10785
+ "loss": 46.0,
10786
+ "step": 1535
10787
+ },
10788
+ {
10789
+ "epoch": 0.03091880793502219,
10790
+ "grad_norm": 0.0020921400282531977,
10791
+ "learning_rate": 2.2102701043487105e-07,
10792
+ "loss": 46.0,
10793
+ "step": 1536
10794
+ },
10795
+ {
10796
+ "epoch": 0.030938937367271557,
10797
+ "grad_norm": 0.0009741144021973014,
10798
+ "learning_rate": 2.0783896918310508e-07,
10799
+ "loss": 46.0,
10800
+ "step": 1537
10801
+ },
10802
+ {
10803
+ "epoch": 0.03095906679952092,
10804
+ "grad_norm": 0.0017884114058688283,
10805
+ "learning_rate": 1.9505615998969274e-07,
10806
+ "loss": 46.0,
10807
+ "step": 1538
10808
+ },
10809
+ {
10810
+ "epoch": 0.030979196231770284,
10811
+ "grad_norm": 0.0012170026311650872,
10812
+ "learning_rate": 1.8267863476255643e-07,
10813
+ "loss": 46.0,
10814
+ "step": 1539
10815
+ },
10816
+ {
10817
+ "epoch": 0.030999325664019646,
10818
+ "grad_norm": 0.0015093215042725205,
10819
+ "learning_rate": 1.7070644376386835e-07,
10820
+ "loss": 46.0,
10821
+ "step": 1540
10822
+ },
10823
+ {
10824
+ "epoch": 0.03101945509626901,
10825
+ "grad_norm": 0.0010898308828473091,
10826
+ "learning_rate": 1.5913963560981738e-07,
10827
+ "loss": 46.0,
10828
+ "step": 1541
10829
+ },
10830
+ {
10831
+ "epoch": 0.031039584528518373,
10832
+ "grad_norm": 0.000764137483201921,
10833
+ "learning_rate": 1.4797825727044246e-07,
10834
+ "loss": 46.0,
10835
+ "step": 1542
10836
+ },
10837
+ {
10838
+ "epoch": 0.031059713960767735,
10839
+ "grad_norm": 0.0012036709813401103,
10840
+ "learning_rate": 1.3722235406943285e-07,
10841
+ "loss": 46.0,
10842
+ "step": 1543
10843
+ },
10844
+ {
10845
+ "epoch": 0.0310798433930171,
10846
+ "grad_norm": 0.0012527679791674018,
10847
+ "learning_rate": 1.2687196968392822e-07,
10848
+ "loss": 46.0,
10849
+ "step": 1544
10850
+ },
10851
+ {
10852
+ "epoch": 0.031099972825266463,
10853
+ "grad_norm": 0.0017057860968634486,
10854
+ "learning_rate": 1.1692714614436329e-07,
10855
+ "loss": 46.0,
10856
+ "step": 1545
10857
+ },
10858
+ {
10859
+ "epoch": 0.03112010225751583,
10860
+ "grad_norm": 0.0012995371362194419,
10861
+ "learning_rate": 1.0738792383427898e-07,
10862
+ "loss": 46.0,
10863
+ "step": 1546
10864
+ },
10865
+ {
10866
+ "epoch": 0.03114023168976519,
10867
+ "grad_norm": 0.0005156396073289216,
10868
+ "learning_rate": 9.82543414901782e-08,
10869
+ "loss": 46.0,
10870
+ "step": 1547
10871
+ },
10872
+ {
10873
+ "epoch": 0.031160361122014552,
10874
+ "grad_norm": 0.0023463049437850714,
10875
+ "learning_rate": 8.952643620134815e-08,
10876
+ "loss": 46.0,
10877
+ "step": 1548
10878
+ },
10879
+ {
10880
+ "epoch": 0.031180490554263918,
10881
+ "grad_norm": 0.0005802233936265111,
10882
+ "learning_rate": 8.1204243409716e-08,
10883
+ "loss": 46.0,
10884
+ "step": 1549
10885
+ },
10886
+ {
10887
+ "epoch": 0.03120061998651328,
10888
+ "grad_norm": 0.0014365284005180001,
10889
+ "learning_rate": 7.328779690972675e-08,
10890
+ "loss": 46.0,
10891
+ "step": 1550
10892
+ },
10893
+ {
10894
+ "epoch": 0.031220749418762645,
10895
+ "grad_norm": 0.0009548702510073781,
10896
+ "learning_rate": 6.577712884816566e-08,
10897
+ "loss": 46.0,
10898
+ "step": 1551
10899
+ },
10900
+ {
10901
+ "epoch": 0.031240878851012007,
10902
+ "grad_norm": 0.000912398740183562,
10903
+ "learning_rate": 5.867226972404716e-08,
10904
+ "loss": 46.0,
10905
+ "step": 1552
10906
+ },
10907
+ {
10908
+ "epoch": 0.03126100828326137,
10909
+ "grad_norm": 0.0013671774649992585,
10910
+ "learning_rate": 5.197324838851492e-08,
10911
+ "loss": 46.0,
10912
+ "step": 1553
10913
+ },
10914
+ {
10915
+ "epoch": 0.031281137715510735,
10916
+ "grad_norm": 0.001228424021974206,
10917
+ "learning_rate": 4.5680092044686486e-08,
10918
+ "loss": 46.0,
10919
+ "step": 1554
10920
+ },
10921
+ {
10922
+ "epoch": 0.031301267147760096,
10923
+ "grad_norm": 0.0009602979407645762,
10924
+ "learning_rate": 3.9792826247553315e-08,
10925
+ "loss": 46.0,
10926
+ "step": 1555
10927
+ },
10928
+ {
10929
+ "epoch": 0.03132139658000946,
10930
+ "grad_norm": 0.0012437499826774001,
10931
+ "learning_rate": 3.431147490390307e-08,
10932
+ "loss": 46.0,
10933
+ "step": 1556
10934
+ },
10935
+ {
10936
+ "epoch": 0.03134152601225883,
10937
+ "grad_norm": 0.0018415412632748485,
10938
+ "learning_rate": 2.9236060272186395e-08,
10939
+ "loss": 46.0,
10940
+ "step": 1557
10941
+ },
10942
+ {
10943
+ "epoch": 0.03136165544450819,
10944
+ "grad_norm": 0.0008638726430945098,
10945
+ "learning_rate": 2.4566602962450282e-08,
10946
+ "loss": 46.0,
10947
+ "step": 1558
10948
+ },
10949
+ {
10950
+ "epoch": 0.03138178487675755,
10951
+ "grad_norm": 0.001755962148308754,
10952
+ "learning_rate": 2.0303121936227077e-08,
10953
+ "loss": 46.0,
10954
+ "step": 1559
10955
+ },
10956
+ {
10957
+ "epoch": 0.03140191430900691,
10958
+ "grad_norm": 0.000949330220464617,
10959
+ "learning_rate": 1.6445634506512265e-08,
10960
+ "loss": 46.0,
10961
+ "step": 1560
10962
+ },
10963
+ {
10964
+ "epoch": 0.031422043741256275,
10965
+ "grad_norm": 0.000980414217337966,
10966
+ "learning_rate": 1.2994156337620134e-08,
10967
+ "loss": 46.0,
10968
+ "step": 1561
10969
+ },
10970
+ {
10971
+ "epoch": 0.031442173173505644,
10972
+ "grad_norm": 0.001756619312800467,
10973
+ "learning_rate": 9.948701445194885e-09,
10974
+ "loss": 46.0,
10975
+ "step": 1562
10976
+ },
10977
+ {
10978
+ "epoch": 0.031462302605755006,
10979
+ "grad_norm": 0.0016652131453156471,
10980
+ "learning_rate": 7.3092821960774046e-09,
10981
+ "loss": 46.0,
10982
+ "step": 1563
10983
+ },
10984
+ {
10985
+ "epoch": 0.03148243203800437,
10986
+ "grad_norm": 0.0008927117451094091,
10987
+ "learning_rate": 5.0759093083385665e-09,
10988
+ "loss": 46.0,
10989
+ "step": 1564
10990
+ },
10991
+ {
10992
+ "epoch": 0.03150256147025373,
10993
+ "grad_norm": 0.0012494467664510012,
10994
+ "learning_rate": 3.24859185114601e-09,
10995
+ "loss": 46.0,
10996
+ "step": 1565
10997
+ },
10998
+ {
10999
+ "epoch": 0.03152269090250309,
11000
+ "grad_norm": 0.0012330285971984267,
11001
+ "learning_rate": 1.8273372448307512e-09,
11002
+ "loss": 46.0,
11003
+ "step": 1566
11004
+ },
11005
+ {
11006
+ "epoch": 0.03154282033475246,
11007
+ "grad_norm": 0.002677972661331296,
11008
+ "learning_rate": 8.121512607317528e-10,
11009
+ "loss": 46.0,
11010
+ "step": 1567
11011
+ },
11012
+ {
11013
+ "epoch": 0.03156294976700182,
11014
+ "grad_norm": 0.0020114348735660315,
11015
+ "learning_rate": 2.0303802130694493e-10,
11016
+ "loss": 46.0,
11017
+ "step": 1568
11018
+ },
11019
+ {
11020
+ "epoch": 0.031583079199251185,
11021
+ "grad_norm": 0.0010916402097791433,
11022
+ "learning_rate": 0.0,
11023
+ "loss": 46.0,
11024
+ "step": 1569
11025
  }
11026
  ],
11027
  "logging_steps": 1,
 
11036
  "should_evaluate": false,
11037
  "should_log": false,
11038
  "should_save": true,
11039
+ "should_training_stop": true
11040
  },
11041
  "attributes": {}
11042
  }
11043
  },
11044
+ "total_flos": 36155043692544.0,
11045
  "train_batch_size": 2,
11046
  "trial_name": null,
11047
  "trial_params": null