ErrorAI commited on
Commit
da5e6eb
·
verified ·
1 Parent(s): 13d4706

Training in progress, step 1389, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d691bdf43b3bd1e09cb5c98703d7b30cb1bd022703d7d074533325df99594ba1
3
  size 83945296
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6159f6e7e904bfec19903400d3a3481453cbf88b8e5b75fcc9d6ed7e25f5379d
3
  size 83945296
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f87ea960c8416520eeddfa88984d166ed0ec6a6f9e50ff1e2249678eb646b81f
3
  size 43123028
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:89b2ceb23199d4ac2e2e3d0868a2ec5d8c431569dc6d6075dfc563be95e44ada
3
  size 43123028
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:362bf5ea5581bfd88a319d55517e06e0c66f6a7250dd88328201d694417113e1
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a3600e0e149644d8141635da3bc070c04eb57d99d50d63d93ea0b79077ab6e8e
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ac730905d01cb821bce3ec3eb28c0bf93a86a906be4c6ab47513122b4f73e726
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cbb9dafd3c48beed5e8df7fc3a6cd3b0e9d3d9db9628e4eeb4da2ef5df67d040
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.20472595352485537,
5
  "eval_steps": 348,
6
- "global_step": 1044,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7347,6 +7347,2421 @@
7347
  "eval_samples_per_second": 27.23,
7348
  "eval_steps_per_second": 13.615,
7349
  "step": 1044
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7350
  }
7351
  ],
7352
  "logging_steps": 1,
@@ -7361,12 +9776,12 @@
7361
  "should_evaluate": false,
7362
  "should_log": false,
7363
  "should_save": true,
7364
- "should_training_stop": false
7365
  },
7366
  "attributes": {}
7367
  }
7368
  },
7369
- "total_flos": 2.242105399144612e+17,
7370
  "train_batch_size": 2,
7371
  "trial_name": null,
7372
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.27237964506324147,
5
  "eval_steps": 348,
6
+ "global_step": 1389,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7347
  "eval_samples_per_second": 27.23,
7348
  "eval_steps_per_second": 13.615,
7349
  "step": 1044
7350
+ },
7351
+ {
7352
+ "epoch": 0.20492205118148837,
7353
+ "grad_norm": 4.138796329498291,
7354
+ "learning_rate": 2.9168607092569845e-05,
7355
+ "loss": 0.6768,
7356
+ "step": 1045
7357
+ },
7358
+ {
7359
+ "epoch": 0.20511814883812138,
7360
+ "grad_norm": 4.2951250076293945,
7361
+ "learning_rate": 2.9007975767533714e-05,
7362
+ "loss": 1.0667,
7363
+ "step": 1046
7364
+ },
7365
+ {
7366
+ "epoch": 0.20531424649475438,
7367
+ "grad_norm": 6.767472743988037,
7368
+ "learning_rate": 2.8847712894214686e-05,
7369
+ "loss": 2.2965,
7370
+ "step": 1047
7371
+ },
7372
+ {
7373
+ "epoch": 0.2055103441513874,
7374
+ "grad_norm": 5.017336845397949,
7375
+ "learning_rate": 2.8687819304384066e-05,
7376
+ "loss": 1.457,
7377
+ "step": 1048
7378
+ },
7379
+ {
7380
+ "epoch": 0.2057064418080204,
7381
+ "grad_norm": 5.76704740524292,
7382
+ "learning_rate": 2.852829582789669e-05,
7383
+ "loss": 1.3418,
7384
+ "step": 1049
7385
+ },
7386
+ {
7387
+ "epoch": 0.2059025394646534,
7388
+ "grad_norm": 5.123453617095947,
7389
+ "learning_rate": 2.8369143292686306e-05,
7390
+ "loss": 1.0328,
7391
+ "step": 1050
7392
+ },
7393
+ {
7394
+ "epoch": 0.2060986371212864,
7395
+ "grad_norm": 6.851526260375977,
7396
+ "learning_rate": 2.821036252476156e-05,
7397
+ "loss": 2.0026,
7398
+ "step": 1051
7399
+ },
7400
+ {
7401
+ "epoch": 0.2062947347779194,
7402
+ "grad_norm": 5.268173694610596,
7403
+ "learning_rate": 2.8051954348201613e-05,
7404
+ "loss": 0.69,
7405
+ "step": 1052
7406
+ },
7407
+ {
7408
+ "epoch": 0.2064908324345524,
7409
+ "grad_norm": 6.25408935546875,
7410
+ "learning_rate": 2.789391958515183e-05,
7411
+ "loss": 1.2385,
7412
+ "step": 1053
7413
+ },
7414
+ {
7415
+ "epoch": 0.2066869300911854,
7416
+ "grad_norm": 4.305760383605957,
7417
+ "learning_rate": 2.7736259055819568e-05,
7418
+ "loss": 0.747,
7419
+ "step": 1054
7420
+ },
7421
+ {
7422
+ "epoch": 0.20688302774781842,
7423
+ "grad_norm": 9.248473167419434,
7424
+ "learning_rate": 2.757897357846988e-05,
7425
+ "loss": 1.4235,
7426
+ "step": 1055
7427
+ },
7428
+ {
7429
+ "epoch": 0.20707912540445142,
7430
+ "grad_norm": 4.8141984939575195,
7431
+ "learning_rate": 2.7422063969421285e-05,
7432
+ "loss": 0.5879,
7433
+ "step": 1056
7434
+ },
7435
+ {
7436
+ "epoch": 0.20727522306108442,
7437
+ "grad_norm": 4.95810604095459,
7438
+ "learning_rate": 2.7265531043041535e-05,
7439
+ "loss": 0.8899,
7440
+ "step": 1057
7441
+ },
7442
+ {
7443
+ "epoch": 0.20747132071771743,
7444
+ "grad_norm": 8.220407485961914,
7445
+ "learning_rate": 2.710937561174337e-05,
7446
+ "loss": 1.5904,
7447
+ "step": 1058
7448
+ },
7449
+ {
7450
+ "epoch": 0.20766741837435043,
7451
+ "grad_norm": 5.406398296356201,
7452
+ "learning_rate": 2.6953598485980336e-05,
7453
+ "loss": 2.2579,
7454
+ "step": 1059
7455
+ },
7456
+ {
7457
+ "epoch": 0.20786351603098344,
7458
+ "grad_norm": 7.9236273765563965,
7459
+ "learning_rate": 2.679820047424253e-05,
7460
+ "loss": 1.6289,
7461
+ "step": 1060
7462
+ },
7463
+ {
7464
+ "epoch": 0.20805961368761644,
7465
+ "grad_norm": 11.548074722290039,
7466
+ "learning_rate": 2.6643182383052446e-05,
7467
+ "loss": 1.3829,
7468
+ "step": 1061
7469
+ },
7470
+ {
7471
+ "epoch": 0.20825571134424944,
7472
+ "grad_norm": 6.566219329833984,
7473
+ "learning_rate": 2.6488545016960776e-05,
7474
+ "loss": 1.5911,
7475
+ "step": 1062
7476
+ },
7477
+ {
7478
+ "epoch": 0.20845180900088245,
7479
+ "grad_norm": 6.300790786743164,
7480
+ "learning_rate": 2.6334289178542226e-05,
7481
+ "loss": 0.8637,
7482
+ "step": 1063
7483
+ },
7484
+ {
7485
+ "epoch": 0.20864790665751545,
7486
+ "grad_norm": 5.563969135284424,
7487
+ "learning_rate": 2.6180415668391356e-05,
7488
+ "loss": 1.388,
7489
+ "step": 1064
7490
+ },
7491
+ {
7492
+ "epoch": 0.20884400431414846,
7493
+ "grad_norm": 6.617629528045654,
7494
+ "learning_rate": 2.602692528511843e-05,
7495
+ "loss": 1.1707,
7496
+ "step": 1065
7497
+ },
7498
+ {
7499
+ "epoch": 0.20904010197078146,
7500
+ "grad_norm": 6.338384628295898,
7501
+ "learning_rate": 2.5873818825345254e-05,
7502
+ "loss": 1.3016,
7503
+ "step": 1066
7504
+ },
7505
+ {
7506
+ "epoch": 0.20923619962741447,
7507
+ "grad_norm": 5.3434271812438965,
7508
+ "learning_rate": 2.5721097083701084e-05,
7509
+ "loss": 1.5446,
7510
+ "step": 1067
7511
+ },
7512
+ {
7513
+ "epoch": 0.20943229728404747,
7514
+ "grad_norm": 28.035884857177734,
7515
+ "learning_rate": 2.556876085281843e-05,
7516
+ "loss": 1.168,
7517
+ "step": 1068
7518
+ },
7519
+ {
7520
+ "epoch": 0.20962839494068045,
7521
+ "grad_norm": 14.401495933532715,
7522
+ "learning_rate": 2.5416810923329028e-05,
7523
+ "loss": 1.1242,
7524
+ "step": 1069
7525
+ },
7526
+ {
7527
+ "epoch": 0.20982449259731345,
7528
+ "grad_norm": 6.766130447387695,
7529
+ "learning_rate": 2.5265248083859648e-05,
7530
+ "loss": 1.4922,
7531
+ "step": 1070
7532
+ },
7533
+ {
7534
+ "epoch": 0.21002059025394645,
7535
+ "grad_norm": 5.8070292472839355,
7536
+ "learning_rate": 2.5114073121028093e-05,
7537
+ "loss": 1.7635,
7538
+ "step": 1071
7539
+ },
7540
+ {
7541
+ "epoch": 0.21021668791057946,
7542
+ "grad_norm": 5.450509548187256,
7543
+ "learning_rate": 2.4963286819439037e-05,
7544
+ "loss": 0.7839,
7545
+ "step": 1072
7546
+ },
7547
+ {
7548
+ "epoch": 0.21041278556721246,
7549
+ "grad_norm": 4.60319185256958,
7550
+ "learning_rate": 2.4812889961679986e-05,
7551
+ "loss": 1.8491,
7552
+ "step": 1073
7553
+ },
7554
+ {
7555
+ "epoch": 0.21060888322384547,
7556
+ "grad_norm": 3.9338133335113525,
7557
+ "learning_rate": 2.4662883328317222e-05,
7558
+ "loss": 0.9618,
7559
+ "step": 1074
7560
+ },
7561
+ {
7562
+ "epoch": 0.21080498088047847,
7563
+ "grad_norm": 7.811015605926514,
7564
+ "learning_rate": 2.451326769789176e-05,
7565
+ "loss": 1.5204,
7566
+ "step": 1075
7567
+ },
7568
+ {
7569
+ "epoch": 0.21100107853711147,
7570
+ "grad_norm": 6.122691631317139,
7571
+ "learning_rate": 2.4364043846915274e-05,
7572
+ "loss": 1.0331,
7573
+ "step": 1076
7574
+ },
7575
+ {
7576
+ "epoch": 0.21119717619374448,
7577
+ "grad_norm": 8.609393119812012,
7578
+ "learning_rate": 2.4215212549866116e-05,
7579
+ "loss": 1.9155,
7580
+ "step": 1077
7581
+ },
7582
+ {
7583
+ "epoch": 0.21139327385037748,
7584
+ "grad_norm": 7.292634963989258,
7585
+ "learning_rate": 2.4066774579185158e-05,
7586
+ "loss": 1.2971,
7587
+ "step": 1078
7588
+ },
7589
+ {
7590
+ "epoch": 0.2115893715070105,
7591
+ "grad_norm": 5.975107192993164,
7592
+ "learning_rate": 2.3918730705272064e-05,
7593
+ "loss": 1.4156,
7594
+ "step": 1079
7595
+ },
7596
+ {
7597
+ "epoch": 0.2117854691636435,
7598
+ "grad_norm": 14.805880546569824,
7599
+ "learning_rate": 2.377108169648098e-05,
7600
+ "loss": 1.0787,
7601
+ "step": 1080
7602
+ },
7603
+ {
7604
+ "epoch": 0.2119815668202765,
7605
+ "grad_norm": 5.720880031585693,
7606
+ "learning_rate": 2.3623828319116748e-05,
7607
+ "loss": 1.3329,
7608
+ "step": 1081
7609
+ },
7610
+ {
7611
+ "epoch": 0.2121776644769095,
7612
+ "grad_norm": 7.515237331390381,
7613
+ "learning_rate": 2.3476971337430875e-05,
7614
+ "loss": 1.7147,
7615
+ "step": 1082
7616
+ },
7617
+ {
7618
+ "epoch": 0.2123737621335425,
7619
+ "grad_norm": 6.027990341186523,
7620
+ "learning_rate": 2.3330511513617448e-05,
7621
+ "loss": 1.9171,
7622
+ "step": 1083
7623
+ },
7624
+ {
7625
+ "epoch": 0.2125698597901755,
7626
+ "grad_norm": 4.526289463043213,
7627
+ "learning_rate": 2.318444960780949e-05,
7628
+ "loss": 0.6467,
7629
+ "step": 1084
7630
+ },
7631
+ {
7632
+ "epoch": 0.2127659574468085,
7633
+ "grad_norm": 9.184370040893555,
7634
+ "learning_rate": 2.3038786378074574e-05,
7635
+ "loss": 1.6125,
7636
+ "step": 1085
7637
+ },
7638
+ {
7639
+ "epoch": 0.21296205510344152,
7640
+ "grad_norm": 7.263781547546387,
7641
+ "learning_rate": 2.289352258041133e-05,
7642
+ "loss": 1.6612,
7643
+ "step": 1086
7644
+ },
7645
+ {
7646
+ "epoch": 0.21315815276007452,
7647
+ "grad_norm": 9.886373519897461,
7648
+ "learning_rate": 2.274865896874523e-05,
7649
+ "loss": 2.4533,
7650
+ "step": 1087
7651
+ },
7652
+ {
7653
+ "epoch": 0.21335425041670752,
7654
+ "grad_norm": 9.56613540649414,
7655
+ "learning_rate": 2.2604196294924694e-05,
7656
+ "loss": 2.0031,
7657
+ "step": 1088
7658
+ },
7659
+ {
7660
+ "epoch": 0.21355034807334053,
7661
+ "grad_norm": 4.8680925369262695,
7662
+ "learning_rate": 2.2460135308717445e-05,
7663
+ "loss": 1.2974,
7664
+ "step": 1089
7665
+ },
7666
+ {
7667
+ "epoch": 0.21374644572997353,
7668
+ "grad_norm": 4.032529830932617,
7669
+ "learning_rate": 2.231647675780619e-05,
7670
+ "loss": 0.7491,
7671
+ "step": 1090
7672
+ },
7673
+ {
7674
+ "epoch": 0.21394254338660654,
7675
+ "grad_norm": 5.186695098876953,
7676
+ "learning_rate": 2.2173221387785216e-05,
7677
+ "loss": 1.2152,
7678
+ "step": 1091
7679
+ },
7680
+ {
7681
+ "epoch": 0.21413864104323954,
7682
+ "grad_norm": 5.538721561431885,
7683
+ "learning_rate": 2.2030369942156072e-05,
7684
+ "loss": 1.6134,
7685
+ "step": 1092
7686
+ },
7687
+ {
7688
+ "epoch": 0.21433473869987255,
7689
+ "grad_norm": 8.213644027709961,
7690
+ "learning_rate": 2.1887923162324097e-05,
7691
+ "loss": 1.5288,
7692
+ "step": 1093
7693
+ },
7694
+ {
7695
+ "epoch": 0.21453083635650555,
7696
+ "grad_norm": 8.110743522644043,
7697
+ "learning_rate": 2.1745881787594334e-05,
7698
+ "loss": 0.8424,
7699
+ "step": 1094
7700
+ },
7701
+ {
7702
+ "epoch": 0.21472693401313855,
7703
+ "grad_norm": 6.066911697387695,
7704
+ "learning_rate": 2.1604246555167638e-05,
7705
+ "loss": 1.9787,
7706
+ "step": 1095
7707
+ },
7708
+ {
7709
+ "epoch": 0.21492303166977156,
7710
+ "grad_norm": 3.873046636581421,
7711
+ "learning_rate": 2.1463018200137196e-05,
7712
+ "loss": 1.7871,
7713
+ "step": 1096
7714
+ },
7715
+ {
7716
+ "epoch": 0.21511912932640456,
7717
+ "grad_norm": 7.206579208374023,
7718
+ "learning_rate": 2.1322197455484248e-05,
7719
+ "loss": 1.3871,
7720
+ "step": 1097
7721
+ },
7722
+ {
7723
+ "epoch": 0.21531522698303757,
7724
+ "grad_norm": 7.201257705688477,
7725
+ "learning_rate": 2.1181785052074756e-05,
7726
+ "loss": 1.2177,
7727
+ "step": 1098
7728
+ },
7729
+ {
7730
+ "epoch": 0.21551132463967054,
7731
+ "grad_norm": 5.7325239181518555,
7732
+ "learning_rate": 2.104178171865513e-05,
7733
+ "loss": 1.0547,
7734
+ "step": 1099
7735
+ },
7736
+ {
7737
+ "epoch": 0.21570742229630355,
7738
+ "grad_norm": 4.294105052947998,
7739
+ "learning_rate": 2.0902188181848838e-05,
7740
+ "loss": 1.9177,
7741
+ "step": 1100
7742
+ },
7743
+ {
7744
+ "epoch": 0.21590351995293655,
7745
+ "grad_norm": 4.344897270202637,
7746
+ "learning_rate": 2.0763005166152517e-05,
7747
+ "loss": 1.2101,
7748
+ "step": 1101
7749
+ },
7750
+ {
7751
+ "epoch": 0.21609961760956956,
7752
+ "grad_norm": 10.920205116271973,
7753
+ "learning_rate": 2.0624233393932024e-05,
7754
+ "loss": 1.0783,
7755
+ "step": 1102
7756
+ },
7757
+ {
7758
+ "epoch": 0.21629571526620256,
7759
+ "grad_norm": 6.155653953552246,
7760
+ "learning_rate": 2.0485873585419035e-05,
7761
+ "loss": 2.6903,
7762
+ "step": 1103
7763
+ },
7764
+ {
7765
+ "epoch": 0.21649181292283556,
7766
+ "grad_norm": 7.211439609527588,
7767
+ "learning_rate": 2.0347926458706945e-05,
7768
+ "loss": 1.8343,
7769
+ "step": 1104
7770
+ },
7771
+ {
7772
+ "epoch": 0.21668791057946857,
7773
+ "grad_norm": 8.261204719543457,
7774
+ "learning_rate": 2.021039272974742e-05,
7775
+ "loss": 2.3539,
7776
+ "step": 1105
7777
+ },
7778
+ {
7779
+ "epoch": 0.21688400823610157,
7780
+ "grad_norm": 5.709137916564941,
7781
+ "learning_rate": 2.0073273112346526e-05,
7782
+ "loss": 1.0312,
7783
+ "step": 1106
7784
+ },
7785
+ {
7786
+ "epoch": 0.21708010589273458,
7787
+ "grad_norm": 6.048385143280029,
7788
+ "learning_rate": 1.9936568318161076e-05,
7789
+ "loss": 1.086,
7790
+ "step": 1107
7791
+ },
7792
+ {
7793
+ "epoch": 0.21727620354936758,
7794
+ "grad_norm": 4.2964677810668945,
7795
+ "learning_rate": 1.9800279056695005e-05,
7796
+ "loss": 0.7691,
7797
+ "step": 1108
7798
+ },
7799
+ {
7800
+ "epoch": 0.21747230120600058,
7801
+ "grad_norm": 4.8451972007751465,
7802
+ "learning_rate": 1.966440603529549e-05,
7803
+ "loss": 1.4864,
7804
+ "step": 1109
7805
+ },
7806
+ {
7807
+ "epoch": 0.2176683988626336,
7808
+ "grad_norm": 5.61348295211792,
7809
+ "learning_rate": 1.952894995914949e-05,
7810
+ "loss": 1.5675,
7811
+ "step": 1110
7812
+ },
7813
+ {
7814
+ "epoch": 0.2178644965192666,
7815
+ "grad_norm": 6.666314601898193,
7816
+ "learning_rate": 1.9393911531279974e-05,
7817
+ "loss": 1.3273,
7818
+ "step": 1111
7819
+ },
7820
+ {
7821
+ "epoch": 0.2180605941758996,
7822
+ "grad_norm": 5.22393798828125,
7823
+ "learning_rate": 1.9259291452542293e-05,
7824
+ "loss": 1.4175,
7825
+ "step": 1112
7826
+ },
7827
+ {
7828
+ "epoch": 0.2182566918325326,
7829
+ "grad_norm": 7.283446311950684,
7830
+ "learning_rate": 1.9125090421620574e-05,
7831
+ "loss": 2.5381,
7832
+ "step": 1113
7833
+ },
7834
+ {
7835
+ "epoch": 0.2184527894891656,
7836
+ "grad_norm": 8.553428649902344,
7837
+ "learning_rate": 1.8991309135024004e-05,
7838
+ "loss": 2.0767,
7839
+ "step": 1114
7840
+ },
7841
+ {
7842
+ "epoch": 0.2186488871457986,
7843
+ "grad_norm": 6.280401706695557,
7844
+ "learning_rate": 1.8857948287083416e-05,
7845
+ "loss": 0.9069,
7846
+ "step": 1115
7847
+ },
7848
+ {
7849
+ "epoch": 0.2188449848024316,
7850
+ "grad_norm": 14.387880325317383,
7851
+ "learning_rate": 1.8725008569947365e-05,
7852
+ "loss": 1.6501,
7853
+ "step": 1116
7854
+ },
7855
+ {
7856
+ "epoch": 0.21904108245906462,
7857
+ "grad_norm": 8.282727241516113,
7858
+ "learning_rate": 1.8592490673578843e-05,
7859
+ "loss": 1.645,
7860
+ "step": 1117
7861
+ },
7862
+ {
7863
+ "epoch": 0.21923718011569762,
7864
+ "grad_norm": 7.460145950317383,
7865
+ "learning_rate": 1.8460395285751542e-05,
7866
+ "loss": 2.3436,
7867
+ "step": 1118
7868
+ },
7869
+ {
7870
+ "epoch": 0.21943327777233063,
7871
+ "grad_norm": 4.364814758300781,
7872
+ "learning_rate": 1.8328723092046317e-05,
7873
+ "loss": 1.1313,
7874
+ "step": 1119
7875
+ },
7876
+ {
7877
+ "epoch": 0.21962937542896363,
7878
+ "grad_norm": 16.233600616455078,
7879
+ "learning_rate": 1.8197474775847613e-05,
7880
+ "loss": 2.5969,
7881
+ "step": 1120
7882
+ },
7883
+ {
7884
+ "epoch": 0.21982547308559663,
7885
+ "grad_norm": 7.081477165222168,
7886
+ "learning_rate": 1.806665101833994e-05,
7887
+ "loss": 2.4986,
7888
+ "step": 1121
7889
+ },
7890
+ {
7891
+ "epoch": 0.22002157074222964,
7892
+ "grad_norm": 4.212589740753174,
7893
+ "learning_rate": 1.7936252498504356e-05,
7894
+ "loss": 1.3044,
7895
+ "step": 1122
7896
+ },
7897
+ {
7898
+ "epoch": 0.22021766839886264,
7899
+ "grad_norm": 6.28343391418457,
7900
+ "learning_rate": 1.7806279893114875e-05,
7901
+ "loss": 1.7792,
7902
+ "step": 1123
7903
+ },
7904
+ {
7905
+ "epoch": 0.22041376605549565,
7906
+ "grad_norm": 6.392016410827637,
7907
+ "learning_rate": 1.7676733876735018e-05,
7908
+ "loss": 1.6957,
7909
+ "step": 1124
7910
+ },
7911
+ {
7912
+ "epoch": 0.22060986371212865,
7913
+ "grad_norm": 8.44856071472168,
7914
+ "learning_rate": 1.754761512171429e-05,
7915
+ "loss": 2.5809,
7916
+ "step": 1125
7917
+ },
7918
+ {
7919
+ "epoch": 0.22080596136876166,
7920
+ "grad_norm": 6.063395977020264,
7921
+ "learning_rate": 1.741892429818468e-05,
7922
+ "loss": 1.1537,
7923
+ "step": 1126
7924
+ },
7925
+ {
7926
+ "epoch": 0.22100205902539466,
7927
+ "grad_norm": 22.53998374938965,
7928
+ "learning_rate": 1.729066207405722e-05,
7929
+ "loss": 2.6686,
7930
+ "step": 1127
7931
+ },
7932
+ {
7933
+ "epoch": 0.22119815668202766,
7934
+ "grad_norm": 4.210419178009033,
7935
+ "learning_rate": 1.7162829115018452e-05,
7936
+ "loss": 1.2635,
7937
+ "step": 1128
7938
+ },
7939
+ {
7940
+ "epoch": 0.22139425433866064,
7941
+ "grad_norm": 9.418660163879395,
7942
+ "learning_rate": 1.7035426084527062e-05,
7943
+ "loss": 2.5926,
7944
+ "step": 1129
7945
+ },
7946
+ {
7947
+ "epoch": 0.22159035199529364,
7948
+ "grad_norm": 8.299819946289062,
7949
+ "learning_rate": 1.690845364381034e-05,
7950
+ "loss": 1.5026,
7951
+ "step": 1130
7952
+ },
7953
+ {
7954
+ "epoch": 0.22178644965192665,
7955
+ "grad_norm": 7.302555084228516,
7956
+ "learning_rate": 1.6781912451860827e-05,
7957
+ "loss": 1.5762,
7958
+ "step": 1131
7959
+ },
7960
+ {
7961
+ "epoch": 0.22198254730855965,
7962
+ "grad_norm": 8.947975158691406,
7963
+ "learning_rate": 1.665580316543286e-05,
7964
+ "loss": 0.9516,
7965
+ "step": 1132
7966
+ },
7967
+ {
7968
+ "epoch": 0.22217864496519266,
7969
+ "grad_norm": 7.167786121368408,
7970
+ "learning_rate": 1.653012643903915e-05,
7971
+ "loss": 2.3246,
7972
+ "step": 1133
7973
+ },
7974
+ {
7975
+ "epoch": 0.22237474262182566,
7976
+ "grad_norm": 8.101836204528809,
7977
+ "learning_rate": 1.640488292494743e-05,
7978
+ "loss": 1.5492,
7979
+ "step": 1134
7980
+ },
7981
+ {
7982
+ "epoch": 0.22257084027845866,
7983
+ "grad_norm": 7.395213603973389,
7984
+ "learning_rate": 1.628007327317701e-05,
7985
+ "loss": 1.7188,
7986
+ "step": 1135
7987
+ },
7988
+ {
7989
+ "epoch": 0.22276693793509167,
7990
+ "grad_norm": 3.9345545768737793,
7991
+ "learning_rate": 1.6155698131495454e-05,
7992
+ "loss": 0.7864,
7993
+ "step": 1136
7994
+ },
7995
+ {
7996
+ "epoch": 0.22296303559172467,
7997
+ "grad_norm": 6.147872447967529,
7998
+ "learning_rate": 1.603175814541522e-05,
7999
+ "loss": 1.7044,
8000
+ "step": 1137
8001
+ },
8002
+ {
8003
+ "epoch": 0.22315913324835768,
8004
+ "grad_norm": 5.625443458557129,
8005
+ "learning_rate": 1.5908253958190256e-05,
8006
+ "loss": 2.0135,
8007
+ "step": 1138
8008
+ },
8009
+ {
8010
+ "epoch": 0.22335523090499068,
8011
+ "grad_norm": 8.224568367004395,
8012
+ "learning_rate": 1.5785186210812698e-05,
8013
+ "loss": 1.4209,
8014
+ "step": 1139
8015
+ },
8016
+ {
8017
+ "epoch": 0.22355132856162369,
8018
+ "grad_norm": 5.80567741394043,
8019
+ "learning_rate": 1.566255554200955e-05,
8020
+ "loss": 0.8693,
8021
+ "step": 1140
8022
+ },
8023
+ {
8024
+ "epoch": 0.2237474262182567,
8025
+ "grad_norm": 7.716653347015381,
8026
+ "learning_rate": 1.5540362588239364e-05,
8027
+ "loss": 2.0515,
8028
+ "step": 1141
8029
+ },
8030
+ {
8031
+ "epoch": 0.2239435238748897,
8032
+ "grad_norm": 5.845829963684082,
8033
+ "learning_rate": 1.5418607983688927e-05,
8034
+ "loss": 1.3831,
8035
+ "step": 1142
8036
+ },
8037
+ {
8038
+ "epoch": 0.2241396215315227,
8039
+ "grad_norm": 5.728200435638428,
8040
+ "learning_rate": 1.529729236026999e-05,
8041
+ "loss": 1.6435,
8042
+ "step": 1143
8043
+ },
8044
+ {
8045
+ "epoch": 0.2243357191881557,
8046
+ "grad_norm": 9.004356384277344,
8047
+ "learning_rate": 1.5176416347615885e-05,
8048
+ "loss": 2.4094,
8049
+ "step": 1144
8050
+ },
8051
+ {
8052
+ "epoch": 0.2245318168447887,
8053
+ "grad_norm": 7.60123872756958,
8054
+ "learning_rate": 1.5055980573078487e-05,
8055
+ "loss": 1.6575,
8056
+ "step": 1145
8057
+ },
8058
+ {
8059
+ "epoch": 0.2247279145014217,
8060
+ "grad_norm": 6.572809219360352,
8061
+ "learning_rate": 1.4935985661724727e-05,
8062
+ "loss": 1.5638,
8063
+ "step": 1146
8064
+ },
8065
+ {
8066
+ "epoch": 0.22492401215805471,
8067
+ "grad_norm": 5.095000267028809,
8068
+ "learning_rate": 1.4816432236333444e-05,
8069
+ "loss": 1.6261,
8070
+ "step": 1147
8071
+ },
8072
+ {
8073
+ "epoch": 0.22512010981468772,
8074
+ "grad_norm": 5.581939220428467,
8075
+ "learning_rate": 1.4697320917392188e-05,
8076
+ "loss": 1.0154,
8077
+ "step": 1148
8078
+ },
8079
+ {
8080
+ "epoch": 0.22531620747132072,
8081
+ "grad_norm": 7.922572135925293,
8082
+ "learning_rate": 1.4578652323093855e-05,
8083
+ "loss": 3.1376,
8084
+ "step": 1149
8085
+ },
8086
+ {
8087
+ "epoch": 0.22551230512795373,
8088
+ "grad_norm": 8.814900398254395,
8089
+ "learning_rate": 1.4460427069333726e-05,
8090
+ "loss": 1.8381,
8091
+ "step": 1150
8092
+ },
8093
+ {
8094
+ "epoch": 0.22570840278458673,
8095
+ "grad_norm": 8.666311264038086,
8096
+ "learning_rate": 1.4342645769705977e-05,
8097
+ "loss": 0.7864,
8098
+ "step": 1151
8099
+ },
8100
+ {
8101
+ "epoch": 0.22590450044121974,
8102
+ "grad_norm": 4.692161560058594,
8103
+ "learning_rate": 1.4225309035500778e-05,
8104
+ "loss": 1.2963,
8105
+ "step": 1152
8106
+ },
8107
+ {
8108
+ "epoch": 0.22610059809785274,
8109
+ "grad_norm": 4.93988561630249,
8110
+ "learning_rate": 1.4108417475700908e-05,
8111
+ "loss": 0.8273,
8112
+ "step": 1153
8113
+ },
8114
+ {
8115
+ "epoch": 0.22629669575448574,
8116
+ "grad_norm": 5.998587131500244,
8117
+ "learning_rate": 1.3991971696978645e-05,
8118
+ "loss": 2.5023,
8119
+ "step": 1154
8120
+ },
8121
+ {
8122
+ "epoch": 0.22649279341111875,
8123
+ "grad_norm": 7.898712635040283,
8124
+ "learning_rate": 1.3875972303692752e-05,
8125
+ "loss": 1.7302,
8126
+ "step": 1155
8127
+ },
8128
+ {
8129
+ "epoch": 0.22668889106775175,
8130
+ "grad_norm": 4.3550190925598145,
8131
+ "learning_rate": 1.376041989788508e-05,
8132
+ "loss": 0.6245,
8133
+ "step": 1156
8134
+ },
8135
+ {
8136
+ "epoch": 0.22688498872438476,
8137
+ "grad_norm": 9.550539016723633,
8138
+ "learning_rate": 1.3645315079277765e-05,
8139
+ "loss": 1.7358,
8140
+ "step": 1157
8141
+ },
8142
+ {
8143
+ "epoch": 0.22708108638101776,
8144
+ "grad_norm": 7.5146164894104,
8145
+ "learning_rate": 1.3530658445269783e-05,
8146
+ "loss": 1.5159,
8147
+ "step": 1158
8148
+ },
8149
+ {
8150
+ "epoch": 0.22727718403765074,
8151
+ "grad_norm": 8.449292182922363,
8152
+ "learning_rate": 1.341645059093415e-05,
8153
+ "loss": 2.5644,
8154
+ "step": 1159
8155
+ },
8156
+ {
8157
+ "epoch": 0.22747328169428374,
8158
+ "grad_norm": 7.365999698638916,
8159
+ "learning_rate": 1.3302692109014625e-05,
8160
+ "loss": 1.3292,
8161
+ "step": 1160
8162
+ },
8163
+ {
8164
+ "epoch": 0.22766937935091675,
8165
+ "grad_norm": 4.936117172241211,
8166
+ "learning_rate": 1.3189383589922665e-05,
8167
+ "loss": 0.636,
8168
+ "step": 1161
8169
+ },
8170
+ {
8171
+ "epoch": 0.22786547700754975,
8172
+ "grad_norm": 22.70414161682129,
8173
+ "learning_rate": 1.3076525621734526e-05,
8174
+ "loss": 1.5574,
8175
+ "step": 1162
8176
+ },
8177
+ {
8178
+ "epoch": 0.22806157466418275,
8179
+ "grad_norm": 6.079709053039551,
8180
+ "learning_rate": 1.2964118790187929e-05,
8181
+ "loss": 1.8188,
8182
+ "step": 1163
8183
+ },
8184
+ {
8185
+ "epoch": 0.22825767232081576,
8186
+ "grad_norm": 6.864228248596191,
8187
+ "learning_rate": 1.2852163678679341e-05,
8188
+ "loss": 1.2751,
8189
+ "step": 1164
8190
+ },
8191
+ {
8192
+ "epoch": 0.22845376997744876,
8193
+ "grad_norm": 3.384364366531372,
8194
+ "learning_rate": 1.2740660868260633e-05,
8195
+ "loss": 1.3381,
8196
+ "step": 1165
8197
+ },
8198
+ {
8199
+ "epoch": 0.22864986763408177,
8200
+ "grad_norm": 4.77728796005249,
8201
+ "learning_rate": 1.2629610937636283e-05,
8202
+ "loss": 1.9661,
8203
+ "step": 1166
8204
+ },
8205
+ {
8206
+ "epoch": 0.22884596529071477,
8207
+ "grad_norm": 4.837019443511963,
8208
+ "learning_rate": 1.251901446316035e-05,
8209
+ "loss": 1.7805,
8210
+ "step": 1167
8211
+ },
8212
+ {
8213
+ "epoch": 0.22904206294734777,
8214
+ "grad_norm": 4.927963733673096,
8215
+ "learning_rate": 1.2408872018833296e-05,
8216
+ "loss": 0.8884,
8217
+ "step": 1168
8218
+ },
8219
+ {
8220
+ "epoch": 0.22923816060398078,
8221
+ "grad_norm": 7.3830647468566895,
8222
+ "learning_rate": 1.2299184176299339e-05,
8223
+ "loss": 1.1489,
8224
+ "step": 1169
8225
+ },
8226
+ {
8227
+ "epoch": 0.22943425826061378,
8228
+ "grad_norm": 4.659049987792969,
8229
+ "learning_rate": 1.2189951504843112e-05,
8230
+ "loss": 0.6723,
8231
+ "step": 1170
8232
+ },
8233
+ {
8234
+ "epoch": 0.2296303559172468,
8235
+ "grad_norm": 10.427599906921387,
8236
+ "learning_rate": 1.2081174571386989e-05,
8237
+ "loss": 1.1733,
8238
+ "step": 1171
8239
+ },
8240
+ {
8241
+ "epoch": 0.2298264535738798,
8242
+ "grad_norm": 13.781340599060059,
8243
+ "learning_rate": 1.1972853940488015e-05,
8244
+ "loss": 2.0666,
8245
+ "step": 1172
8246
+ },
8247
+ {
8248
+ "epoch": 0.2300225512305128,
8249
+ "grad_norm": 4.749293804168701,
8250
+ "learning_rate": 1.1864990174335012e-05,
8251
+ "loss": 1.657,
8252
+ "step": 1173
8253
+ },
8254
+ {
8255
+ "epoch": 0.2302186488871458,
8256
+ "grad_norm": 5.438106536865234,
8257
+ "learning_rate": 1.17575838327457e-05,
8258
+ "loss": 2.2866,
8259
+ "step": 1174
8260
+ },
8261
+ {
8262
+ "epoch": 0.2304147465437788,
8263
+ "grad_norm": 5.253787517547607,
8264
+ "learning_rate": 1.165063547316363e-05,
8265
+ "loss": 0.7286,
8266
+ "step": 1175
8267
+ },
8268
+ {
8269
+ "epoch": 0.2306108442004118,
8270
+ "grad_norm": 5.084885120391846,
8271
+ "learning_rate": 1.1544145650655514e-05,
8272
+ "loss": 1.5842,
8273
+ "step": 1176
8274
+ },
8275
+ {
8276
+ "epoch": 0.2308069418570448,
8277
+ "grad_norm": 6.295192718505859,
8278
+ "learning_rate": 1.1438114917908193e-05,
8279
+ "loss": 1.4375,
8280
+ "step": 1177
8281
+ },
8282
+ {
8283
+ "epoch": 0.23100303951367782,
8284
+ "grad_norm": 7.397315502166748,
8285
+ "learning_rate": 1.1332543825225806e-05,
8286
+ "loss": 1.5273,
8287
+ "step": 1178
8288
+ },
8289
+ {
8290
+ "epoch": 0.23119913717031082,
8291
+ "grad_norm": 4.620631217956543,
8292
+ "learning_rate": 1.122743292052697e-05,
8293
+ "loss": 2.3138,
8294
+ "step": 1179
8295
+ },
8296
+ {
8297
+ "epoch": 0.23139523482694382,
8298
+ "grad_norm": 6.895712852478027,
8299
+ "learning_rate": 1.1122782749341843e-05,
8300
+ "loss": 2.7047,
8301
+ "step": 1180
8302
+ },
8303
+ {
8304
+ "epoch": 0.23159133248357683,
8305
+ "grad_norm": 5.031332969665527,
8306
+ "learning_rate": 1.1018593854809478e-05,
8307
+ "loss": 1.3471,
8308
+ "step": 1181
8309
+ },
8310
+ {
8311
+ "epoch": 0.23178743014020983,
8312
+ "grad_norm": 5.385929584503174,
8313
+ "learning_rate": 1.0914866777674737e-05,
8314
+ "loss": 1.7638,
8315
+ "step": 1182
8316
+ },
8317
+ {
8318
+ "epoch": 0.23198352779684284,
8319
+ "grad_norm": 6.311648368835449,
8320
+ "learning_rate": 1.081160205628572e-05,
8321
+ "loss": 1.4686,
8322
+ "step": 1183
8323
+ },
8324
+ {
8325
+ "epoch": 0.23217962545347584,
8326
+ "grad_norm": 7.770483016967773,
8327
+ "learning_rate": 1.0708800226590854e-05,
8328
+ "loss": 0.9346,
8329
+ "step": 1184
8330
+ },
8331
+ {
8332
+ "epoch": 0.23237572311010884,
8333
+ "grad_norm": 7.618231773376465,
8334
+ "learning_rate": 1.0606461822136137e-05,
8335
+ "loss": 1.0662,
8336
+ "step": 1185
8337
+ },
8338
+ {
8339
+ "epoch": 0.23257182076674185,
8340
+ "grad_norm": 8.606494903564453,
8341
+ "learning_rate": 1.0504587374062391e-05,
8342
+ "loss": 1.5704,
8343
+ "step": 1186
8344
+ },
8345
+ {
8346
+ "epoch": 0.23276791842337485,
8347
+ "grad_norm": 25.36232566833496,
8348
+ "learning_rate": 1.0403177411102438e-05,
8349
+ "loss": 2.207,
8350
+ "step": 1187
8351
+ },
8352
+ {
8353
+ "epoch": 0.23296401608000786,
8354
+ "grad_norm": 8.098196983337402,
8355
+ "learning_rate": 1.0302232459578454e-05,
8356
+ "loss": 2.2944,
8357
+ "step": 1188
8358
+ },
8359
+ {
8360
+ "epoch": 0.23316011373664083,
8361
+ "grad_norm": 6.22314977645874,
8362
+ "learning_rate": 1.0201753043399143e-05,
8363
+ "loss": 1.62,
8364
+ "step": 1189
8365
+ },
8366
+ {
8367
+ "epoch": 0.23335621139327384,
8368
+ "grad_norm": 9.491933822631836,
8369
+ "learning_rate": 1.0101739684057098e-05,
8370
+ "loss": 1.392,
8371
+ "step": 1190
8372
+ },
8373
+ {
8374
+ "epoch": 0.23355230904990684,
8375
+ "grad_norm": 6.178860187530518,
8376
+ "learning_rate": 1.0002192900626028e-05,
8377
+ "loss": 1.6095,
8378
+ "step": 1191
8379
+ },
8380
+ {
8381
+ "epoch": 0.23374840670653985,
8382
+ "grad_norm": 5.492360591888428,
8383
+ "learning_rate": 9.903113209758096e-06,
8384
+ "loss": 2.4164,
8385
+ "step": 1192
8386
+ },
8387
+ {
8388
+ "epoch": 0.23394450436317285,
8389
+ "grad_norm": 7.380622386932373,
8390
+ "learning_rate": 9.804501125681243e-06,
8391
+ "loss": 1.8485,
8392
+ "step": 1193
8393
+ },
8394
+ {
8395
+ "epoch": 0.23414060201980585,
8396
+ "grad_norm": 6.217007637023926,
8397
+ "learning_rate": 9.70635716019651e-06,
8398
+ "loss": 1.5716,
8399
+ "step": 1194
8400
+ },
8401
+ {
8402
+ "epoch": 0.23433669967643886,
8403
+ "grad_norm": 3.790039539337158,
8404
+ "learning_rate": 9.608681822675381e-06,
8405
+ "loss": 1.5046,
8406
+ "step": 1195
8407
+ },
8408
+ {
8409
+ "epoch": 0.23453279733307186,
8410
+ "grad_norm": 4.153253555297852,
8411
+ "learning_rate": 9.51147562005713e-06,
8412
+ "loss": 0.7896,
8413
+ "step": 1196
8414
+ },
8415
+ {
8416
+ "epoch": 0.23472889498970487,
8417
+ "grad_norm": 5.173237323760986,
8418
+ "learning_rate": 9.414739056846222e-06,
8419
+ "loss": 1.1483,
8420
+ "step": 1197
8421
+ },
8422
+ {
8423
+ "epoch": 0.23492499264633787,
8424
+ "grad_norm": 6.67634916305542,
8425
+ "learning_rate": 9.318472635109653e-06,
8426
+ "loss": 1.0958,
8427
+ "step": 1198
8428
+ },
8429
+ {
8430
+ "epoch": 0.23512109030297088,
8431
+ "grad_norm": 5.527042388916016,
8432
+ "learning_rate": 9.222676854474365e-06,
8433
+ "loss": 2.349,
8434
+ "step": 1199
8435
+ },
8436
+ {
8437
+ "epoch": 0.23531718795960388,
8438
+ "grad_norm": 6.437062740325928,
8439
+ "learning_rate": 9.127352212124662e-06,
8440
+ "loss": 2.2577,
8441
+ "step": 1200
8442
+ },
8443
+ {
8444
+ "epoch": 0.23551328561623688,
8445
+ "grad_norm": 6.333834171295166,
8446
+ "learning_rate": 9.032499202799628e-06,
8447
+ "loss": 1.5634,
8448
+ "step": 1201
8449
+ },
8450
+ {
8451
+ "epoch": 0.2357093832728699,
8452
+ "grad_norm": 8.251330375671387,
8453
+ "learning_rate": 8.938118318790522e-06,
8454
+ "loss": 1.6758,
8455
+ "step": 1202
8456
+ },
8457
+ {
8458
+ "epoch": 0.2359054809295029,
8459
+ "grad_norm": 11.161762237548828,
8460
+ "learning_rate": 8.844210049938262e-06,
8461
+ "loss": 0.9043,
8462
+ "step": 1203
8463
+ },
8464
+ {
8465
+ "epoch": 0.2361015785861359,
8466
+ "grad_norm": 5.800900936126709,
8467
+ "learning_rate": 8.750774883630908e-06,
8468
+ "loss": 2.1929,
8469
+ "step": 1204
8470
+ },
8471
+ {
8472
+ "epoch": 0.2362976762427689,
8473
+ "grad_norm": 4.731690883636475,
8474
+ "learning_rate": 8.657813304801043e-06,
8475
+ "loss": 0.5826,
8476
+ "step": 1205
8477
+ },
8478
+ {
8479
+ "epoch": 0.2364937738994019,
8480
+ "grad_norm": 4.208858966827393,
8481
+ "learning_rate": 8.565325795923341e-06,
8482
+ "loss": 0.9173,
8483
+ "step": 1206
8484
+ },
8485
+ {
8486
+ "epoch": 0.2366898715560349,
8487
+ "grad_norm": 4.98720645904541,
8488
+ "learning_rate": 8.473312837012026e-06,
8489
+ "loss": 1.7575,
8490
+ "step": 1207
8491
+ },
8492
+ {
8493
+ "epoch": 0.2368859692126679,
8494
+ "grad_norm": 6.606943130493164,
8495
+ "learning_rate": 8.3817749056184e-06,
8496
+ "loss": 1.6911,
8497
+ "step": 1208
8498
+ },
8499
+ {
8500
+ "epoch": 0.23708206686930092,
8501
+ "grad_norm": 6.240574359893799,
8502
+ "learning_rate": 8.290712476828332e-06,
8503
+ "loss": 2.235,
8504
+ "step": 1209
8505
+ },
8506
+ {
8507
+ "epoch": 0.23727816452593392,
8508
+ "grad_norm": 7.585755348205566,
8509
+ "learning_rate": 8.200126023259791e-06,
8510
+ "loss": 1.4902,
8511
+ "step": 1210
8512
+ },
8513
+ {
8514
+ "epoch": 0.23747426218256693,
8515
+ "grad_norm": 7.400862693786621,
8516
+ "learning_rate": 8.110016015060484e-06,
8517
+ "loss": 1.9178,
8518
+ "step": 1211
8519
+ },
8520
+ {
8521
+ "epoch": 0.23767035983919993,
8522
+ "grad_norm": 9.042954444885254,
8523
+ "learning_rate": 8.020382919905278e-06,
8524
+ "loss": 2.6052,
8525
+ "step": 1212
8526
+ },
8527
+ {
8528
+ "epoch": 0.23786645749583293,
8529
+ "grad_norm": 15.022893905639648,
8530
+ "learning_rate": 7.931227202993873e-06,
8531
+ "loss": 1.697,
8532
+ "step": 1213
8533
+ },
8534
+ {
8535
+ "epoch": 0.23806255515246594,
8536
+ "grad_norm": 11.485679626464844,
8537
+ "learning_rate": 7.842549327048365e-06,
8538
+ "loss": 2.7337,
8539
+ "step": 1214
8540
+ },
8541
+ {
8542
+ "epoch": 0.23825865280909894,
8543
+ "grad_norm": 4.79671049118042,
8544
+ "learning_rate": 7.754349752310752e-06,
8545
+ "loss": 1.7505,
8546
+ "step": 1215
8547
+ },
8548
+ {
8549
+ "epoch": 0.23845475046573195,
8550
+ "grad_norm": 4.849589824676514,
8551
+ "learning_rate": 7.666628936540776e-06,
8552
+ "loss": 0.7821,
8553
+ "step": 1216
8554
+ },
8555
+ {
8556
+ "epoch": 0.23865084812236495,
8557
+ "grad_norm": 4.220393180847168,
8558
+ "learning_rate": 7.579387335013255e-06,
8559
+ "loss": 0.7812,
8560
+ "step": 1217
8561
+ },
8562
+ {
8563
+ "epoch": 0.23884694577899795,
8564
+ "grad_norm": 12.55904769897461,
8565
+ "learning_rate": 7.492625400515951e-06,
8566
+ "loss": 1.8666,
8567
+ "step": 1218
8568
+ },
8569
+ {
8570
+ "epoch": 0.23904304343563093,
8571
+ "grad_norm": 5.080347537994385,
8572
+ "learning_rate": 7.406343583347119e-06,
8573
+ "loss": 0.7878,
8574
+ "step": 1219
8575
+ },
8576
+ {
8577
+ "epoch": 0.23923914109226393,
8578
+ "grad_norm": 4.184628486633301,
8579
+ "learning_rate": 7.320542331313118e-06,
8580
+ "loss": 1.193,
8581
+ "step": 1220
8582
+ },
8583
+ {
8584
+ "epoch": 0.23943523874889694,
8585
+ "grad_norm": 4.931305885314941,
8586
+ "learning_rate": 7.235222089726279e-06,
8587
+ "loss": 0.9402,
8588
+ "step": 1221
8589
+ },
8590
+ {
8591
+ "epoch": 0.23963133640552994,
8592
+ "grad_norm": 8.1219482421875,
8593
+ "learning_rate": 7.15038330140233e-06,
8594
+ "loss": 2.1749,
8595
+ "step": 1222
8596
+ },
8597
+ {
8598
+ "epoch": 0.23982743406216295,
8599
+ "grad_norm": 5.320800304412842,
8600
+ "learning_rate": 7.066026406658355e-06,
8601
+ "loss": 1.0909,
8602
+ "step": 1223
8603
+ },
8604
+ {
8605
+ "epoch": 0.24002353171879595,
8606
+ "grad_norm": 5.9109907150268555,
8607
+ "learning_rate": 6.982151843310281e-06,
8608
+ "loss": 2.0466,
8609
+ "step": 1224
8610
+ },
8611
+ {
8612
+ "epoch": 0.24021962937542896,
8613
+ "grad_norm": 4.978448390960693,
8614
+ "learning_rate": 6.898760046670815e-06,
8615
+ "loss": 2.8843,
8616
+ "step": 1225
8617
+ },
8618
+ {
8619
+ "epoch": 0.24041572703206196,
8620
+ "grad_norm": 6.749833106994629,
8621
+ "learning_rate": 6.815851449547028e-06,
8622
+ "loss": 0.8198,
8623
+ "step": 1226
8624
+ },
8625
+ {
8626
+ "epoch": 0.24061182468869496,
8627
+ "grad_norm": 3.7781665325164795,
8628
+ "learning_rate": 6.7334264822381254e-06,
8629
+ "loss": 0.9111,
8630
+ "step": 1227
8631
+ },
8632
+ {
8633
+ "epoch": 0.24080792234532797,
8634
+ "grad_norm": 6.719789028167725,
8635
+ "learning_rate": 6.651485572533378e-06,
8636
+ "loss": 1.9275,
8637
+ "step": 1228
8638
+ },
8639
+ {
8640
+ "epoch": 0.24100402000196097,
8641
+ "grad_norm": 7.115839004516602,
8642
+ "learning_rate": 6.570029145709622e-06,
8643
+ "loss": 1.2663,
8644
+ "step": 1229
8645
+ },
8646
+ {
8647
+ "epoch": 0.24120011765859398,
8648
+ "grad_norm": 7.567049503326416,
8649
+ "learning_rate": 6.489057624529349e-06,
8650
+ "loss": 2.1002,
8651
+ "step": 1230
8652
+ },
8653
+ {
8654
+ "epoch": 0.24139621531522698,
8655
+ "grad_norm": 7.6808180809021,
8656
+ "learning_rate": 6.408571429238253e-06,
8657
+ "loss": 1.0844,
8658
+ "step": 1231
8659
+ },
8660
+ {
8661
+ "epoch": 0.24159231297185998,
8662
+ "grad_norm": 15.046584129333496,
8663
+ "learning_rate": 6.328570977563208e-06,
8664
+ "loss": 2.3513,
8665
+ "step": 1232
8666
+ },
8667
+ {
8668
+ "epoch": 0.241788410628493,
8669
+ "grad_norm": 9.350245475769043,
8670
+ "learning_rate": 6.24905668471013e-06,
8671
+ "loss": 1.81,
8672
+ "step": 1233
8673
+ },
8674
+ {
8675
+ "epoch": 0.241984508285126,
8676
+ "grad_norm": 5.964272499084473,
8677
+ "learning_rate": 6.170028963361618e-06,
8678
+ "loss": 2.0853,
8679
+ "step": 1234
8680
+ },
8681
+ {
8682
+ "epoch": 0.242180605941759,
8683
+ "grad_norm": 5.296453475952148,
8684
+ "learning_rate": 6.091488223675057e-06,
8685
+ "loss": 0.8561,
8686
+ "step": 1235
8687
+ },
8688
+ {
8689
+ "epoch": 0.242376703598392,
8690
+ "grad_norm": 20.43738555908203,
8691
+ "learning_rate": 6.013434873280288e-06,
8692
+ "loss": 3.0297,
8693
+ "step": 1236
8694
+ },
8695
+ {
8696
+ "epoch": 0.242572801255025,
8697
+ "grad_norm": 5.732899188995361,
8698
+ "learning_rate": 5.935869317277643e-06,
8699
+ "loss": 1.4933,
8700
+ "step": 1237
8701
+ },
8702
+ {
8703
+ "epoch": 0.242768898911658,
8704
+ "grad_norm": 3.8854384422302246,
8705
+ "learning_rate": 5.858791958235754e-06,
8706
+ "loss": 0.8324,
8707
+ "step": 1238
8708
+ },
8709
+ {
8710
+ "epoch": 0.24296499656829101,
8711
+ "grad_norm": 6.640622615814209,
8712
+ "learning_rate": 5.782203196189461e-06,
8713
+ "loss": 1.5419,
8714
+ "step": 1239
8715
+ },
8716
+ {
8717
+ "epoch": 0.24316109422492402,
8718
+ "grad_norm": 8.89739990234375,
8719
+ "learning_rate": 5.706103428637865e-06,
8720
+ "loss": 0.7287,
8721
+ "step": 1240
8722
+ },
8723
+ {
8724
+ "epoch": 0.24335719188155702,
8725
+ "grad_norm": 3.595503568649292,
8726
+ "learning_rate": 5.630493050542041e-06,
8727
+ "loss": 0.8245,
8728
+ "step": 1241
8729
+ },
8730
+ {
8731
+ "epoch": 0.24355328953819003,
8732
+ "grad_norm": 8.166557312011719,
8733
+ "learning_rate": 5.5553724543231825e-06,
8734
+ "loss": 1.5169,
8735
+ "step": 1242
8736
+ },
8737
+ {
8738
+ "epoch": 0.24374938719482303,
8739
+ "grad_norm": 11.863232612609863,
8740
+ "learning_rate": 5.480742029860464e-06,
8741
+ "loss": 2.4468,
8742
+ "step": 1243
8743
+ },
8744
+ {
8745
+ "epoch": 0.24394548485145603,
8746
+ "grad_norm": 4.747961044311523,
8747
+ "learning_rate": 5.406602164489072e-06,
8748
+ "loss": 1.1186,
8749
+ "step": 1244
8750
+ },
8751
+ {
8752
+ "epoch": 0.24414158250808904,
8753
+ "grad_norm": 3.378335952758789,
8754
+ "learning_rate": 5.332953242998151e-06,
8755
+ "loss": 1.222,
8756
+ "step": 1245
8757
+ },
8758
+ {
8759
+ "epoch": 0.24433768016472204,
8760
+ "grad_norm": 8.078283309936523,
8761
+ "learning_rate": 5.259795647628818e-06,
8762
+ "loss": 2.1882,
8763
+ "step": 1246
8764
+ },
8765
+ {
8766
+ "epoch": 0.24453377782135505,
8767
+ "grad_norm": 6.306114196777344,
8768
+ "learning_rate": 5.1871297580722515e-06,
8769
+ "loss": 1.9767,
8770
+ "step": 1247
8771
+ },
8772
+ {
8773
+ "epoch": 0.24472987547798805,
8774
+ "grad_norm": 4.042963981628418,
8775
+ "learning_rate": 5.114955951467537e-06,
8776
+ "loss": 1.6329,
8777
+ "step": 1248
8778
+ },
8779
+ {
8780
+ "epoch": 0.24492597313462103,
8781
+ "grad_norm": 4.9465179443359375,
8782
+ "learning_rate": 5.043274602399939e-06,
8783
+ "loss": 1.4165,
8784
+ "step": 1249
8785
+ },
8786
+ {
8787
+ "epoch": 0.24512207079125403,
8788
+ "grad_norm": 7.358532428741455,
8789
+ "learning_rate": 4.972086082898775e-06,
8790
+ "loss": 1.5899,
8791
+ "step": 1250
8792
+ },
8793
+ {
8794
+ "epoch": 0.24531816844788704,
8795
+ "grad_norm": 4.857394218444824,
8796
+ "learning_rate": 4.901390762435587e-06,
8797
+ "loss": 0.5367,
8798
+ "step": 1251
8799
+ },
8800
+ {
8801
+ "epoch": 0.24551426610452004,
8802
+ "grad_norm": 7.886226177215576,
8803
+ "learning_rate": 4.831189007922199e-06,
8804
+ "loss": 2.0356,
8805
+ "step": 1252
8806
+ },
8807
+ {
8808
+ "epoch": 0.24571036376115304,
8809
+ "grad_norm": 6.1324872970581055,
8810
+ "learning_rate": 4.761481183708783e-06,
8811
+ "loss": 1.1557,
8812
+ "step": 1253
8813
+ },
8814
+ {
8815
+ "epoch": 0.24590646141778605,
8816
+ "grad_norm": 4.222672939300537,
8817
+ "learning_rate": 4.692267651581994e-06,
8818
+ "loss": 1.5599,
8819
+ "step": 1254
8820
+ },
8821
+ {
8822
+ "epoch": 0.24610255907441905,
8823
+ "grad_norm": 6.940048694610596,
8824
+ "learning_rate": 4.6235487707631085e-06,
8825
+ "loss": 1.9772,
8826
+ "step": 1255
8827
+ },
8828
+ {
8829
+ "epoch": 0.24629865673105206,
8830
+ "grad_norm": 7.745510578155518,
8831
+ "learning_rate": 4.555324897906132e-06,
8832
+ "loss": 1.7293,
8833
+ "step": 1256
8834
+ },
8835
+ {
8836
+ "epoch": 0.24649475438768506,
8837
+ "grad_norm": 4.879486560821533,
8838
+ "learning_rate": 4.48759638709596e-06,
8839
+ "loss": 0.5805,
8840
+ "step": 1257
8841
+ },
8842
+ {
8843
+ "epoch": 0.24669085204431807,
8844
+ "grad_norm": 8.680879592895508,
8845
+ "learning_rate": 4.42036358984651e-06,
8846
+ "loss": 1.9445,
8847
+ "step": 1258
8848
+ },
8849
+ {
8850
+ "epoch": 0.24688694970095107,
8851
+ "grad_norm": 9.775550842285156,
8852
+ "learning_rate": 4.353626855098958e-06,
8853
+ "loss": 1.8064,
8854
+ "step": 1259
8855
+ },
8856
+ {
8857
+ "epoch": 0.24708304735758407,
8858
+ "grad_norm": 4.5769805908203125,
8859
+ "learning_rate": 4.287386529219894e-06,
8860
+ "loss": 1.3112,
8861
+ "step": 1260
8862
+ },
8863
+ {
8864
+ "epoch": 0.24727914501421708,
8865
+ "grad_norm": 9.00042724609375,
8866
+ "learning_rate": 4.221642955999494e-06,
8867
+ "loss": 1.9532,
8868
+ "step": 1261
8869
+ },
8870
+ {
8871
+ "epoch": 0.24747524267085008,
8872
+ "grad_norm": 5.064240455627441,
8873
+ "learning_rate": 4.156396476649782e-06,
8874
+ "loss": 1.262,
8875
+ "step": 1262
8876
+ },
8877
+ {
8878
+ "epoch": 0.24767134032748309,
8879
+ "grad_norm": 5.231726169586182,
8880
+ "learning_rate": 4.091647429802869e-06,
8881
+ "loss": 0.9197,
8882
+ "step": 1263
8883
+ },
8884
+ {
8885
+ "epoch": 0.2478674379841161,
8886
+ "grad_norm": 4.577012062072754,
8887
+ "learning_rate": 4.027396151509133e-06,
8888
+ "loss": 0.9262,
8889
+ "step": 1264
8890
+ },
8891
+ {
8892
+ "epoch": 0.2480635356407491,
8893
+ "grad_norm": 11.125844955444336,
8894
+ "learning_rate": 3.963642975235515e-06,
8895
+ "loss": 0.8612,
8896
+ "step": 1265
8897
+ },
8898
+ {
8899
+ "epoch": 0.2482596332973821,
8900
+ "grad_norm": 6.266839981079102,
8901
+ "learning_rate": 3.900388231863805e-06,
8902
+ "loss": 1.8149,
8903
+ "step": 1266
8904
+ },
8905
+ {
8906
+ "epoch": 0.2484557309540151,
8907
+ "grad_norm": 11.235099792480469,
8908
+ "learning_rate": 3.8376322496888825e-06,
8909
+ "loss": 1.9527,
8910
+ "step": 1267
8911
+ },
8912
+ {
8913
+ "epoch": 0.2486518286106481,
8914
+ "grad_norm": 5.78483247756958,
8915
+ "learning_rate": 3.7753753544170655e-06,
8916
+ "loss": 1.5316,
8917
+ "step": 1268
8918
+ },
8919
+ {
8920
+ "epoch": 0.2488479262672811,
8921
+ "grad_norm": 7.571983814239502,
8922
+ "learning_rate": 3.7136178691643433e-06,
8923
+ "loss": 1.8357,
8924
+ "step": 1269
8925
+ },
8926
+ {
8927
+ "epoch": 0.24904402392391412,
8928
+ "grad_norm": 10.283147811889648,
8929
+ "learning_rate": 3.6523601144548003e-06,
8930
+ "loss": 1.9926,
8931
+ "step": 1270
8932
+ },
8933
+ {
8934
+ "epoch": 0.24924012158054712,
8935
+ "grad_norm": 4.631470203399658,
8936
+ "learning_rate": 3.5916024082188414e-06,
8937
+ "loss": 0.7877,
8938
+ "step": 1271
8939
+ },
8940
+ {
8941
+ "epoch": 0.24943621923718012,
8942
+ "grad_norm": 5.498098373413086,
8943
+ "learning_rate": 3.531345065791636e-06,
8944
+ "loss": 3.0685,
8945
+ "step": 1272
8946
+ },
8947
+ {
8948
+ "epoch": 0.24963231689381313,
8949
+ "grad_norm": 5.340700149536133,
8950
+ "learning_rate": 3.471588399911441e-06,
8951
+ "loss": 1.7174,
8952
+ "step": 1273
8953
+ },
8954
+ {
8955
+ "epoch": 0.24982841455044613,
8956
+ "grad_norm": 8.994786262512207,
8957
+ "learning_rate": 3.4123327207179477e-06,
8958
+ "loss": 1.722,
8959
+ "step": 1274
8960
+ },
8961
+ {
8962
+ "epoch": 0.2500245122070791,
8963
+ "grad_norm": 4.499628067016602,
8964
+ "learning_rate": 3.3535783357507624e-06,
8965
+ "loss": 1.3553,
8966
+ "step": 1275
8967
+ },
8968
+ {
8969
+ "epoch": 0.25022060986371214,
8970
+ "grad_norm": 13.06672477722168,
8971
+ "learning_rate": 3.29532554994767e-06,
8972
+ "loss": 2.8721,
8973
+ "step": 1276
8974
+ },
8975
+ {
8976
+ "epoch": 0.2504167075203451,
8977
+ "grad_norm": 4.79543399810791,
8978
+ "learning_rate": 3.2375746656432284e-06,
8979
+ "loss": 1.0701,
8980
+ "step": 1277
8981
+ },
8982
+ {
8983
+ "epoch": 0.25061280517697815,
8984
+ "grad_norm": 5.686835765838623,
8985
+ "learning_rate": 3.180325982567034e-06,
8986
+ "loss": 1.2648,
8987
+ "step": 1278
8988
+ },
8989
+ {
8990
+ "epoch": 0.2508089028336111,
8991
+ "grad_norm": 4.657541275024414,
8992
+ "learning_rate": 3.1235797978422687e-06,
8993
+ "loss": 1.3918,
8994
+ "step": 1279
8995
+ },
8996
+ {
8997
+ "epoch": 0.25100500049024416,
8998
+ "grad_norm": 10.92974853515625,
8999
+ "learning_rate": 3.0673364059841338e-06,
9000
+ "loss": 2.4811,
9001
+ "step": 1280
9002
+ },
9003
+ {
9004
+ "epoch": 0.25120109814687713,
9005
+ "grad_norm": 5.082363128662109,
9006
+ "learning_rate": 3.0115960988982506e-06,
9007
+ "loss": 2.2096,
9008
+ "step": 1281
9009
+ },
9010
+ {
9011
+ "epoch": 0.25139719580351017,
9012
+ "grad_norm": 3.3826422691345215,
9013
+ "learning_rate": 2.9563591658793076e-06,
9014
+ "loss": 0.8372,
9015
+ "step": 1282
9016
+ },
9017
+ {
9018
+ "epoch": 0.25159329346014314,
9019
+ "grad_norm": 5.3609113693237305,
9020
+ "learning_rate": 2.901625893609361e-06,
9021
+ "loss": 1.2737,
9022
+ "step": 1283
9023
+ },
9024
+ {
9025
+ "epoch": 0.2517893911167762,
9026
+ "grad_norm": 4.7862043380737305,
9027
+ "learning_rate": 2.8473965661565347e-06,
9028
+ "loss": 0.7095,
9029
+ "step": 1284
9030
+ },
9031
+ {
9032
+ "epoch": 0.25198548877340915,
9033
+ "grad_norm": 8.444502830505371,
9034
+ "learning_rate": 2.793671464973413e-06,
9035
+ "loss": 2.1887,
9036
+ "step": 1285
9037
+ },
9038
+ {
9039
+ "epoch": 0.2521815864300422,
9040
+ "grad_norm": 5.742269039154053,
9041
+ "learning_rate": 2.740450868895583e-06,
9042
+ "loss": 1.1412,
9043
+ "step": 1286
9044
+ },
9045
+ {
9046
+ "epoch": 0.25237768408667516,
9047
+ "grad_norm": 7.201744079589844,
9048
+ "learning_rate": 2.687735054140317e-06,
9049
+ "loss": 1.3327,
9050
+ "step": 1287
9051
+ },
9052
+ {
9053
+ "epoch": 0.2525737817433082,
9054
+ "grad_norm": 7.618087291717529,
9055
+ "learning_rate": 2.63552429430497e-06,
9056
+ "loss": 1.9268,
9057
+ "step": 1288
9058
+ },
9059
+ {
9060
+ "epoch": 0.25276987939994117,
9061
+ "grad_norm": 7.360147953033447,
9062
+ "learning_rate": 2.5838188603657056e-06,
9063
+ "loss": 1.0334,
9064
+ "step": 1289
9065
+ },
9066
+ {
9067
+ "epoch": 0.2529659770565742,
9068
+ "grad_norm": 5.17711067199707,
9069
+ "learning_rate": 2.5326190206759527e-06,
9070
+ "loss": 1.784,
9071
+ "step": 1290
9072
+ },
9073
+ {
9074
+ "epoch": 0.2531620747132072,
9075
+ "grad_norm": 6.017335891723633,
9076
+ "learning_rate": 2.4819250409651607e-06,
9077
+ "loss": 0.9696,
9078
+ "step": 1291
9079
+ },
9080
+ {
9081
+ "epoch": 0.2533581723698402,
9082
+ "grad_norm": 6.2475433349609375,
9083
+ "learning_rate": 2.4317371843372904e-06,
9084
+ "loss": 2.4048,
9085
+ "step": 1292
9086
+ },
9087
+ {
9088
+ "epoch": 0.2535542700264732,
9089
+ "grad_norm": 6.189507484436035,
9090
+ "learning_rate": 2.3820557112695153e-06,
9091
+ "loss": 1.3096,
9092
+ "step": 1293
9093
+ },
9094
+ {
9095
+ "epoch": 0.25375036768310616,
9096
+ "grad_norm": 7.4594011306762695,
9097
+ "learning_rate": 2.3328808796108657e-06,
9098
+ "loss": 0.8887,
9099
+ "step": 1294
9100
+ },
9101
+ {
9102
+ "epoch": 0.2539464653397392,
9103
+ "grad_norm": 4.671147346496582,
9104
+ "learning_rate": 2.2842129445808546e-06,
9105
+ "loss": 1.3748,
9106
+ "step": 1295
9107
+ },
9108
+ {
9109
+ "epoch": 0.25414256299637217,
9110
+ "grad_norm": 4.567478179931641,
9111
+ "learning_rate": 2.2360521587682313e-06,
9112
+ "loss": 0.8291,
9113
+ "step": 1296
9114
+ },
9115
+ {
9116
+ "epoch": 0.2543386606530052,
9117
+ "grad_norm": 7.609241008758545,
9118
+ "learning_rate": 2.188398772129552e-06,
9119
+ "loss": 2.9765,
9120
+ "step": 1297
9121
+ },
9122
+ {
9123
+ "epoch": 0.2545347583096382,
9124
+ "grad_norm": 9.003718376159668,
9125
+ "learning_rate": 2.1412530319879887e-06,
9126
+ "loss": 3.6435,
9127
+ "step": 1298
9128
+ },
9129
+ {
9130
+ "epoch": 0.2547308559662712,
9131
+ "grad_norm": 6.3176164627075195,
9132
+ "learning_rate": 2.0946151830320224e-06,
9133
+ "loss": 1.2652,
9134
+ "step": 1299
9135
+ },
9136
+ {
9137
+ "epoch": 0.2549269536229042,
9138
+ "grad_norm": 12.08651065826416,
9139
+ "learning_rate": 2.0484854673140983e-06,
9140
+ "loss": 2.2016,
9141
+ "step": 1300
9142
+ },
9143
+ {
9144
+ "epoch": 0.2551230512795372,
9145
+ "grad_norm": 3.733414649963379,
9146
+ "learning_rate": 2.002864124249504e-06,
9147
+ "loss": 2.3059,
9148
+ "step": 1301
9149
+ },
9150
+ {
9151
+ "epoch": 0.2553191489361702,
9152
+ "grad_norm": 8.422008514404297,
9153
+ "learning_rate": 1.9577513906149702e-06,
9154
+ "loss": 1.5297,
9155
+ "step": 1302
9156
+ },
9157
+ {
9158
+ "epoch": 0.2555152465928032,
9159
+ "grad_norm": 7.98868989944458,
9160
+ "learning_rate": 1.913147500547574e-06,
9161
+ "loss": 2.1541,
9162
+ "step": 1303
9163
+ },
9164
+ {
9165
+ "epoch": 0.2557113442494362,
9166
+ "grad_norm": 4.629753589630127,
9167
+ "learning_rate": 1.869052685543471e-06,
9168
+ "loss": 1.617,
9169
+ "step": 1304
9170
+ },
9171
+ {
9172
+ "epoch": 0.25590744190606923,
9173
+ "grad_norm": 4.7464823722839355,
9174
+ "learning_rate": 1.825467174456652e-06,
9175
+ "loss": 0.7396,
9176
+ "step": 1305
9177
+ },
9178
+ {
9179
+ "epoch": 0.2561035395627022,
9180
+ "grad_norm": 6.383626937866211,
9181
+ "learning_rate": 1.7823911934978898e-06,
9182
+ "loss": 2.6406,
9183
+ "step": 1306
9184
+ },
9185
+ {
9186
+ "epoch": 0.25629963721933524,
9187
+ "grad_norm": 3.751051902770996,
9188
+ "learning_rate": 1.73982496623335e-06,
9189
+ "loss": 2.1239,
9190
+ "step": 1307
9191
+ },
9192
+ {
9193
+ "epoch": 0.2564957348759682,
9194
+ "grad_norm": 8.627437591552734,
9195
+ "learning_rate": 1.6977687135836584e-06,
9196
+ "loss": 1.5667,
9197
+ "step": 1308
9198
+ },
9199
+ {
9200
+ "epoch": 0.25669183253260125,
9201
+ "grad_norm": 5.191834926605225,
9202
+ "learning_rate": 1.656222653822581e-06,
9203
+ "loss": 1.7599,
9204
+ "step": 1309
9205
+ },
9206
+ {
9207
+ "epoch": 0.2568879301892342,
9208
+ "grad_norm": 11.265420913696289,
9209
+ "learning_rate": 1.615187002576013e-06,
9210
+ "loss": 1.6896,
9211
+ "step": 1310
9212
+ },
9213
+ {
9214
+ "epoch": 0.25708402784586726,
9215
+ "grad_norm": 7.610350608825684,
9216
+ "learning_rate": 1.574661972820779e-06,
9217
+ "loss": 1.0143,
9218
+ "step": 1311
9219
+ },
9220
+ {
9221
+ "epoch": 0.25728012550250023,
9222
+ "grad_norm": 2.748887538909912,
9223
+ "learning_rate": 1.5346477748835354e-06,
9224
+ "loss": 0.3839,
9225
+ "step": 1312
9226
+ },
9227
+ {
9228
+ "epoch": 0.25747622315913327,
9229
+ "grad_norm": 9.816802024841309,
9230
+ "learning_rate": 1.4951446164397587e-06,
9231
+ "loss": 1.659,
9232
+ "step": 1313
9233
+ },
9234
+ {
9235
+ "epoch": 0.25767232081576624,
9236
+ "grad_norm": 11.259073257446289,
9237
+ "learning_rate": 1.4561527025125476e-06,
9238
+ "loss": 1.9394,
9239
+ "step": 1314
9240
+ },
9241
+ {
9242
+ "epoch": 0.2578684184723993,
9243
+ "grad_norm": 5.475277423858643,
9244
+ "learning_rate": 1.4176722354716455e-06,
9245
+ "loss": 1.1844,
9246
+ "step": 1315
9247
+ },
9248
+ {
9249
+ "epoch": 0.25806451612903225,
9250
+ "grad_norm": 3.6779868602752686,
9251
+ "learning_rate": 1.379703415032374e-06,
9252
+ "loss": 1.5793,
9253
+ "step": 1316
9254
+ },
9255
+ {
9256
+ "epoch": 0.2582606137856653,
9257
+ "grad_norm": 7.077935695648193,
9258
+ "learning_rate": 1.3422464382545797e-06,
9259
+ "loss": 2.019,
9260
+ "step": 1317
9261
+ },
9262
+ {
9263
+ "epoch": 0.25845671144229826,
9264
+ "grad_norm": 3.54400634765625,
9265
+ "learning_rate": 1.3053014995415891e-06,
9266
+ "loss": 1.0317,
9267
+ "step": 1318
9268
+ },
9269
+ {
9270
+ "epoch": 0.2586528090989313,
9271
+ "grad_norm": 8.784947395324707,
9272
+ "learning_rate": 1.268868790639277e-06,
9273
+ "loss": 0.6858,
9274
+ "step": 1319
9275
+ },
9276
+ {
9277
+ "epoch": 0.25884890675556427,
9278
+ "grad_norm": 3.767857789993286,
9279
+ "learning_rate": 1.2329485006349895e-06,
9280
+ "loss": 1.6571,
9281
+ "step": 1320
9282
+ },
9283
+ {
9284
+ "epoch": 0.2590450044121973,
9285
+ "grad_norm": 2.997652769088745,
9286
+ "learning_rate": 1.1975408159566103e-06,
9287
+ "loss": 0.7133,
9288
+ "step": 1321
9289
+ },
9290
+ {
9291
+ "epoch": 0.2592411020688303,
9292
+ "grad_norm": 13.322317123413086,
9293
+ "learning_rate": 1.1626459203715633e-06,
9294
+ "loss": 2.6333,
9295
+ "step": 1322
9296
+ },
9297
+ {
9298
+ "epoch": 0.2594371997254633,
9299
+ "grad_norm": 7.647657871246338,
9300
+ "learning_rate": 1.128263994985901e-06,
9301
+ "loss": 1.3197,
9302
+ "step": 1323
9303
+ },
9304
+ {
9305
+ "epoch": 0.2596332973820963,
9306
+ "grad_norm": 5.545785903930664,
9307
+ "learning_rate": 1.0943952182433048e-06,
9308
+ "loss": 1.8365,
9309
+ "step": 1324
9310
+ },
9311
+ {
9312
+ "epoch": 0.25982939503872926,
9313
+ "grad_norm": 6.008249759674072,
9314
+ "learning_rate": 1.0610397659242322e-06,
9315
+ "loss": 0.7947,
9316
+ "step": 1325
9317
+ },
9318
+ {
9319
+ "epoch": 0.2600254926953623,
9320
+ "grad_norm": 6.118869304656982,
9321
+ "learning_rate": 1.0281978111449375e-06,
9322
+ "loss": 2.1696,
9323
+ "step": 1326
9324
+ },
9325
+ {
9326
+ "epoch": 0.26022159035199527,
9327
+ "grad_norm": 5.802155017852783,
9328
+ "learning_rate": 9.958695243565853e-07,
9329
+ "loss": 1.3875,
9330
+ "step": 1327
9331
+ },
9332
+ {
9333
+ "epoch": 0.2604176880086283,
9334
+ "grad_norm": 5.157081604003906,
9335
+ "learning_rate": 9.640550733444275e-07,
9336
+ "loss": 1.7365,
9337
+ "step": 1328
9338
+ },
9339
+ {
9340
+ "epoch": 0.2606137856652613,
9341
+ "grad_norm": 4.770791053771973,
9342
+ "learning_rate": 9.327546232268392e-07,
9343
+ "loss": 1.0385,
9344
+ "step": 1329
9345
+ },
9346
+ {
9347
+ "epoch": 0.2608098833218943,
9348
+ "grad_norm": 6.321690559387207,
9349
+ "learning_rate": 9.019683364545395e-07,
9350
+ "loss": 1.4739,
9351
+ "step": 1330
9352
+ },
9353
+ {
9354
+ "epoch": 0.2610059809785273,
9355
+ "grad_norm": 10.451473236083984,
9356
+ "learning_rate": 8.71696372809705e-07,
9357
+ "loss": 2.4985,
9358
+ "step": 1331
9359
+ },
9360
+ {
9361
+ "epoch": 0.2612020786351603,
9362
+ "grad_norm": 4.130318641662598,
9363
+ "learning_rate": 8.419388894051472e-07,
9364
+ "loss": 0.9982,
9365
+ "step": 1332
9366
+ },
9367
+ {
9368
+ "epoch": 0.2613981762917933,
9369
+ "grad_norm": 6.775696277618408,
9370
+ "learning_rate": 8.126960406835249e-07,
9371
+ "loss": 1.3855,
9372
+ "step": 1333
9373
+ },
9374
+ {
9375
+ "epoch": 0.2615942739484263,
9376
+ "grad_norm": 4.182593822479248,
9377
+ "learning_rate": 7.839679784164778e-07,
9378
+ "loss": 1.0039,
9379
+ "step": 1334
9380
+ },
9381
+ {
9382
+ "epoch": 0.2617903716050593,
9383
+ "grad_norm": 8.561737060546875,
9384
+ "learning_rate": 7.557548517039381e-07,
9385
+ "loss": 2.7707,
9386
+ "step": 1335
9387
+ },
9388
+ {
9389
+ "epoch": 0.26198646926169233,
9390
+ "grad_norm": 7.187052249908447,
9391
+ "learning_rate": 7.28056806973243e-07,
9392
+ "loss": 2.3727,
9393
+ "step": 1336
9394
+ },
9395
+ {
9396
+ "epoch": 0.2621825669183253,
9397
+ "grad_norm": 6.421212673187256,
9398
+ "learning_rate": 7.008739879784787e-07,
9399
+ "loss": 1.4712,
9400
+ "step": 1337
9401
+ },
9402
+ {
9403
+ "epoch": 0.26237866457495834,
9404
+ "grad_norm": 5.969448089599609,
9405
+ "learning_rate": 6.742065357996486e-07,
9406
+ "loss": 2.0104,
9407
+ "step": 1338
9408
+ },
9409
+ {
9410
+ "epoch": 0.2625747622315913,
9411
+ "grad_norm": 3.251781463623047,
9412
+ "learning_rate": 6.480545888420176e-07,
9413
+ "loss": 0.7331,
9414
+ "step": 1339
9415
+ },
9416
+ {
9417
+ "epoch": 0.26277085988822435,
9418
+ "grad_norm": 8.010222434997559,
9419
+ "learning_rate": 6.224182828353242e-07,
9420
+ "loss": 2.0611,
9421
+ "step": 1340
9422
+ },
9423
+ {
9424
+ "epoch": 0.2629669575448573,
9425
+ "grad_norm": 14.670138359069824,
9426
+ "learning_rate": 5.972977508331368e-07,
9427
+ "loss": 1.6784,
9428
+ "step": 1341
9429
+ },
9430
+ {
9431
+ "epoch": 0.26316305520149036,
9432
+ "grad_norm": 3.959542751312256,
9433
+ "learning_rate": 5.726931232120869e-07,
9434
+ "loss": 1.1185,
9435
+ "step": 1342
9436
+ },
9437
+ {
9438
+ "epoch": 0.26335915285812334,
9439
+ "grad_norm": 3.680546998977661,
9440
+ "learning_rate": 5.486045276712926e-07,
9441
+ "loss": 1.0173,
9442
+ "step": 1343
9443
+ },
9444
+ {
9445
+ "epoch": 0.26355525051475637,
9446
+ "grad_norm": 8.655952453613281,
9447
+ "learning_rate": 5.250320892316252e-07,
9448
+ "loss": 1.4111,
9449
+ "step": 1344
9450
+ },
9451
+ {
9452
+ "epoch": 0.26375134817138934,
9453
+ "grad_norm": 5.929543495178223,
9454
+ "learning_rate": 5.019759302350547e-07,
9455
+ "loss": 1.7795,
9456
+ "step": 1345
9457
+ },
9458
+ {
9459
+ "epoch": 0.2639474458280224,
9460
+ "grad_norm": 6.462841987609863,
9461
+ "learning_rate": 4.794361703440719e-07,
9462
+ "loss": 0.7667,
9463
+ "step": 1346
9464
+ },
9465
+ {
9466
+ "epoch": 0.26414354348465535,
9467
+ "grad_norm": 11.463775634765625,
9468
+ "learning_rate": 4.57412926541001e-07,
9469
+ "loss": 1.8102,
9470
+ "step": 1347
9471
+ },
9472
+ {
9473
+ "epoch": 0.2643396411412884,
9474
+ "grad_norm": 8.908552169799805,
9475
+ "learning_rate": 4.3590631312746545e-07,
9476
+ "loss": 1.5951,
9477
+ "step": 1348
9478
+ },
9479
+ {
9480
+ "epoch": 0.26453573879792136,
9481
+ "grad_norm": 5.707728862762451,
9482
+ "learning_rate": 4.149164417237117e-07,
9483
+ "loss": 1.287,
9484
+ "step": 1349
9485
+ },
9486
+ {
9487
+ "epoch": 0.2647318364545544,
9488
+ "grad_norm": 18.28376579284668,
9489
+ "learning_rate": 3.944434212680981e-07,
9490
+ "loss": 3.0229,
9491
+ "step": 1350
9492
+ },
9493
+ {
9494
+ "epoch": 0.26492793411118737,
9495
+ "grad_norm": 7.537192344665527,
9496
+ "learning_rate": 3.744873580165176e-07,
9497
+ "loss": 1.6773,
9498
+ "step": 1351
9499
+ },
9500
+ {
9501
+ "epoch": 0.2651240317678204,
9502
+ "grad_norm": 5.802631378173828,
9503
+ "learning_rate": 3.5504835554177605e-07,
9504
+ "loss": 1.5217,
9505
+ "step": 1352
9506
+ },
9507
+ {
9508
+ "epoch": 0.2653201294244534,
9509
+ "grad_norm": 5.430902004241943,
9510
+ "learning_rate": 3.361265147331816e-07,
9511
+ "loss": 1.668,
9512
+ "step": 1353
9513
+ },
9514
+ {
9515
+ "epoch": 0.26551622708108635,
9516
+ "grad_norm": 8.240734100341797,
9517
+ "learning_rate": 3.177219337958892e-07,
9518
+ "loss": 1.1068,
9519
+ "step": 1354
9520
+ },
9521
+ {
9522
+ "epoch": 0.2657123247377194,
9523
+ "grad_norm": 10.376667976379395,
9524
+ "learning_rate": 2.998347082505126e-07,
9525
+ "loss": 2.2403,
9526
+ "step": 1355
9527
+ },
9528
+ {
9529
+ "epoch": 0.26590842239435236,
9530
+ "grad_norm": 6.063961505889893,
9531
+ "learning_rate": 2.8246493093250227e-07,
9532
+ "loss": 1.3754,
9533
+ "step": 1356
9534
+ },
9535
+ {
9536
+ "epoch": 0.2661045200509854,
9537
+ "grad_norm": 5.9845733642578125,
9538
+ "learning_rate": 2.6561269199179006e-07,
9539
+ "loss": 1.5861,
9540
+ "step": 1357
9541
+ },
9542
+ {
9543
+ "epoch": 0.26630061770761837,
9544
+ "grad_norm": 6.585875511169434,
9545
+ "learning_rate": 2.492780788922344e-07,
9546
+ "loss": 2.882,
9547
+ "step": 1358
9548
+ },
9549
+ {
9550
+ "epoch": 0.2664967153642514,
9551
+ "grad_norm": 5.5460968017578125,
9552
+ "learning_rate": 2.3346117641116494e-07,
9553
+ "loss": 1.7507,
9554
+ "step": 1359
9555
+ },
9556
+ {
9557
+ "epoch": 0.2666928130208844,
9558
+ "grad_norm": 6.179254531860352,
9559
+ "learning_rate": 2.1816206663902717e-07,
9560
+ "loss": 0.9413,
9561
+ "step": 1360
9562
+ },
9563
+ {
9564
+ "epoch": 0.2668889106775174,
9565
+ "grad_norm": 18.120824813842773,
9566
+ "learning_rate": 2.0338082897886079e-07,
9567
+ "loss": 2.7844,
9568
+ "step": 1361
9569
+ },
9570
+ {
9571
+ "epoch": 0.2670850083341504,
9572
+ "grad_norm": 4.4856157302856445,
9573
+ "learning_rate": 1.891175401459444e-07,
9574
+ "loss": 0.7925,
9575
+ "step": 1362
9576
+ },
9577
+ {
9578
+ "epoch": 0.2672811059907834,
9579
+ "grad_norm": 5.911020755767822,
9580
+ "learning_rate": 1.7537227416735135e-07,
9581
+ "loss": 1.7331,
9582
+ "step": 1363
9583
+ },
9584
+ {
9585
+ "epoch": 0.2674772036474164,
9586
+ "grad_norm": 4.898580551147461,
9587
+ "learning_rate": 1.6214510238163893e-07,
9588
+ "loss": 1.5288,
9589
+ "step": 1364
9590
+ },
9591
+ {
9592
+ "epoch": 0.2676733013040494,
9593
+ "grad_norm": 4.032687664031982,
9594
+ "learning_rate": 1.4943609343839316e-07,
9595
+ "loss": 1.6682,
9596
+ "step": 1365
9597
+ },
9598
+ {
9599
+ "epoch": 0.2678693989606824,
9600
+ "grad_norm": 4.88344144821167,
9601
+ "learning_rate": 1.37245313297929e-07,
9602
+ "loss": 0.8977,
9603
+ "step": 1366
9604
+ },
9605
+ {
9606
+ "epoch": 0.26806549661731544,
9607
+ "grad_norm": 5.699201583862305,
9608
+ "learning_rate": 1.2557282523094627e-07,
9609
+ "loss": 1.4562,
9610
+ "step": 1367
9611
+ },
9612
+ {
9613
+ "epoch": 0.2682615942739484,
9614
+ "grad_norm": 6.58184814453125,
9615
+ "learning_rate": 1.1441868981815207e-07,
9616
+ "loss": 0.9233,
9617
+ "step": 1368
9618
+ },
9619
+ {
9620
+ "epoch": 0.26845769193058144,
9621
+ "grad_norm": 7.048121929168701,
9622
+ "learning_rate": 1.0378296494999439e-07,
9623
+ "loss": 2.6469,
9624
+ "step": 1369
9625
+ },
9626
+ {
9627
+ "epoch": 0.2686537895872144,
9628
+ "grad_norm": 6.19679069519043,
9629
+ "learning_rate": 9.366570582637346e-08,
9630
+ "loss": 1.6399,
9631
+ "step": 1370
9632
+ },
9633
+ {
9634
+ "epoch": 0.26884988724384745,
9635
+ "grad_norm": 6.541812896728516,
9636
+ "learning_rate": 8.406696495627531e-08,
9637
+ "loss": 2.3217,
9638
+ "step": 1371
9639
+ },
9640
+ {
9641
+ "epoch": 0.26904598490048043,
9642
+ "grad_norm": 7.404893398284912,
9643
+ "learning_rate": 7.498679215761639e-08,
9644
+ "loss": 1.32,
9645
+ "step": 1372
9646
+ },
9647
+ {
9648
+ "epoch": 0.26924208255711346,
9649
+ "grad_norm": 6.199706077575684,
9650
+ "learning_rate": 6.642523455687721e-08,
9651
+ "loss": 1.0584,
9652
+ "step": 1373
9653
+ },
9654
+ {
9655
+ "epoch": 0.26943818021374644,
9656
+ "grad_norm": 4.55602502822876,
9657
+ "learning_rate": 5.838233658892467e-08,
9658
+ "loss": 1.0957,
9659
+ "step": 1374
9660
+ },
9661
+ {
9662
+ "epoch": 0.26963427787037947,
9663
+ "grad_norm": 8.639842987060547,
9664
+ "learning_rate": 5.08581399967345e-08,
9665
+ "loss": 1.0236,
9666
+ "step": 1375
9667
+ },
9668
+ {
9669
+ "epoch": 0.26983037552701244,
9670
+ "grad_norm": 4.639615535736084,
9671
+ "learning_rate": 4.3852683831235866e-08,
9672
+ "loss": 0.8647,
9673
+ "step": 1376
9674
+ },
9675
+ {
9676
+ "epoch": 0.2700264731836455,
9677
+ "grad_norm": 4.805739402770996,
9678
+ "learning_rate": 3.736600445104488e-08,
9679
+ "loss": 1.9424,
9680
+ "step": 1377
9681
+ },
9682
+ {
9683
+ "epoch": 0.27022257084027845,
9684
+ "grad_norm": 4.504196643829346,
9685
+ "learning_rate": 3.139813552230919e-08,
9686
+ "loss": 0.815,
9687
+ "step": 1378
9688
+ },
9689
+ {
9690
+ "epoch": 0.2704186684969115,
9691
+ "grad_norm": 8.973424911499023,
9692
+ "learning_rate": 2.5949108018530342e-08,
9693
+ "loss": 1.7934,
9694
+ "step": 1379
9695
+ },
9696
+ {
9697
+ "epoch": 0.27061476615354446,
9698
+ "grad_norm": 5.073940277099609,
9699
+ "learning_rate": 2.101895022040834e-08,
9700
+ "loss": 1.6873,
9701
+ "step": 1380
9702
+ },
9703
+ {
9704
+ "epoch": 0.2708108638101775,
9705
+ "grad_norm": 5.69566535949707,
9706
+ "learning_rate": 1.6607687715675113e-08,
9707
+ "loss": 1.5254,
9708
+ "step": 1381
9709
+ },
9710
+ {
9711
+ "epoch": 0.27100696146681047,
9712
+ "grad_norm": 2.8405473232269287,
9713
+ "learning_rate": 1.2715343398972402e-08,
9714
+ "loss": 1.5803,
9715
+ "step": 1382
9716
+ },
9717
+ {
9718
+ "epoch": 0.2712030591234435,
9719
+ "grad_norm": 3.1316022872924805,
9720
+ "learning_rate": 9.341937471740724e-09,
9721
+ "loss": 0.5618,
9722
+ "step": 1383
9723
+ },
9724
+ {
9725
+ "epoch": 0.2713991567800765,
9726
+ "grad_norm": 6.8218793869018555,
9727
+ "learning_rate": 6.487487442097262e-09,
9728
+ "loss": 0.5681,
9729
+ "step": 1384
9730
+ },
9731
+ {
9732
+ "epoch": 0.27159525443670945,
9733
+ "grad_norm": 6.514251232147217,
9734
+ "learning_rate": 4.1520081247803375e-09,
9735
+ "loss": 2.2744,
9736
+ "step": 1385
9737
+ },
9738
+ {
9739
+ "epoch": 0.2717913520933425,
9740
+ "grad_norm": 8.452823638916016,
9741
+ "learning_rate": 2.335511641005095e-09,
9742
+ "loss": 1.4333,
9743
+ "step": 1386
9744
+ },
9745
+ {
9746
+ "epoch": 0.27198744974997546,
9747
+ "grad_norm": 5.929966449737549,
9748
+ "learning_rate": 1.0380074184856981e-09,
9749
+ "loss": 1.6609,
9750
+ "step": 1387
9751
+ },
9752
+ {
9753
+ "epoch": 0.2721835474066085,
9754
+ "grad_norm": 3.682739019393921,
9755
+ "learning_rate": 2.595021913243123e-10,
9756
+ "loss": 1.7354,
9757
+ "step": 1388
9758
+ },
9759
+ {
9760
+ "epoch": 0.27237964506324147,
9761
+ "grad_norm": 6.1388397216796875,
9762
+ "learning_rate": 0.0,
9763
+ "loss": 0.7588,
9764
+ "step": 1389
9765
  }
9766
  ],
9767
  "logging_steps": 1,
 
9776
  "should_evaluate": false,
9777
  "should_log": false,
9778
  "should_save": true,
9779
+ "should_training_stop": true
9780
  },
9781
  "attributes": {}
9782
  }
9783
  },
9784
+ "total_flos": 2.976036715065508e+17,
9785
  "train_batch_size": 2,
9786
  "trial_name": null,
9787
  "trial_params": null