ErrorAI commited on
Commit
99d2655
·
verified ·
1 Parent(s): 2d58472

Training in progress, step 983, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3a3937bb644e8be3db53724ff37a4cf4df56813bf6b4a93d38ec325890a084a4
3
  size 83945296
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:26571770744a2807e54634950fe1a844a9616c0d217722286318a72990944b11
3
  size 83945296
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bd82f4b1baa9236bf9259ffc67bbc17c841880be954604873e130ffce8157a86
3
  size 43123028
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:13c62a54b0407f9aaac98a51a0df34b5186a5becbfede0057c6af56407d98e59
3
  size 43123028
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7bb2c147343e6526aaa232aefc3fc703d6b9ddcf5d44d0d12953eb06e064afe1
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:911f2aa53c74eda8eabf6de4806dfe65f05caea3cb99728abd8c624a00ae6106
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3482c8bfdc1affb8191f8e392c3195155db922305404a13a0a905ef4dc9ec8d7
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b53ae7c84062c49d524fd48890ecb5e8a3503965f943a71edc375aa9a9c5b4a8
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7513362178671418,
5
  "eval_steps": 500,
6
- "global_step": 738,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5173,6 +5173,1729 @@
5173
  "learning_rate": 1.470149183220748e-05,
5174
  "loss": 2.0191,
5175
  "step": 738
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5176
  }
5177
  ],
5178
  "logging_steps": 1,
@@ -5187,12 +6910,12 @@
5187
  "should_evaluate": false,
5188
  "should_log": false,
5189
  "should_save": true,
5190
- "should_training_stop": false
5191
  },
5192
  "attributes": {}
5193
  }
5194
  },
5195
- "total_flos": 6.046717707288576e+17,
5196
  "train_batch_size": 4,
5197
  "trial_name": null,
5198
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.000763553066938,
5
  "eval_steps": 500,
6
+ "global_step": 983,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5173
  "learning_rate": 1.470149183220748e-05,
5174
  "loss": 2.0191,
5175
  "step": 738
5176
+ },
5177
+ {
5178
+ "epoch": 0.7523542886230593,
5179
+ "grad_norm": 6.6719584465026855,
5180
+ "learning_rate": 1.4587921253782849e-05,
5181
+ "loss": 1.6597,
5182
+ "step": 739
5183
+ },
5184
+ {
5185
+ "epoch": 0.7533723593789768,
5186
+ "grad_norm": 8.974640846252441,
5187
+ "learning_rate": 1.447471607917854e-05,
5188
+ "loss": 1.9953,
5189
+ "step": 740
5190
+ },
5191
+ {
5192
+ "epoch": 0.7543904301348944,
5193
+ "grad_norm": 7.379059314727783,
5194
+ "learning_rate": 1.4361877476515889e-05,
5195
+ "loss": 1.8422,
5196
+ "step": 741
5197
+ },
5198
+ {
5199
+ "epoch": 0.7554085008908119,
5200
+ "grad_norm": 7.163296699523926,
5201
+ "learning_rate": 1.4249406610133686e-05,
5202
+ "loss": 1.8372,
5203
+ "step": 742
5204
+ },
5205
+ {
5206
+ "epoch": 0.7564265716467294,
5207
+ "grad_norm": 10.26382064819336,
5208
+ "learning_rate": 1.413730464057616e-05,
5209
+ "loss": 2.2328,
5210
+ "step": 743
5211
+ },
5212
+ {
5213
+ "epoch": 0.757444642402647,
5214
+ "grad_norm": 7.997495651245117,
5215
+ "learning_rate": 1.4025572724581038e-05,
5216
+ "loss": 2.083,
5217
+ "step": 744
5218
+ },
5219
+ {
5220
+ "epoch": 0.7584627131585645,
5221
+ "grad_norm": 8.966462135314941,
5222
+ "learning_rate": 1.3914212015067651e-05,
5223
+ "loss": 2.0716,
5224
+ "step": 745
5225
+ },
5226
+ {
5227
+ "epoch": 0.759480783914482,
5228
+ "grad_norm": 9.182121276855469,
5229
+ "learning_rate": 1.3803223661124936e-05,
5230
+ "loss": 2.406,
5231
+ "step": 746
5232
+ },
5233
+ {
5234
+ "epoch": 0.7604988546703996,
5235
+ "grad_norm": 8.59941577911377,
5236
+ "learning_rate": 1.3692608807999652e-05,
5237
+ "loss": 2.1763,
5238
+ "step": 747
5239
+ },
5240
+ {
5241
+ "epoch": 0.7615169254263171,
5242
+ "grad_norm": 11.990951538085938,
5243
+ "learning_rate": 1.3582368597084566e-05,
5244
+ "loss": 2.7291,
5245
+ "step": 748
5246
+ },
5247
+ {
5248
+ "epoch": 0.7625349961822346,
5249
+ "grad_norm": 7.6986260414123535,
5250
+ "learning_rate": 1.3472504165906613e-05,
5251
+ "loss": 1.9128,
5252
+ "step": 749
5253
+ },
5254
+ {
5255
+ "epoch": 0.7635530669381522,
5256
+ "grad_norm": 8.994124412536621,
5257
+ "learning_rate": 1.3363016648115245e-05,
5258
+ "loss": 1.7094,
5259
+ "step": 750
5260
+ },
5261
+ {
5262
+ "epoch": 0.7645711376940697,
5263
+ "grad_norm": 8.2550630569458,
5264
+ "learning_rate": 1.3253907173470648e-05,
5265
+ "loss": 3.7822,
5266
+ "step": 751
5267
+ },
5268
+ {
5269
+ "epoch": 0.7655892084499872,
5270
+ "grad_norm": 8.363167762756348,
5271
+ "learning_rate": 1.3145176867832165e-05,
5272
+ "loss": 3.1741,
5273
+ "step": 752
5274
+ },
5275
+ {
5276
+ "epoch": 0.7666072792059048,
5277
+ "grad_norm": 9.87235164642334,
5278
+ "learning_rate": 1.30368268531466e-05,
5279
+ "loss": 3.5932,
5280
+ "step": 753
5281
+ },
5282
+ {
5283
+ "epoch": 0.7676253499618223,
5284
+ "grad_norm": 7.78696346282959,
5285
+ "learning_rate": 1.292885824743667e-05,
5286
+ "loss": 2.4161,
5287
+ "step": 754
5288
+ },
5289
+ {
5290
+ "epoch": 0.7686434207177398,
5291
+ "grad_norm": 10.35235595703125,
5292
+ "learning_rate": 1.2821272164789544e-05,
5293
+ "loss": 3.0389,
5294
+ "step": 755
5295
+ },
5296
+ {
5297
+ "epoch": 0.7696614914736574,
5298
+ "grad_norm": 13.586828231811523,
5299
+ "learning_rate": 1.2714069715345195e-05,
5300
+ "loss": 3.6863,
5301
+ "step": 756
5302
+ },
5303
+ {
5304
+ "epoch": 0.770679562229575,
5305
+ "grad_norm": 11.710920333862305,
5306
+ "learning_rate": 1.2607252005285109e-05,
5307
+ "loss": 4.0324,
5308
+ "step": 757
5309
+ },
5310
+ {
5311
+ "epoch": 0.7716976329854925,
5312
+ "grad_norm": 12.497662544250488,
5313
+ "learning_rate": 1.2500820136820734e-05,
5314
+ "loss": 2.9699,
5315
+ "step": 758
5316
+ },
5317
+ {
5318
+ "epoch": 0.7727157037414101,
5319
+ "grad_norm": 15.810281753540039,
5320
+ "learning_rate": 1.2394775208182174e-05,
5321
+ "loss": 3.1219,
5322
+ "step": 759
5323
+ },
5324
+ {
5325
+ "epoch": 0.7737337744973276,
5326
+ "grad_norm": 10.045539855957031,
5327
+ "learning_rate": 1.2289118313606896e-05,
5328
+ "loss": 1.7459,
5329
+ "step": 760
5330
+ },
5331
+ {
5332
+ "epoch": 0.7747518452532451,
5333
+ "grad_norm": 8.060089111328125,
5334
+ "learning_rate": 1.2183850543328312e-05,
5335
+ "loss": 1.4901,
5336
+ "step": 761
5337
+ },
5338
+ {
5339
+ "epoch": 0.7757699160091627,
5340
+ "grad_norm": 5.897403240203857,
5341
+ "learning_rate": 1.2078972983564684e-05,
5342
+ "loss": 1.1615,
5343
+ "step": 762
5344
+ },
5345
+ {
5346
+ "epoch": 0.7767879867650802,
5347
+ "grad_norm": 9.653463363647461,
5348
+ "learning_rate": 1.1974486716507783e-05,
5349
+ "loss": 2.1851,
5350
+ "step": 763
5351
+ },
5352
+ {
5353
+ "epoch": 0.7778060575209977,
5354
+ "grad_norm": 8.81517505645752,
5355
+ "learning_rate": 1.1870392820311821e-05,
5356
+ "loss": 2.0521,
5357
+ "step": 764
5358
+ },
5359
+ {
5360
+ "epoch": 0.7788241282769153,
5361
+ "grad_norm": 8.291658401489258,
5362
+ "learning_rate": 1.1766692369082255e-05,
5363
+ "loss": 2.0249,
5364
+ "step": 765
5365
+ },
5366
+ {
5367
+ "epoch": 0.7798421990328328,
5368
+ "grad_norm": 8.102690696716309,
5369
+ "learning_rate": 1.1663386432864727e-05,
5370
+ "loss": 2.065,
5371
+ "step": 766
5372
+ },
5373
+ {
5374
+ "epoch": 0.7808602697887503,
5375
+ "grad_norm": 4.781749248504639,
5376
+ "learning_rate": 1.156047607763407e-05,
5377
+ "loss": 1.2103,
5378
+ "step": 767
5379
+ },
5380
+ {
5381
+ "epoch": 0.7818783405446679,
5382
+ "grad_norm": 6.986288547515869,
5383
+ "learning_rate": 1.145796236528322e-05,
5384
+ "loss": 1.5723,
5385
+ "step": 768
5386
+ },
5387
+ {
5388
+ "epoch": 0.7828964113005854,
5389
+ "grad_norm": 6.896148681640625,
5390
+ "learning_rate": 1.135584635361232e-05,
5391
+ "loss": 1.7923,
5392
+ "step": 769
5393
+ },
5394
+ {
5395
+ "epoch": 0.7839144820565029,
5396
+ "grad_norm": 6.917054176330566,
5397
+ "learning_rate": 1.1254129096317806e-05,
5398
+ "loss": 1.8785,
5399
+ "step": 770
5400
+ },
5401
+ {
5402
+ "epoch": 0.7849325528124205,
5403
+ "grad_norm": 8.382417678833008,
5404
+ "learning_rate": 1.115281164298153e-05,
5405
+ "loss": 2.0591,
5406
+ "step": 771
5407
+ },
5408
+ {
5409
+ "epoch": 0.785950623568338,
5410
+ "grad_norm": 6.412557601928711,
5411
+ "learning_rate": 1.105189503905985e-05,
5412
+ "loss": 1.3064,
5413
+ "step": 772
5414
+ },
5415
+ {
5416
+ "epoch": 0.7869686943242555,
5417
+ "grad_norm": 8.5576753616333,
5418
+ "learning_rate": 1.0951380325872979e-05,
5419
+ "loss": 2.1621,
5420
+ "step": 773
5421
+ },
5422
+ {
5423
+ "epoch": 0.7879867650801731,
5424
+ "grad_norm": 6.601977348327637,
5425
+ "learning_rate": 1.0851268540594167e-05,
5426
+ "loss": 1.9123,
5427
+ "step": 774
5428
+ },
5429
+ {
5430
+ "epoch": 0.7890048358360906,
5431
+ "grad_norm": 9.037349700927734,
5432
+ "learning_rate": 1.0751560716238967e-05,
5433
+ "loss": 2.7441,
5434
+ "step": 775
5435
+ },
5436
+ {
5437
+ "epoch": 0.7900229065920081,
5438
+ "grad_norm": 8.547028541564941,
5439
+ "learning_rate": 1.0652257881654627e-05,
5440
+ "loss": 2.4516,
5441
+ "step": 776
5442
+ },
5443
+ {
5444
+ "epoch": 0.7910409773479257,
5445
+ "grad_norm": 6.397313117980957,
5446
+ "learning_rate": 1.055336106150948e-05,
5447
+ "loss": 1.7555,
5448
+ "step": 777
5449
+ },
5450
+ {
5451
+ "epoch": 0.7920590481038432,
5452
+ "grad_norm": 8.946637153625488,
5453
+ "learning_rate": 1.0454871276282335e-05,
5454
+ "loss": 2.4554,
5455
+ "step": 778
5456
+ },
5457
+ {
5458
+ "epoch": 0.7930771188597607,
5459
+ "grad_norm": 10.802556037902832,
5460
+ "learning_rate": 1.0356789542251938e-05,
5461
+ "loss": 3.2162,
5462
+ "step": 779
5463
+ },
5464
+ {
5465
+ "epoch": 0.7940951896156783,
5466
+ "grad_norm": 6.947890281677246,
5467
+ "learning_rate": 1.0259116871486557e-05,
5468
+ "loss": 1.7408,
5469
+ "step": 780
5470
+ },
5471
+ {
5472
+ "epoch": 0.7951132603715958,
5473
+ "grad_norm": 6.768093585968018,
5474
+ "learning_rate": 1.0161854271833443e-05,
5475
+ "loss": 1.8601,
5476
+ "step": 781
5477
+ },
5478
+ {
5479
+ "epoch": 0.7961313311275133,
5480
+ "grad_norm": 8.398831367492676,
5481
+ "learning_rate": 1.006500274690853e-05,
5482
+ "loss": 2.2156,
5483
+ "step": 782
5484
+ },
5485
+ {
5486
+ "epoch": 0.7971494018834309,
5487
+ "grad_norm": 7.810449123382568,
5488
+ "learning_rate": 9.96856329608597e-06,
5489
+ "loss": 2.1837,
5490
+ "step": 783
5491
+ },
5492
+ {
5493
+ "epoch": 0.7981674726393484,
5494
+ "grad_norm": 8.77087116241455,
5495
+ "learning_rate": 9.87253691448794e-06,
5496
+ "loss": 2.6596,
5497
+ "step": 784
5498
+ },
5499
+ {
5500
+ "epoch": 0.7991855433952659,
5501
+ "grad_norm": 11.717060089111328,
5502
+ "learning_rate": 9.776924592974256e-06,
5503
+ "loss": 3.5775,
5504
+ "step": 785
5505
+ },
5506
+ {
5507
+ "epoch": 0.8002036141511835,
5508
+ "grad_norm": 7.535914897918701,
5509
+ "learning_rate": 9.681727318132227e-06,
5510
+ "loss": 2.2536,
5511
+ "step": 786
5512
+ },
5513
+ {
5514
+ "epoch": 0.801221684907101,
5515
+ "grad_norm": 9.274803161621094,
5516
+ "learning_rate": 9.586946072266478e-06,
5517
+ "loss": 2.4405,
5518
+ "step": 787
5519
+ },
5520
+ {
5521
+ "epoch": 0.8022397556630185,
5522
+ "grad_norm": 7.637203216552734,
5523
+ "learning_rate": 9.492581833388736e-06,
5524
+ "loss": 1.9418,
5525
+ "step": 788
5526
+ },
5527
+ {
5528
+ "epoch": 0.8032578264189361,
5529
+ "grad_norm": 11.312345504760742,
5530
+ "learning_rate": 9.398635575207854e-06,
5531
+ "loss": 3.0226,
5532
+ "step": 789
5533
+ },
5534
+ {
5535
+ "epoch": 0.8042758971748537,
5536
+ "grad_norm": 8.732460021972656,
5537
+ "learning_rate": 9.305108267119645e-06,
5538
+ "loss": 2.0292,
5539
+ "step": 790
5540
+ },
5541
+ {
5542
+ "epoch": 0.8052939679307712,
5543
+ "grad_norm": 6.998504638671875,
5544
+ "learning_rate": 9.212000874196953e-06,
5545
+ "loss": 1.7993,
5546
+ "step": 791
5547
+ },
5548
+ {
5549
+ "epoch": 0.8063120386866888,
5550
+ "grad_norm": 9.693340301513672,
5551
+ "learning_rate": 9.119314357179687e-06,
5552
+ "loss": 2.4902,
5553
+ "step": 792
5554
+ },
5555
+ {
5556
+ "epoch": 0.8073301094426063,
5557
+ "grad_norm": 8.360791206359863,
5558
+ "learning_rate": 9.027049672464916e-06,
5559
+ "loss": 2.0688,
5560
+ "step": 793
5561
+ },
5562
+ {
5563
+ "epoch": 0.8083481801985238,
5564
+ "grad_norm": 7.457218647003174,
5565
+ "learning_rate": 8.935207772096904e-06,
5566
+ "loss": 2.1543,
5567
+ "step": 794
5568
+ },
5569
+ {
5570
+ "epoch": 0.8093662509544414,
5571
+ "grad_norm": 8.154823303222656,
5572
+ "learning_rate": 8.843789603757446e-06,
5573
+ "loss": 2.5219,
5574
+ "step": 795
5575
+ },
5576
+ {
5577
+ "epoch": 0.8103843217103589,
5578
+ "grad_norm": 8.503774642944336,
5579
+ "learning_rate": 8.752796110755984e-06,
5580
+ "loss": 1.7771,
5581
+ "step": 796
5582
+ },
5583
+ {
5584
+ "epoch": 0.8114023924662764,
5585
+ "grad_norm": 9.03532600402832,
5586
+ "learning_rate": 8.662228232019876e-06,
5587
+ "loss": 2.1927,
5588
+ "step": 797
5589
+ },
5590
+ {
5591
+ "epoch": 0.812420463222194,
5592
+ "grad_norm": 7.620565891265869,
5593
+ "learning_rate": 8.572086902084731e-06,
5594
+ "loss": 1.5837,
5595
+ "step": 798
5596
+ },
5597
+ {
5598
+ "epoch": 0.8134385339781115,
5599
+ "grad_norm": 8.183737754821777,
5600
+ "learning_rate": 8.48237305108479e-06,
5601
+ "loss": 2.0261,
5602
+ "step": 799
5603
+ },
5604
+ {
5605
+ "epoch": 0.814456604734029,
5606
+ "grad_norm": 7.848052978515625,
5607
+ "learning_rate": 8.393087604743283e-06,
5608
+ "loss": 1.7399,
5609
+ "step": 800
5610
+ },
5611
+ {
5612
+ "epoch": 0.8154746754899466,
5613
+ "grad_norm": 6.207403182983398,
5614
+ "learning_rate": 8.304231484362868e-06,
5615
+ "loss": 2.4818,
5616
+ "step": 801
5617
+ },
5618
+ {
5619
+ "epoch": 0.8164927462458641,
5620
+ "grad_norm": 7.363234043121338,
5621
+ "learning_rate": 8.215805606816191e-06,
5622
+ "loss": 2.7651,
5623
+ "step": 802
5624
+ },
5625
+ {
5626
+ "epoch": 0.8175108170017816,
5627
+ "grad_norm": 8.982840538024902,
5628
+ "learning_rate": 8.127810884536403e-06,
5629
+ "loss": 3.0555,
5630
+ "step": 803
5631
+ },
5632
+ {
5633
+ "epoch": 0.8185288877576992,
5634
+ "grad_norm": 8.631933212280273,
5635
+ "learning_rate": 8.040248225507641e-06,
5636
+ "loss": 2.9924,
5637
+ "step": 804
5638
+ },
5639
+ {
5640
+ "epoch": 0.8195469585136167,
5641
+ "grad_norm": 11.01415729522705,
5642
+ "learning_rate": 7.95311853325582e-06,
5643
+ "loss": 3.5641,
5644
+ "step": 805
5645
+ },
5646
+ {
5647
+ "epoch": 0.8205650292695342,
5648
+ "grad_norm": 11.288020133972168,
5649
+ "learning_rate": 7.866422706839238e-06,
5650
+ "loss": 3.6431,
5651
+ "step": 806
5652
+ },
5653
+ {
5654
+ "epoch": 0.8215831000254518,
5655
+ "grad_norm": 18.66059112548828,
5656
+ "learning_rate": 7.780161640839257e-06,
5657
+ "loss": 3.8684,
5658
+ "step": 807
5659
+ },
5660
+ {
5661
+ "epoch": 0.8226011707813693,
5662
+ "grad_norm": 10.357224464416504,
5663
+ "learning_rate": 7.694336225351107e-06,
5664
+ "loss": 2.31,
5665
+ "step": 808
5666
+ },
5667
+ {
5668
+ "epoch": 0.8236192415372868,
5669
+ "grad_norm": 10.739027976989746,
5670
+ "learning_rate": 7.60894734597476e-06,
5671
+ "loss": 2.3002,
5672
+ "step": 809
5673
+ },
5674
+ {
5675
+ "epoch": 0.8246373122932044,
5676
+ "grad_norm": 4.031766414642334,
5677
+ "learning_rate": 7.523995883805679e-06,
5678
+ "loss": 0.8728,
5679
+ "step": 810
5680
+ },
5681
+ {
5682
+ "epoch": 0.8256553830491219,
5683
+ "grad_norm": 5.490253448486328,
5684
+ "learning_rate": 7.439482715425805e-06,
5685
+ "loss": 1.0823,
5686
+ "step": 811
5687
+ },
5688
+ {
5689
+ "epoch": 0.8266734538050394,
5690
+ "grad_norm": 6.157886981964111,
5691
+ "learning_rate": 7.355408712894507e-06,
5692
+ "loss": 1.4668,
5693
+ "step": 812
5694
+ },
5695
+ {
5696
+ "epoch": 0.827691524560957,
5697
+ "grad_norm": 4.612349510192871,
5698
+ "learning_rate": 7.271774743739545e-06,
5699
+ "loss": 0.9666,
5700
+ "step": 813
5701
+ },
5702
+ {
5703
+ "epoch": 0.8287095953168745,
5704
+ "grad_norm": 4.856873989105225,
5705
+ "learning_rate": 7.188581670948169e-06,
5706
+ "loss": 1.2653,
5707
+ "step": 814
5708
+ },
5709
+ {
5710
+ "epoch": 0.829727666072792,
5711
+ "grad_norm": 7.248535633087158,
5712
+ "learning_rate": 7.105830352958142e-06,
5713
+ "loss": 1.8515,
5714
+ "step": 815
5715
+ },
5716
+ {
5717
+ "epoch": 0.8307457368287096,
5718
+ "grad_norm": 7.241623878479004,
5719
+ "learning_rate": 7.0235216436489835e-06,
5720
+ "loss": 1.4111,
5721
+ "step": 816
5722
+ },
5723
+ {
5724
+ "epoch": 0.8317638075846271,
5725
+ "grad_norm": 5.958316802978516,
5726
+ "learning_rate": 6.941656392333046e-06,
5727
+ "loss": 1.4647,
5728
+ "step": 817
5729
+ },
5730
+ {
5731
+ "epoch": 0.8327818783405446,
5732
+ "grad_norm": 7.3134684562683105,
5733
+ "learning_rate": 6.860235443746859e-06,
5734
+ "loss": 1.4169,
5735
+ "step": 818
5736
+ },
5737
+ {
5738
+ "epoch": 0.8337999490964622,
5739
+ "grad_norm": 6.82220458984375,
5740
+ "learning_rate": 6.779259638042318e-06,
5741
+ "loss": 1.6871,
5742
+ "step": 819
5743
+ },
5744
+ {
5745
+ "epoch": 0.8348180198523797,
5746
+ "grad_norm": 8.294244766235352,
5747
+ "learning_rate": 6.698729810778065e-06,
5748
+ "loss": 2.0008,
5749
+ "step": 820
5750
+ },
5751
+ {
5752
+ "epoch": 0.8358360906082972,
5753
+ "grad_norm": 7.062936305999756,
5754
+ "learning_rate": 6.618646792910893e-06,
5755
+ "loss": 1.5006,
5756
+ "step": 821
5757
+ },
5758
+ {
5759
+ "epoch": 0.8368541613642149,
5760
+ "grad_norm": 8.914663314819336,
5761
+ "learning_rate": 6.539011410787105e-06,
5762
+ "loss": 2.8718,
5763
+ "step": 822
5764
+ },
5765
+ {
5766
+ "epoch": 0.8378722321201324,
5767
+ "grad_norm": 6.904050827026367,
5768
+ "learning_rate": 6.459824486134014e-06,
5769
+ "loss": 1.6913,
5770
+ "step": 823
5771
+ },
5772
+ {
5773
+ "epoch": 0.8388903028760499,
5774
+ "grad_norm": 9.867286682128906,
5775
+ "learning_rate": 6.381086836051498e-06,
5776
+ "loss": 2.3808,
5777
+ "step": 824
5778
+ },
5779
+ {
5780
+ "epoch": 0.8399083736319675,
5781
+ "grad_norm": 7.717339992523193,
5782
+ "learning_rate": 6.302799273003546e-06,
5783
+ "loss": 2.3309,
5784
+ "step": 825
5785
+ },
5786
+ {
5787
+ "epoch": 0.840926444387885,
5788
+ "grad_norm": 7.964992046356201,
5789
+ "learning_rate": 6.224962604809819e-06,
5790
+ "loss": 1.8556,
5791
+ "step": 826
5792
+ },
5793
+ {
5794
+ "epoch": 0.8419445151438025,
5795
+ "grad_norm": 8.438617706298828,
5796
+ "learning_rate": 6.147577634637414e-06,
5797
+ "loss": 2.8175,
5798
+ "step": 827
5799
+ },
5800
+ {
5801
+ "epoch": 0.8429625858997201,
5802
+ "grad_norm": 6.18842077255249,
5803
+ "learning_rate": 6.070645160992522e-06,
5804
+ "loss": 1.8594,
5805
+ "step": 828
5806
+ },
5807
+ {
5808
+ "epoch": 0.8439806566556376,
5809
+ "grad_norm": 9.132290840148926,
5810
+ "learning_rate": 5.994165977712174e-06,
5811
+ "loss": 2.4016,
5812
+ "step": 829
5813
+ },
5814
+ {
5815
+ "epoch": 0.8449987274115551,
5816
+ "grad_norm": 8.243701934814453,
5817
+ "learning_rate": 5.918140873956063e-06,
5818
+ "loss": 2.8481,
5819
+ "step": 830
5820
+ },
5821
+ {
5822
+ "epoch": 0.8460167981674727,
5823
+ "grad_norm": 7.9838457107543945,
5824
+ "learning_rate": 5.842570634198452e-06,
5825
+ "loss": 2.2464,
5826
+ "step": 831
5827
+ },
5828
+ {
5829
+ "epoch": 0.8470348689233902,
5830
+ "grad_norm": 9.669371604919434,
5831
+ "learning_rate": 5.767456038219987e-06,
5832
+ "loss": 3.0041,
5833
+ "step": 832
5834
+ },
5835
+ {
5836
+ "epoch": 0.8480529396793077,
5837
+ "grad_norm": 6.894510746002197,
5838
+ "learning_rate": 5.692797861099719e-06,
5839
+ "loss": 1.9256,
5840
+ "step": 833
5841
+ },
5842
+ {
5843
+ "epoch": 0.8490710104352253,
5844
+ "grad_norm": 9.749018669128418,
5845
+ "learning_rate": 5.6185968732070825e-06,
5846
+ "loss": 2.0606,
5847
+ "step": 834
5848
+ },
5849
+ {
5850
+ "epoch": 0.8500890811911428,
5851
+ "grad_norm": 10.20246410369873,
5852
+ "learning_rate": 5.544853840193981e-06,
5853
+ "loss": 2.5006,
5854
+ "step": 835
5855
+ },
5856
+ {
5857
+ "epoch": 0.8511071519470603,
5858
+ "grad_norm": 7.829645156860352,
5859
+ "learning_rate": 5.471569522986774e-06,
5860
+ "loss": 2.2776,
5861
+ "step": 836
5862
+ },
5863
+ {
5864
+ "epoch": 0.8521252227029779,
5865
+ "grad_norm": 8.704474449157715,
5866
+ "learning_rate": 5.398744677778594e-06,
5867
+ "loss": 2.155,
5868
+ "step": 837
5869
+ },
5870
+ {
5871
+ "epoch": 0.8531432934588954,
5872
+ "grad_norm": 9.067277908325195,
5873
+ "learning_rate": 5.326380056021418e-06,
5874
+ "loss": 1.9537,
5875
+ "step": 838
5876
+ },
5877
+ {
5878
+ "epoch": 0.8541613642148129,
5879
+ "grad_norm": 7.175379276275635,
5880
+ "learning_rate": 5.25447640441834e-06,
5881
+ "loss": 1.8142,
5882
+ "step": 839
5883
+ },
5884
+ {
5885
+ "epoch": 0.8551794349707305,
5886
+ "grad_norm": 9.313763618469238,
5887
+ "learning_rate": 5.183034464915898e-06,
5888
+ "loss": 2.6184,
5889
+ "step": 840
5890
+ },
5891
+ {
5892
+ "epoch": 0.856197505726648,
5893
+ "grad_norm": 8.87330150604248,
5894
+ "learning_rate": 5.112054974696395e-06,
5895
+ "loss": 2.2619,
5896
+ "step": 841
5897
+ },
5898
+ {
5899
+ "epoch": 0.8572155764825655,
5900
+ "grad_norm": 7.452190399169922,
5901
+ "learning_rate": 5.041538666170281e-06,
5902
+ "loss": 2.0532,
5903
+ "step": 842
5904
+ },
5905
+ {
5906
+ "epoch": 0.858233647238483,
5907
+ "grad_norm": 8.609152793884277,
5908
+ "learning_rate": 4.9714862669686335e-06,
5909
+ "loss": 2.3708,
5910
+ "step": 843
5911
+ },
5912
+ {
5913
+ "epoch": 0.8592517179944006,
5914
+ "grad_norm": 9.013458251953125,
5915
+ "learning_rate": 4.901898499935609e-06,
5916
+ "loss": 2.2493,
5917
+ "step": 844
5918
+ },
5919
+ {
5920
+ "epoch": 0.8602697887503181,
5921
+ "grad_norm": 6.508463382720947,
5922
+ "learning_rate": 4.832776083120982e-06,
5923
+ "loss": 1.6531,
5924
+ "step": 845
5925
+ },
5926
+ {
5927
+ "epoch": 0.8612878595062357,
5928
+ "grad_norm": 8.564003944396973,
5929
+ "learning_rate": 4.764119729772809e-06,
5930
+ "loss": 2.2661,
5931
+ "step": 846
5932
+ },
5933
+ {
5934
+ "epoch": 0.8623059302621532,
5935
+ "grad_norm": 10.198071479797363,
5936
+ "learning_rate": 4.695930148329958e-06,
5937
+ "loss": 2.5887,
5938
+ "step": 847
5939
+ },
5940
+ {
5941
+ "epoch": 0.8633240010180707,
5942
+ "grad_norm": 7.703155994415283,
5943
+ "learning_rate": 4.628208042414889e-06,
5944
+ "loss": 2.1529,
5945
+ "step": 848
5946
+ },
5947
+ {
5948
+ "epoch": 0.8643420717739883,
5949
+ "grad_norm": 9.272164344787598,
5950
+ "learning_rate": 4.560954110826337e-06,
5951
+ "loss": 2.1878,
5952
+ "step": 849
5953
+ },
5954
+ {
5955
+ "epoch": 0.8653601425299058,
5956
+ "grad_norm": 9.344987869262695,
5957
+ "learning_rate": 4.494169047532154e-06,
5958
+ "loss": 1.8306,
5959
+ "step": 850
5960
+ },
5961
+ {
5962
+ "epoch": 0.8663782132858233,
5963
+ "grad_norm": 7.905543327331543,
5964
+ "learning_rate": 4.427853541662091e-06,
5965
+ "loss": 3.7738,
5966
+ "step": 851
5967
+ },
5968
+ {
5969
+ "epoch": 0.8673962840417409,
5970
+ "grad_norm": 11.58995532989502,
5971
+ "learning_rate": 4.362008277500701e-06,
5972
+ "loss": 3.8687,
5973
+ "step": 852
5974
+ },
5975
+ {
5976
+ "epoch": 0.8684143547976584,
5977
+ "grad_norm": 10.805427551269531,
5978
+ "learning_rate": 4.296633934480337e-06,
5979
+ "loss": 4.1339,
5980
+ "step": 853
5981
+ },
5982
+ {
5983
+ "epoch": 0.869432425553576,
5984
+ "grad_norm": 9.845876693725586,
5985
+ "learning_rate": 4.231731187174065e-06,
5986
+ "loss": 3.6647,
5987
+ "step": 854
5988
+ },
5989
+ {
5990
+ "epoch": 0.8704504963094936,
5991
+ "grad_norm": 11.320969581604004,
5992
+ "learning_rate": 4.167300705288718e-06,
5993
+ "loss": 3.8381,
5994
+ "step": 855
5995
+ },
5996
+ {
5997
+ "epoch": 0.8714685670654111,
5998
+ "grad_norm": 12.798758506774902,
5999
+ "learning_rate": 4.10334315365804e-06,
6000
+ "loss": 3.4318,
6001
+ "step": 856
6002
+ },
6003
+ {
6004
+ "epoch": 0.8724866378213286,
6005
+ "grad_norm": 11.61473274230957,
6006
+ "learning_rate": 4.039859192235779e-06,
6007
+ "loss": 2.8296,
6008
+ "step": 857
6009
+ },
6010
+ {
6011
+ "epoch": 0.8735047085772462,
6012
+ "grad_norm": 14.96419620513916,
6013
+ "learning_rate": 3.976849476088845e-06,
6014
+ "loss": 3.5524,
6015
+ "step": 858
6016
+ },
6017
+ {
6018
+ "epoch": 0.8745227793331637,
6019
+ "grad_norm": 7.406204700469971,
6020
+ "learning_rate": 3.914314655390633e-06,
6021
+ "loss": 1.9455,
6022
+ "step": 859
6023
+ },
6024
+ {
6025
+ "epoch": 0.8755408500890812,
6026
+ "grad_norm": 6.518743991851807,
6027
+ "learning_rate": 3.852255375414271e-06,
6028
+ "loss": 1.2701,
6029
+ "step": 860
6030
+ },
6031
+ {
6032
+ "epoch": 0.8765589208449988,
6033
+ "grad_norm": 6.446305751800537,
6034
+ "learning_rate": 3.790672276525936e-06,
6035
+ "loss": 1.4215,
6036
+ "step": 861
6037
+ },
6038
+ {
6039
+ "epoch": 0.8775769916009163,
6040
+ "grad_norm": 8.741048812866211,
6041
+ "learning_rate": 3.7295659941782855e-06,
6042
+ "loss": 1.8906,
6043
+ "step": 862
6044
+ },
6045
+ {
6046
+ "epoch": 0.8785950623568338,
6047
+ "grad_norm": 8.466268539428711,
6048
+ "learning_rate": 3.668937158903901e-06,
6049
+ "loss": 1.8339,
6050
+ "step": 863
6051
+ },
6052
+ {
6053
+ "epoch": 0.8796131331127514,
6054
+ "grad_norm": 9.552635192871094,
6055
+ "learning_rate": 3.6087863963087497e-06,
6056
+ "loss": 2.2068,
6057
+ "step": 864
6058
+ },
6059
+ {
6060
+ "epoch": 0.8806312038686689,
6061
+ "grad_norm": 6.880453586578369,
6062
+ "learning_rate": 3.5491143270657446e-06,
6063
+ "loss": 1.4963,
6064
+ "step": 865
6065
+ },
6066
+ {
6067
+ "epoch": 0.8816492746245864,
6068
+ "grad_norm": 6.255483627319336,
6069
+ "learning_rate": 3.4899215669083716e-06,
6070
+ "loss": 1.3132,
6071
+ "step": 866
6072
+ },
6073
+ {
6074
+ "epoch": 0.882667345380504,
6075
+ "grad_norm": 6.0426025390625,
6076
+ "learning_rate": 3.4312087266242963e-06,
6077
+ "loss": 1.5957,
6078
+ "step": 867
6079
+ },
6080
+ {
6081
+ "epoch": 0.8836854161364215,
6082
+ "grad_norm": 6.473054885864258,
6083
+ "learning_rate": 3.3729764120490446e-06,
6084
+ "loss": 1.7223,
6085
+ "step": 868
6086
+ },
6087
+ {
6088
+ "epoch": 0.884703486892339,
6089
+ "grad_norm": 6.081118106842041,
6090
+ "learning_rate": 3.315225224059809e-06,
6091
+ "loss": 1.4486,
6092
+ "step": 869
6093
+ },
6094
+ {
6095
+ "epoch": 0.8857215576482566,
6096
+ "grad_norm": 8.436514854431152,
6097
+ "learning_rate": 3.25795575856922e-06,
6098
+ "loss": 2.5112,
6099
+ "step": 870
6100
+ },
6101
+ {
6102
+ "epoch": 0.8867396284041741,
6103
+ "grad_norm": 7.625750541687012,
6104
+ "learning_rate": 3.2011686065191895e-06,
6105
+ "loss": 1.7229,
6106
+ "step": 871
6107
+ },
6108
+ {
6109
+ "epoch": 0.8877576991600916,
6110
+ "grad_norm": 8.813794136047363,
6111
+ "learning_rate": 3.1448643538748045e-06,
6112
+ "loss": 2.4128,
6113
+ "step": 872
6114
+ },
6115
+ {
6116
+ "epoch": 0.8887757699160092,
6117
+ "grad_norm": 5.511772155761719,
6118
+ "learning_rate": 3.0890435816183226e-06,
6119
+ "loss": 1.3973,
6120
+ "step": 873
6121
+ },
6122
+ {
6123
+ "epoch": 0.8897938406719267,
6124
+ "grad_norm": 8.631103515625,
6125
+ "learning_rate": 3.03370686574313e-06,
6126
+ "loss": 2.015,
6127
+ "step": 874
6128
+ },
6129
+ {
6130
+ "epoch": 0.8908119114278442,
6131
+ "grad_norm": 7.364684104919434,
6132
+ "learning_rate": 2.9788547772478416e-06,
6133
+ "loss": 2.2994,
6134
+ "step": 875
6135
+ },
6136
+ {
6137
+ "epoch": 0.8918299821837617,
6138
+ "grad_norm": 6.241342067718506,
6139
+ "learning_rate": 2.924487882130356e-06,
6140
+ "loss": 1.8339,
6141
+ "step": 876
6142
+ },
6143
+ {
6144
+ "epoch": 0.8928480529396793,
6145
+ "grad_norm": 7.564022064208984,
6146
+ "learning_rate": 2.870606741382059e-06,
6147
+ "loss": 1.7091,
6148
+ "step": 877
6149
+ },
6150
+ {
6151
+ "epoch": 0.8938661236955968,
6152
+ "grad_norm": 7.5156378746032715,
6153
+ "learning_rate": 2.817211910982037e-06,
6154
+ "loss": 2.1743,
6155
+ "step": 878
6156
+ },
6157
+ {
6158
+ "epoch": 0.8948841944515143,
6159
+ "grad_norm": 7.265412330627441,
6160
+ "learning_rate": 2.7643039418913e-06,
6161
+ "loss": 2.0643,
6162
+ "step": 879
6163
+ },
6164
+ {
6165
+ "epoch": 0.8959022652074319,
6166
+ "grad_norm": 7.189180850982666,
6167
+ "learning_rate": 2.711883380047131e-06,
6168
+ "loss": 2.1941,
6169
+ "step": 880
6170
+ },
6171
+ {
6172
+ "epoch": 0.8969203359633494,
6173
+ "grad_norm": 7.311581134796143,
6174
+ "learning_rate": 2.6599507663574384e-06,
6175
+ "loss": 2.1736,
6176
+ "step": 881
6177
+ },
6178
+ {
6179
+ "epoch": 0.897938406719267,
6180
+ "grad_norm": 10.869359016418457,
6181
+ "learning_rate": 2.6085066366951905e-06,
6182
+ "loss": 3.2378,
6183
+ "step": 882
6184
+ },
6185
+ {
6186
+ "epoch": 0.8989564774751845,
6187
+ "grad_norm": 7.649423122406006,
6188
+ "learning_rate": 2.5575515218928592e-06,
6189
+ "loss": 2.1515,
6190
+ "step": 883
6191
+ },
6192
+ {
6193
+ "epoch": 0.899974548231102,
6194
+ "grad_norm": 7.814465045928955,
6195
+ "learning_rate": 2.5070859477369645e-06,
6196
+ "loss": 2.4541,
6197
+ "step": 884
6198
+ },
6199
+ {
6200
+ "epoch": 0.9009926189870195,
6201
+ "grad_norm": 7.679671764373779,
6202
+ "learning_rate": 2.457110434962645e-06,
6203
+ "loss": 2.6637,
6204
+ "step": 885
6205
+ },
6206
+ {
6207
+ "epoch": 0.9020106897429372,
6208
+ "grad_norm": 8.16401481628418,
6209
+ "learning_rate": 2.407625499248273e-06,
6210
+ "loss": 2.547,
6211
+ "step": 886
6212
+ },
6213
+ {
6214
+ "epoch": 0.9030287604988547,
6215
+ "grad_norm": 9.379379272460938,
6216
+ "learning_rate": 2.3586316512101416e-06,
6217
+ "loss": 2.5642,
6218
+ "step": 887
6219
+ },
6220
+ {
6221
+ "epoch": 0.9040468312547723,
6222
+ "grad_norm": 7.037562370300293,
6223
+ "learning_rate": 2.3101293963972094e-06,
6224
+ "loss": 1.9438,
6225
+ "step": 888
6226
+ },
6227
+ {
6228
+ "epoch": 0.9050649020106898,
6229
+ "grad_norm": 7.9886674880981445,
6230
+ "learning_rate": 2.26211923528587e-06,
6231
+ "loss": 2.2604,
6232
+ "step": 889
6233
+ },
6234
+ {
6235
+ "epoch": 0.9060829727666073,
6236
+ "grad_norm": 7.768427848815918,
6237
+ "learning_rate": 2.2146016632747624e-06,
6238
+ "loss": 1.8138,
6239
+ "step": 890
6240
+ },
6241
+ {
6242
+ "epoch": 0.9071010435225249,
6243
+ "grad_norm": 7.540080547332764,
6244
+ "learning_rate": 2.1675771706797132e-06,
6245
+ "loss": 1.8673,
6246
+ "step": 891
6247
+ },
6248
+ {
6249
+ "epoch": 0.9081191142784424,
6250
+ "grad_norm": 8.09107780456543,
6251
+ "learning_rate": 2.1210462427286524e-06,
6252
+ "loss": 1.971,
6253
+ "step": 892
6254
+ },
6255
+ {
6256
+ "epoch": 0.9091371850343599,
6257
+ "grad_norm": 6.946146011352539,
6258
+ "learning_rate": 2.0750093595565733e-06,
6259
+ "loss": 1.7914,
6260
+ "step": 893
6261
+ },
6262
+ {
6263
+ "epoch": 0.9101552557902775,
6264
+ "grad_norm": 10.480133056640625,
6265
+ "learning_rate": 2.0294669962006354e-06,
6266
+ "loss": 2.4089,
6267
+ "step": 894
6268
+ },
6269
+ {
6270
+ "epoch": 0.911173326546195,
6271
+ "grad_norm": 7.2262797355651855,
6272
+ "learning_rate": 1.984419622595224e-06,
6273
+ "loss": 1.8403,
6274
+ "step": 895
6275
+ },
6276
+ {
6277
+ "epoch": 0.9121913973021125,
6278
+ "grad_norm": 8.057347297668457,
6279
+ "learning_rate": 1.939867703567122e-06,
6280
+ "loss": 1.7492,
6281
+ "step": 896
6282
+ },
6283
+ {
6284
+ "epoch": 0.91320946805803,
6285
+ "grad_norm": 8.859241485595703,
6286
+ "learning_rate": 1.895811698830685e-06,
6287
+ "loss": 2.3681,
6288
+ "step": 897
6289
+ },
6290
+ {
6291
+ "epoch": 0.9142275388139476,
6292
+ "grad_norm": 7.5691328048706055,
6293
+ "learning_rate": 1.8522520629831397e-06,
6294
+ "loss": 2.1921,
6295
+ "step": 898
6296
+ },
6297
+ {
6298
+ "epoch": 0.9152456095698651,
6299
+ "grad_norm": 9.58875846862793,
6300
+ "learning_rate": 1.8091892454998594e-06,
6301
+ "loss": 2.4974,
6302
+ "step": 899
6303
+ },
6304
+ {
6305
+ "epoch": 0.9162636803257826,
6306
+ "grad_norm": 7.032078266143799,
6307
+ "learning_rate": 1.7666236907297406e-06,
6308
+ "loss": 1.3266,
6309
+ "step": 900
6310
+ },
6311
+ {
6312
+ "epoch": 0.9172817510817002,
6313
+ "grad_norm": 7.034844875335693,
6314
+ "learning_rate": 1.7245558378906013e-06,
6315
+ "loss": 2.617,
6316
+ "step": 901
6317
+ },
6318
+ {
6319
+ "epoch": 0.9182998218376177,
6320
+ "grad_norm": 9.052960395812988,
6321
+ "learning_rate": 1.6829861210646891e-06,
6322
+ "loss": 3.9865,
6323
+ "step": 902
6324
+ },
6325
+ {
6326
+ "epoch": 0.9193178925935352,
6327
+ "grad_norm": 11.31360912322998,
6328
+ "learning_rate": 1.641914969194147e-06,
6329
+ "loss": 3.9044,
6330
+ "step": 903
6331
+ },
6332
+ {
6333
+ "epoch": 0.9203359633494528,
6334
+ "grad_norm": 11.041589736938477,
6335
+ "learning_rate": 1.6013428060766168e-06,
6336
+ "loss": 4.3406,
6337
+ "step": 904
6338
+ },
6339
+ {
6340
+ "epoch": 0.9213540341053703,
6341
+ "grad_norm": 10.366722106933594,
6342
+ "learning_rate": 1.5612700503608968e-06,
6343
+ "loss": 2.948,
6344
+ "step": 905
6345
+ },
6346
+ {
6347
+ "epoch": 0.9223721048612878,
6348
+ "grad_norm": 13.091897964477539,
6349
+ "learning_rate": 1.5216971155425475e-06,
6350
+ "loss": 4.3409,
6351
+ "step": 906
6352
+ },
6353
+ {
6354
+ "epoch": 0.9233901756172054,
6355
+ "grad_norm": 10.320602416992188,
6356
+ "learning_rate": 1.4826244099596986e-06,
6357
+ "loss": 2.7963,
6358
+ "step": 907
6359
+ },
6360
+ {
6361
+ "epoch": 0.9244082463731229,
6362
+ "grad_norm": 9.795669555664062,
6363
+ "learning_rate": 1.4440523367887871e-06,
6364
+ "loss": 2.7568,
6365
+ "step": 908
6366
+ },
6367
+ {
6368
+ "epoch": 0.9254263171290404,
6369
+ "grad_norm": 5.081234931945801,
6370
+ "learning_rate": 1.4059812940404093e-06,
6371
+ "loss": 1.1005,
6372
+ "step": 909
6373
+ },
6374
+ {
6375
+ "epoch": 0.926444387884958,
6376
+ "grad_norm": 5.965490818023682,
6377
+ "learning_rate": 1.3684116745552423e-06,
6378
+ "loss": 1.6534,
6379
+ "step": 910
6380
+ },
6381
+ {
6382
+ "epoch": 0.9274624586408755,
6383
+ "grad_norm": 8.321152687072754,
6384
+ "learning_rate": 1.33134386599994e-06,
6385
+ "loss": 1.6702,
6386
+ "step": 911
6387
+ },
6388
+ {
6389
+ "epoch": 0.928480529396793,
6390
+ "grad_norm": 6.844864845275879,
6391
+ "learning_rate": 1.2947782508631822e-06,
6392
+ "loss": 1.5389,
6393
+ "step": 912
6394
+ },
6395
+ {
6396
+ "epoch": 0.9294986001527106,
6397
+ "grad_norm": 7.344895362854004,
6398
+ "learning_rate": 1.2587152064516827e-06,
6399
+ "loss": 1.6019,
6400
+ "step": 913
6401
+ },
6402
+ {
6403
+ "epoch": 0.9305166709086281,
6404
+ "grad_norm": 6.270571708679199,
6405
+ "learning_rate": 1.223155104886342e-06,
6406
+ "loss": 1.322,
6407
+ "step": 914
6408
+ },
6409
+ {
6410
+ "epoch": 0.9315347416645456,
6411
+ "grad_norm": 7.117447853088379,
6412
+ "learning_rate": 1.1880983130983626e-06,
6413
+ "loss": 1.6418,
6414
+ "step": 915
6415
+ },
6416
+ {
6417
+ "epoch": 0.9325528124204632,
6418
+ "grad_norm": 8.100106239318848,
6419
+ "learning_rate": 1.1535451928254947e-06,
6420
+ "loss": 2.1211,
6421
+ "step": 916
6422
+ },
6423
+ {
6424
+ "epoch": 0.9335708831763807,
6425
+ "grad_norm": 9.206981658935547,
6426
+ "learning_rate": 1.1194961006082972e-06,
6427
+ "loss": 2.2021,
6428
+ "step": 917
6429
+ },
6430
+ {
6431
+ "epoch": 0.9345889539322983,
6432
+ "grad_norm": 5.570037364959717,
6433
+ "learning_rate": 1.085951387786438e-06,
6434
+ "loss": 1.5467,
6435
+ "step": 918
6436
+ },
6437
+ {
6438
+ "epoch": 0.9356070246882159,
6439
+ "grad_norm": 8.013311386108398,
6440
+ "learning_rate": 1.0529114004951047e-06,
6441
+ "loss": 1.9642,
6442
+ "step": 919
6443
+ },
6444
+ {
6445
+ "epoch": 0.9366250954441334,
6446
+ "grad_norm": 6.999322891235352,
6447
+ "learning_rate": 1.0203764796614058e-06,
6448
+ "loss": 1.772,
6449
+ "step": 920
6450
+ },
6451
+ {
6452
+ "epoch": 0.937643166200051,
6453
+ "grad_norm": 7.812559604644775,
6454
+ "learning_rate": 9.883469610008577e-07,
6455
+ "loss": 1.9127,
6456
+ "step": 921
6457
+ },
6458
+ {
6459
+ "epoch": 0.9386612369559685,
6460
+ "grad_norm": 9.275822639465332,
6461
+ "learning_rate": 9.568231750139212e-07,
6462
+ "loss": 2.3705,
6463
+ "step": 922
6464
+ },
6465
+ {
6466
+ "epoch": 0.939679307711886,
6467
+ "grad_norm": 7.6475372314453125,
6468
+ "learning_rate": 9.258054469825972e-07,
6469
+ "loss": 2.306,
6470
+ "step": 923
6471
+ },
6472
+ {
6473
+ "epoch": 0.9406973784678035,
6474
+ "grad_norm": 7.288696765899658,
6475
+ "learning_rate": 8.952940969670809e-07,
6476
+ "loss": 1.6429,
6477
+ "step": 924
6478
+ },
6479
+ {
6480
+ "epoch": 0.9417154492237211,
6481
+ "grad_norm": 7.795031547546387,
6482
+ "learning_rate": 8.652894398024136e-07,
6483
+ "loss": 1.9986,
6484
+ "step": 925
6485
+ },
6486
+ {
6487
+ "epoch": 0.9427335199796386,
6488
+ "grad_norm": 7.860483169555664,
6489
+ "learning_rate": 8.357917850952802e-07,
6490
+ "loss": 2.1139,
6491
+ "step": 926
6492
+ },
6493
+ {
6494
+ "epoch": 0.9437515907355561,
6495
+ "grad_norm": 7.814316749572754,
6496
+ "learning_rate": 8.06801437220811e-07,
6497
+ "loss": 2.1013,
6498
+ "step": 927
6499
+ },
6500
+ {
6501
+ "epoch": 0.9447696614914737,
6502
+ "grad_norm": 8.413445472717285,
6503
+ "learning_rate": 7.783186953194189e-07,
6504
+ "loss": 2.7227,
6505
+ "step": 928
6506
+ },
6507
+ {
6508
+ "epoch": 0.9457877322473912,
6509
+ "grad_norm": 7.9406328201293945,
6510
+ "learning_rate": 7.503438532937168e-07,
6511
+ "loss": 2.1969,
6512
+ "step": 929
6513
+ },
6514
+ {
6515
+ "epoch": 0.9468058030033087,
6516
+ "grad_norm": 8.008191108703613,
6517
+ "learning_rate": 7.228771998054995e-07,
6518
+ "loss": 2.2026,
6519
+ "step": 930
6520
+ },
6521
+ {
6522
+ "epoch": 0.9478238737592263,
6523
+ "grad_norm": 9.503705978393555,
6524
+ "learning_rate": 6.959190182727615e-07,
6525
+ "loss": 2.6732,
6526
+ "step": 931
6527
+ },
6528
+ {
6529
+ "epoch": 0.9488419445151438,
6530
+ "grad_norm": 9.472963333129883,
6531
+ "learning_rate": 6.694695868667556e-07,
6532
+ "loss": 3.0515,
6533
+ "step": 932
6534
+ },
6535
+ {
6536
+ "epoch": 0.9498600152710613,
6537
+ "grad_norm": 7.070324420928955,
6538
+ "learning_rate": 6.43529178509139e-07,
6539
+ "loss": 1.9813,
6540
+ "step": 933
6541
+ },
6542
+ {
6543
+ "epoch": 0.9508780860269789,
6544
+ "grad_norm": 9.686485290527344,
6545
+ "learning_rate": 6.180980608691655e-07,
6546
+ "loss": 2.8315,
6547
+ "step": 934
6548
+ },
6549
+ {
6550
+ "epoch": 0.9518961567828964,
6551
+ "grad_norm": 8.254791259765625,
6552
+ "learning_rate": 5.931764963608866e-07,
6553
+ "loss": 2.2097,
6554
+ "step": 935
6555
+ },
6556
+ {
6557
+ "epoch": 0.9529142275388139,
6558
+ "grad_norm": 8.103293418884277,
6559
+ "learning_rate": 5.687647421404874e-07,
6560
+ "loss": 2.4556,
6561
+ "step": 936
6562
+ },
6563
+ {
6564
+ "epoch": 0.9539322982947315,
6565
+ "grad_norm": 7.946092128753662,
6566
+ "learning_rate": 5.448630501036112e-07,
6567
+ "loss": 1.7899,
6568
+ "step": 937
6569
+ },
6570
+ {
6571
+ "epoch": 0.954950369050649,
6572
+ "grad_norm": 7.618176460266113,
6573
+ "learning_rate": 5.214716668827557e-07,
6574
+ "loss": 2.3681,
6575
+ "step": 938
6576
+ },
6577
+ {
6578
+ "epoch": 0.9559684398065665,
6579
+ "grad_norm": 5.380380153656006,
6580
+ "learning_rate": 4.985908338447476e-07,
6581
+ "loss": 1.7725,
6582
+ "step": 939
6583
+ },
6584
+ {
6585
+ "epoch": 0.9569865105624841,
6586
+ "grad_norm": 7.778873920440674,
6587
+ "learning_rate": 4.762207870882218e-07,
6588
+ "loss": 1.8244,
6589
+ "step": 940
6590
+ },
6591
+ {
6592
+ "epoch": 0.9580045813184016,
6593
+ "grad_norm": 9.022889137268066,
6594
+ "learning_rate": 4.543617574412184e-07,
6595
+ "loss": 2.5223,
6596
+ "step": 941
6597
+ },
6598
+ {
6599
+ "epoch": 0.9590226520743191,
6600
+ "grad_norm": 6.915138244628906,
6601
+ "learning_rate": 4.3301397045877876e-07,
6602
+ "loss": 1.5739,
6603
+ "step": 942
6604
+ },
6605
+ {
6606
+ "epoch": 0.9600407228302367,
6607
+ "grad_norm": 7.640623092651367,
6608
+ "learning_rate": 4.121776464206251e-07,
6609
+ "loss": 2.0568,
6610
+ "step": 943
6611
+ },
6612
+ {
6613
+ "epoch": 0.9610587935861542,
6614
+ "grad_norm": 7.426476955413818,
6615
+ "learning_rate": 3.9185300032889006e-07,
6616
+ "loss": 1.8825,
6617
+ "step": 944
6618
+ },
6619
+ {
6620
+ "epoch": 0.9620768643420717,
6621
+ "grad_norm": 8.864518165588379,
6622
+ "learning_rate": 3.720402419058966e-07,
6623
+ "loss": 2.373,
6624
+ "step": 945
6625
+ },
6626
+ {
6627
+ "epoch": 0.9630949350979893,
6628
+ "grad_norm": 7.7088541984558105,
6629
+ "learning_rate": 3.5273957559199266e-07,
6630
+ "loss": 1.6487,
6631
+ "step": 946
6632
+ },
6633
+ {
6634
+ "epoch": 0.9641130058539068,
6635
+ "grad_norm": 7.193671703338623,
6636
+ "learning_rate": 3.339512005434309e-07,
6637
+ "loss": 1.8298,
6638
+ "step": 947
6639
+ },
6640
+ {
6641
+ "epoch": 0.9651310766098243,
6642
+ "grad_norm": 7.4829230308532715,
6643
+ "learning_rate": 3.1567531063033673e-07,
6644
+ "loss": 1.1332,
6645
+ "step": 948
6646
+ },
6647
+ {
6648
+ "epoch": 0.9661491473657419,
6649
+ "grad_norm": 27.006391525268555,
6650
+ "learning_rate": 2.979120944346936e-07,
6651
+ "loss": 2.0494,
6652
+ "step": 949
6653
+ },
6654
+ {
6655
+ "epoch": 0.9671672181216594,
6656
+ "grad_norm": 11.99468994140625,
6657
+ "learning_rate": 2.806617352483998e-07,
6658
+ "loss": 2.4674,
6659
+ "step": 950
6660
+ },
6661
+ {
6662
+ "epoch": 0.968185288877577,
6663
+ "grad_norm": 7.580793380737305,
6664
+ "learning_rate": 2.639244110713701e-07,
6665
+ "loss": 3.3584,
6666
+ "step": 951
6667
+ },
6668
+ {
6669
+ "epoch": 0.9692033596334946,
6670
+ "grad_norm": 9.658464431762695,
6671
+ "learning_rate": 2.4770029460970954e-07,
6672
+ "loss": 3.5755,
6673
+ "step": 952
6674
+ },
6675
+ {
6676
+ "epoch": 0.9702214303894121,
6677
+ "grad_norm": 9.27920150756836,
6678
+ "learning_rate": 2.319895532739369e-07,
6679
+ "loss": 2.8816,
6680
+ "step": 953
6681
+ },
6682
+ {
6683
+ "epoch": 0.9712395011453296,
6684
+ "grad_norm": 11.56139850616455,
6685
+ "learning_rate": 2.1679234917721946e-07,
6686
+ "loss": 3.1379,
6687
+ "step": 954
6688
+ },
6689
+ {
6690
+ "epoch": 0.9722575719012472,
6691
+ "grad_norm": 13.082681655883789,
6692
+ "learning_rate": 2.0210883913376334e-07,
6693
+ "loss": 3.5519,
6694
+ "step": 955
6695
+ },
6696
+ {
6697
+ "epoch": 0.9732756426571647,
6698
+ "grad_norm": 10.118450164794922,
6699
+ "learning_rate": 1.8793917465713684e-07,
6700
+ "loss": 2.1806,
6701
+ "step": 956
6702
+ },
6703
+ {
6704
+ "epoch": 0.9742937134130822,
6705
+ "grad_norm": 7.3693928718566895,
6706
+ "learning_rate": 1.742835019587441e-07,
6707
+ "loss": 1.6516,
6708
+ "step": 957
6709
+ },
6710
+ {
6711
+ "epoch": 0.9753117841689998,
6712
+ "grad_norm": 7.52052640914917,
6713
+ "learning_rate": 1.6114196194628172e-07,
6714
+ "loss": 1.8945,
6715
+ "step": 958
6716
+ },
6717
+ {
6718
+ "epoch": 0.9763298549249173,
6719
+ "grad_norm": 6.575441837310791,
6720
+ "learning_rate": 1.4851469022234e-07,
6721
+ "loss": 1.5346,
6722
+ "step": 959
6723
+ },
6724
+ {
6725
+ "epoch": 0.9773479256808348,
6726
+ "grad_norm": 5.139125823974609,
6727
+ "learning_rate": 1.3640181708293731e-07,
6728
+ "loss": 1.2349,
6729
+ "step": 960
6730
+ },
6731
+ {
6732
+ "epoch": 0.9783659964367524,
6733
+ "grad_norm": 5.116672992706299,
6734
+ "learning_rate": 1.2480346751622686e-07,
6735
+ "loss": 1.3371,
6736
+ "step": 961
6737
+ },
6738
+ {
6739
+ "epoch": 0.9793840671926699,
6740
+ "grad_norm": 6.816611289978027,
6741
+ "learning_rate": 1.1371976120118088e-07,
6742
+ "loss": 1.8166,
6743
+ "step": 962
6744
+ },
6745
+ {
6746
+ "epoch": 0.9804021379485874,
6747
+ "grad_norm": 5.658526420593262,
6748
+ "learning_rate": 1.0315081250636405e-07,
6749
+ "loss": 1.435,
6750
+ "step": 963
6751
+ },
6752
+ {
6753
+ "epoch": 0.981420208704505,
6754
+ "grad_norm": 5.805619239807129,
6755
+ "learning_rate": 9.309673048875089e-08,
6756
+ "loss": 1.473,
6757
+ "step": 964
6758
+ },
6759
+ {
6760
+ "epoch": 0.9824382794604225,
6761
+ "grad_norm": 8.438018798828125,
6762
+ "learning_rate": 8.355761889260461e-08,
6763
+ "loss": 1.9403,
6764
+ "step": 965
6765
+ },
6766
+ {
6767
+ "epoch": 0.98345635021634,
6768
+ "grad_norm": 6.625545501708984,
6769
+ "learning_rate": 7.453357614841117e-08,
6770
+ "loss": 1.7268,
6771
+ "step": 966
6772
+ },
6773
+ {
6774
+ "epoch": 0.9844744209722576,
6775
+ "grad_norm": 7.497494220733643,
6776
+ "learning_rate": 6.602469537183021e-08,
6777
+ "loss": 2.0333,
6778
+ "step": 967
6779
+ },
6780
+ {
6781
+ "epoch": 0.9854924917281751,
6782
+ "grad_norm": 7.167290210723877,
6783
+ "learning_rate": 5.8031064362795705e-08,
6784
+ "loss": 1.9103,
6785
+ "step": 968
6786
+ },
6787
+ {
6788
+ "epoch": 0.9865105624840926,
6789
+ "grad_norm": 8.998686790466309,
6790
+ "learning_rate": 5.0552765604544584e-08,
6791
+ "loss": 2.8485,
6792
+ "step": 969
6793
+ },
6794
+ {
6795
+ "epoch": 0.9875286332400102,
6796
+ "grad_norm": 7.887483596801758,
6797
+ "learning_rate": 4.358987626281175e-08,
6798
+ "loss": 2.5035,
6799
+ "step": 970
6800
+ },
6801
+ {
6802
+ "epoch": 0.9885467039959277,
6803
+ "grad_norm": 8.251432418823242,
6804
+ "learning_rate": 3.7142468185014104e-08,
6805
+ "loss": 2.1646,
6806
+ "step": 971
6807
+ },
6808
+ {
6809
+ "epoch": 0.9895647747518452,
6810
+ "grad_norm": 8.031188011169434,
6811
+ "learning_rate": 3.121060789951225e-08,
6812
+ "loss": 2.3445,
6813
+ "step": 972
6814
+ },
6815
+ {
6816
+ "epoch": 0.9905828455077628,
6817
+ "grad_norm": 10.717124938964844,
6818
+ "learning_rate": 2.5794356614922134e-08,
6819
+ "loss": 2.4195,
6820
+ "step": 973
6821
+ },
6822
+ {
6823
+ "epoch": 0.9916009162636803,
6824
+ "grad_norm": 7.7094950675964355,
6825
+ "learning_rate": 2.0893770219493346e-08,
6826
+ "loss": 2.2724,
6827
+ "step": 974
6828
+ },
6829
+ {
6830
+ "epoch": 0.9926189870195978,
6831
+ "grad_norm": 9.21927547454834,
6832
+ "learning_rate": 1.6508899280515134e-08,
6833
+ "loss": 2.9697,
6834
+ "step": 975
6835
+ },
6836
+ {
6837
+ "epoch": 0.9936370577755154,
6838
+ "grad_norm": 7.8263092041015625,
6839
+ "learning_rate": 1.2639789043805694e-08,
6840
+ "loss": 1.9429,
6841
+ "step": 976
6842
+ },
6843
+ {
6844
+ "epoch": 0.9946551285314329,
6845
+ "grad_norm": 8.359663009643555,
6846
+ "learning_rate": 9.286479433257e-09,
6847
+ "loss": 2.078,
6848
+ "step": 977
6849
+ },
6850
+ {
6851
+ "epoch": 0.9956731992873504,
6852
+ "grad_norm": 9.0786714553833,
6853
+ "learning_rate": 6.449005050390699e-09,
6854
+ "loss": 2.2142,
6855
+ "step": 978
6856
+ },
6857
+ {
6858
+ "epoch": 0.996691270043268,
6859
+ "grad_norm": 8.358176231384277,
6860
+ "learning_rate": 4.127395174036153e-09,
6861
+ "loss": 1.7529,
6862
+ "step": 979
6863
+ },
6864
+ {
6865
+ "epoch": 0.9977093407991855,
6866
+ "grad_norm": 8.492805480957031,
6867
+ "learning_rate": 2.321673760002918e-09,
6868
+ "loss": 2.3433,
6869
+ "step": 980
6870
+ },
6871
+ {
6872
+ "epoch": 0.998727411555103,
6873
+ "grad_norm": 10.61440372467041,
6874
+ "learning_rate": 1.0318594408476045e-09,
6875
+ "loss": 2.466,
6876
+ "step": 981
6877
+ },
6878
+ {
6879
+ "epoch": 0.9997454823110206,
6880
+ "grad_norm": 9.659395217895508,
6881
+ "learning_rate": 2.57965525674031e-10,
6882
+ "loss": 1.3249,
6883
+ "step": 982
6884
+ },
6885
+ {
6886
+ "epoch": 0.9997454823110206,
6887
+ "eval_loss": 0.5453814268112183,
6888
+ "eval_runtime": 50.2489,
6889
+ "eval_samples_per_second": 16.478,
6890
+ "eval_steps_per_second": 4.119,
6891
+ "step": 982
6892
+ },
6893
+ {
6894
+ "epoch": 1.000763553066938,
6895
+ "grad_norm": 6.880834102630615,
6896
+ "learning_rate": 0.0,
6897
+ "loss": 1.8668,
6898
+ "step": 983
6899
  }
6900
  ],
6901
  "logging_steps": 1,
 
6910
  "should_evaluate": false,
6911
  "should_log": false,
6912
  "should_save": true,
6913
+ "should_training_stop": true
6914
  },
6915
  "attributes": {}
6916
  }
6917
  },
6918
+ "total_flos": 8.031180351948718e+17,
6919
  "train_batch_size": 4,
6920
  "trial_name": null,
6921
  "trial_params": null