broodmother41 commited on
Commit
bc08c4d
·
verified ·
1 Parent(s): 2d1050e

Training in progress, step 900, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:20576ea29e8be0c4360c63fcfd6599fe6ed1ccaf070aacb265c8263331c04b3a
3
  size 671149168
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1c47d79ddcde62aa6fbf20930b648d737a9449a97c4acec79234f3cfa542bf3d
3
  size 671149168
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4f510575b1aa3e1648b5bfc57047308e06b6702537cb3135095ab24c37a88337
3
  size 341314644
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9f3ce5310800259d79bf505b8026b04c299b4d6bf18f03aa21d7ac106f5a030e
3
  size 341314644
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5308048dd0c014787972e4c3767cd80f6a3368dfd7ebb6f842008ecf91ddc070
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:22eb5252c4f5e97c7bb8fb6473bf2e47fb44e7385129e0d532d3cbf45f087cce
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6a197a1a4d059a9ce0958158bb28df1470f0554d236703a402b461e53e77ae60
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8a1d54ec4929657be14dbe7bdd312b878c26facb4723f06fcb7f80a15ec48efe
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 0.9616905450820923,
3
- "best_model_checkpoint": "miner_id_24/checkpoint-750",
4
- "epoch": 0.3765375282403146,
5
  "eval_steps": 150,
6
- "global_step": 750,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5305,6 +5305,1064 @@
5305
  "eval_samples_per_second": 21.265,
5306
  "eval_steps_per_second": 2.659,
5307
  "step": 750
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5308
  }
5309
  ],
5310
  "logging_steps": 1,
@@ -5333,7 +6391,7 @@
5333
  "attributes": {}
5334
  }
5335
  },
5336
- "total_flos": 5.207200309633352e+18,
5337
  "train_batch_size": 12,
5338
  "trial_name": null,
5339
  "trial_params": null
 
1
  {
2
+ "best_metric": 0.9426594972610474,
3
+ "best_model_checkpoint": "miner_id_24/checkpoint-900",
4
+ "epoch": 0.45184503388837755,
5
  "eval_steps": 150,
6
+ "global_step": 900,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5305
  "eval_samples_per_second": 21.265,
5306
  "eval_steps_per_second": 2.659,
5307
  "step": 750
5308
+ },
5309
+ {
5310
+ "epoch": 0.37703957827796836,
5311
+ "grad_norm": 0.4330700933933258,
5312
+ "learning_rate": 5.095515587893884e-05,
5313
+ "loss": 1.2318,
5314
+ "step": 751
5315
+ },
5316
+ {
5317
+ "epoch": 0.3775416283156221,
5318
+ "grad_norm": 0.3779419958591461,
5319
+ "learning_rate": 5.084903828741312e-05,
5320
+ "loss": 1.2228,
5321
+ "step": 752
5322
+ },
5323
+ {
5324
+ "epoch": 0.3780436783532759,
5325
+ "grad_norm": 0.376594603061676,
5326
+ "learning_rate": 5.0742916870253334e-05,
5327
+ "loss": 1.1351,
5328
+ "step": 753
5329
+ },
5330
+ {
5331
+ "epoch": 0.37854572839092965,
5332
+ "grad_norm": 0.3838042914867401,
5333
+ "learning_rate": 5.063679210562602e-05,
5334
+ "loss": 1.1161,
5335
+ "step": 754
5336
+ },
5337
+ {
5338
+ "epoch": 0.3790477784285834,
5339
+ "grad_norm": 0.37450775504112244,
5340
+ "learning_rate": 5.053066447171282e-05,
5341
+ "loss": 1.0012,
5342
+ "step": 755
5343
+ },
5344
+ {
5345
+ "epoch": 0.37954982846623714,
5346
+ "grad_norm": 0.37315741181373596,
5347
+ "learning_rate": 5.042453444670828e-05,
5348
+ "loss": 1.1146,
5349
+ "step": 756
5350
+ },
5351
+ {
5352
+ "epoch": 0.3800518785038909,
5353
+ "grad_norm": 0.3619626760482788,
5354
+ "learning_rate": 5.031840250881776e-05,
5355
+ "loss": 1.0954,
5356
+ "step": 757
5357
+ },
5358
+ {
5359
+ "epoch": 0.38055392854154463,
5360
+ "grad_norm": 0.3665991723537445,
5361
+ "learning_rate": 5.021226913625522e-05,
5362
+ "loss": 1.0704,
5363
+ "step": 758
5364
+ },
5365
+ {
5366
+ "epoch": 0.3810559785791984,
5367
+ "grad_norm": 0.3833234906196594,
5368
+ "learning_rate": 5.0106134807241045e-05,
5369
+ "loss": 1.0973,
5370
+ "step": 759
5371
+ },
5372
+ {
5373
+ "epoch": 0.3815580286168522,
5374
+ "grad_norm": 0.37826788425445557,
5375
+ "learning_rate": 5e-05,
5376
+ "loss": 1.016,
5377
+ "step": 760
5378
+ },
5379
+ {
5380
+ "epoch": 0.3820600786545059,
5381
+ "grad_norm": 0.3752281665802002,
5382
+ "learning_rate": 4.989386519275895e-05,
5383
+ "loss": 1.0214,
5384
+ "step": 761
5385
+ },
5386
+ {
5387
+ "epoch": 0.38256212869215966,
5388
+ "grad_norm": 0.35231512784957886,
5389
+ "learning_rate": 4.978773086374479e-05,
5390
+ "loss": 0.9812,
5391
+ "step": 762
5392
+ },
5393
+ {
5394
+ "epoch": 0.3830641787298134,
5395
+ "grad_norm": 0.34861356019973755,
5396
+ "learning_rate": 4.968159749118223e-05,
5397
+ "loss": 0.9588,
5398
+ "step": 763
5399
+ },
5400
+ {
5401
+ "epoch": 0.38356622876746715,
5402
+ "grad_norm": 0.3637848198413849,
5403
+ "learning_rate": 4.957546555329173e-05,
5404
+ "loss": 0.9808,
5405
+ "step": 764
5406
+ },
5407
+ {
5408
+ "epoch": 0.3840682788051209,
5409
+ "grad_norm": 0.38542938232421875,
5410
+ "learning_rate": 4.94693355282872e-05,
5411
+ "loss": 1.0052,
5412
+ "step": 765
5413
+ },
5414
+ {
5415
+ "epoch": 0.38457032884277464,
5416
+ "grad_norm": 0.3675108850002289,
5417
+ "learning_rate": 4.9363207894374e-05,
5418
+ "loss": 0.9797,
5419
+ "step": 766
5420
+ },
5421
+ {
5422
+ "epoch": 0.3850723788804284,
5423
+ "grad_norm": 0.3529476523399353,
5424
+ "learning_rate": 4.925708312974667e-05,
5425
+ "loss": 1.0427,
5426
+ "step": 767
5427
+ },
5428
+ {
5429
+ "epoch": 0.3855744289180822,
5430
+ "grad_norm": 0.35466766357421875,
5431
+ "learning_rate": 4.9150961712586895e-05,
5432
+ "loss": 1.0076,
5433
+ "step": 768
5434
+ },
5435
+ {
5436
+ "epoch": 0.38607647895573594,
5437
+ "grad_norm": 0.3574579358100891,
5438
+ "learning_rate": 4.904484412106117e-05,
5439
+ "loss": 1.0206,
5440
+ "step": 769
5441
+ },
5442
+ {
5443
+ "epoch": 0.3865785289933897,
5444
+ "grad_norm": 0.35434436798095703,
5445
+ "learning_rate": 4.893873083331882e-05,
5446
+ "loss": 0.944,
5447
+ "step": 770
5448
+ },
5449
+ {
5450
+ "epoch": 0.3870805790310434,
5451
+ "grad_norm": 0.37650713324546814,
5452
+ "learning_rate": 4.88326223274898e-05,
5453
+ "loss": 0.9769,
5454
+ "step": 771
5455
+ },
5456
+ {
5457
+ "epoch": 0.38758262906869717,
5458
+ "grad_norm": 0.3571126461029053,
5459
+ "learning_rate": 4.8726519081682444e-05,
5460
+ "loss": 0.996,
5461
+ "step": 772
5462
+ },
5463
+ {
5464
+ "epoch": 0.3880846791063509,
5465
+ "grad_norm": 0.3663455843925476,
5466
+ "learning_rate": 4.862042157398146e-05,
5467
+ "loss": 0.908,
5468
+ "step": 773
5469
+ },
5470
+ {
5471
+ "epoch": 0.38858672914400466,
5472
+ "grad_norm": 0.380512535572052,
5473
+ "learning_rate": 4.851433028244562e-05,
5474
+ "loss": 1.0196,
5475
+ "step": 774
5476
+ },
5477
+ {
5478
+ "epoch": 0.38908877918165846,
5479
+ "grad_norm": 0.38776859641075134,
5480
+ "learning_rate": 4.840824568510579e-05,
5481
+ "loss": 0.9251,
5482
+ "step": 775
5483
+ },
5484
+ {
5485
+ "epoch": 0.3895908292193122,
5486
+ "grad_norm": 0.39721420407295227,
5487
+ "learning_rate": 4.830216825996257e-05,
5488
+ "loss": 0.9202,
5489
+ "step": 776
5490
+ },
5491
+ {
5492
+ "epoch": 0.39009287925696595,
5493
+ "grad_norm": 0.3933786153793335,
5494
+ "learning_rate": 4.8196098484984305e-05,
5495
+ "loss": 0.944,
5496
+ "step": 777
5497
+ },
5498
+ {
5499
+ "epoch": 0.3905949292946197,
5500
+ "grad_norm": 0.3744068741798401,
5501
+ "learning_rate": 4.809003683810486e-05,
5502
+ "loss": 0.9442,
5503
+ "step": 778
5504
+ },
5505
+ {
5506
+ "epoch": 0.39109697933227344,
5507
+ "grad_norm": 0.39798104763031006,
5508
+ "learning_rate": 4.798398379722147e-05,
5509
+ "loss": 0.9739,
5510
+ "step": 779
5511
+ },
5512
+ {
5513
+ "epoch": 0.3915990293699272,
5514
+ "grad_norm": 0.3898034691810608,
5515
+ "learning_rate": 4.78779398401926e-05,
5516
+ "loss": 0.9401,
5517
+ "step": 780
5518
+ },
5519
+ {
5520
+ "epoch": 0.39210107940758093,
5521
+ "grad_norm": 0.3922993540763855,
5522
+ "learning_rate": 4.777190544483574e-05,
5523
+ "loss": 0.9504,
5524
+ "step": 781
5525
+ },
5526
+ {
5527
+ "epoch": 0.39260312944523473,
5528
+ "grad_norm": 0.38821038603782654,
5529
+ "learning_rate": 4.7665881088925376e-05,
5530
+ "loss": 0.9617,
5531
+ "step": 782
5532
+ },
5533
+ {
5534
+ "epoch": 0.3931051794828885,
5535
+ "grad_norm": 0.3955070674419403,
5536
+ "learning_rate": 4.75598672501907e-05,
5537
+ "loss": 0.9072,
5538
+ "step": 783
5539
+ },
5540
+ {
5541
+ "epoch": 0.3936072295205422,
5542
+ "grad_norm": 0.38435256481170654,
5543
+ "learning_rate": 4.7453864406313544e-05,
5544
+ "loss": 0.9285,
5545
+ "step": 784
5546
+ },
5547
+ {
5548
+ "epoch": 0.39410927955819597,
5549
+ "grad_norm": 0.40070778131484985,
5550
+ "learning_rate": 4.734787303492615e-05,
5551
+ "loss": 0.9422,
5552
+ "step": 785
5553
+ },
5554
+ {
5555
+ "epoch": 0.3946113295958497,
5556
+ "grad_norm": 0.4178116023540497,
5557
+ "learning_rate": 4.7241893613609126e-05,
5558
+ "loss": 0.9361,
5559
+ "step": 786
5560
+ },
5561
+ {
5562
+ "epoch": 0.39511337963350346,
5563
+ "grad_norm": 0.4187740087509155,
5564
+ "learning_rate": 4.7135926619889226e-05,
5565
+ "loss": 0.8883,
5566
+ "step": 787
5567
+ },
5568
+ {
5569
+ "epoch": 0.3956154296711572,
5570
+ "grad_norm": 0.42808717489242554,
5571
+ "learning_rate": 4.702997253123716e-05,
5572
+ "loss": 0.8763,
5573
+ "step": 788
5574
+ },
5575
+ {
5576
+ "epoch": 0.396117479708811,
5577
+ "grad_norm": 0.4418085813522339,
5578
+ "learning_rate": 4.6924031825065566e-05,
5579
+ "loss": 0.9475,
5580
+ "step": 789
5581
+ },
5582
+ {
5583
+ "epoch": 0.39661952974646475,
5584
+ "grad_norm": 0.4347171485424042,
5585
+ "learning_rate": 4.6818104978726685e-05,
5586
+ "loss": 0.7853,
5587
+ "step": 790
5588
+ },
5589
+ {
5590
+ "epoch": 0.3971215797841185,
5591
+ "grad_norm": 0.4366185665130615,
5592
+ "learning_rate": 4.6712192469510425e-05,
5593
+ "loss": 0.8485,
5594
+ "step": 791
5595
+ },
5596
+ {
5597
+ "epoch": 0.39762362982177224,
5598
+ "grad_norm": 0.4427374601364136,
5599
+ "learning_rate": 4.6606294774641966e-05,
5600
+ "loss": 0.8737,
5601
+ "step": 792
5602
+ },
5603
+ {
5604
+ "epoch": 0.398125679859426,
5605
+ "grad_norm": 0.4442150890827179,
5606
+ "learning_rate": 4.6500412371279836e-05,
5607
+ "loss": 0.8032,
5608
+ "step": 793
5609
+ },
5610
+ {
5611
+ "epoch": 0.39862772989707973,
5612
+ "grad_norm": 0.4936541020870209,
5613
+ "learning_rate": 4.6394545736513634e-05,
5614
+ "loss": 0.8794,
5615
+ "step": 794
5616
+ },
5617
+ {
5618
+ "epoch": 0.3991297799347335,
5619
+ "grad_norm": 0.47061917185783386,
5620
+ "learning_rate": 4.628869534736187e-05,
5621
+ "loss": 0.8568,
5622
+ "step": 795
5623
+ },
5624
+ {
5625
+ "epoch": 0.3996318299723872,
5626
+ "grad_norm": 0.525748610496521,
5627
+ "learning_rate": 4.618286168076993e-05,
5628
+ "loss": 0.8513,
5629
+ "step": 796
5630
+ },
5631
+ {
5632
+ "epoch": 0.400133880010041,
5633
+ "grad_norm": 0.4828825891017914,
5634
+ "learning_rate": 4.607704521360776e-05,
5635
+ "loss": 0.8328,
5636
+ "step": 797
5637
+ },
5638
+ {
5639
+ "epoch": 0.40063593004769477,
5640
+ "grad_norm": 0.4649796187877655,
5641
+ "learning_rate": 4.597124642266788e-05,
5642
+ "loss": 0.7556,
5643
+ "step": 798
5644
+ },
5645
+ {
5646
+ "epoch": 0.4011379800853485,
5647
+ "grad_norm": 0.5552456974983215,
5648
+ "learning_rate": 4.5865465784663114e-05,
5649
+ "loss": 0.8184,
5650
+ "step": 799
5651
+ },
5652
+ {
5653
+ "epoch": 0.40164003012300226,
5654
+ "grad_norm": 0.706791341304779,
5655
+ "learning_rate": 4.575970377622456e-05,
5656
+ "loss": 0.7444,
5657
+ "step": 800
5658
+ },
5659
+ {
5660
+ "epoch": 0.402142080160656,
5661
+ "grad_norm": 0.4323110282421112,
5662
+ "learning_rate": 4.565396087389927e-05,
5663
+ "loss": 1.1972,
5664
+ "step": 801
5665
+ },
5666
+ {
5667
+ "epoch": 0.40264413019830975,
5668
+ "grad_norm": 0.354783833026886,
5669
+ "learning_rate": 4.554823755414829e-05,
5670
+ "loss": 1.1179,
5671
+ "step": 802
5672
+ },
5673
+ {
5674
+ "epoch": 0.4031461802359635,
5675
+ "grad_norm": 0.3601534068584442,
5676
+ "learning_rate": 4.544253429334444e-05,
5677
+ "loss": 1.1264,
5678
+ "step": 803
5679
+ },
5680
+ {
5681
+ "epoch": 0.4036482302736173,
5682
+ "grad_norm": 0.3654196858406067,
5683
+ "learning_rate": 4.5336851567770076e-05,
5684
+ "loss": 1.0834,
5685
+ "step": 804
5686
+ },
5687
+ {
5688
+ "epoch": 0.40415028031127104,
5689
+ "grad_norm": 0.3873622715473175,
5690
+ "learning_rate": 4.52311898536151e-05,
5691
+ "loss": 1.0247,
5692
+ "step": 805
5693
+ },
5694
+ {
5695
+ "epoch": 0.4046523303489248,
5696
+ "grad_norm": 0.37240368127822876,
5697
+ "learning_rate": 4.5125549626974696e-05,
5698
+ "loss": 1.0396,
5699
+ "step": 806
5700
+ },
5701
+ {
5702
+ "epoch": 0.4051543803865785,
5703
+ "grad_norm": 0.36485597491264343,
5704
+ "learning_rate": 4.5019931363847275e-05,
5705
+ "loss": 1.0249,
5706
+ "step": 807
5707
+ },
5708
+ {
5709
+ "epoch": 0.4056564304242323,
5710
+ "grad_norm": 0.38187476992607117,
5711
+ "learning_rate": 4.491433554013221e-05,
5712
+ "loss": 1.0405,
5713
+ "step": 808
5714
+ },
5715
+ {
5716
+ "epoch": 0.406158480461886,
5717
+ "grad_norm": 0.36962300539016724,
5718
+ "learning_rate": 4.480876263162783e-05,
5719
+ "loss": 1.0253,
5720
+ "step": 809
5721
+ },
5722
+ {
5723
+ "epoch": 0.40666053049953976,
5724
+ "grad_norm": 0.34921392798423767,
5725
+ "learning_rate": 4.47032131140292e-05,
5726
+ "loss": 1.016,
5727
+ "step": 810
5728
+ },
5729
+ {
5730
+ "epoch": 0.40716258053719356,
5731
+ "grad_norm": 0.3537079691886902,
5732
+ "learning_rate": 4.459768746292597e-05,
5733
+ "loss": 1.0478,
5734
+ "step": 811
5735
+ },
5736
+ {
5737
+ "epoch": 0.4076646305748473,
5738
+ "grad_norm": 0.3565637767314911,
5739
+ "learning_rate": 4.449218615380029e-05,
5740
+ "loss": 1.0148,
5741
+ "step": 812
5742
+ },
5743
+ {
5744
+ "epoch": 0.40816668061250105,
5745
+ "grad_norm": 0.35647860169410706,
5746
+ "learning_rate": 4.4386709662024544e-05,
5747
+ "loss": 0.9924,
5748
+ "step": 813
5749
+ },
5750
+ {
5751
+ "epoch": 0.4086687306501548,
5752
+ "grad_norm": 0.34907302260398865,
5753
+ "learning_rate": 4.4281258462859396e-05,
5754
+ "loss": 1.0018,
5755
+ "step": 814
5756
+ },
5757
+ {
5758
+ "epoch": 0.40917078068780854,
5759
+ "grad_norm": 0.3495464026927948,
5760
+ "learning_rate": 4.4175833031451473e-05,
5761
+ "loss": 0.9449,
5762
+ "step": 815
5763
+ },
5764
+ {
5765
+ "epoch": 0.4096728307254623,
5766
+ "grad_norm": 0.3409779369831085,
5767
+ "learning_rate": 4.407043384283136e-05,
5768
+ "loss": 0.9676,
5769
+ "step": 816
5770
+ },
5771
+ {
5772
+ "epoch": 0.41017488076311603,
5773
+ "grad_norm": 0.3575940430164337,
5774
+ "learning_rate": 4.396506137191131e-05,
5775
+ "loss": 0.9863,
5776
+ "step": 817
5777
+ },
5778
+ {
5779
+ "epoch": 0.41067693080076983,
5780
+ "grad_norm": 0.36198464035987854,
5781
+ "learning_rate": 4.3859716093483245e-05,
5782
+ "loss": 0.9905,
5783
+ "step": 818
5784
+ },
5785
+ {
5786
+ "epoch": 0.4111789808384236,
5787
+ "grad_norm": 0.34198319911956787,
5788
+ "learning_rate": 4.3754398482216606e-05,
5789
+ "loss": 0.9482,
5790
+ "step": 819
5791
+ },
5792
+ {
5793
+ "epoch": 0.4116810308760773,
5794
+ "grad_norm": 0.3572383224964142,
5795
+ "learning_rate": 4.364910901265606e-05,
5796
+ "loss": 0.934,
5797
+ "step": 820
5798
+ },
5799
+ {
5800
+ "epoch": 0.41218308091373107,
5801
+ "grad_norm": 0.3588048219680786,
5802
+ "learning_rate": 4.354384815921958e-05,
5803
+ "loss": 0.9856,
5804
+ "step": 821
5805
+ },
5806
+ {
5807
+ "epoch": 0.4126851309513848,
5808
+ "grad_norm": 0.3628753125667572,
5809
+ "learning_rate": 4.343861639619611e-05,
5810
+ "loss": 0.9762,
5811
+ "step": 822
5812
+ },
5813
+ {
5814
+ "epoch": 0.41318718098903856,
5815
+ "grad_norm": 0.3723025321960449,
5816
+ "learning_rate": 4.3333414197743595e-05,
5817
+ "loss": 0.9704,
5818
+ "step": 823
5819
+ },
5820
+ {
5821
+ "epoch": 0.4136892310266923,
5822
+ "grad_norm": 0.3608042597770691,
5823
+ "learning_rate": 4.322824203788669e-05,
5824
+ "loss": 0.951,
5825
+ "step": 824
5826
+ },
5827
+ {
5828
+ "epoch": 0.4141912810643461,
5829
+ "grad_norm": 0.3752797245979309,
5830
+ "learning_rate": 4.3123100390514756e-05,
5831
+ "loss": 0.9878,
5832
+ "step": 825
5833
+ },
5834
+ {
5835
+ "epoch": 0.41469333110199985,
5836
+ "grad_norm": 0.37421780824661255,
5837
+ "learning_rate": 4.3017989729379675e-05,
5838
+ "loss": 0.9776,
5839
+ "step": 826
5840
+ },
5841
+ {
5842
+ "epoch": 0.4151953811396536,
5843
+ "grad_norm": 0.3613242506980896,
5844
+ "learning_rate": 4.291291052809366e-05,
5845
+ "loss": 0.9205,
5846
+ "step": 827
5847
+ },
5848
+ {
5849
+ "epoch": 0.41569743117730734,
5850
+ "grad_norm": 0.3855215609073639,
5851
+ "learning_rate": 4.280786326012723e-05,
5852
+ "loss": 0.986,
5853
+ "step": 828
5854
+ },
5855
+ {
5856
+ "epoch": 0.4161994812149611,
5857
+ "grad_norm": 0.41651931405067444,
5858
+ "learning_rate": 4.2702848398806956e-05,
5859
+ "loss": 0.9639,
5860
+ "step": 829
5861
+ },
5862
+ {
5863
+ "epoch": 0.41670153125261483,
5864
+ "grad_norm": 0.3905417323112488,
5865
+ "learning_rate": 4.2597866417313436e-05,
5866
+ "loss": 0.9319,
5867
+ "step": 830
5868
+ },
5869
+ {
5870
+ "epoch": 0.4172035812902686,
5871
+ "grad_norm": 0.4226928651332855,
5872
+ "learning_rate": 4.249291778867909e-05,
5873
+ "loss": 0.9213,
5874
+ "step": 831
5875
+ },
5876
+ {
5877
+ "epoch": 0.4177056313279223,
5878
+ "grad_norm": 0.382017582654953,
5879
+ "learning_rate": 4.23880029857861e-05,
5880
+ "loss": 0.8846,
5881
+ "step": 832
5882
+ },
5883
+ {
5884
+ "epoch": 0.4182076813655761,
5885
+ "grad_norm": 0.417928546667099,
5886
+ "learning_rate": 4.2283122481364144e-05,
5887
+ "loss": 0.9288,
5888
+ "step": 833
5889
+ },
5890
+ {
5891
+ "epoch": 0.41870973140322987,
5892
+ "grad_norm": 0.41737717390060425,
5893
+ "learning_rate": 4.2178276747988446e-05,
5894
+ "loss": 0.9423,
5895
+ "step": 834
5896
+ },
5897
+ {
5898
+ "epoch": 0.4192117814408836,
5899
+ "grad_norm": 0.39423155784606934,
5900
+ "learning_rate": 4.207346625807756e-05,
5901
+ "loss": 0.8894,
5902
+ "step": 835
5903
+ },
5904
+ {
5905
+ "epoch": 0.41971383147853736,
5906
+ "grad_norm": 0.427852064371109,
5907
+ "learning_rate": 4.196869148389114e-05,
5908
+ "loss": 0.9639,
5909
+ "step": 836
5910
+ },
5911
+ {
5912
+ "epoch": 0.4202158815161911,
5913
+ "grad_norm": 0.4028894007205963,
5914
+ "learning_rate": 4.1863952897528e-05,
5915
+ "loss": 0.9309,
5916
+ "step": 837
5917
+ },
5918
+ {
5919
+ "epoch": 0.42071793155384485,
5920
+ "grad_norm": 0.42165279388427734,
5921
+ "learning_rate": 4.175925097092388e-05,
5922
+ "loss": 0.9514,
5923
+ "step": 838
5924
+ },
5925
+ {
5926
+ "epoch": 0.4212199815914986,
5927
+ "grad_norm": 0.4179115295410156,
5928
+ "learning_rate": 4.165458617584933e-05,
5929
+ "loss": 0.8544,
5930
+ "step": 839
5931
+ },
5932
+ {
5933
+ "epoch": 0.4217220316291524,
5934
+ "grad_norm": 0.479951947927475,
5935
+ "learning_rate": 4.1549958983907555e-05,
5936
+ "loss": 0.811,
5937
+ "step": 840
5938
+ },
5939
+ {
5940
+ "epoch": 0.42222408166680614,
5941
+ "grad_norm": 0.45290902256965637,
5942
+ "learning_rate": 4.144536986653239e-05,
5943
+ "loss": 0.8243,
5944
+ "step": 841
5945
+ },
5946
+ {
5947
+ "epoch": 0.4227261317044599,
5948
+ "grad_norm": 0.4473222494125366,
5949
+ "learning_rate": 4.1340819294986076e-05,
5950
+ "loss": 0.8137,
5951
+ "step": 842
5952
+ },
5953
+ {
5954
+ "epoch": 0.42322818174211363,
5955
+ "grad_norm": 0.42771241068840027,
5956
+ "learning_rate": 4.1236307740357173e-05,
5957
+ "loss": 0.8189,
5958
+ "step": 843
5959
+ },
5960
+ {
5961
+ "epoch": 0.4237302317797674,
5962
+ "grad_norm": 0.45651838183403015,
5963
+ "learning_rate": 4.113183567355846e-05,
5964
+ "loss": 0.8224,
5965
+ "step": 844
5966
+ },
5967
+ {
5968
+ "epoch": 0.4242322818174211,
5969
+ "grad_norm": 0.4706350266933441,
5970
+ "learning_rate": 4.102740356532473e-05,
5971
+ "loss": 0.8297,
5972
+ "step": 845
5973
+ },
5974
+ {
5975
+ "epoch": 0.42473433185507486,
5976
+ "grad_norm": 0.4705800712108612,
5977
+ "learning_rate": 4.092301188621084e-05,
5978
+ "loss": 0.7732,
5979
+ "step": 846
5980
+ },
5981
+ {
5982
+ "epoch": 0.42523638189272867,
5983
+ "grad_norm": 0.5137692093849182,
5984
+ "learning_rate": 4.081866110658934e-05,
5985
+ "loss": 0.8374,
5986
+ "step": 847
5987
+ },
5988
+ {
5989
+ "epoch": 0.4257384319303824,
5990
+ "grad_norm": 0.5054532885551453,
5991
+ "learning_rate": 4.0714351696648614e-05,
5992
+ "loss": 0.8556,
5993
+ "step": 848
5994
+ },
5995
+ {
5996
+ "epoch": 0.42624048196803616,
5997
+ "grad_norm": 0.5825408697128296,
5998
+ "learning_rate": 4.061008412639055e-05,
5999
+ "loss": 0.8321,
6000
+ "step": 849
6001
+ },
6002
+ {
6003
+ "epoch": 0.4267425320056899,
6004
+ "grad_norm": 0.6395136117935181,
6005
+ "learning_rate": 4.050585886562858e-05,
6006
+ "loss": 0.721,
6007
+ "step": 850
6008
+ },
6009
+ {
6010
+ "epoch": 0.42724458204334365,
6011
+ "grad_norm": 0.5878275632858276,
6012
+ "learning_rate": 4.0401676383985484e-05,
6013
+ "loss": 1.3045,
6014
+ "step": 851
6015
+ },
6016
+ {
6017
+ "epoch": 0.4277466320809974,
6018
+ "grad_norm": 0.3765466511249542,
6019
+ "learning_rate": 4.0297537150891235e-05,
6020
+ "loss": 1.1244,
6021
+ "step": 852
6022
+ },
6023
+ {
6024
+ "epoch": 0.42824868211865114,
6025
+ "grad_norm": 0.38248923420906067,
6026
+ "learning_rate": 4.0193441635581e-05,
6027
+ "loss": 1.1962,
6028
+ "step": 853
6029
+ },
6030
+ {
6031
+ "epoch": 0.42875073215630494,
6032
+ "grad_norm": 0.3714083433151245,
6033
+ "learning_rate": 4.008939030709291e-05,
6034
+ "loss": 1.026,
6035
+ "step": 854
6036
+ },
6037
+ {
6038
+ "epoch": 0.4292527821939587,
6039
+ "grad_norm": 0.3839676082134247,
6040
+ "learning_rate": 3.998538363426605e-05,
6041
+ "loss": 1.101,
6042
+ "step": 855
6043
+ },
6044
+ {
6045
+ "epoch": 0.4297548322316124,
6046
+ "grad_norm": 0.3552037477493286,
6047
+ "learning_rate": 3.988142208573822e-05,
6048
+ "loss": 1.0671,
6049
+ "step": 856
6050
+ },
6051
+ {
6052
+ "epoch": 0.43025688226926617,
6053
+ "grad_norm": 0.36277374625205994,
6054
+ "learning_rate": 3.977750612994396e-05,
6055
+ "loss": 1.115,
6056
+ "step": 857
6057
+ },
6058
+ {
6059
+ "epoch": 0.4307589323069199,
6060
+ "grad_norm": 0.3462297022342682,
6061
+ "learning_rate": 3.9673636235112376e-05,
6062
+ "loss": 1.0309,
6063
+ "step": 858
6064
+ },
6065
+ {
6066
+ "epoch": 0.43126098234457366,
6067
+ "grad_norm": 0.3610150218009949,
6068
+ "learning_rate": 3.956981286926498e-05,
6069
+ "loss": 1.0359,
6070
+ "step": 859
6071
+ },
6072
+ {
6073
+ "epoch": 0.4317630323822274,
6074
+ "grad_norm": 0.35921838879585266,
6075
+ "learning_rate": 3.94660365002137e-05,
6076
+ "loss": 1.0397,
6077
+ "step": 860
6078
+ },
6079
+ {
6080
+ "epoch": 0.4322650824198812,
6081
+ "grad_norm": 0.3716135621070862,
6082
+ "learning_rate": 3.93623075955586e-05,
6083
+ "loss": 1.0673,
6084
+ "step": 861
6085
+ },
6086
+ {
6087
+ "epoch": 0.43276713245753495,
6088
+ "grad_norm": 0.37005794048309326,
6089
+ "learning_rate": 3.925862662268602e-05,
6090
+ "loss": 1.0354,
6091
+ "step": 862
6092
+ },
6093
+ {
6094
+ "epoch": 0.4332691824951887,
6095
+ "grad_norm": 0.34723684191703796,
6096
+ "learning_rate": 3.9154994048766184e-05,
6097
+ "loss": 1.0334,
6098
+ "step": 863
6099
+ },
6100
+ {
6101
+ "epoch": 0.43377123253284244,
6102
+ "grad_norm": 0.3506997525691986,
6103
+ "learning_rate": 3.905141034075135e-05,
6104
+ "loss": 0.9656,
6105
+ "step": 864
6106
+ },
6107
+ {
6108
+ "epoch": 0.4342732825704962,
6109
+ "grad_norm": 0.37688568234443665,
6110
+ "learning_rate": 3.894787596537352e-05,
6111
+ "loss": 0.9302,
6112
+ "step": 865
6113
+ },
6114
+ {
6115
+ "epoch": 0.43477533260814993,
6116
+ "grad_norm": 0.3472607433795929,
6117
+ "learning_rate": 3.884439138914243e-05,
6118
+ "loss": 0.9686,
6119
+ "step": 866
6120
+ },
6121
+ {
6122
+ "epoch": 0.4352773826458037,
6123
+ "grad_norm": 0.35843560099601746,
6124
+ "learning_rate": 3.874095707834349e-05,
6125
+ "loss": 0.9701,
6126
+ "step": 867
6127
+ },
6128
+ {
6129
+ "epoch": 0.4357794326834574,
6130
+ "grad_norm": 0.3564199209213257,
6131
+ "learning_rate": 3.863757349903551e-05,
6132
+ "loss": 1.0456,
6133
+ "step": 868
6134
+ },
6135
+ {
6136
+ "epoch": 0.4362814827211112,
6137
+ "grad_norm": 0.38524752855300903,
6138
+ "learning_rate": 3.853424111704879e-05,
6139
+ "loss": 0.9603,
6140
+ "step": 869
6141
+ },
6142
+ {
6143
+ "epoch": 0.43678353275876497,
6144
+ "grad_norm": 0.3552170693874359,
6145
+ "learning_rate": 3.843096039798293e-05,
6146
+ "loss": 0.9274,
6147
+ "step": 870
6148
+ },
6149
+ {
6150
+ "epoch": 0.4372855827964187,
6151
+ "grad_norm": 0.37275344133377075,
6152
+ "learning_rate": 3.832773180720475e-05,
6153
+ "loss": 1.0213,
6154
+ "step": 871
6155
+ },
6156
+ {
6157
+ "epoch": 0.43778763283407246,
6158
+ "grad_norm": 0.3630153238773346,
6159
+ "learning_rate": 3.822455580984613e-05,
6160
+ "loss": 0.9482,
6161
+ "step": 872
6162
+ },
6163
+ {
6164
+ "epoch": 0.4382896828717262,
6165
+ "grad_norm": 0.36190661787986755,
6166
+ "learning_rate": 3.8121432870802045e-05,
6167
+ "loss": 0.881,
6168
+ "step": 873
6169
+ },
6170
+ {
6171
+ "epoch": 0.43879173290937995,
6172
+ "grad_norm": 0.3701936602592468,
6173
+ "learning_rate": 3.801836345472841e-05,
6174
+ "loss": 1.0065,
6175
+ "step": 874
6176
+ },
6177
+ {
6178
+ "epoch": 0.4392937829470337,
6179
+ "grad_norm": 0.4397743344306946,
6180
+ "learning_rate": 3.791534802603988e-05,
6181
+ "loss": 0.9938,
6182
+ "step": 875
6183
+ },
6184
+ {
6185
+ "epoch": 0.4397958329846875,
6186
+ "grad_norm": 0.36815145611763,
6187
+ "learning_rate": 3.781238704890793e-05,
6188
+ "loss": 0.9628,
6189
+ "step": 876
6190
+ },
6191
+ {
6192
+ "epoch": 0.44029788302234124,
6193
+ "grad_norm": 0.3762166500091553,
6194
+ "learning_rate": 3.7709480987258636e-05,
6195
+ "loss": 0.9478,
6196
+ "step": 877
6197
+ },
6198
+ {
6199
+ "epoch": 0.440799933059995,
6200
+ "grad_norm": 0.39231258630752563,
6201
+ "learning_rate": 3.760663030477072e-05,
6202
+ "loss": 1.0166,
6203
+ "step": 878
6204
+ },
6205
+ {
6206
+ "epoch": 0.44130198309764873,
6207
+ "grad_norm": 0.38583433628082275,
6208
+ "learning_rate": 3.750383546487324e-05,
6209
+ "loss": 0.9232,
6210
+ "step": 879
6211
+ },
6212
+ {
6213
+ "epoch": 0.4418040331353025,
6214
+ "grad_norm": 0.3934246301651001,
6215
+ "learning_rate": 3.740109693074375e-05,
6216
+ "loss": 0.9657,
6217
+ "step": 880
6218
+ },
6219
+ {
6220
+ "epoch": 0.4423060831729562,
6221
+ "grad_norm": 0.4055297374725342,
6222
+ "learning_rate": 3.729841516530604e-05,
6223
+ "loss": 0.9054,
6224
+ "step": 881
6225
+ },
6226
+ {
6227
+ "epoch": 0.44280813321060997,
6228
+ "grad_norm": 0.4082297682762146,
6229
+ "learning_rate": 3.7195790631228136e-05,
6230
+ "loss": 0.9365,
6231
+ "step": 882
6232
+ },
6233
+ {
6234
+ "epoch": 0.44331018324826377,
6235
+ "grad_norm": 0.39798596501350403,
6236
+ "learning_rate": 3.709322379092019e-05,
6237
+ "loss": 0.9023,
6238
+ "step": 883
6239
+ },
6240
+ {
6241
+ "epoch": 0.4438122332859175,
6242
+ "grad_norm": 0.418045312166214,
6243
+ "learning_rate": 3.6990715106532356e-05,
6244
+ "loss": 0.9233,
6245
+ "step": 884
6246
+ },
6247
+ {
6248
+ "epoch": 0.44431428332357126,
6249
+ "grad_norm": 0.4316072463989258,
6250
+ "learning_rate": 3.68882650399528e-05,
6251
+ "loss": 0.8931,
6252
+ "step": 885
6253
+ },
6254
+ {
6255
+ "epoch": 0.444816333361225,
6256
+ "grad_norm": 0.42850467562675476,
6257
+ "learning_rate": 3.6785874052805516e-05,
6258
+ "loss": 0.8839,
6259
+ "step": 886
6260
+ },
6261
+ {
6262
+ "epoch": 0.44531838339887875,
6263
+ "grad_norm": 0.4238118529319763,
6264
+ "learning_rate": 3.6683542606448347e-05,
6265
+ "loss": 0.9291,
6266
+ "step": 887
6267
+ },
6268
+ {
6269
+ "epoch": 0.4458204334365325,
6270
+ "grad_norm": 0.415999174118042,
6271
+ "learning_rate": 3.658127116197079e-05,
6272
+ "loss": 0.9257,
6273
+ "step": 888
6274
+ },
6275
+ {
6276
+ "epoch": 0.44632248347418624,
6277
+ "grad_norm": 0.4444602131843567,
6278
+ "learning_rate": 3.6479060180192034e-05,
6279
+ "loss": 0.8785,
6280
+ "step": 889
6281
+ },
6282
+ {
6283
+ "epoch": 0.44682453351184004,
6284
+ "grad_norm": 0.4339217245578766,
6285
+ "learning_rate": 3.637691012165886e-05,
6286
+ "loss": 0.7952,
6287
+ "step": 890
6288
+ },
6289
+ {
6290
+ "epoch": 0.4473265835494938,
6291
+ "grad_norm": 0.4458482563495636,
6292
+ "learning_rate": 3.627482144664344e-05,
6293
+ "loss": 0.8247,
6294
+ "step": 891
6295
+ },
6296
+ {
6297
+ "epoch": 0.44782863358714753,
6298
+ "grad_norm": 0.4593295454978943,
6299
+ "learning_rate": 3.6172794615141446e-05,
6300
+ "loss": 0.8401,
6301
+ "step": 892
6302
+ },
6303
+ {
6304
+ "epoch": 0.4483306836248013,
6305
+ "grad_norm": 0.47604867815971375,
6306
+ "learning_rate": 3.607083008686985e-05,
6307
+ "loss": 0.8271,
6308
+ "step": 893
6309
+ },
6310
+ {
6311
+ "epoch": 0.448832733662455,
6312
+ "grad_norm": 0.45923951268196106,
6313
+ "learning_rate": 3.596892832126494e-05,
6314
+ "loss": 0.858,
6315
+ "step": 894
6316
+ },
6317
+ {
6318
+ "epoch": 0.44933478370010876,
6319
+ "grad_norm": 0.4550018608570099,
6320
+ "learning_rate": 3.586708977748012e-05,
6321
+ "loss": 0.7788,
6322
+ "step": 895
6323
+ },
6324
+ {
6325
+ "epoch": 0.4498368337377625,
6326
+ "grad_norm": 0.4726627469062805,
6327
+ "learning_rate": 3.5765314914384026e-05,
6328
+ "loss": 0.8576,
6329
+ "step": 896
6330
+ },
6331
+ {
6332
+ "epoch": 0.4503388837754163,
6333
+ "grad_norm": 0.4911380708217621,
6334
+ "learning_rate": 3.5663604190558296e-05,
6335
+ "loss": 0.8507,
6336
+ "step": 897
6337
+ },
6338
+ {
6339
+ "epoch": 0.45084093381307005,
6340
+ "grad_norm": 0.5006689429283142,
6341
+ "learning_rate": 3.556195806429559e-05,
6342
+ "loss": 0.7908,
6343
+ "step": 898
6344
+ },
6345
+ {
6346
+ "epoch": 0.4513429838507238,
6347
+ "grad_norm": 0.6167373061180115,
6348
+ "learning_rate": 3.546037699359751e-05,
6349
+ "loss": 0.7922,
6350
+ "step": 899
6351
+ },
6352
+ {
6353
+ "epoch": 0.45184503388837755,
6354
+ "grad_norm": 0.6547103524208069,
6355
+ "learning_rate": 3.5358861436172485e-05,
6356
+ "loss": 0.6946,
6357
+ "step": 900
6358
+ },
6359
+ {
6360
+ "epoch": 0.45184503388837755,
6361
+ "eval_loss": 0.9426594972610474,
6362
+ "eval_runtime": 710.4868,
6363
+ "eval_samples_per_second": 21.249,
6364
+ "eval_steps_per_second": 2.657,
6365
+ "step": 900
6366
  }
6367
  ],
6368
  "logging_steps": 1,
 
6391
  "attributes": {}
6392
  }
6393
  },
6394
+ "total_flos": 6.249771756744081e+18,
6395
  "train_batch_size": 12,
6396
  "trial_name": null,
6397
  "trial_params": null