broodmother41 commited on
Commit
c5190f8
·
verified ·
1 Parent(s): 85e1b7d

Training in progress, step 1050, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b238803b5ab423fcfdfa50c5dc053433692254a3ca06ac2d71d070880333609e
3
  size 54285928
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3b5640fad40281fd5d639511356095a8552ab13034cf39c186ed59e06ab055a1
3
  size 54285928
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3db6431115c94e681ce783e36dc77a32dd0831c3b7f79f9533c228ccd5380706
3
  size 27753786
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b1e01ad8da81a858e8e938a7bdca8254bfa5438d6b1c7251bdd13f12c56d5e1f
3
  size 27753786
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2011d0c8e8d7d8d06db7ebadff7a48cd869ab189a6ecce61d1f9422b33419fed
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:508337fd7bc9ca1cce78c0c53b3e5fba6c6a4bdf1bdeb4293058ee7e7b6238a1
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:06f4266b84a769dbc0d1e4ea75ac552117459ad3ed7b0eb377203cd6ed054af0
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1a5cc0d0ebf737ac8a43a5138b0ded560b01a769ad496c84f0d332e37eb84e28
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 1.3344465494155884,
3
- "best_model_checkpoint": "miner_id_24/checkpoint-900",
4
- "epoch": 0.8277765003449069,
5
  "eval_steps": 150,
6
- "global_step": 900,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -6363,6 +6363,1064 @@
6363
  "eval_samples_per_second": 164.986,
6364
  "eval_steps_per_second": 20.623,
6365
  "step": 900
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6366
  }
6367
  ],
6368
  "logging_steps": 1,
@@ -6391,7 +7449,7 @@
6391
  "attributes": {}
6392
  }
6393
  },
6394
- "total_flos": 1.63537390927872e+17,
6395
  "train_batch_size": 12,
6396
  "trial_name": null,
6397
  "trial_params": null
 
1
  {
2
+ "best_metric": 1.3224910497665405,
3
+ "best_model_checkpoint": "miner_id_24/checkpoint-1050",
4
+ "epoch": 0.9657392504023914,
5
  "eval_steps": 150,
6
+ "global_step": 1050,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
6363
  "eval_samples_per_second": 164.986,
6364
  "eval_steps_per_second": 20.623,
6365
  "step": 900
6366
+ },
6367
+ {
6368
+ "epoch": 0.8286962520119567,
6369
+ "grad_norm": 0.8766337037086487,
6370
+ "learning_rate": 7.375678447088347e-06,
6371
+ "loss": 1.5154,
6372
+ "step": 901
6373
+ },
6374
+ {
6375
+ "epoch": 0.8296160036790067,
6376
+ "grad_norm": 0.8737375140190125,
6377
+ "learning_rate": 7.298977877893687e-06,
6378
+ "loss": 1.4447,
6379
+ "step": 902
6380
+ },
6381
+ {
6382
+ "epoch": 0.8305357553460566,
6383
+ "grad_norm": 0.9431170225143433,
6384
+ "learning_rate": 7.222646792325516e-06,
6385
+ "loss": 1.4588,
6386
+ "step": 903
6387
+ },
6388
+ {
6389
+ "epoch": 0.8314555070131064,
6390
+ "grad_norm": 0.9367691874504089,
6391
+ "learning_rate": 7.146685850861851e-06,
6392
+ "loss": 1.4205,
6393
+ "step": 904
6394
+ },
6395
+ {
6396
+ "epoch": 0.8323752586801564,
6397
+ "grad_norm": 0.812258780002594,
6398
+ "learning_rate": 7.071095710777925e-06,
6399
+ "loss": 1.4177,
6400
+ "step": 905
6401
+ },
6402
+ {
6403
+ "epoch": 0.8332950103472062,
6404
+ "grad_norm": 0.7034198045730591,
6405
+ "learning_rate": 6.995877026140468e-06,
6406
+ "loss": 1.4146,
6407
+ "step": 906
6408
+ },
6409
+ {
6410
+ "epoch": 0.8342147620142562,
6411
+ "grad_norm": 0.7884905934333801,
6412
+ "learning_rate": 6.921030447802146e-06,
6413
+ "loss": 1.4616,
6414
+ "step": 907
6415
+ },
6416
+ {
6417
+ "epoch": 0.8351345136813061,
6418
+ "grad_norm": 0.8112537860870361,
6419
+ "learning_rate": 6.8465566233957945e-06,
6420
+ "loss": 1.3435,
6421
+ "step": 908
6422
+ },
6423
+ {
6424
+ "epoch": 0.8360542653483559,
6425
+ "grad_norm": 0.7667593955993652,
6426
+ "learning_rate": 6.772456197328919e-06,
6427
+ "loss": 1.464,
6428
+ "step": 909
6429
+ },
6430
+ {
6431
+ "epoch": 0.8369740170154059,
6432
+ "grad_norm": 0.762269914150238,
6433
+ "learning_rate": 6.698729810778065e-06,
6434
+ "loss": 1.4473,
6435
+ "step": 910
6436
+ },
6437
+ {
6438
+ "epoch": 0.8378937686824557,
6439
+ "grad_norm": 0.852673351764679,
6440
+ "learning_rate": 6.625378101683316e-06,
6441
+ "loss": 1.4215,
6442
+ "step": 911
6443
+ },
6444
+ {
6445
+ "epoch": 0.8388135203495056,
6446
+ "grad_norm": 0.7429057359695435,
6447
+ "learning_rate": 6.552401704742678e-06,
6448
+ "loss": 1.4426,
6449
+ "step": 912
6450
+ },
6451
+ {
6452
+ "epoch": 0.8397332720165556,
6453
+ "grad_norm": 0.6884950995445251,
6454
+ "learning_rate": 6.4798012514067475e-06,
6455
+ "loss": 1.4016,
6456
+ "step": 913
6457
+ },
6458
+ {
6459
+ "epoch": 0.8406530236836054,
6460
+ "grad_norm": 0.6550636291503906,
6461
+ "learning_rate": 6.407577369873069e-06,
6462
+ "loss": 1.4468,
6463
+ "step": 914
6464
+ },
6465
+ {
6466
+ "epoch": 0.8415727753506553,
6467
+ "grad_norm": 0.5837852358818054,
6468
+ "learning_rate": 6.335730685080837e-06,
6469
+ "loss": 1.4036,
6470
+ "step": 915
6471
+ },
6472
+ {
6473
+ "epoch": 0.8424925270177053,
6474
+ "grad_norm": 0.5570608377456665,
6475
+ "learning_rate": 6.264261818705419e-06,
6476
+ "loss": 1.3483,
6477
+ "step": 916
6478
+ },
6479
+ {
6480
+ "epoch": 0.8434122786847551,
6481
+ "grad_norm": 0.7056939005851746,
6482
+ "learning_rate": 6.193171389152997e-06,
6483
+ "loss": 1.3397,
6484
+ "step": 917
6485
+ },
6486
+ {
6487
+ "epoch": 0.844332030351805,
6488
+ "grad_norm": 0.623600423336029,
6489
+ "learning_rate": 6.122460011555187e-06,
6490
+ "loss": 1.4304,
6491
+ "step": 918
6492
+ },
6493
+ {
6494
+ "epoch": 0.8452517820188549,
6495
+ "grad_norm": 0.6012278199195862,
6496
+ "learning_rate": 6.052128297763804e-06,
6497
+ "loss": 1.3684,
6498
+ "step": 919
6499
+ },
6500
+ {
6501
+ "epoch": 0.8461715336859048,
6502
+ "grad_norm": 0.582744836807251,
6503
+ "learning_rate": 5.982176856345445e-06,
6504
+ "loss": 1.4205,
6505
+ "step": 920
6506
+ },
6507
+ {
6508
+ "epoch": 0.8470912853529547,
6509
+ "grad_norm": 0.5616964101791382,
6510
+ "learning_rate": 5.912606292576283e-06,
6511
+ "loss": 1.3209,
6512
+ "step": 921
6513
+ },
6514
+ {
6515
+ "epoch": 0.8480110370200046,
6516
+ "grad_norm": 0.5474282503128052,
6517
+ "learning_rate": 5.843417208436908e-06,
6518
+ "loss": 1.4125,
6519
+ "step": 922
6520
+ },
6521
+ {
6522
+ "epoch": 0.8489307886870545,
6523
+ "grad_norm": 0.533388614654541,
6524
+ "learning_rate": 5.774610202606939e-06,
6525
+ "loss": 1.4116,
6526
+ "step": 923
6527
+ },
6528
+ {
6529
+ "epoch": 0.8498505403541043,
6530
+ "grad_norm": 0.5694478154182434,
6531
+ "learning_rate": 5.706185870460018e-06,
6532
+ "loss": 1.509,
6533
+ "step": 924
6534
+ },
6535
+ {
6536
+ "epoch": 0.8507702920211543,
6537
+ "grad_norm": 0.5748287439346313,
6538
+ "learning_rate": 5.638144804058559e-06,
6539
+ "loss": 1.3528,
6540
+ "step": 925
6541
+ },
6542
+ {
6543
+ "epoch": 0.8516900436882042,
6544
+ "grad_norm": 0.6192615032196045,
6545
+ "learning_rate": 5.5704875921486655e-06,
6546
+ "loss": 1.3098,
6547
+ "step": 926
6548
+ },
6549
+ {
6550
+ "epoch": 0.852609795355254,
6551
+ "grad_norm": 0.6460704207420349,
6552
+ "learning_rate": 5.503214820154978e-06,
6553
+ "loss": 1.3839,
6554
+ "step": 927
6555
+ },
6556
+ {
6557
+ "epoch": 0.853529547022304,
6558
+ "grad_norm": 0.620794951915741,
6559
+ "learning_rate": 5.436327070175728e-06,
6560
+ "loss": 1.4197,
6561
+ "step": 928
6562
+ },
6563
+ {
6564
+ "epoch": 0.8544492986893538,
6565
+ "grad_norm": 0.6275455355644226,
6566
+ "learning_rate": 5.369824920977568e-06,
6567
+ "loss": 1.2891,
6568
+ "step": 929
6569
+ },
6570
+ {
6571
+ "epoch": 0.8553690503564038,
6572
+ "grad_norm": 0.5857694149017334,
6573
+ "learning_rate": 5.303708947990637e-06,
6574
+ "loss": 1.3334,
6575
+ "step": 930
6576
+ },
6577
+ {
6578
+ "epoch": 0.8562888020234537,
6579
+ "grad_norm": 0.6003711819648743,
6580
+ "learning_rate": 5.2379797233035824e-06,
6581
+ "loss": 1.395,
6582
+ "step": 931
6583
+ },
6584
+ {
6585
+ "epoch": 0.8572085536905035,
6586
+ "grad_norm": 0.6273806095123291,
6587
+ "learning_rate": 5.1726378156585816e-06,
6588
+ "loss": 1.2778,
6589
+ "step": 932
6590
+ },
6591
+ {
6592
+ "epoch": 0.8581283053575535,
6593
+ "grad_norm": 0.6366182565689087,
6594
+ "learning_rate": 5.10768379044641e-06,
6595
+ "loss": 1.3508,
6596
+ "step": 933
6597
+ },
6598
+ {
6599
+ "epoch": 0.8590480570246034,
6600
+ "grad_norm": 0.6845077872276306,
6601
+ "learning_rate": 5.043118209701631e-06,
6602
+ "loss": 1.2843,
6603
+ "step": 934
6604
+ },
6605
+ {
6606
+ "epoch": 0.8599678086916532,
6607
+ "grad_norm": 0.6707909107208252,
6608
+ "learning_rate": 4.978941632097611e-06,
6609
+ "loss": 1.3239,
6610
+ "step": 935
6611
+ },
6612
+ {
6613
+ "epoch": 0.8608875603587032,
6614
+ "grad_norm": 0.7041406631469727,
6615
+ "learning_rate": 4.9151546129417804e-06,
6616
+ "loss": 1.2556,
6617
+ "step": 936
6618
+ },
6619
+ {
6620
+ "epoch": 0.861807312025753,
6621
+ "grad_norm": 0.6683023571968079,
6622
+ "learning_rate": 4.8517577041707955e-06,
6623
+ "loss": 1.289,
6624
+ "step": 937
6625
+ },
6626
+ {
6627
+ "epoch": 0.8627270636928029,
6628
+ "grad_norm": 0.6463608741760254,
6629
+ "learning_rate": 4.788751454345763e-06,
6630
+ "loss": 1.225,
6631
+ "step": 938
6632
+ },
6633
+ {
6634
+ "epoch": 0.8636468153598529,
6635
+ "grad_norm": 0.6901978254318237,
6636
+ "learning_rate": 4.726136408647464e-06,
6637
+ "loss": 1.2177,
6638
+ "step": 939
6639
+ },
6640
+ {
6641
+ "epoch": 0.8645665670269027,
6642
+ "grad_norm": 0.6679742336273193,
6643
+ "learning_rate": 4.663913108871726e-06,
6644
+ "loss": 1.2586,
6645
+ "step": 940
6646
+ },
6647
+ {
6648
+ "epoch": 0.8654863186939526,
6649
+ "grad_norm": 0.6778735518455505,
6650
+ "learning_rate": 4.60208209342462e-06,
6651
+ "loss": 1.183,
6652
+ "step": 941
6653
+ },
6654
+ {
6655
+ "epoch": 0.8664060703610025,
6656
+ "grad_norm": 0.6251430511474609,
6657
+ "learning_rate": 4.540643897317887e-06,
6658
+ "loss": 1.2523,
6659
+ "step": 942
6660
+ },
6661
+ {
6662
+ "epoch": 0.8673258220280524,
6663
+ "grad_norm": 0.6894196271896362,
6664
+ "learning_rate": 4.479599052164268e-06,
6665
+ "loss": 1.183,
6666
+ "step": 943
6667
+ },
6668
+ {
6669
+ "epoch": 0.8682455736951024,
6670
+ "grad_norm": 0.6839209198951721,
6671
+ "learning_rate": 4.418948086172914e-06,
6672
+ "loss": 1.1992,
6673
+ "step": 944
6674
+ },
6675
+ {
6676
+ "epoch": 0.8691653253621522,
6677
+ "grad_norm": 0.7572594285011292,
6678
+ "learning_rate": 4.35869152414482e-06,
6679
+ "loss": 1.1731,
6680
+ "step": 945
6681
+ },
6682
+ {
6683
+ "epoch": 0.8700850770292021,
6684
+ "grad_norm": 0.7147699594497681,
6685
+ "learning_rate": 4.298829887468275e-06,
6686
+ "loss": 1.1665,
6687
+ "step": 946
6688
+ },
6689
+ {
6690
+ "epoch": 0.8710048286962521,
6691
+ "grad_norm": 0.7666782736778259,
6692
+ "learning_rate": 4.2393636941143675e-06,
6693
+ "loss": 1.149,
6694
+ "step": 947
6695
+ },
6696
+ {
6697
+ "epoch": 0.8719245803633019,
6698
+ "grad_norm": 0.7843433022499084,
6699
+ "learning_rate": 4.180293458632489e-06,
6700
+ "loss": 1.0903,
6701
+ "step": 948
6702
+ },
6703
+ {
6704
+ "epoch": 0.8728443320303518,
6705
+ "grad_norm": 0.958113431930542,
6706
+ "learning_rate": 4.121619692145878e-06,
6707
+ "loss": 1.118,
6708
+ "step": 949
6709
+ },
6710
+ {
6711
+ "epoch": 0.8737640836974017,
6712
+ "grad_norm": 1.1284202337265015,
6713
+ "learning_rate": 4.0633429023472e-06,
6714
+ "loss": 0.9711,
6715
+ "step": 950
6716
+ },
6717
+ {
6718
+ "epoch": 0.8746838353644516,
6719
+ "grad_norm": 0.8368450403213501,
6720
+ "learning_rate": 4.005463593494163e-06,
6721
+ "loss": 1.4433,
6722
+ "step": 951
6723
+ },
6724
+ {
6725
+ "epoch": 0.8756035870315015,
6726
+ "grad_norm": 0.6638758182525635,
6727
+ "learning_rate": 3.947982266405159e-06,
6728
+ "loss": 1.4285,
6729
+ "step": 952
6730
+ },
6731
+ {
6732
+ "epoch": 0.8765233386985514,
6733
+ "grad_norm": 0.8789987564086914,
6734
+ "learning_rate": 3.890899418454913e-06,
6735
+ "loss": 1.4212,
6736
+ "step": 953
6737
+ },
6738
+ {
6739
+ "epoch": 0.8774430903656013,
6740
+ "grad_norm": 0.847080409526825,
6741
+ "learning_rate": 3.834215543570191e-06,
6742
+ "loss": 1.4124,
6743
+ "step": 954
6744
+ },
6745
+ {
6746
+ "epoch": 0.8783628420326511,
6747
+ "grad_norm": 0.9596214890480042,
6748
+ "learning_rate": 3.777931132225526e-06,
6749
+ "loss": 1.3723,
6750
+ "step": 955
6751
+ },
6752
+ {
6753
+ "epoch": 0.8792825936997011,
6754
+ "grad_norm": 0.9075647592544556,
6755
+ "learning_rate": 3.72204667143895e-06,
6756
+ "loss": 1.493,
6757
+ "step": 956
6758
+ },
6759
+ {
6760
+ "epoch": 0.880202345366751,
6761
+ "grad_norm": 0.780536413192749,
6762
+ "learning_rate": 3.6665626447678237e-06,
6763
+ "loss": 1.4126,
6764
+ "step": 957
6765
+ },
6766
+ {
6767
+ "epoch": 0.8811220970338008,
6768
+ "grad_norm": 0.6997688412666321,
6769
+ "learning_rate": 3.611479532304618e-06,
6770
+ "loss": 1.389,
6771
+ "step": 958
6772
+ },
6773
+ {
6774
+ "epoch": 0.8820418487008508,
6775
+ "grad_norm": 0.620875358581543,
6776
+ "learning_rate": 3.556797810672785e-06,
6777
+ "loss": 1.3514,
6778
+ "step": 959
6779
+ },
6780
+ {
6781
+ "epoch": 0.8829616003679006,
6782
+ "grad_norm": 0.6854445338249207,
6783
+ "learning_rate": 3.5025179530225994e-06,
6784
+ "loss": 1.4661,
6785
+ "step": 960
6786
+ },
6787
+ {
6788
+ "epoch": 0.8838813520349506,
6789
+ "grad_norm": 0.7020566463470459,
6790
+ "learning_rate": 3.4486404290271113e-06,
6791
+ "loss": 1.4115,
6792
+ "step": 961
6793
+ },
6794
+ {
6795
+ "epoch": 0.8848011037020005,
6796
+ "grad_norm": 0.6943616271018982,
6797
+ "learning_rate": 3.3951657048780227e-06,
6798
+ "loss": 1.4774,
6799
+ "step": 962
6800
+ },
6801
+ {
6802
+ "epoch": 0.8857208553690503,
6803
+ "grad_norm": 0.7479608654975891,
6804
+ "learning_rate": 3.3420942432817127e-06,
6805
+ "loss": 1.4625,
6806
+ "step": 963
6807
+ },
6808
+ {
6809
+ "epoch": 0.8866406070361003,
6810
+ "grad_norm": 0.7025173902511597,
6811
+ "learning_rate": 3.289426503455201e-06,
6812
+ "loss": 1.4019,
6813
+ "step": 964
6814
+ },
6815
+ {
6816
+ "epoch": 0.8875603587031502,
6817
+ "grad_norm": 0.673040509223938,
6818
+ "learning_rate": 3.2371629411221848e-06,
6819
+ "loss": 1.4343,
6820
+ "step": 965
6821
+ },
6822
+ {
6823
+ "epoch": 0.8884801103702,
6824
+ "grad_norm": 0.728541910648346,
6825
+ "learning_rate": 3.185304008509077e-06,
6826
+ "loss": 1.5093,
6827
+ "step": 966
6828
+ },
6829
+ {
6830
+ "epoch": 0.88939986203725,
6831
+ "grad_norm": 0.6773453950881958,
6832
+ "learning_rate": 3.133850154341139e-06,
6833
+ "loss": 1.4002,
6834
+ "step": 967
6835
+ },
6836
+ {
6837
+ "epoch": 0.8903196137042998,
6838
+ "grad_norm": 0.6363242864608765,
6839
+ "learning_rate": 3.082801823838527e-06,
6840
+ "loss": 1.4272,
6841
+ "step": 968
6842
+ },
6843
+ {
6844
+ "epoch": 0.8912393653713497,
6845
+ "grad_norm": 0.5722589492797852,
6846
+ "learning_rate": 3.032159458712508e-06,
6847
+ "loss": 1.3557,
6848
+ "step": 969
6849
+ },
6850
+ {
6851
+ "epoch": 0.8921591170383997,
6852
+ "grad_norm": 0.5886601209640503,
6853
+ "learning_rate": 2.981923497161615e-06,
6854
+ "loss": 1.3874,
6855
+ "step": 970
6856
+ },
6857
+ {
6858
+ "epoch": 0.8930788687054495,
6859
+ "grad_norm": 0.6230661273002625,
6860
+ "learning_rate": 2.9320943738678107e-06,
6861
+ "loss": 1.3784,
6862
+ "step": 971
6863
+ },
6864
+ {
6865
+ "epoch": 0.8939986203724994,
6866
+ "grad_norm": 0.5844275951385498,
6867
+ "learning_rate": 2.882672519992824e-06,
6868
+ "loss": 1.4153,
6869
+ "step": 972
6870
+ },
6871
+ {
6872
+ "epoch": 0.8949183720395493,
6873
+ "grad_norm": 0.6414538621902466,
6874
+ "learning_rate": 2.833658363174302e-06,
6875
+ "loss": 1.3611,
6876
+ "step": 973
6877
+ },
6878
+ {
6879
+ "epoch": 0.8958381237065992,
6880
+ "grad_norm": 0.6074815392494202,
6881
+ "learning_rate": 2.785052327522214e-06,
6882
+ "loss": 1.3607,
6883
+ "step": 974
6884
+ },
6885
+ {
6886
+ "epoch": 0.8967578753736491,
6887
+ "grad_norm": 0.5938957333564758,
6888
+ "learning_rate": 2.73685483361511e-06,
6889
+ "loss": 1.3765,
6890
+ "step": 975
6891
+ },
6892
+ {
6893
+ "epoch": 0.897677627040699,
6894
+ "grad_norm": 0.5869003534317017,
6895
+ "learning_rate": 2.6890662984965232e-06,
6896
+ "loss": 1.392,
6897
+ "step": 976
6898
+ },
6899
+ {
6900
+ "epoch": 0.8985973787077489,
6901
+ "grad_norm": 0.5588386654853821,
6902
+ "learning_rate": 2.6416871356713224e-06,
6903
+ "loss": 1.3047,
6904
+ "step": 977
6905
+ },
6906
+ {
6907
+ "epoch": 0.8995171303747989,
6908
+ "grad_norm": 0.5922186970710754,
6909
+ "learning_rate": 2.594717755102205e-06,
6910
+ "loss": 1.3928,
6911
+ "step": 978
6912
+ },
6913
+ {
6914
+ "epoch": 0.9004368820418487,
6915
+ "grad_norm": 0.5693724155426025,
6916
+ "learning_rate": 2.548158563206038e-06,
6917
+ "loss": 1.347,
6918
+ "step": 979
6919
+ },
6920
+ {
6921
+ "epoch": 0.9013566337088986,
6922
+ "grad_norm": 0.6117263436317444,
6923
+ "learning_rate": 2.50200996285046e-06,
6924
+ "loss": 1.3568,
6925
+ "step": 980
6926
+ },
6927
+ {
6928
+ "epoch": 0.9022763853759485,
6929
+ "grad_norm": 0.5885259509086609,
6930
+ "learning_rate": 2.4562723533503083e-06,
6931
+ "loss": 1.4184,
6932
+ "step": 981
6933
+ },
6934
+ {
6935
+ "epoch": 0.9031961370429984,
6936
+ "grad_norm": 0.6112256646156311,
6937
+ "learning_rate": 2.4109461304642256e-06,
6938
+ "loss": 1.3344,
6939
+ "step": 982
6940
+ },
6941
+ {
6942
+ "epoch": 0.9041158887100483,
6943
+ "grad_norm": 0.6500238180160522,
6944
+ "learning_rate": 2.366031686391168e-06,
6945
+ "loss": 1.3372,
6946
+ "step": 983
6947
+ },
6948
+ {
6949
+ "epoch": 0.9050356403770982,
6950
+ "grad_norm": 0.6185190677642822,
6951
+ "learning_rate": 2.3215294097670925e-06,
6952
+ "loss": 1.2273,
6953
+ "step": 984
6954
+ },
6955
+ {
6956
+ "epoch": 0.9059553920441481,
6957
+ "grad_norm": 0.6523995995521545,
6958
+ "learning_rate": 2.277439685661509e-06,
6959
+ "loss": 1.2538,
6960
+ "step": 985
6961
+ },
6962
+ {
6963
+ "epoch": 0.9068751437111979,
6964
+ "grad_norm": 0.7136437296867371,
6965
+ "learning_rate": 2.2337628955742264e-06,
6966
+ "loss": 1.3739,
6967
+ "step": 986
6968
+ },
6969
+ {
6970
+ "epoch": 0.9077948953782479,
6971
+ "grad_norm": 0.6043840050697327,
6972
+ "learning_rate": 2.1904994174319905e-06,
6973
+ "loss": 1.2184,
6974
+ "step": 987
6975
+ },
6976
+ {
6977
+ "epoch": 0.9087146470452978,
6978
+ "grad_norm": 0.6362565159797668,
6979
+ "learning_rate": 2.1476496255852683e-06,
6980
+ "loss": 1.1398,
6981
+ "step": 988
6982
+ },
6983
+ {
6984
+ "epoch": 0.9096343987123476,
6985
+ "grad_norm": 0.6597528457641602,
6986
+ "learning_rate": 2.1052138908049303e-06,
6987
+ "loss": 1.1972,
6988
+ "step": 989
6989
+ },
6990
+ {
6991
+ "epoch": 0.9105541503793976,
6992
+ "grad_norm": 0.679057240486145,
6993
+ "learning_rate": 2.0631925802791606e-06,
6994
+ "loss": 1.2572,
6995
+ "step": 990
6996
+ },
6997
+ {
6998
+ "epoch": 0.9114739020464474,
6999
+ "grad_norm": 0.6650072336196899,
7000
+ "learning_rate": 2.021586057610153e-06,
7001
+ "loss": 1.1868,
7002
+ "step": 991
7003
+ },
7004
+ {
7005
+ "epoch": 0.9123936537134973,
7006
+ "grad_norm": 0.6258329749107361,
7007
+ "learning_rate": 1.9803946828110375e-06,
7008
+ "loss": 1.209,
7009
+ "step": 992
7010
+ },
7011
+ {
7012
+ "epoch": 0.9133134053805473,
7013
+ "grad_norm": 0.6818736791610718,
7014
+ "learning_rate": 1.9396188123027737e-06,
7015
+ "loss": 1.2432,
7016
+ "step": 993
7017
+ },
7018
+ {
7019
+ "epoch": 0.9142331570475971,
7020
+ "grad_norm": 0.7300404906272888,
7021
+ "learning_rate": 1.8992587989110134e-06,
7022
+ "loss": 1.2549,
7023
+ "step": 994
7024
+ },
7025
+ {
7026
+ "epoch": 0.915152908714647,
7027
+ "grad_norm": 0.7216602563858032,
7028
+ "learning_rate": 1.8593149918630925e-06,
7029
+ "loss": 1.1911,
7030
+ "step": 995
7031
+ },
7032
+ {
7033
+ "epoch": 0.916072660381697,
7034
+ "grad_norm": 0.7485631704330444,
7035
+ "learning_rate": 1.8197877367849947e-06,
7036
+ "loss": 1.1326,
7037
+ "step": 996
7038
+ },
7039
+ {
7040
+ "epoch": 0.9169924120487468,
7041
+ "grad_norm": 0.8240882158279419,
7042
+ "learning_rate": 1.7806773756983642e-06,
7043
+ "loss": 1.1299,
7044
+ "step": 997
7045
+ },
7046
+ {
7047
+ "epoch": 0.9179121637157968,
7048
+ "grad_norm": 0.9147471189498901,
7049
+ "learning_rate": 1.7419842470175195e-06,
7050
+ "loss": 1.1179,
7051
+ "step": 998
7052
+ },
7053
+ {
7054
+ "epoch": 0.9188319153828466,
7055
+ "grad_norm": 0.9360700249671936,
7056
+ "learning_rate": 1.70370868554659e-06,
7057
+ "loss": 1.0562,
7058
+ "step": 999
7059
+ },
7060
+ {
7061
+ "epoch": 0.9197516670498965,
7062
+ "grad_norm": 1.174989104270935,
7063
+ "learning_rate": 1.6658510224765333e-06,
7064
+ "loss": 0.9121,
7065
+ "step": 1000
7066
+ },
7067
+ {
7068
+ "epoch": 0.9206714187169465,
7069
+ "grad_norm": 0.8917292952537537,
7070
+ "learning_rate": 1.6284115853823445e-06,
7071
+ "loss": 1.4961,
7072
+ "step": 1001
7073
+ },
7074
+ {
7075
+ "epoch": 0.9215911703839963,
7076
+ "grad_norm": 0.6432257890701294,
7077
+ "learning_rate": 1.5913906982201742e-06,
7078
+ "loss": 1.488,
7079
+ "step": 1002
7080
+ },
7081
+ {
7082
+ "epoch": 0.9225109220510462,
7083
+ "grad_norm": 0.7689481973648071,
7084
+ "learning_rate": 1.5547886813245539e-06,
7085
+ "loss": 1.4265,
7086
+ "step": 1003
7087
+ },
7088
+ {
7089
+ "epoch": 0.9234306737180961,
7090
+ "grad_norm": 0.7164052128791809,
7091
+ "learning_rate": 1.5186058514055912e-06,
7092
+ "loss": 1.4054,
7093
+ "step": 1004
7094
+ },
7095
+ {
7096
+ "epoch": 0.924350425385146,
7097
+ "grad_norm": 0.8932134509086609,
7098
+ "learning_rate": 1.4828425215462848e-06,
7099
+ "loss": 1.403,
7100
+ "step": 1005
7101
+ },
7102
+ {
7103
+ "epoch": 0.9252701770521959,
7104
+ "grad_norm": 0.8750680685043335,
7105
+ "learning_rate": 1.447499001199748e-06,
7106
+ "loss": 1.3956,
7107
+ "step": 1006
7108
+ },
7109
+ {
7110
+ "epoch": 0.9261899287192458,
7111
+ "grad_norm": 0.7176107168197632,
7112
+ "learning_rate": 1.4125755961865827e-06,
7113
+ "loss": 1.4235,
7114
+ "step": 1007
7115
+ },
7116
+ {
7117
+ "epoch": 0.9271096803862957,
7118
+ "grad_norm": 0.7204969525337219,
7119
+ "learning_rate": 1.3780726086922103e-06,
7120
+ "loss": 1.3773,
7121
+ "step": 1008
7122
+ },
7123
+ {
7124
+ "epoch": 0.9280294320533456,
7125
+ "grad_norm": 0.6472546458244324,
7126
+ "learning_rate": 1.3439903372642615e-06,
7127
+ "loss": 1.4734,
7128
+ "step": 1009
7129
+ },
7130
+ {
7131
+ "epoch": 0.9289491837203955,
7132
+ "grad_norm": 0.679750919342041,
7133
+ "learning_rate": 1.3103290768099797e-06,
7134
+ "loss": 1.5028,
7135
+ "step": 1010
7136
+ },
7137
+ {
7138
+ "epoch": 0.9298689353874454,
7139
+ "grad_norm": 0.6491613984107971,
7140
+ "learning_rate": 1.2770891185937105e-06,
7141
+ "loss": 1.403,
7142
+ "step": 1011
7143
+ },
7144
+ {
7145
+ "epoch": 0.9307886870544952,
7146
+ "grad_norm": 0.6442059278488159,
7147
+ "learning_rate": 1.2442707502343332e-06,
7148
+ "loss": 1.4124,
7149
+ "step": 1012
7150
+ },
7151
+ {
7152
+ "epoch": 0.9317084387215452,
7153
+ "grad_norm": 0.5981637835502625,
7154
+ "learning_rate": 1.2118742557027884e-06,
7155
+ "loss": 1.459,
7156
+ "step": 1013
7157
+ },
7158
+ {
7159
+ "epoch": 0.9326281903885951,
7160
+ "grad_norm": 0.5459677577018738,
7161
+ "learning_rate": 1.1798999153196433e-06,
7162
+ "loss": 1.4171,
7163
+ "step": 1014
7164
+ },
7165
+ {
7166
+ "epoch": 0.933547942055645,
7167
+ "grad_norm": 0.5810702443122864,
7168
+ "learning_rate": 1.1483480057526363e-06,
7169
+ "loss": 1.3995,
7170
+ "step": 1015
7171
+ },
7172
+ {
7173
+ "epoch": 0.9344676937226949,
7174
+ "grad_norm": 0.5334146022796631,
7175
+ "learning_rate": 1.1172188000142802e-06,
7176
+ "loss": 1.4004,
7177
+ "step": 1016
7178
+ },
7179
+ {
7180
+ "epoch": 0.9353874453897447,
7181
+ "grad_norm": 0.5717347860336304,
7182
+ "learning_rate": 1.0865125674595466e-06,
7183
+ "loss": 1.3843,
7184
+ "step": 1017
7185
+ },
7186
+ {
7187
+ "epoch": 0.9363071970567947,
7188
+ "grad_norm": 0.5235407948493958,
7189
+ "learning_rate": 1.0562295737834737e-06,
7190
+ "loss": 1.3558,
7191
+ "step": 1018
7192
+ },
7193
+ {
7194
+ "epoch": 0.9372269487238446,
7195
+ "grad_norm": 0.5573782324790955,
7196
+ "learning_rate": 1.026370081018907e-06,
7197
+ "loss": 1.4016,
7198
+ "step": 1019
7199
+ },
7200
+ {
7201
+ "epoch": 0.9381467003908944,
7202
+ "grad_norm": 0.5528433322906494,
7203
+ "learning_rate": 9.969343475342285e-07,
7204
+ "loss": 1.3298,
7205
+ "step": 1020
7206
+ },
7207
+ {
7208
+ "epoch": 0.9390664520579444,
7209
+ "grad_norm": 0.573993980884552,
7210
+ "learning_rate": 9.679226280310982e-07,
7211
+ "loss": 1.3674,
7212
+ "step": 1021
7213
+ },
7214
+ {
7215
+ "epoch": 0.9399862037249943,
7216
+ "grad_norm": 0.5446662902832031,
7217
+ "learning_rate": 9.393351735422773e-07,
7218
+ "loss": 1.3571,
7219
+ "step": 1022
7220
+ },
7221
+ {
7222
+ "epoch": 0.9409059553920441,
7223
+ "grad_norm": 0.5892913937568665,
7224
+ "learning_rate": 9.111722314294358e-07,
7225
+ "loss": 1.3471,
7226
+ "step": 1023
7227
+ },
7228
+ {
7229
+ "epoch": 0.9418257070590941,
7230
+ "grad_norm": 0.6275593638420105,
7231
+ "learning_rate": 8.834340453810375e-07,
7232
+ "loss": 1.3269,
7233
+ "step": 1024
7234
+ },
7235
+ {
7236
+ "epoch": 0.9427454587261439,
7237
+ "grad_norm": 0.6341751217842102,
7238
+ "learning_rate": 8.561208554101863e-07,
7239
+ "loss": 1.3899,
7240
+ "step": 1025
7241
+ },
7242
+ {
7243
+ "epoch": 0.9436652103931938,
7244
+ "grad_norm": 0.6272470951080322,
7245
+ "learning_rate": 8.292328978526109e-07,
7246
+ "loss": 1.3545,
7247
+ "step": 1026
7248
+ },
7249
+ {
7250
+ "epoch": 0.9445849620602438,
7251
+ "grad_norm": 0.6651190519332886,
7252
+ "learning_rate": 8.027704053645613e-07,
7253
+ "loss": 1.3397,
7254
+ "step": 1027
7255
+ },
7256
+ {
7257
+ "epoch": 0.9455047137272936,
7258
+ "grad_norm": 0.6504070162773132,
7259
+ "learning_rate": 7.76733606920832e-07,
7260
+ "loss": 1.3889,
7261
+ "step": 1028
7262
+ },
7263
+ {
7264
+ "epoch": 0.9464244653943436,
7265
+ "grad_norm": 0.639077365398407,
7266
+ "learning_rate": 7.511227278127697e-07,
7267
+ "loss": 1.3159,
7268
+ "step": 1029
7269
+ },
7270
+ {
7271
+ "epoch": 0.9473442170613934,
7272
+ "grad_norm": 0.685070812702179,
7273
+ "learning_rate": 7.259379896463247e-07,
7274
+ "loss": 1.312,
7275
+ "step": 1030
7276
+ },
7277
+ {
7278
+ "epoch": 0.9482639687284433,
7279
+ "grad_norm": 0.705894947052002,
7280
+ "learning_rate": 7.011796103401191e-07,
7281
+ "loss": 1.325,
7282
+ "step": 1031
7283
+ },
7284
+ {
7285
+ "epoch": 0.9491837203954933,
7286
+ "grad_norm": 0.6670310497283936,
7287
+ "learning_rate": 6.768478041236037e-07,
7288
+ "loss": 1.3582,
7289
+ "step": 1032
7290
+ },
7291
+ {
7292
+ "epoch": 0.9501034720625431,
7293
+ "grad_norm": 0.7927426695823669,
7294
+ "learning_rate": 6.529427815351374e-07,
7295
+ "loss": 1.3767,
7296
+ "step": 1033
7297
+ },
7298
+ {
7299
+ "epoch": 0.951023223729593,
7300
+ "grad_norm": 0.6605473160743713,
7301
+ "learning_rate": 6.294647494202444e-07,
7302
+ "loss": 1.2937,
7303
+ "step": 1034
7304
+ },
7305
+ {
7306
+ "epoch": 0.9519429753966429,
7307
+ "grad_norm": 0.599684476852417,
7308
+ "learning_rate": 6.064139109297485e-07,
7309
+ "loss": 1.2802,
7310
+ "step": 1035
7311
+ },
7312
+ {
7313
+ "epoch": 0.9528627270636928,
7314
+ "grad_norm": 0.6753445267677307,
7315
+ "learning_rate": 5.837904655180748e-07,
7316
+ "loss": 1.297,
7317
+ "step": 1036
7318
+ },
7319
+ {
7320
+ "epoch": 0.9537824787307427,
7321
+ "grad_norm": 0.6682940125465393,
7322
+ "learning_rate": 5.615946089414736e-07,
7323
+ "loss": 1.3073,
7324
+ "step": 1037
7325
+ },
7326
+ {
7327
+ "epoch": 0.9547022303977926,
7328
+ "grad_norm": 0.6744109392166138,
7329
+ "learning_rate": 5.398265332563934e-07,
7330
+ "loss": 1.1858,
7331
+ "step": 1038
7332
+ },
7333
+ {
7334
+ "epoch": 0.9556219820648425,
7335
+ "grad_norm": 0.6154145002365112,
7336
+ "learning_rate": 5.184864268177325e-07,
7337
+ "loss": 1.1648,
7338
+ "step": 1039
7339
+ },
7340
+ {
7341
+ "epoch": 0.9565417337318924,
7342
+ "grad_norm": 0.6836906671524048,
7343
+ "learning_rate": 4.975744742772848e-07,
7344
+ "loss": 1.2518,
7345
+ "step": 1040
7346
+ },
7347
+ {
7348
+ "epoch": 0.9574614853989423,
7349
+ "grad_norm": 0.6386029720306396,
7350
+ "learning_rate": 4.770908565820964e-07,
7351
+ "loss": 1.2142,
7352
+ "step": 1041
7353
+ },
7354
+ {
7355
+ "epoch": 0.9583812370659922,
7356
+ "grad_norm": 0.6528066992759705,
7357
+ "learning_rate": 4.5703575097292286e-07,
7358
+ "loss": 1.1931,
7359
+ "step": 1042
7360
+ },
7361
+ {
7362
+ "epoch": 0.959300988733042,
7363
+ "grad_norm": 0.665433406829834,
7364
+ "learning_rate": 4.37409330982691e-07,
7365
+ "loss": 1.202,
7366
+ "step": 1043
7367
+ },
7368
+ {
7369
+ "epoch": 0.960220740400092,
7370
+ "grad_norm": 0.7009211182594299,
7371
+ "learning_rate": 4.182117664349783e-07,
7372
+ "loss": 1.2317,
7373
+ "step": 1044
7374
+ },
7375
+ {
7376
+ "epoch": 0.9611404920671419,
7377
+ "grad_norm": 0.7533866167068481,
7378
+ "learning_rate": 3.99443223442586e-07,
7379
+ "loss": 1.2128,
7380
+ "step": 1045
7381
+ },
7382
+ {
7383
+ "epoch": 0.9620602437341917,
7384
+ "grad_norm": 0.7658700942993164,
7385
+ "learning_rate": 3.8110386440605164e-07,
7386
+ "loss": 1.1474,
7387
+ "step": 1046
7388
+ },
7389
+ {
7390
+ "epoch": 0.9629799954012417,
7391
+ "grad_norm": 0.7905300259590149,
7392
+ "learning_rate": 3.6319384801227763e-07,
7393
+ "loss": 1.1075,
7394
+ "step": 1047
7395
+ },
7396
+ {
7397
+ "epoch": 0.9638997470682915,
7398
+ "grad_norm": 0.9083186388015747,
7399
+ "learning_rate": 3.4571332923314936e-07,
7400
+ "loss": 1.1094,
7401
+ "step": 1048
7402
+ },
7403
+ {
7404
+ "epoch": 0.9648194987353415,
7405
+ "grad_norm": 0.9923297762870789,
7406
+ "learning_rate": 3.2866245932418604e-07,
7407
+ "loss": 1.0341,
7408
+ "step": 1049
7409
+ },
7410
+ {
7411
+ "epoch": 0.9657392504023914,
7412
+ "grad_norm": 1.4956581592559814,
7413
+ "learning_rate": 3.120413858232474e-07,
7414
+ "loss": 0.9236,
7415
+ "step": 1050
7416
+ },
7417
+ {
7418
+ "epoch": 0.9657392504023914,
7419
+ "eval_loss": 1.3224910497665405,
7420
+ "eval_runtime": 49.9198,
7421
+ "eval_samples_per_second": 165.065,
7422
+ "eval_steps_per_second": 20.633,
7423
+ "step": 1050
7424
  }
7425
  ],
7426
  "logging_steps": 1,
 
7449
  "attributes": {}
7450
  }
7451
  },
7452
+ "total_flos": 1.9092013631668224e+17,
7453
  "train_batch_size": 12,
7454
  "trial_name": null,
7455
  "trial_params": null