seblaku commited on
Commit
b59ad17
·
verified ·
1 Parent(s): 995691a

Training in progress, step 200, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:62322b52c92db6e2f2c4bf0d4875ac63972fc7723ab75b6a019fa0e0f1a07ccc
3
  size 671149168
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d469ea9df03972c343769dd3debf699740933ee629d873829a539d3c644ab553
3
  size 671149168
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:43444a8b0a3f844b92b59652f4907e94ce815b6a4d84f049395c9090089752fd
3
  size 341314196
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8122a06e66c624c932a42178e5542adf5b26b376eb710b02aa90bcbdec3fb466
3
  size 341314196
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5e8ed73c06a47e639a14cbc1798b77cde6e9c75c7c93a5e8d944cc5c0ed00f79
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0cdb60e2481fd56b78600b940df2781df5f95c30c8817875fe3c80f69f6a8ca9
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4bc454bb97f8ade37afe117d480215be6b7d5712976aa1e67e19ff5c4dc25e8f
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5de003083aa1583e9eb79bf332ee530b155db52c504be6ab21416c2870099d65
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 0.4173365831375122,
3
- "best_model_checkpoint": "miner_id_24/checkpoint-100",
4
- "epoch": 0.0784313725490196,
5
  "eval_steps": 100,
6
- "global_step": 100,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -723,6 +723,714 @@
723
  "eval_samples_per_second": 12.684,
724
  "eval_steps_per_second": 3.171,
725
  "step": 100
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
726
  }
727
  ],
728
  "logging_steps": 1,
@@ -751,7 +1459,7 @@
751
  "attributes": {}
752
  }
753
  },
754
- "total_flos": 1.513282097727406e+17,
755
  "train_batch_size": 8,
756
  "trial_name": null,
757
  "trial_params": null
 
1
  {
2
+ "best_metric": 0.36784711480140686,
3
+ "best_model_checkpoint": "miner_id_24/checkpoint-200",
4
+ "epoch": 0.1568627450980392,
5
  "eval_steps": 100,
6
+ "global_step": 200,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
723
  "eval_samples_per_second": 12.684,
724
  "eval_steps_per_second": 3.171,
725
  "step": 100
726
+ },
727
+ {
728
+ "epoch": 0.0792156862745098,
729
+ "grad_norm": 4.533246040344238,
730
+ "learning_rate": 6.101006889170879e-05,
731
+ "loss": 3.0858,
732
+ "step": 101
733
+ },
734
+ {
735
+ "epoch": 0.08,
736
+ "grad_norm": 3.2407262325286865,
737
+ "learning_rate": 6.0820573841332556e-05,
738
+ "loss": 1.9589,
739
+ "step": 102
740
+ },
741
+ {
742
+ "epoch": 0.08078431372549019,
743
+ "grad_norm": 2.6930501461029053,
744
+ "learning_rate": 6.062940333092207e-05,
745
+ "loss": 1.269,
746
+ "step": 103
747
+ },
748
+ {
749
+ "epoch": 0.0815686274509804,
750
+ "grad_norm": 2.588240146636963,
751
+ "learning_rate": 6.043656976525781e-05,
752
+ "loss": 1.2504,
753
+ "step": 104
754
+ },
755
+ {
756
+ "epoch": 0.08235294117647059,
757
+ "grad_norm": 3.165269374847412,
758
+ "learning_rate": 6.0242085657033506e-05,
759
+ "loss": 1.6896,
760
+ "step": 105
761
+ },
762
+ {
763
+ "epoch": 0.08313725490196078,
764
+ "grad_norm": 2.964270830154419,
765
+ "learning_rate": 6.004596362604423e-05,
766
+ "loss": 1.2404,
767
+ "step": 106
768
+ },
769
+ {
770
+ "epoch": 0.08392156862745098,
771
+ "grad_norm": 3.3895821571350098,
772
+ "learning_rate": 5.9848216398367535e-05,
773
+ "loss": 1.2462,
774
+ "step": 107
775
+ },
776
+ {
777
+ "epoch": 0.08470588235294117,
778
+ "grad_norm": 3.5753889083862305,
779
+ "learning_rate": 5.964885680553763e-05,
780
+ "loss": 1.4962,
781
+ "step": 108
782
+ },
783
+ {
784
+ "epoch": 0.08549019607843138,
785
+ "grad_norm": 3.2786760330200195,
786
+ "learning_rate": 5.94478977837128e-05,
787
+ "loss": 1.5371,
788
+ "step": 109
789
+ },
790
+ {
791
+ "epoch": 0.08627450980392157,
792
+ "grad_norm": 3.7601850032806396,
793
+ "learning_rate": 5.9245352372835974e-05,
794
+ "loss": 1.1844,
795
+ "step": 110
796
+ },
797
+ {
798
+ "epoch": 0.08705882352941176,
799
+ "grad_norm": 3.1973512172698975,
800
+ "learning_rate": 5.9041233715788624e-05,
801
+ "loss": 1.1938,
802
+ "step": 111
803
+ },
804
+ {
805
+ "epoch": 0.08784313725490196,
806
+ "grad_norm": 3.321074962615967,
807
+ "learning_rate": 5.88355550575379e-05,
808
+ "loss": 1.3623,
809
+ "step": 112
810
+ },
811
+ {
812
+ "epoch": 0.08862745098039215,
813
+ "grad_norm": 3.9187910556793213,
814
+ "learning_rate": 5.862832974427716e-05,
815
+ "loss": 1.2505,
816
+ "step": 113
817
+ },
818
+ {
819
+ "epoch": 0.08941176470588236,
820
+ "grad_norm": 3.5713284015655518,
821
+ "learning_rate": 5.8419571222560034e-05,
822
+ "loss": 1.2605,
823
+ "step": 114
824
+ },
825
+ {
826
+ "epoch": 0.09019607843137255,
827
+ "grad_norm": 3.8370423316955566,
828
+ "learning_rate": 5.8209293038427824e-05,
829
+ "loss": 1.1408,
830
+ "step": 115
831
+ },
832
+ {
833
+ "epoch": 0.09098039215686274,
834
+ "grad_norm": 4.057117938995361,
835
+ "learning_rate": 5.7997508836530576e-05,
836
+ "loss": 1.4296,
837
+ "step": 116
838
+ },
839
+ {
840
+ "epoch": 0.09176470588235294,
841
+ "grad_norm": 5.31479024887085,
842
+ "learning_rate": 5.778423235924163e-05,
843
+ "loss": 1.3345,
844
+ "step": 117
845
+ },
846
+ {
847
+ "epoch": 0.09254901960784313,
848
+ "grad_norm": 4.572357177734375,
849
+ "learning_rate": 5.7569477445765964e-05,
850
+ "loss": 1.1513,
851
+ "step": 118
852
+ },
853
+ {
854
+ "epoch": 0.09333333333333334,
855
+ "grad_norm": 5.681028366088867,
856
+ "learning_rate": 5.735325803124217e-05,
857
+ "loss": 1.4338,
858
+ "step": 119
859
+ },
860
+ {
861
+ "epoch": 0.09411764705882353,
862
+ "grad_norm": 4.767769813537598,
863
+ "learning_rate": 5.71355881458382e-05,
864
+ "loss": 1.3424,
865
+ "step": 120
866
+ },
867
+ {
868
+ "epoch": 0.09490196078431372,
869
+ "grad_norm": 6.746960639953613,
870
+ "learning_rate": 5.6916481913840975e-05,
871
+ "loss": 1.3405,
872
+ "step": 121
873
+ },
874
+ {
875
+ "epoch": 0.09568627450980392,
876
+ "grad_norm": 4.564548492431641,
877
+ "learning_rate": 5.669595355273991e-05,
878
+ "loss": 1.2797,
879
+ "step": 122
880
+ },
881
+ {
882
+ "epoch": 0.09647058823529411,
883
+ "grad_norm": 4.359226703643799,
884
+ "learning_rate": 5.64740173723043e-05,
885
+ "loss": 1.006,
886
+ "step": 123
887
+ },
888
+ {
889
+ "epoch": 0.09725490196078432,
890
+ "grad_norm": 5.169023036956787,
891
+ "learning_rate": 5.625068777365489e-05,
892
+ "loss": 1.1459,
893
+ "step": 124
894
+ },
895
+ {
896
+ "epoch": 0.09803921568627451,
897
+ "grad_norm": 5.223190784454346,
898
+ "learning_rate": 5.6025979248329255e-05,
899
+ "loss": 1.2089,
900
+ "step": 125
901
+ },
902
+ {
903
+ "epoch": 0.0988235294117647,
904
+ "grad_norm": 6.859619617462158,
905
+ "learning_rate": 5.579990637734161e-05,
906
+ "loss": 0.9527,
907
+ "step": 126
908
+ },
909
+ {
910
+ "epoch": 0.0996078431372549,
911
+ "grad_norm": 4.413240432739258,
912
+ "learning_rate": 5.557248383023655e-05,
913
+ "loss": 0.9772,
914
+ "step": 127
915
+ },
916
+ {
917
+ "epoch": 0.1003921568627451,
918
+ "grad_norm": 6.224684238433838,
919
+ "learning_rate": 5.5343726364137276e-05,
920
+ "loss": 1.0011,
921
+ "step": 128
922
+ },
923
+ {
924
+ "epoch": 0.1011764705882353,
925
+ "grad_norm": 5.601330280303955,
926
+ "learning_rate": 5.511364882278793e-05,
927
+ "loss": 1.249,
928
+ "step": 129
929
+ },
930
+ {
931
+ "epoch": 0.10196078431372549,
932
+ "grad_norm": 5.103614807128906,
933
+ "learning_rate": 5.488226613559045e-05,
934
+ "loss": 1.1634,
935
+ "step": 130
936
+ },
937
+ {
938
+ "epoch": 0.1027450980392157,
939
+ "grad_norm": 7.077230453491211,
940
+ "learning_rate": 5.464959331663583e-05,
941
+ "loss": 1.5048,
942
+ "step": 131
943
+ },
944
+ {
945
+ "epoch": 0.10352941176470588,
946
+ "grad_norm": 5.399044990539551,
947
+ "learning_rate": 5.4415645463729855e-05,
948
+ "loss": 1.0851,
949
+ "step": 132
950
+ },
951
+ {
952
+ "epoch": 0.10431372549019607,
953
+ "grad_norm": 7.850146770477295,
954
+ "learning_rate": 5.4180437757413455e-05,
955
+ "loss": 1.1617,
956
+ "step": 133
957
+ },
958
+ {
959
+ "epoch": 0.10509803921568628,
960
+ "grad_norm": 5.438139915466309,
961
+ "learning_rate": 5.394398545997759e-05,
962
+ "loss": 0.9825,
963
+ "step": 134
964
+ },
965
+ {
966
+ "epoch": 0.10588235294117647,
967
+ "grad_norm": 5.945227146148682,
968
+ "learning_rate": 5.370630391447303e-05,
969
+ "loss": 1.165,
970
+ "step": 135
971
+ },
972
+ {
973
+ "epoch": 0.10666666666666667,
974
+ "grad_norm": 7.722451686859131,
975
+ "learning_rate": 5.346740854371464e-05,
976
+ "loss": 1.9443,
977
+ "step": 136
978
+ },
979
+ {
980
+ "epoch": 0.10745098039215686,
981
+ "grad_norm": 7.847848892211914,
982
+ "learning_rate": 5.322731484928068e-05,
983
+ "loss": 1.4477,
984
+ "step": 137
985
+ },
986
+ {
987
+ "epoch": 0.10823529411764705,
988
+ "grad_norm": 8.356393814086914,
989
+ "learning_rate": 5.29860384105069e-05,
990
+ "loss": 1.6004,
991
+ "step": 138
992
+ },
993
+ {
994
+ "epoch": 0.10901960784313726,
995
+ "grad_norm": 8.85940170288086,
996
+ "learning_rate": 5.2743594883475664e-05,
997
+ "loss": 1.4381,
998
+ "step": 139
999
+ },
1000
+ {
1001
+ "epoch": 0.10980392156862745,
1002
+ "grad_norm": 8.563812255859375,
1003
+ "learning_rate": 5.2499999999999995e-05,
1004
+ "loss": 1.5443,
1005
+ "step": 140
1006
+ },
1007
+ {
1008
+ "epoch": 0.11058823529411765,
1009
+ "grad_norm": 8.796785354614258,
1010
+ "learning_rate": 5.225526956660281e-05,
1011
+ "loss": 1.5716,
1012
+ "step": 141
1013
+ },
1014
+ {
1015
+ "epoch": 0.11137254901960784,
1016
+ "grad_norm": 11.239343643188477,
1017
+ "learning_rate": 5.200941946349121e-05,
1018
+ "loss": 2.2336,
1019
+ "step": 142
1020
+ },
1021
+ {
1022
+ "epoch": 0.11215686274509803,
1023
+ "grad_norm": 10.173134803771973,
1024
+ "learning_rate": 5.176246564352607e-05,
1025
+ "loss": 1.8621,
1026
+ "step": 143
1027
+ },
1028
+ {
1029
+ "epoch": 0.11294117647058824,
1030
+ "grad_norm": 7.808456897735596,
1031
+ "learning_rate": 5.1514424131186865e-05,
1032
+ "loss": 1.3717,
1033
+ "step": 144
1034
+ },
1035
+ {
1036
+ "epoch": 0.11372549019607843,
1037
+ "grad_norm": 11.386785507202148,
1038
+ "learning_rate": 5.12653110215319e-05,
1039
+ "loss": 1.9377,
1040
+ "step": 145
1041
+ },
1042
+ {
1043
+ "epoch": 0.11450980392156863,
1044
+ "grad_norm": 11.134692192077637,
1045
+ "learning_rate": 5.101514247915384e-05,
1046
+ "loss": 2.1051,
1047
+ "step": 146
1048
+ },
1049
+ {
1050
+ "epoch": 0.11529411764705882,
1051
+ "grad_norm": 11.531853675842285,
1052
+ "learning_rate": 5.0763934737130886e-05,
1053
+ "loss": 2.1194,
1054
+ "step": 147
1055
+ },
1056
+ {
1057
+ "epoch": 0.11607843137254902,
1058
+ "grad_norm": 12.823151588439941,
1059
+ "learning_rate": 5.0511704095973445e-05,
1060
+ "loss": 2.008,
1061
+ "step": 148
1062
+ },
1063
+ {
1064
+ "epoch": 0.11686274509803922,
1065
+ "grad_norm": 14.165589332580566,
1066
+ "learning_rate": 5.0258466922566345e-05,
1067
+ "loss": 2.579,
1068
+ "step": 149
1069
+ },
1070
+ {
1071
+ "epoch": 0.11764705882352941,
1072
+ "grad_norm": 22.23053741455078,
1073
+ "learning_rate": 5.000423964910689e-05,
1074
+ "loss": 2.1285,
1075
+ "step": 150
1076
+ },
1077
+ {
1078
+ "epoch": 0.11843137254901961,
1079
+ "grad_norm": 3.6735522747039795,
1080
+ "learning_rate": 4.974903877203852e-05,
1081
+ "loss": 3.2373,
1082
+ "step": 151
1083
+ },
1084
+ {
1085
+ "epoch": 0.1192156862745098,
1086
+ "grad_norm": 2.631013870239258,
1087
+ "learning_rate": 4.949288085098041e-05,
1088
+ "loss": 1.7498,
1089
+ "step": 152
1090
+ },
1091
+ {
1092
+ "epoch": 0.12,
1093
+ "grad_norm": 2.442901372909546,
1094
+ "learning_rate": 4.9235782507653006e-05,
1095
+ "loss": 1.7117,
1096
+ "step": 153
1097
+ },
1098
+ {
1099
+ "epoch": 0.1207843137254902,
1100
+ "grad_norm": 2.393778085708618,
1101
+ "learning_rate": 4.897776042479934e-05,
1102
+ "loss": 1.3329,
1103
+ "step": 154
1104
+ },
1105
+ {
1106
+ "epoch": 0.12156862745098039,
1107
+ "grad_norm": 2.4069385528564453,
1108
+ "learning_rate": 4.8718831345102625e-05,
1109
+ "loss": 1.3254,
1110
+ "step": 155
1111
+ },
1112
+ {
1113
+ "epoch": 0.1223529411764706,
1114
+ "grad_norm": 2.7312748432159424,
1115
+ "learning_rate": 4.845901207009978e-05,
1116
+ "loss": 1.1983,
1117
+ "step": 156
1118
+ },
1119
+ {
1120
+ "epoch": 0.12313725490196079,
1121
+ "grad_norm": 2.8144845962524414,
1122
+ "learning_rate": 4.819831945909121e-05,
1123
+ "loss": 1.1755,
1124
+ "step": 157
1125
+ },
1126
+ {
1127
+ "epoch": 0.12392156862745098,
1128
+ "grad_norm": 3.241198778152466,
1129
+ "learning_rate": 4.793677042804688e-05,
1130
+ "loss": 1.1232,
1131
+ "step": 158
1132
+ },
1133
+ {
1134
+ "epoch": 0.12470588235294118,
1135
+ "grad_norm": 3.7568423748016357,
1136
+ "learning_rate": 4.767438194850858e-05,
1137
+ "loss": 1.4093,
1138
+ "step": 159
1139
+ },
1140
+ {
1141
+ "epoch": 0.12549019607843137,
1142
+ "grad_norm": 3.8611888885498047,
1143
+ "learning_rate": 4.741117104648874e-05,
1144
+ "loss": 1.3189,
1145
+ "step": 160
1146
+ },
1147
+ {
1148
+ "epoch": 0.12627450980392158,
1149
+ "grad_norm": 3.7197554111480713,
1150
+ "learning_rate": 4.71471548013656e-05,
1151
+ "loss": 1.4241,
1152
+ "step": 161
1153
+ },
1154
+ {
1155
+ "epoch": 0.12705882352941175,
1156
+ "grad_norm": 3.673598527908325,
1157
+ "learning_rate": 4.688235034477495e-05,
1158
+ "loss": 1.2979,
1159
+ "step": 162
1160
+ },
1161
+ {
1162
+ "epoch": 0.12784313725490196,
1163
+ "grad_norm": 3.9346017837524414,
1164
+ "learning_rate": 4.6616774859498493e-05,
1165
+ "loss": 1.4983,
1166
+ "step": 163
1167
+ },
1168
+ {
1169
+ "epoch": 0.12862745098039216,
1170
+ "grad_norm": 3.7387478351593018,
1171
+ "learning_rate": 4.635044557834889e-05,
1172
+ "loss": 1.5969,
1173
+ "step": 164
1174
+ },
1175
+ {
1176
+ "epoch": 0.12941176470588237,
1177
+ "grad_norm": 4.286586284637451,
1178
+ "learning_rate": 4.6083379783051544e-05,
1179
+ "loss": 1.1618,
1180
+ "step": 165
1181
+ },
1182
+ {
1183
+ "epoch": 0.13019607843137254,
1184
+ "grad_norm": 3.6195132732391357,
1185
+ "learning_rate": 4.581559480312316e-05,
1186
+ "loss": 1.3013,
1187
+ "step": 166
1188
+ },
1189
+ {
1190
+ "epoch": 0.13098039215686275,
1191
+ "grad_norm": 3.9469423294067383,
1192
+ "learning_rate": 4.554710801474736e-05,
1193
+ "loss": 1.2563,
1194
+ "step": 167
1195
+ },
1196
+ {
1197
+ "epoch": 0.13176470588235295,
1198
+ "grad_norm": 3.9838595390319824,
1199
+ "learning_rate": 4.527793683964708e-05,
1200
+ "loss": 1.084,
1201
+ "step": 168
1202
+ },
1203
+ {
1204
+ "epoch": 0.13254901960784313,
1205
+ "grad_norm": 4.2628021240234375,
1206
+ "learning_rate": 4.5008098743954114e-05,
1207
+ "loss": 1.1541,
1208
+ "step": 169
1209
+ },
1210
+ {
1211
+ "epoch": 0.13333333333333333,
1212
+ "grad_norm": 4.49942684173584,
1213
+ "learning_rate": 4.473761123707584e-05,
1214
+ "loss": 1.4258,
1215
+ "step": 170
1216
+ },
1217
+ {
1218
+ "epoch": 0.13411764705882354,
1219
+ "grad_norm": 5.674098968505859,
1220
+ "learning_rate": 4.4466491870558936e-05,
1221
+ "loss": 1.8754,
1222
+ "step": 171
1223
+ },
1224
+ {
1225
+ "epoch": 0.1349019607843137,
1226
+ "grad_norm": 5.979763984680176,
1227
+ "learning_rate": 4.419475823695054e-05,
1228
+ "loss": 1.3147,
1229
+ "step": 172
1230
+ },
1231
+ {
1232
+ "epoch": 0.13568627450980392,
1233
+ "grad_norm": 4.832103252410889,
1234
+ "learning_rate": 4.392242796865676e-05,
1235
+ "loss": 1.2014,
1236
+ "step": 173
1237
+ },
1238
+ {
1239
+ "epoch": 0.13647058823529412,
1240
+ "grad_norm": 4.375277996063232,
1241
+ "learning_rate": 4.364951873679843e-05,
1242
+ "loss": 1.1941,
1243
+ "step": 174
1244
+ },
1245
+ {
1246
+ "epoch": 0.13725490196078433,
1247
+ "grad_norm": 4.7891526222229,
1248
+ "learning_rate": 4.337604825006452e-05,
1249
+ "loss": 1.1638,
1250
+ "step": 175
1251
+ },
1252
+ {
1253
+ "epoch": 0.1380392156862745,
1254
+ "grad_norm": 5.445965766906738,
1255
+ "learning_rate": 4.310203425356301e-05,
1256
+ "loss": 1.054,
1257
+ "step": 176
1258
+ },
1259
+ {
1260
+ "epoch": 0.1388235294117647,
1261
+ "grad_norm": 4.09723424911499,
1262
+ "learning_rate": 4.282749452766945e-05,
1263
+ "loss": 0.6077,
1264
+ "step": 177
1265
+ },
1266
+ {
1267
+ "epoch": 0.1396078431372549,
1268
+ "grad_norm": 5.525692939758301,
1269
+ "learning_rate": 4.255244688687321e-05,
1270
+ "loss": 1.0198,
1271
+ "step": 178
1272
+ },
1273
+ {
1274
+ "epoch": 0.1403921568627451,
1275
+ "grad_norm": 5.302620887756348,
1276
+ "learning_rate": 4.227690917862157e-05,
1277
+ "loss": 0.9727,
1278
+ "step": 179
1279
+ },
1280
+ {
1281
+ "epoch": 0.1411764705882353,
1282
+ "grad_norm": 4.293851375579834,
1283
+ "learning_rate": 4.200089928216155e-05,
1284
+ "loss": 0.7823,
1285
+ "step": 180
1286
+ },
1287
+ {
1288
+ "epoch": 0.1419607843137255,
1289
+ "grad_norm": 6.371180057525635,
1290
+ "learning_rate": 4.1724435107379795e-05,
1291
+ "loss": 1.2332,
1292
+ "step": 181
1293
+ },
1294
+ {
1295
+ "epoch": 0.14274509803921567,
1296
+ "grad_norm": 7.856477737426758,
1297
+ "learning_rate": 4.14475345936404e-05,
1298
+ "loss": 1.3729,
1299
+ "step": 182
1300
+ },
1301
+ {
1302
+ "epoch": 0.14352941176470588,
1303
+ "grad_norm": 4.569979190826416,
1304
+ "learning_rate": 4.1170215708620915e-05,
1305
+ "loss": 0.8416,
1306
+ "step": 183
1307
+ },
1308
+ {
1309
+ "epoch": 0.14431372549019608,
1310
+ "grad_norm": 6.07737398147583,
1311
+ "learning_rate": 4.089249644714634e-05,
1312
+ "loss": 1.4574,
1313
+ "step": 184
1314
+ },
1315
+ {
1316
+ "epoch": 0.1450980392156863,
1317
+ "grad_norm": 6.413763523101807,
1318
+ "learning_rate": 4.0614394830021604e-05,
1319
+ "loss": 1.5253,
1320
+ "step": 185
1321
+ },
1322
+ {
1323
+ "epoch": 0.14588235294117646,
1324
+ "grad_norm": 5.022174835205078,
1325
+ "learning_rate": 4.0335928902862086e-05,
1326
+ "loss": 0.9277,
1327
+ "step": 186
1328
+ },
1329
+ {
1330
+ "epoch": 0.14666666666666667,
1331
+ "grad_norm": 7.028177261352539,
1332
+ "learning_rate": 4.005711673492274e-05,
1333
+ "loss": 1.6335,
1334
+ "step": 187
1335
+ },
1336
+ {
1337
+ "epoch": 0.14745098039215687,
1338
+ "grad_norm": 7.276490211486816,
1339
+ "learning_rate": 3.977797641792561e-05,
1340
+ "loss": 1.3358,
1341
+ "step": 188
1342
+ },
1343
+ {
1344
+ "epoch": 0.14823529411764705,
1345
+ "grad_norm": 8.936336517333984,
1346
+ "learning_rate": 3.9498526064885806e-05,
1347
+ "loss": 1.8587,
1348
+ "step": 189
1349
+ },
1350
+ {
1351
+ "epoch": 0.14901960784313725,
1352
+ "grad_norm": 9.971092224121094,
1353
+ "learning_rate": 3.92187838089363e-05,
1354
+ "loss": 1.9026,
1355
+ "step": 190
1356
+ },
1357
+ {
1358
+ "epoch": 0.14980392156862746,
1359
+ "grad_norm": 8.014878273010254,
1360
+ "learning_rate": 3.893876780215119e-05,
1361
+ "loss": 1.6085,
1362
+ "step": 191
1363
+ },
1364
+ {
1365
+ "epoch": 0.15058823529411763,
1366
+ "grad_norm": 9.771968841552734,
1367
+ "learning_rate": 3.865849621436787e-05,
1368
+ "loss": 1.8793,
1369
+ "step": 192
1370
+ },
1371
+ {
1372
+ "epoch": 0.15137254901960784,
1373
+ "grad_norm": 11.60059928894043,
1374
+ "learning_rate": 3.8377987232008025e-05,
1375
+ "loss": 1.8012,
1376
+ "step": 193
1377
+ },
1378
+ {
1379
+ "epoch": 0.15215686274509804,
1380
+ "grad_norm": 9.739047050476074,
1381
+ "learning_rate": 3.809725905689754e-05,
1382
+ "loss": 1.9012,
1383
+ "step": 194
1384
+ },
1385
+ {
1386
+ "epoch": 0.15294117647058825,
1387
+ "grad_norm": 12.654723167419434,
1388
+ "learning_rate": 3.781632990508541e-05,
1389
+ "loss": 2.3507,
1390
+ "step": 195
1391
+ },
1392
+ {
1393
+ "epoch": 0.15372549019607842,
1394
+ "grad_norm": 11.12818717956543,
1395
+ "learning_rate": 3.7535218005661685e-05,
1396
+ "loss": 1.877,
1397
+ "step": 196
1398
+ },
1399
+ {
1400
+ "epoch": 0.15450980392156863,
1401
+ "grad_norm": 13.460821151733398,
1402
+ "learning_rate": 3.7253941599574675e-05,
1403
+ "loss": 2.0457,
1404
+ "step": 197
1405
+ },
1406
+ {
1407
+ "epoch": 0.15529411764705883,
1408
+ "grad_norm": 16.934213638305664,
1409
+ "learning_rate": 3.6972518938447306e-05,
1410
+ "loss": 2.5687,
1411
+ "step": 198
1412
+ },
1413
+ {
1414
+ "epoch": 0.156078431372549,
1415
+ "grad_norm": 17.341718673706055,
1416
+ "learning_rate": 3.6690968283392746e-05,
1417
+ "loss": 2.6656,
1418
+ "step": 199
1419
+ },
1420
+ {
1421
+ "epoch": 0.1568627450980392,
1422
+ "grad_norm": 13.909801483154297,
1423
+ "learning_rate": 3.640930790382953e-05,
1424
+ "loss": 2.0502,
1425
+ "step": 200
1426
+ },
1427
+ {
1428
+ "epoch": 0.1568627450980392,
1429
+ "eval_loss": 0.36784711480140686,
1430
+ "eval_runtime": 169.7291,
1431
+ "eval_samples_per_second": 12.655,
1432
+ "eval_steps_per_second": 3.164,
1433
+ "step": 200
1434
  }
1435
  ],
1436
  "logging_steps": 1,
 
1459
  "attributes": {}
1460
  }
1461
  },
1462
+ "total_flos": 3.030141694503813e+17,
1463
  "train_batch_size": 8,
1464
  "trial_name": null,
1465
  "trial_params": null