ErrorAI commited on
Commit
a975990
·
verified ·
1 Parent(s): 6134156

Training in progress, step 1303, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e8ea9b5902789889db7ce7eb9bf6b5fb17fc70fbab5ab040891645a983cec7d7
3
  size 5752
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7d1517bbb68b73118ab298b46d78154dff83c4336e98408645d842041e1e7e41
3
  size 5752
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9c5d5209b356cdbecaaa88e0c3c7c4e1cd85d90fe9a1673a6ff88a9c283fe663
3
  size 15814
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:988c28e29b391965d592d06f8e5c0720e58d3b0a4325154940bcc92abedb4644
3
  size 15814
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5be5bb0fa11a21ec6104b5340813d5d711ba7d8332dcb1a72ea37f04651fdf53
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f79d0ab40c06f3104eb07d7ccc26e9ca2de4bde54f83f4e379cd88a2f7887023
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:fe6ddabd32cdc41f4c81c1d53be4d94bd11320d8500ca8b0b69995845949f304
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9eabf0c977468cdbb0fb34466e43f850400f356cb7be4266d2d1ac09878380a5
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.019686584739877413,
5
  "eval_steps": 326,
6
- "global_step": 978,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -6885,6 +6885,2281 @@
6885
  "eval_samples_per_second": 165.165,
6886
  "eval_steps_per_second": 82.582,
6887
  "step": 978
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6888
  }
6889
  ],
6890
  "logging_steps": 1,
@@ -6899,12 +9174,12 @@
6899
  "should_evaluate": false,
6900
  "should_log": false,
6901
  "should_save": true,
6902
- "should_training_stop": false
6903
  },
6904
  "attributes": {}
6905
  }
6906
  },
6907
- "total_flos": 22552698421248.0,
6908
  "train_batch_size": 2,
6909
  "trial_name": null,
6910
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.02622865022092052,
5
  "eval_steps": 326,
6
+ "global_step": 1303,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
6885
  "eval_samples_per_second": 165.165,
6886
  "eval_steps_per_second": 82.582,
6887
  "step": 978
6888
+ },
6889
+ {
6890
+ "epoch": 0.019706714172126775,
6891
+ "grad_norm": 0.00031089509138837457,
6892
+ "learning_rate": 2.9418293126798603e-05,
6893
+ "loss": 46.0,
6894
+ "step": 979
6895
+ },
6896
+ {
6897
+ "epoch": 0.01972684360437614,
6898
+ "grad_norm": 0.0008214189438149333,
6899
+ "learning_rate": 2.9246383624288387e-05,
6900
+ "loss": 46.0,
6901
+ "step": 980
6902
+ },
6903
+ {
6904
+ "epoch": 0.019746973036625502,
6905
+ "grad_norm": 0.0012812769273295999,
6906
+ "learning_rate": 2.9074891808937753e-05,
6907
+ "loss": 46.0,
6908
+ "step": 981
6909
+ },
6910
+ {
6911
+ "epoch": 0.019767102468874864,
6912
+ "grad_norm": 0.0005773354787379503,
6913
+ "learning_rate": 2.8903818693132077e-05,
6914
+ "loss": 46.0,
6915
+ "step": 982
6916
+ },
6917
+ {
6918
+ "epoch": 0.01978723190112423,
6919
+ "grad_norm": 0.000667093729134649,
6920
+ "learning_rate": 2.873316528678507e-05,
6921
+ "loss": 46.0,
6922
+ "step": 983
6923
+ },
6924
+ {
6925
+ "epoch": 0.01980736133337359,
6926
+ "grad_norm": 0.0005955504602752626,
6927
+ "learning_rate": 2.856293259733266e-05,
6928
+ "loss": 46.0,
6929
+ "step": 984
6930
+ },
6931
+ {
6932
+ "epoch": 0.019827490765622957,
6933
+ "grad_norm": 0.0009190890123136342,
6934
+ "learning_rate": 2.8393121629727138e-05,
6935
+ "loss": 46.0,
6936
+ "step": 985
6937
+ },
6938
+ {
6939
+ "epoch": 0.01984762019787232,
6940
+ "grad_norm": 0.000597997335717082,
6941
+ "learning_rate": 2.8223733386431185e-05,
6942
+ "loss": 46.0,
6943
+ "step": 986
6944
+ },
6945
+ {
6946
+ "epoch": 0.01986774963012168,
6947
+ "grad_norm": 0.001080994145013392,
6948
+ "learning_rate": 2.8054768867411974e-05,
6949
+ "loss": 46.0,
6950
+ "step": 987
6951
+ },
6952
+ {
6953
+ "epoch": 0.019887879062371046,
6954
+ "grad_norm": 0.0009957716101780534,
6955
+ "learning_rate": 2.788622907013526e-05,
6956
+ "loss": 46.0,
6957
+ "step": 988
6958
+ },
6959
+ {
6960
+ "epoch": 0.01990800849462041,
6961
+ "grad_norm": 0.0005448372685350478,
6962
+ "learning_rate": 2.7718114989559552e-05,
6963
+ "loss": 46.0,
6964
+ "step": 989
6965
+ },
6966
+ {
6967
+ "epoch": 0.019928137926869774,
6968
+ "grad_norm": 0.0005995734827592969,
6969
+ "learning_rate": 2.7550427618130127e-05,
6970
+ "loss": 46.0,
6971
+ "step": 990
6972
+ },
6973
+ {
6974
+ "epoch": 0.019948267359119136,
6975
+ "grad_norm": 0.0009233965538442135,
6976
+ "learning_rate": 2.738316794577315e-05,
6977
+ "loss": 46.0,
6978
+ "step": 991
6979
+ },
6980
+ {
6981
+ "epoch": 0.019968396791368498,
6982
+ "grad_norm": 0.000919658865313977,
6983
+ "learning_rate": 2.7216336959890076e-05,
6984
+ "loss": 46.0,
6985
+ "step": 992
6986
+ },
6987
+ {
6988
+ "epoch": 0.019988526223617863,
6989
+ "grad_norm": 0.0008890883764252067,
6990
+ "learning_rate": 2.704993564535152e-05,
6991
+ "loss": 46.0,
6992
+ "step": 993
6993
+ },
6994
+ {
6995
+ "epoch": 0.020008655655867225,
6996
+ "grad_norm": 0.0005916538066230714,
6997
+ "learning_rate": 2.688396498449164e-05,
6998
+ "loss": 46.0,
6999
+ "step": 994
7000
+ },
7001
+ {
7002
+ "epoch": 0.02002878508811659,
7003
+ "grad_norm": 0.0006696307682432234,
7004
+ "learning_rate": 2.671842595710219e-05,
7005
+ "loss": 46.0,
7006
+ "step": 995
7007
+ },
7008
+ {
7009
+ "epoch": 0.020048914520365953,
7010
+ "grad_norm": 0.0006121333572082222,
7011
+ "learning_rate": 2.655331954042699e-05,
7012
+ "loss": 46.0,
7013
+ "step": 996
7014
+ },
7015
+ {
7016
+ "epoch": 0.020069043952615318,
7017
+ "grad_norm": 0.0007363299373537302,
7018
+ "learning_rate": 2.638864670915572e-05,
7019
+ "loss": 46.0,
7020
+ "step": 997
7021
+ },
7022
+ {
7023
+ "epoch": 0.02008917338486468,
7024
+ "grad_norm": 0.0006978671881370246,
7025
+ "learning_rate": 2.622440843541869e-05,
7026
+ "loss": 46.0,
7027
+ "step": 998
7028
+ },
7029
+ {
7030
+ "epoch": 0.020109302817114042,
7031
+ "grad_norm": 0.0010457762982696295,
7032
+ "learning_rate": 2.6060605688780694e-05,
7033
+ "loss": 46.0,
7034
+ "step": 999
7035
+ },
7036
+ {
7037
+ "epoch": 0.020129432249363408,
7038
+ "grad_norm": 0.0013878996251150966,
7039
+ "learning_rate": 2.5897239436235466e-05,
7040
+ "loss": 46.0,
7041
+ "step": 1000
7042
+ },
7043
+ {
7044
+ "epoch": 0.02014956168161277,
7045
+ "grad_norm": 0.0007541460217908025,
7046
+ "learning_rate": 2.5734310642199943e-05,
7047
+ "loss": 46.0,
7048
+ "step": 1001
7049
+ },
7050
+ {
7051
+ "epoch": 0.020169691113862135,
7052
+ "grad_norm": 0.0015688574640080333,
7053
+ "learning_rate": 2.557182026850855e-05,
7054
+ "loss": 46.0,
7055
+ "step": 1002
7056
+ },
7057
+ {
7058
+ "epoch": 0.020189820546111497,
7059
+ "grad_norm": 0.0007213862845674157,
7060
+ "learning_rate": 2.5409769274407637e-05,
7061
+ "loss": 46.0,
7062
+ "step": 1003
7063
+ },
7064
+ {
7065
+ "epoch": 0.02020994997836086,
7066
+ "grad_norm": 0.0005947791505604982,
7067
+ "learning_rate": 2.524815861654952e-05,
7068
+ "loss": 46.0,
7069
+ "step": 1004
7070
+ },
7071
+ {
7072
+ "epoch": 0.020230079410610224,
7073
+ "grad_norm": 0.0006019077845849097,
7074
+ "learning_rate": 2.5086989248987248e-05,
7075
+ "loss": 46.0,
7076
+ "step": 1005
7077
+ },
7078
+ {
7079
+ "epoch": 0.020250208842859586,
7080
+ "grad_norm": 0.0012076911516487598,
7081
+ "learning_rate": 2.492626212316862e-05,
7082
+ "loss": 46.0,
7083
+ "step": 1006
7084
+ },
7085
+ {
7086
+ "epoch": 0.020270338275108952,
7087
+ "grad_norm": 0.0010813012486323714,
7088
+ "learning_rate": 2.476597818793075e-05,
7089
+ "loss": 46.0,
7090
+ "step": 1007
7091
+ },
7092
+ {
7093
+ "epoch": 0.020290467707358314,
7094
+ "grad_norm": 0.000990718137472868,
7095
+ "learning_rate": 2.460613838949437e-05,
7096
+ "loss": 46.0,
7097
+ "step": 1008
7098
+ },
7099
+ {
7100
+ "epoch": 0.020310597139607676,
7101
+ "grad_norm": 0.001392314094118774,
7102
+ "learning_rate": 2.444674367145845e-05,
7103
+ "loss": 46.0,
7104
+ "step": 1009
7105
+ },
7106
+ {
7107
+ "epoch": 0.02033072657185704,
7108
+ "grad_norm": 0.0014354052254930139,
7109
+ "learning_rate": 2.4287794974794208e-05,
7110
+ "loss": 46.0,
7111
+ "step": 1010
7112
+ },
7113
+ {
7114
+ "epoch": 0.020350856004106403,
7115
+ "grad_norm": 0.00045173740363679826,
7116
+ "learning_rate": 2.4129293237840066e-05,
7117
+ "loss": 46.0,
7118
+ "step": 1011
7119
+ },
7120
+ {
7121
+ "epoch": 0.02037098543635577,
7122
+ "grad_norm": 0.0011678735027089715,
7123
+ "learning_rate": 2.397123939629574e-05,
7124
+ "loss": 46.0,
7125
+ "step": 1012
7126
+ },
7127
+ {
7128
+ "epoch": 0.02039111486860513,
7129
+ "grad_norm": 0.0005970303900539875,
7130
+ "learning_rate": 2.3813634383216853e-05,
7131
+ "loss": 46.0,
7132
+ "step": 1013
7133
+ },
7134
+ {
7135
+ "epoch": 0.020411244300854496,
7136
+ "grad_norm": 0.0007846534135751426,
7137
+ "learning_rate": 2.3656479129009422e-05,
7138
+ "loss": 46.0,
7139
+ "step": 1014
7140
+ },
7141
+ {
7142
+ "epoch": 0.020431373733103858,
7143
+ "grad_norm": 0.00044201669516041875,
7144
+ "learning_rate": 2.3499774561424327e-05,
7145
+ "loss": 46.0,
7146
+ "step": 1015
7147
+ },
7148
+ {
7149
+ "epoch": 0.02045150316535322,
7150
+ "grad_norm": 0.001156677259132266,
7151
+ "learning_rate": 2.3343521605551967e-05,
7152
+ "loss": 46.0,
7153
+ "step": 1016
7154
+ },
7155
+ {
7156
+ "epoch": 0.020471632597602585,
7157
+ "grad_norm": 0.0006299121305346489,
7158
+ "learning_rate": 2.3187721183816503e-05,
7159
+ "loss": 46.0,
7160
+ "step": 1017
7161
+ },
7162
+ {
7163
+ "epoch": 0.020491762029851947,
7164
+ "grad_norm": 0.0007507737609557807,
7165
+ "learning_rate": 2.303237421597082e-05,
7166
+ "loss": 46.0,
7167
+ "step": 1018
7168
+ },
7169
+ {
7170
+ "epoch": 0.020511891462101313,
7171
+ "grad_norm": 0.0007438535685651004,
7172
+ "learning_rate": 2.2877481619090734e-05,
7173
+ "loss": 46.0,
7174
+ "step": 1019
7175
+ },
7176
+ {
7177
+ "epoch": 0.020532020894350675,
7178
+ "grad_norm": 0.0016225421568378806,
7179
+ "learning_rate": 2.2723044307569775e-05,
7180
+ "loss": 46.0,
7181
+ "step": 1020
7182
+ },
7183
+ {
7184
+ "epoch": 0.020552150326600037,
7185
+ "grad_norm": 0.00039501202991232276,
7186
+ "learning_rate": 2.2569063193113716e-05,
7187
+ "loss": 46.0,
7188
+ "step": 1021
7189
+ },
7190
+ {
7191
+ "epoch": 0.020572279758849402,
7192
+ "grad_norm": 0.0004267230106052011,
7193
+ "learning_rate": 2.2415539184735323e-05,
7194
+ "loss": 46.0,
7195
+ "step": 1022
7196
+ },
7197
+ {
7198
+ "epoch": 0.020592409191098764,
7199
+ "grad_norm": 0.0008113220101222396,
7200
+ "learning_rate": 2.2262473188748667e-05,
7201
+ "loss": 46.0,
7202
+ "step": 1023
7203
+ },
7204
+ {
7205
+ "epoch": 0.02061253862334813,
7206
+ "grad_norm": 0.0018733137985691428,
7207
+ "learning_rate": 2.210986610876421e-05,
7208
+ "loss": 46.0,
7209
+ "step": 1024
7210
+ },
7211
+ {
7212
+ "epoch": 0.02063266805559749,
7213
+ "grad_norm": 0.0011937421513721347,
7214
+ "learning_rate": 2.1957718845683106e-05,
7215
+ "loss": 46.0,
7216
+ "step": 1025
7217
+ },
7218
+ {
7219
+ "epoch": 0.020652797487846854,
7220
+ "grad_norm": 0.0011691252002492547,
7221
+ "learning_rate": 2.180603229769208e-05,
7222
+ "loss": 46.0,
7223
+ "step": 1026
7224
+ },
7225
+ {
7226
+ "epoch": 0.02067292692009622,
7227
+ "grad_norm": 0.0005129252676852047,
7228
+ "learning_rate": 2.1654807360258068e-05,
7229
+ "loss": 46.0,
7230
+ "step": 1027
7231
+ },
7232
+ {
7233
+ "epoch": 0.02069305635234558,
7234
+ "grad_norm": 0.001547716441564262,
7235
+ "learning_rate": 2.15040449261229e-05,
7236
+ "loss": 46.0,
7237
+ "step": 1028
7238
+ },
7239
+ {
7240
+ "epoch": 0.020713185784594947,
7241
+ "grad_norm": 0.0005555424140766263,
7242
+ "learning_rate": 2.1353745885298103e-05,
7243
+ "loss": 46.0,
7244
+ "step": 1029
7245
+ },
7246
+ {
7247
+ "epoch": 0.02073331521684431,
7248
+ "grad_norm": 0.0006457091076299548,
7249
+ "learning_rate": 2.120391112505955e-05,
7250
+ "loss": 46.0,
7251
+ "step": 1030
7252
+ },
7253
+ {
7254
+ "epoch": 0.020753444649093674,
7255
+ "grad_norm": 0.0005488627939485013,
7256
+ "learning_rate": 2.1054541529942374e-05,
7257
+ "loss": 46.0,
7258
+ "step": 1031
7259
+ },
7260
+ {
7261
+ "epoch": 0.020773574081343036,
7262
+ "grad_norm": 0.001043295138515532,
7263
+ "learning_rate": 2.090563798173557e-05,
7264
+ "loss": 46.0,
7265
+ "step": 1032
7266
+ },
7267
+ {
7268
+ "epoch": 0.020793703513592398,
7269
+ "grad_norm": 0.0010731170186772943,
7270
+ "learning_rate": 2.0757201359476884e-05,
7271
+ "loss": 46.0,
7272
+ "step": 1033
7273
+ },
7274
+ {
7275
+ "epoch": 0.020813832945841763,
7276
+ "grad_norm": 0.0010378467850387096,
7277
+ "learning_rate": 2.060923253944761e-05,
7278
+ "loss": 46.0,
7279
+ "step": 1034
7280
+ },
7281
+ {
7282
+ "epoch": 0.020833962378091125,
7283
+ "grad_norm": 0.0009367475286126137,
7284
+ "learning_rate": 2.0461732395167475e-05,
7285
+ "loss": 46.0,
7286
+ "step": 1035
7287
+ },
7288
+ {
7289
+ "epoch": 0.02085409181034049,
7290
+ "grad_norm": 0.0012599321780726314,
7291
+ "learning_rate": 2.03147017973893e-05,
7292
+ "loss": 46.0,
7293
+ "step": 1036
7294
+ },
7295
+ {
7296
+ "epoch": 0.020874221242589853,
7297
+ "grad_norm": 0.0007634823559783399,
7298
+ "learning_rate": 2.0168141614094126e-05,
7299
+ "loss": 46.0,
7300
+ "step": 1037
7301
+ },
7302
+ {
7303
+ "epoch": 0.020894350674839215,
7304
+ "grad_norm": 0.0008573421509936452,
7305
+ "learning_rate": 2.0022052710485874e-05,
7306
+ "loss": 46.0,
7307
+ "step": 1038
7308
+ },
7309
+ {
7310
+ "epoch": 0.02091448010708858,
7311
+ "grad_norm": 0.0009650752181187272,
7312
+ "learning_rate": 1.9876435948986228e-05,
7313
+ "loss": 46.0,
7314
+ "step": 1039
7315
+ },
7316
+ {
7317
+ "epoch": 0.020934609539337942,
7318
+ "grad_norm": 0.0008246242650784552,
7319
+ "learning_rate": 1.973129218922981e-05,
7320
+ "loss": 46.0,
7321
+ "step": 1040
7322
+ },
7323
+ {
7324
+ "epoch": 0.020954738971587308,
7325
+ "grad_norm": 0.0008325594244524837,
7326
+ "learning_rate": 1.95866222880588e-05,
7327
+ "loss": 46.0,
7328
+ "step": 1041
7329
+ },
7330
+ {
7331
+ "epoch": 0.02097486840383667,
7332
+ "grad_norm": 0.0007449231925420463,
7333
+ "learning_rate": 1.9442427099518022e-05,
7334
+ "loss": 46.0,
7335
+ "step": 1042
7336
+ },
7337
+ {
7338
+ "epoch": 0.02099499783608603,
7339
+ "grad_norm": 0.0016277192626148462,
7340
+ "learning_rate": 1.9298707474849843e-05,
7341
+ "loss": 46.0,
7342
+ "step": 1043
7343
+ },
7344
+ {
7345
+ "epoch": 0.021015127268335397,
7346
+ "grad_norm": 0.0005063241114839911,
7347
+ "learning_rate": 1.9155464262489298e-05,
7348
+ "loss": 46.0,
7349
+ "step": 1044
7350
+ },
7351
+ {
7352
+ "epoch": 0.02103525670058476,
7353
+ "grad_norm": 0.0008978778496384621,
7354
+ "learning_rate": 1.9012698308058852e-05,
7355
+ "loss": 46.0,
7356
+ "step": 1045
7357
+ },
7358
+ {
7359
+ "epoch": 0.021055386132834124,
7360
+ "grad_norm": 0.0007100282236933708,
7361
+ "learning_rate": 1.8870410454363573e-05,
7362
+ "loss": 46.0,
7363
+ "step": 1046
7364
+ },
7365
+ {
7366
+ "epoch": 0.021075515565083486,
7367
+ "grad_norm": 0.0006800219998694956,
7368
+ "learning_rate": 1.872860154138608e-05,
7369
+ "loss": 46.0,
7370
+ "step": 1047
7371
+ },
7372
+ {
7373
+ "epoch": 0.021095644997332852,
7374
+ "grad_norm": 0.0006419627461582422,
7375
+ "learning_rate": 1.858727240628171e-05,
7376
+ "loss": 46.0,
7377
+ "step": 1048
7378
+ },
7379
+ {
7380
+ "epoch": 0.021115774429582214,
7381
+ "grad_norm": 0.0004995979252271354,
7382
+ "learning_rate": 1.8446423883373286e-05,
7383
+ "loss": 46.0,
7384
+ "step": 1049
7385
+ },
7386
+ {
7387
+ "epoch": 0.021135903861831576,
7388
+ "grad_norm": 0.0007924246601760387,
7389
+ "learning_rate": 1.8306056804146575e-05,
7390
+ "loss": 46.0,
7391
+ "step": 1050
7392
+ },
7393
+ {
7394
+ "epoch": 0.02115603329408094,
7395
+ "grad_norm": 0.0006777087110094726,
7396
+ "learning_rate": 1.816617199724512e-05,
7397
+ "loss": 46.0,
7398
+ "step": 1051
7399
+ },
7400
+ {
7401
+ "epoch": 0.021176162726330303,
7402
+ "grad_norm": 0.0013369604712352157,
7403
+ "learning_rate": 1.8026770288465323e-05,
7404
+ "loss": 46.0,
7405
+ "step": 1052
7406
+ },
7407
+ {
7408
+ "epoch": 0.02119629215857967,
7409
+ "grad_norm": 0.0005232554394751787,
7410
+ "learning_rate": 1.7887852500751822e-05,
7411
+ "loss": 46.0,
7412
+ "step": 1053
7413
+ },
7414
+ {
7415
+ "epoch": 0.02121642159082903,
7416
+ "grad_norm": 0.0013328958302736282,
7417
+ "learning_rate": 1.7749419454192373e-05,
7418
+ "loss": 46.0,
7419
+ "step": 1054
7420
+ },
7421
+ {
7422
+ "epoch": 0.021236551023078393,
7423
+ "grad_norm": 0.0014558390248566866,
7424
+ "learning_rate": 1.7611471966013127e-05,
7425
+ "loss": 46.0,
7426
+ "step": 1055
7427
+ },
7428
+ {
7429
+ "epoch": 0.021256680455327758,
7430
+ "grad_norm": 0.0010977151105180383,
7431
+ "learning_rate": 1.7474010850573775e-05,
7432
+ "loss": 46.0,
7433
+ "step": 1056
7434
+ },
7435
+ {
7436
+ "epoch": 0.02127680988757712,
7437
+ "grad_norm": 0.000998729607090354,
7438
+ "learning_rate": 1.7337036919362827e-05,
7439
+ "loss": 46.0,
7440
+ "step": 1057
7441
+ },
7442
+ {
7443
+ "epoch": 0.021296939319826486,
7444
+ "grad_norm": 0.00059292814694345,
7445
+ "learning_rate": 1.7200550980992647e-05,
7446
+ "loss": 46.0,
7447
+ "step": 1058
7448
+ },
7449
+ {
7450
+ "epoch": 0.021317068752075848,
7451
+ "grad_norm": 0.0010517132468521595,
7452
+ "learning_rate": 1.706455384119485e-05,
7453
+ "loss": 46.0,
7454
+ "step": 1059
7455
+ },
7456
+ {
7457
+ "epoch": 0.02133719818432521,
7458
+ "grad_norm": 0.0010053809965029359,
7459
+ "learning_rate": 1.6929046302815443e-05,
7460
+ "loss": 46.0,
7461
+ "step": 1060
7462
+ },
7463
+ {
7464
+ "epoch": 0.021357327616574575,
7465
+ "grad_norm": 0.0006442563608288765,
7466
+ "learning_rate": 1.6794029165810133e-05,
7467
+ "loss": 46.0,
7468
+ "step": 1061
7469
+ },
7470
+ {
7471
+ "epoch": 0.021377457048823937,
7472
+ "grad_norm": 0.0004650287446565926,
7473
+ "learning_rate": 1.665950322723957e-05,
7474
+ "loss": 46.0,
7475
+ "step": 1062
7476
+ },
7477
+ {
7478
+ "epoch": 0.021397586481073302,
7479
+ "grad_norm": 0.0011159973219037056,
7480
+ "learning_rate": 1.652546928126466e-05,
7481
+ "loss": 46.0,
7482
+ "step": 1063
7483
+ },
7484
+ {
7485
+ "epoch": 0.021417715913322664,
7486
+ "grad_norm": 0.0005395881598815322,
7487
+ "learning_rate": 1.6391928119141965e-05,
7488
+ "loss": 46.0,
7489
+ "step": 1064
7490
+ },
7491
+ {
7492
+ "epoch": 0.02143784534557203,
7493
+ "grad_norm": 0.0005475838552229106,
7494
+ "learning_rate": 1.625888052921878e-05,
7495
+ "loss": 46.0,
7496
+ "step": 1065
7497
+ },
7498
+ {
7499
+ "epoch": 0.021457974777821392,
7500
+ "grad_norm": 0.0009001667494885623,
7501
+ "learning_rate": 1.612632729692881e-05,
7502
+ "loss": 46.0,
7503
+ "step": 1066
7504
+ },
7505
+ {
7506
+ "epoch": 0.021478104210070754,
7507
+ "grad_norm": 0.0011171525111421943,
7508
+ "learning_rate": 1.599426920478726e-05,
7509
+ "loss": 46.0,
7510
+ "step": 1067
7511
+ },
7512
+ {
7513
+ "epoch": 0.02149823364232012,
7514
+ "grad_norm": 0.0007830538670532405,
7515
+ "learning_rate": 1.586270703238637e-05,
7516
+ "loss": 46.0,
7517
+ "step": 1068
7518
+ },
7519
+ {
7520
+ "epoch": 0.02151836307456948,
7521
+ "grad_norm": 0.0005228519439697266,
7522
+ "learning_rate": 1.573164155639073e-05,
7523
+ "loss": 46.0,
7524
+ "step": 1069
7525
+ },
7526
+ {
7527
+ "epoch": 0.021538492506818847,
7528
+ "grad_norm": 0.0009138689492829144,
7529
+ "learning_rate": 1.560107355053282e-05,
7530
+ "loss": 46.0,
7531
+ "step": 1070
7532
+ },
7533
+ {
7534
+ "epoch": 0.02155862193906821,
7535
+ "grad_norm": 0.0011538650142028928,
7536
+ "learning_rate": 1.5471003785608184e-05,
7537
+ "loss": 46.0,
7538
+ "step": 1071
7539
+ },
7540
+ {
7541
+ "epoch": 0.02157875137131757,
7542
+ "grad_norm": 0.0009152950951829553,
7543
+ "learning_rate": 1.534143302947123e-05,
7544
+ "loss": 46.0,
7545
+ "step": 1072
7546
+ },
7547
+ {
7548
+ "epoch": 0.021598880803566936,
7549
+ "grad_norm": 0.0008602161542512476,
7550
+ "learning_rate": 1.5212362047030427e-05,
7551
+ "loss": 46.0,
7552
+ "step": 1073
7553
+ },
7554
+ {
7555
+ "epoch": 0.021619010235816298,
7556
+ "grad_norm": 0.000630200607702136,
7557
+ "learning_rate": 1.5083791600243857e-05,
7558
+ "loss": 46.0,
7559
+ "step": 1074
7560
+ },
7561
+ {
7562
+ "epoch": 0.021639139668065663,
7563
+ "grad_norm": 0.001679250504821539,
7564
+ "learning_rate": 1.4955722448114807e-05,
7565
+ "loss": 46.0,
7566
+ "step": 1075
7567
+ },
7568
+ {
7569
+ "epoch": 0.021659269100315025,
7570
+ "grad_norm": 0.0008510241750627756,
7571
+ "learning_rate": 1.4828155346687123e-05,
7572
+ "loss": 46.0,
7573
+ "step": 1076
7574
+ },
7575
+ {
7576
+ "epoch": 0.021679398532564387,
7577
+ "grad_norm": 0.0007962991949170828,
7578
+ "learning_rate": 1.4701091049040994e-05,
7579
+ "loss": 46.0,
7580
+ "step": 1077
7581
+ },
7582
+ {
7583
+ "epoch": 0.021699527964813753,
7584
+ "grad_norm": 0.00033583008917048573,
7585
+ "learning_rate": 1.4574530305288158e-05,
7586
+ "loss": 46.0,
7587
+ "step": 1078
7588
+ },
7589
+ {
7590
+ "epoch": 0.021719657397063115,
7591
+ "grad_norm": 0.0015587556408718228,
7592
+ "learning_rate": 1.4448473862567857e-05,
7593
+ "loss": 46.0,
7594
+ "step": 1079
7595
+ },
7596
+ {
7597
+ "epoch": 0.02173978682931248,
7598
+ "grad_norm": 0.0016931117279455066,
7599
+ "learning_rate": 1.4322922465042132e-05,
7600
+ "loss": 46.0,
7601
+ "step": 1080
7602
+ },
7603
+ {
7604
+ "epoch": 0.021759916261561842,
7605
+ "grad_norm": 0.0011070282198488712,
7606
+ "learning_rate": 1.4197876853891557e-05,
7607
+ "loss": 46.0,
7608
+ "step": 1081
7609
+ },
7610
+ {
7611
+ "epoch": 0.021780045693811208,
7612
+ "grad_norm": 0.0012120172614231706,
7613
+ "learning_rate": 1.4073337767310834e-05,
7614
+ "loss": 46.0,
7615
+ "step": 1082
7616
+ },
7617
+ {
7618
+ "epoch": 0.02180017512606057,
7619
+ "grad_norm": 0.00137874367646873,
7620
+ "learning_rate": 1.3949305940504541e-05,
7621
+ "loss": 46.0,
7622
+ "step": 1083
7623
+ },
7624
+ {
7625
+ "epoch": 0.02182030455830993,
7626
+ "grad_norm": 0.0011860841186717153,
7627
+ "learning_rate": 1.3825782105682527e-05,
7628
+ "loss": 46.0,
7629
+ "step": 1084
7630
+ },
7631
+ {
7632
+ "epoch": 0.021840433990559297,
7633
+ "grad_norm": 0.0007199230021797121,
7634
+ "learning_rate": 1.3702766992055927e-05,
7635
+ "loss": 46.0,
7636
+ "step": 1085
7637
+ },
7638
+ {
7639
+ "epoch": 0.02186056342280866,
7640
+ "grad_norm": 0.0006517477449961007,
7641
+ "learning_rate": 1.3580261325832578e-05,
7642
+ "loss": 46.0,
7643
+ "step": 1086
7644
+ },
7645
+ {
7646
+ "epoch": 0.021880692855058025,
7647
+ "grad_norm": 0.0005604965263046324,
7648
+ "learning_rate": 1.3458265830212891e-05,
7649
+ "loss": 46.0,
7650
+ "step": 1087
7651
+ },
7652
+ {
7653
+ "epoch": 0.021900822287307387,
7654
+ "grad_norm": 0.0008536526001989841,
7655
+ "learning_rate": 1.333678122538553e-05,
7656
+ "loss": 46.0,
7657
+ "step": 1088
7658
+ },
7659
+ {
7660
+ "epoch": 0.02192095171955675,
7661
+ "grad_norm": 0.00035072650643996894,
7662
+ "learning_rate": 1.321580822852313e-05,
7663
+ "loss": 46.0,
7664
+ "step": 1089
7665
+ },
7666
+ {
7667
+ "epoch": 0.021941081151806114,
7668
+ "grad_norm": 0.0014688886003568769,
7669
+ "learning_rate": 1.3095347553778193e-05,
7670
+ "loss": 46.0,
7671
+ "step": 1090
7672
+ },
7673
+ {
7674
+ "epoch": 0.021961210584055476,
7675
+ "grad_norm": 0.0017621091101318598,
7676
+ "learning_rate": 1.2975399912278608e-05,
7677
+ "loss": 46.0,
7678
+ "step": 1091
7679
+ },
7680
+ {
7681
+ "epoch": 0.02198134001630484,
7682
+ "grad_norm": 0.0005523571744561195,
7683
+ "learning_rate": 1.2855966012123822e-05,
7684
+ "loss": 46.0,
7685
+ "step": 1092
7686
+ },
7687
+ {
7688
+ "epoch": 0.022001469448554203,
7689
+ "grad_norm": 0.0010343191679567099,
7690
+ "learning_rate": 1.2737046558380305e-05,
7691
+ "loss": 46.0,
7692
+ "step": 1093
7693
+ },
7694
+ {
7695
+ "epoch": 0.022021598880803565,
7696
+ "grad_norm": 0.0010563414543867111,
7697
+ "learning_rate": 1.2618642253077628e-05,
7698
+ "loss": 46.0,
7699
+ "step": 1094
7700
+ },
7701
+ {
7702
+ "epoch": 0.02204172831305293,
7703
+ "grad_norm": 0.0008712798589840531,
7704
+ "learning_rate": 1.2500753795204157e-05,
7705
+ "loss": 46.0,
7706
+ "step": 1095
7707
+ },
7708
+ {
7709
+ "epoch": 0.022061857745302293,
7710
+ "grad_norm": 0.0011983743170276284,
7711
+ "learning_rate": 1.2383381880703138e-05,
7712
+ "loss": 46.0,
7713
+ "step": 1096
7714
+ },
7715
+ {
7716
+ "epoch": 0.022081987177551658,
7717
+ "grad_norm": 0.001204630360007286,
7718
+ "learning_rate": 1.2266527202468248e-05,
7719
+ "loss": 46.0,
7720
+ "step": 1097
7721
+ },
7722
+ {
7723
+ "epoch": 0.02210211660980102,
7724
+ "grad_norm": 0.0008704798528924584,
7725
+ "learning_rate": 1.2150190450339915e-05,
7726
+ "loss": 46.0,
7727
+ "step": 1098
7728
+ },
7729
+ {
7730
+ "epoch": 0.022122246042050386,
7731
+ "grad_norm": 0.0009507142240181565,
7732
+ "learning_rate": 1.2034372311100905e-05,
7733
+ "loss": 46.0,
7734
+ "step": 1099
7735
+ },
7736
+ {
7737
+ "epoch": 0.022142375474299748,
7738
+ "grad_norm": 0.0018596797017380595,
7739
+ "learning_rate": 1.1919073468472475e-05,
7740
+ "loss": 46.0,
7741
+ "step": 1100
7742
+ },
7743
+ {
7744
+ "epoch": 0.02216250490654911,
7745
+ "grad_norm": 0.0010968039277940989,
7746
+ "learning_rate": 1.1804294603110222e-05,
7747
+ "loss": 46.0,
7748
+ "step": 1101
7749
+ },
7750
+ {
7751
+ "epoch": 0.022182634338798475,
7752
+ "grad_norm": 0.0012583578936755657,
7753
+ "learning_rate": 1.1690036392600112e-05,
7754
+ "loss": 46.0,
7755
+ "step": 1102
7756
+ },
7757
+ {
7758
+ "epoch": 0.022202763771047837,
7759
+ "grad_norm": 0.0011010583257302642,
7760
+ "learning_rate": 1.1576299511454513e-05,
7761
+ "loss": 46.0,
7762
+ "step": 1103
7763
+ },
7764
+ {
7765
+ "epoch": 0.022222893203297202,
7766
+ "grad_norm": 0.000499493908137083,
7767
+ "learning_rate": 1.1463084631108101e-05,
7768
+ "loss": 46.0,
7769
+ "step": 1104
7770
+ },
7771
+ {
7772
+ "epoch": 0.022243022635546564,
7773
+ "grad_norm": 0.0009412445360794663,
7774
+ "learning_rate": 1.135039241991408e-05,
7775
+ "loss": 46.0,
7776
+ "step": 1105
7777
+ },
7778
+ {
7779
+ "epoch": 0.022263152067795926,
7780
+ "grad_norm": 0.0010741801233962178,
7781
+ "learning_rate": 1.1238223543140024e-05,
7782
+ "loss": 46.0,
7783
+ "step": 1106
7784
+ },
7785
+ {
7786
+ "epoch": 0.022283281500045292,
7787
+ "grad_norm": 0.0016603496624156833,
7788
+ "learning_rate": 1.1126578662964115e-05,
7789
+ "loss": 46.0,
7790
+ "step": 1107
7791
+ },
7792
+ {
7793
+ "epoch": 0.022303410932294654,
7794
+ "grad_norm": 0.0007736904663033783,
7795
+ "learning_rate": 1.1015458438471116e-05,
7796
+ "loss": 46.0,
7797
+ "step": 1108
7798
+ },
7799
+ {
7800
+ "epoch": 0.02232354036454402,
7801
+ "grad_norm": 0.0007681693532504141,
7802
+ "learning_rate": 1.0904863525648633e-05,
7803
+ "loss": 46.0,
7804
+ "step": 1109
7805
+ },
7806
+ {
7807
+ "epoch": 0.02234366979679338,
7808
+ "grad_norm": 0.0009165824740193784,
7809
+ "learning_rate": 1.0794794577383016e-05,
7810
+ "loss": 46.0,
7811
+ "step": 1110
7812
+ },
7813
+ {
7814
+ "epoch": 0.022363799229042743,
7815
+ "grad_norm": 0.0012590873520821333,
7816
+ "learning_rate": 1.0685252243455712e-05,
7817
+ "loss": 46.0,
7818
+ "step": 1111
7819
+ },
7820
+ {
7821
+ "epoch": 0.02238392866129211,
7822
+ "grad_norm": 0.0006520768511109054,
7823
+ "learning_rate": 1.0576237170539383e-05,
7824
+ "loss": 46.0,
7825
+ "step": 1112
7826
+ },
7827
+ {
7828
+ "epoch": 0.02240405809354147,
7829
+ "grad_norm": 0.0008068094030022621,
7830
+ "learning_rate": 1.0467750002193944e-05,
7831
+ "loss": 46.0,
7832
+ "step": 1113
7833
+ },
7834
+ {
7835
+ "epoch": 0.022424187525790836,
7836
+ "grad_norm": 0.0007286273175850511,
7837
+ "learning_rate": 1.0359791378863005e-05,
7838
+ "loss": 46.0,
7839
+ "step": 1114
7840
+ },
7841
+ {
7842
+ "epoch": 0.022444316958040198,
7843
+ "grad_norm": 0.00037491964758373797,
7844
+ "learning_rate": 1.025236193786987e-05,
7845
+ "loss": 46.0,
7846
+ "step": 1115
7847
+ },
7848
+ {
7849
+ "epoch": 0.022464446390289564,
7850
+ "grad_norm": 0.0006626130198128521,
7851
+ "learning_rate": 1.014546231341391e-05,
7852
+ "loss": 46.0,
7853
+ "step": 1116
7854
+ },
7855
+ {
7856
+ "epoch": 0.022484575822538926,
7857
+ "grad_norm": 0.0007106042467057705,
7858
+ "learning_rate": 1.0039093136566735e-05,
7859
+ "loss": 46.0,
7860
+ "step": 1117
7861
+ },
7862
+ {
7863
+ "epoch": 0.022504705254788288,
7864
+ "grad_norm": 0.0007863907376304269,
7865
+ "learning_rate": 9.933255035268574e-06,
7866
+ "loss": 46.0,
7867
+ "step": 1118
7868
+ },
7869
+ {
7870
+ "epoch": 0.022524834687037653,
7871
+ "grad_norm": 0.0013863188214600086,
7872
+ "learning_rate": 9.827948634324447e-06,
7873
+ "loss": 46.0,
7874
+ "step": 1119
7875
+ },
7876
+ {
7877
+ "epoch": 0.022544964119287015,
7878
+ "grad_norm": 0.0006982397171668708,
7879
+ "learning_rate": 9.72317455540055e-06,
7880
+ "loss": 46.0,
7881
+ "step": 1120
7882
+ },
7883
+ {
7884
+ "epoch": 0.02256509355153638,
7885
+ "grad_norm": 0.0007036144379526377,
7886
+ "learning_rate": 9.61893341702056e-06,
7887
+ "loss": 46.0,
7888
+ "step": 1121
7889
+ },
7890
+ {
7891
+ "epoch": 0.022585222983785742,
7892
+ "grad_norm": 0.0005324577214196324,
7893
+ "learning_rate": 9.515225834562003e-06,
7894
+ "loss": 46.0,
7895
+ "step": 1122
7896
+ },
7897
+ {
7898
+ "epoch": 0.022605352416035104,
7899
+ "grad_norm": 0.00036683998769149184,
7900
+ "learning_rate": 9.412052420252605e-06,
7901
+ "loss": 46.0,
7902
+ "step": 1123
7903
+ },
7904
+ {
7905
+ "epoch": 0.02262548184828447,
7906
+ "grad_norm": 0.0008661012398079038,
7907
+ "learning_rate": 9.309413783166654e-06,
7908
+ "loss": 46.0,
7909
+ "step": 1124
7910
+ },
7911
+ {
7912
+ "epoch": 0.022645611280533832,
7913
+ "grad_norm": 0.0007851457339711487,
7914
+ "learning_rate": 9.207310529221525e-06,
7915
+ "loss": 46.0,
7916
+ "step": 1125
7917
+ },
7918
+ {
7919
+ "epoch": 0.022665740712783197,
7920
+ "grad_norm": 0.0005590534419752657,
7921
+ "learning_rate": 9.10574326117386e-06,
7922
+ "loss": 46.0,
7923
+ "step": 1126
7924
+ },
7925
+ {
7926
+ "epoch": 0.02268587014503256,
7927
+ "grad_norm": 0.001089409808628261,
7928
+ "learning_rate": 9.004712578616304e-06,
7929
+ "loss": 46.0,
7930
+ "step": 1127
7931
+ },
7932
+ {
7933
+ "epoch": 0.02270599957728192,
7934
+ "grad_norm": 0.0006295640487223864,
7935
+ "learning_rate": 8.90421907797374e-06,
7936
+ "loss": 46.0,
7937
+ "step": 1128
7938
+ },
7939
+ {
7940
+ "epoch": 0.022726129009531287,
7941
+ "grad_norm": 0.0009275046759285033,
7942
+ "learning_rate": 8.804263352499864e-06,
7943
+ "loss": 46.0,
7944
+ "step": 1129
7945
+ },
7946
+ {
7947
+ "epoch": 0.02274625844178065,
7948
+ "grad_norm": 0.0012473628157749772,
7949
+ "learning_rate": 8.70484599227367e-06,
7950
+ "loss": 46.0,
7951
+ "step": 1130
7952
+ },
7953
+ {
7954
+ "epoch": 0.022766387874030014,
7955
+ "grad_norm": 0.0009947452927008271,
7956
+ "learning_rate": 8.605967584195995e-06,
7957
+ "loss": 46.0,
7958
+ "step": 1131
7959
+ },
7960
+ {
7961
+ "epoch": 0.022786517306279376,
7962
+ "grad_norm": 0.0007231653435155749,
7963
+ "learning_rate": 8.507628711985983e-06,
7964
+ "loss": 46.0,
7965
+ "step": 1132
7966
+ },
7967
+ {
7968
+ "epoch": 0.02280664673852874,
7969
+ "grad_norm": 0.0004182531265541911,
7970
+ "learning_rate": 8.409829956177684e-06,
7971
+ "loss": 46.0,
7972
+ "step": 1133
7973
+ },
7974
+ {
7975
+ "epoch": 0.022826776170778103,
7976
+ "grad_norm": 0.0012393246870487928,
7977
+ "learning_rate": 8.312571894116649e-06,
7978
+ "loss": 46.0,
7979
+ "step": 1134
7980
+ },
7981
+ {
7982
+ "epoch": 0.022846905603027465,
7983
+ "grad_norm": 0.0009794539073482156,
7984
+ "learning_rate": 8.215855099956472e-06,
7985
+ "loss": 46.0,
7986
+ "step": 1135
7987
+ },
7988
+ {
7989
+ "epoch": 0.02286703503527683,
7990
+ "grad_norm": 0.000817556690890342,
7991
+ "learning_rate": 8.119680144655428e-06,
7992
+ "loss": 46.0,
7993
+ "step": 1136
7994
+ },
7995
+ {
7996
+ "epoch": 0.022887164467526193,
7997
+ "grad_norm": 0.001215306343510747,
7998
+ "learning_rate": 8.024047595973095e-06,
7999
+ "loss": 46.0,
8000
+ "step": 1137
8001
+ },
8002
+ {
8003
+ "epoch": 0.02290729389977556,
8004
+ "grad_norm": 0.0013395050773397088,
8005
+ "learning_rate": 7.92895801846707e-06,
8006
+ "loss": 46.0,
8007
+ "step": 1138
8008
+ },
8009
+ {
8010
+ "epoch": 0.02292742333202492,
8011
+ "grad_norm": 0.0012201687786728144,
8012
+ "learning_rate": 7.834411973489419e-06,
8013
+ "loss": 46.0,
8014
+ "step": 1139
8015
+ },
8016
+ {
8017
+ "epoch": 0.022947552764274282,
8018
+ "grad_norm": 0.0008355136960744858,
8019
+ "learning_rate": 7.740410019183697e-06,
8020
+ "loss": 46.0,
8021
+ "step": 1140
8022
+ },
8023
+ {
8024
+ "epoch": 0.022967682196523648,
8025
+ "grad_norm": 0.0009616176830604672,
8026
+ "learning_rate": 7.646952710481336e-06,
8027
+ "loss": 46.0,
8028
+ "step": 1141
8029
+ },
8030
+ {
8031
+ "epoch": 0.02298781162877301,
8032
+ "grad_norm": 0.000676050316542387,
8033
+ "learning_rate": 7.554040599098588e-06,
8034
+ "loss": 46.0,
8035
+ "step": 1142
8036
+ },
8037
+ {
8038
+ "epoch": 0.023007941061022375,
8039
+ "grad_norm": 0.0018640294438228011,
8040
+ "learning_rate": 7.461674233533123e-06,
8041
+ "loss": 46.0,
8042
+ "step": 1143
8043
+ },
8044
+ {
8045
+ "epoch": 0.023028070493271737,
8046
+ "grad_norm": 0.0013213737402111292,
8047
+ "learning_rate": 7.369854159060929e-06,
8048
+ "loss": 46.0,
8049
+ "step": 1144
8050
+ },
8051
+ {
8052
+ "epoch": 0.0230481999255211,
8053
+ "grad_norm": 0.001049902755767107,
8054
+ "learning_rate": 7.278580917732913e-06,
8055
+ "loss": 46.0,
8056
+ "step": 1145
8057
+ },
8058
+ {
8059
+ "epoch": 0.023068329357770465,
8060
+ "grad_norm": 0.0006768841994926333,
8061
+ "learning_rate": 7.187855048371917e-06,
8062
+ "loss": 46.0,
8063
+ "step": 1146
8064
+ },
8065
+ {
8066
+ "epoch": 0.023088458790019827,
8067
+ "grad_norm": 0.0010121595114469528,
8068
+ "learning_rate": 7.097677086569343e-06,
8069
+ "loss": 46.0,
8070
+ "step": 1147
8071
+ },
8072
+ {
8073
+ "epoch": 0.023108588222269192,
8074
+ "grad_norm": 0.001295650377869606,
8075
+ "learning_rate": 7.008047564682119e-06,
8076
+ "loss": 46.0,
8077
+ "step": 1148
8078
+ },
8079
+ {
8080
+ "epoch": 0.023128717654518554,
8081
+ "grad_norm": 0.0004917937330901623,
8082
+ "learning_rate": 6.91896701182948e-06,
8083
+ "loss": 46.0,
8084
+ "step": 1149
8085
+ },
8086
+ {
8087
+ "epoch": 0.02314884708676792,
8088
+ "grad_norm": 0.0013024702202528715,
8089
+ "learning_rate": 6.83043595388988e-06,
8090
+ "loss": 46.0,
8091
+ "step": 1150
8092
+ },
8093
+ {
8094
+ "epoch": 0.02316897651901728,
8095
+ "grad_norm": 0.0009011050569824874,
8096
+ "learning_rate": 6.742454913497942e-06,
8097
+ "loss": 46.0,
8098
+ "step": 1151
8099
+ },
8100
+ {
8101
+ "epoch": 0.023189105951266643,
8102
+ "grad_norm": 0.0012644693488255143,
8103
+ "learning_rate": 6.6550244100412e-06,
8104
+ "loss": 46.0,
8105
+ "step": 1152
8106
+ },
8107
+ {
8108
+ "epoch": 0.02320923538351601,
8109
+ "grad_norm": 0.0013667414896190166,
8110
+ "learning_rate": 6.568144959657263e-06,
8111
+ "loss": 46.0,
8112
+ "step": 1153
8113
+ },
8114
+ {
8115
+ "epoch": 0.02322936481576537,
8116
+ "grad_norm": 0.0011150363134220243,
8117
+ "learning_rate": 6.481817075230567e-06,
8118
+ "loss": 46.0,
8119
+ "step": 1154
8120
+ },
8121
+ {
8122
+ "epoch": 0.023249494248014736,
8123
+ "grad_norm": 0.0010298212291672826,
8124
+ "learning_rate": 6.396041266389474e-06,
8125
+ "loss": 46.0,
8126
+ "step": 1155
8127
+ },
8128
+ {
8129
+ "epoch": 0.023269623680264098,
8130
+ "grad_norm": 0.001109607401303947,
8131
+ "learning_rate": 6.3108180395031965e-06,
8132
+ "loss": 46.0,
8133
+ "step": 1156
8134
+ },
8135
+ {
8136
+ "epoch": 0.02328975311251346,
8137
+ "grad_norm": 0.0005489352042786777,
8138
+ "learning_rate": 6.22614789767888e-06,
8139
+ "loss": 46.0,
8140
+ "step": 1157
8141
+ },
8142
+ {
8143
+ "epoch": 0.023309882544762826,
8144
+ "grad_norm": 0.0007645548903383315,
8145
+ "learning_rate": 6.142031340758525e-06,
8146
+ "loss": 46.0,
8147
+ "step": 1158
8148
+ },
8149
+ {
8150
+ "epoch": 0.023330011977012188,
8151
+ "grad_norm": 0.0007147680153138936,
8152
+ "learning_rate": 6.058468865316102e-06,
8153
+ "loss": 46.0,
8154
+ "step": 1159
8155
+ },
8156
+ {
8157
+ "epoch": 0.023350141409261553,
8158
+ "grad_norm": 0.0006330362521111965,
8159
+ "learning_rate": 5.975460964654689e-06,
8160
+ "loss": 46.0,
8161
+ "step": 1160
8162
+ },
8163
+ {
8164
+ "epoch": 0.023370270841510915,
8165
+ "grad_norm": 0.0008396542398259044,
8166
+ "learning_rate": 5.8930081288034014e-06,
8167
+ "loss": 46.0,
8168
+ "step": 1161
8169
+ },
8170
+ {
8171
+ "epoch": 0.023390400273760277,
8172
+ "grad_norm": 0.001648742356337607,
8173
+ "learning_rate": 5.8111108445146116e-06,
8174
+ "loss": 46.0,
8175
+ "step": 1162
8176
+ },
8177
+ {
8178
+ "epoch": 0.023410529706009642,
8179
+ "grad_norm": 0.0008351008291356266,
8180
+ "learning_rate": 5.72976959526107e-06,
8181
+ "loss": 46.0,
8182
+ "step": 1163
8183
+ },
8184
+ {
8185
+ "epoch": 0.023430659138259004,
8186
+ "grad_norm": 0.0012098524020984769,
8187
+ "learning_rate": 5.648984861232986e-06,
8188
+ "loss": 46.0,
8189
+ "step": 1164
8190
+ },
8191
+ {
8192
+ "epoch": 0.02345078857050837,
8193
+ "grad_norm": 0.0010954445460811257,
8194
+ "learning_rate": 5.568757119335244e-06,
8195
+ "loss": 46.0,
8196
+ "step": 1165
8197
+ },
8198
+ {
8199
+ "epoch": 0.023470918002757732,
8200
+ "grad_norm": 0.0008584211464039981,
8201
+ "learning_rate": 5.489086843184632e-06,
8202
+ "loss": 46.0,
8203
+ "step": 1166
8204
+ },
8205
+ {
8206
+ "epoch": 0.023491047435007097,
8207
+ "grad_norm": 0.000767943391110748,
8208
+ "learning_rate": 5.40997450310693e-06,
8209
+ "loss": 46.0,
8210
+ "step": 1167
8211
+ },
8212
+ {
8213
+ "epoch": 0.02351117686725646,
8214
+ "grad_norm": 0.001566538936458528,
8215
+ "learning_rate": 5.3314205661342155e-06,
8216
+ "loss": 46.0,
8217
+ "step": 1168
8218
+ },
8219
+ {
8220
+ "epoch": 0.02353130629950582,
8221
+ "grad_norm": 0.0008029242744669318,
8222
+ "learning_rate": 5.253425496002084e-06,
8223
+ "loss": 46.0,
8224
+ "step": 1169
8225
+ },
8226
+ {
8227
+ "epoch": 0.023551435731755187,
8228
+ "grad_norm": 0.0011748820543289185,
8229
+ "learning_rate": 5.175989753146948e-06,
8230
+ "loss": 46.0,
8231
+ "step": 1170
8232
+ },
8233
+ {
8234
+ "epoch": 0.02357156516400455,
8235
+ "grad_norm": 0.000719308911357075,
8236
+ "learning_rate": 5.099113794703225e-06,
8237
+ "loss": 46.0,
8238
+ "step": 1171
8239
+ },
8240
+ {
8241
+ "epoch": 0.023591694596253914,
8242
+ "grad_norm": 0.0005550024216063321,
8243
+ "learning_rate": 5.0227980745007345e-06,
8244
+ "loss": 46.0,
8245
+ "step": 1172
8246
+ },
8247
+ {
8248
+ "epoch": 0.023611824028503276,
8249
+ "grad_norm": 0.0007492146105505526,
8250
+ "learning_rate": 4.947043043062016e-06,
8251
+ "loss": 46.0,
8252
+ "step": 1173
8253
+ },
8254
+ {
8255
+ "epoch": 0.023631953460752638,
8256
+ "grad_norm": 0.0011210053926333785,
8257
+ "learning_rate": 4.87184914759955e-06,
8258
+ "loss": 46.0,
8259
+ "step": 1174
8260
+ },
8261
+ {
8262
+ "epoch": 0.023652082893002004,
8263
+ "grad_norm": 0.000586840498726815,
8264
+ "learning_rate": 4.7972168320132845e-06,
8265
+ "loss": 46.0,
8266
+ "step": 1175
8267
+ },
8268
+ {
8269
+ "epoch": 0.023672212325251366,
8270
+ "grad_norm": 0.0013588924193754792,
8271
+ "learning_rate": 4.7231465368879124e-06,
8272
+ "loss": 46.0,
8273
+ "step": 1176
8274
+ },
8275
+ {
8276
+ "epoch": 0.02369234175750073,
8277
+ "grad_norm": 0.00061926303897053,
8278
+ "learning_rate": 4.649638699490266e-06,
8279
+ "loss": 46.0,
8280
+ "step": 1177
8281
+ },
8282
+ {
8283
+ "epoch": 0.023712471189750093,
8284
+ "grad_norm": 0.0006894692778587341,
8285
+ "learning_rate": 4.576693753766792e-06,
8286
+ "loss": 46.0,
8287
+ "step": 1178
8288
+ },
8289
+ {
8290
+ "epoch": 0.023732600621999455,
8291
+ "grad_norm": 0.0008896641083993018,
8292
+ "learning_rate": 4.5043121303409595e-06,
8293
+ "loss": 46.0,
8294
+ "step": 1179
8295
+ },
8296
+ {
8297
+ "epoch": 0.02375273005424882,
8298
+ "grad_norm": 0.0010777831776067615,
8299
+ "learning_rate": 4.432494256510711e-06,
8300
+ "loss": 46.0,
8301
+ "step": 1180
8302
+ },
8303
+ {
8304
+ "epoch": 0.023772859486498182,
8305
+ "grad_norm": 0.0012661231448873878,
8306
+ "learning_rate": 4.361240556245938e-06,
8307
+ "loss": 46.0,
8308
+ "step": 1181
8309
+ },
8310
+ {
8311
+ "epoch": 0.023792988918747548,
8312
+ "grad_norm": 0.0015156505396589637,
8313
+ "learning_rate": 4.290551450185986e-06,
8314
+ "loss": 46.0,
8315
+ "step": 1182
8316
+ },
8317
+ {
8318
+ "epoch": 0.02381311835099691,
8319
+ "grad_norm": 0.000532010046299547,
8320
+ "learning_rate": 4.220427355637224e-06,
8321
+ "loss": 46.0,
8322
+ "step": 1183
8323
+ },
8324
+ {
8325
+ "epoch": 0.023833247783246275,
8326
+ "grad_norm": 0.0007818634621798992,
8327
+ "learning_rate": 4.150868686570464e-06,
8328
+ "loss": 46.0,
8329
+ "step": 1184
8330
+ },
8331
+ {
8332
+ "epoch": 0.023853377215495637,
8333
+ "grad_norm": 0.0010528319980949163,
8334
+ "learning_rate": 4.081875853618588e-06,
8335
+ "loss": 46.0,
8336
+ "step": 1185
8337
+ },
8338
+ {
8339
+ "epoch": 0.023873506647745,
8340
+ "grad_norm": 0.001450626994483173,
8341
+ "learning_rate": 4.013449264074187e-06,
8342
+ "loss": 46.0,
8343
+ "step": 1186
8344
+ },
8345
+ {
8346
+ "epoch": 0.023893636079994365,
8347
+ "grad_norm": 0.0018947275821119547,
8348
+ "learning_rate": 3.945589321886989e-06,
8349
+ "loss": 46.0,
8350
+ "step": 1187
8351
+ },
8352
+ {
8353
+ "epoch": 0.023913765512243727,
8354
+ "grad_norm": 0.0009489529766142368,
8355
+ "learning_rate": 3.878296427661676e-06,
8356
+ "loss": 46.0,
8357
+ "step": 1188
8358
+ },
8359
+ {
8360
+ "epoch": 0.023933894944493092,
8361
+ "grad_norm": 0.0008835981134325266,
8362
+ "learning_rate": 3.8115709786553435e-06,
8363
+ "loss": 46.0,
8364
+ "step": 1189
8365
+ },
8366
+ {
8367
+ "epoch": 0.023954024376742454,
8368
+ "grad_norm": 0.0008584621245972812,
8369
+ "learning_rate": 3.7454133687752524e-06,
8370
+ "loss": 46.0,
8371
+ "step": 1190
8372
+ },
8373
+ {
8374
+ "epoch": 0.023974153808991816,
8375
+ "grad_norm": 0.001248899381607771,
8376
+ "learning_rate": 3.6798239885764806e-06,
8377
+ "loss": 46.0,
8378
+ "step": 1191
8379
+ },
8380
+ {
8381
+ "epoch": 0.02399428324124118,
8382
+ "grad_norm": 0.0006818815018050373,
8383
+ "learning_rate": 3.614803225259622e-06,
8384
+ "loss": 46.0,
8385
+ "step": 1192
8386
+ },
8387
+ {
8388
+ "epoch": 0.024014412673490543,
8389
+ "grad_norm": 0.0011521173873916268,
8390
+ "learning_rate": 3.550351462668489e-06,
8391
+ "loss": 46.0,
8392
+ "step": 1193
8393
+ },
8394
+ {
8395
+ "epoch": 0.02403454210573991,
8396
+ "grad_norm": 0.0009178062318824232,
8397
+ "learning_rate": 3.4864690812878688e-06,
8398
+ "loss": 46.0,
8399
+ "step": 1194
8400
+ },
8401
+ {
8402
+ "epoch": 0.02405467153798927,
8403
+ "grad_norm": 0.0005374921602196991,
8404
+ "learning_rate": 3.4231564582412167e-06,
8405
+ "loss": 46.0,
8406
+ "step": 1195
8407
+ },
8408
+ {
8409
+ "epoch": 0.024074800970238633,
8410
+ "grad_norm": 0.0010567499557510018,
8411
+ "learning_rate": 3.3604139672885227e-06,
8412
+ "loss": 46.0,
8413
+ "step": 1196
8414
+ },
8415
+ {
8416
+ "epoch": 0.024094930402488,
8417
+ "grad_norm": 0.00042650941759347916,
8418
+ "learning_rate": 3.298241978824046e-06,
8419
+ "loss": 46.0,
8420
+ "step": 1197
8421
+ },
8422
+ {
8423
+ "epoch": 0.02411505983473736,
8424
+ "grad_norm": 0.001136740087531507,
8425
+ "learning_rate": 3.2366408598741072e-06,
8426
+ "loss": 46.0,
8427
+ "step": 1198
8428
+ },
8429
+ {
8430
+ "epoch": 0.024135189266986726,
8431
+ "grad_norm": 0.0011373634915798903,
8432
+ "learning_rate": 3.175610974095011e-06,
8433
+ "loss": 46.0,
8434
+ "step": 1199
8435
+ },
8436
+ {
8437
+ "epoch": 0.024155318699236088,
8438
+ "grad_norm": 0.00101361027918756,
8439
+ "learning_rate": 3.115152681770783e-06,
8440
+ "loss": 46.0,
8441
+ "step": 1200
8442
+ },
8443
+ {
8444
+ "epoch": 0.024175448131485453,
8445
+ "grad_norm": 0.000945060164667666,
8446
+ "learning_rate": 3.055266339811147e-06,
8447
+ "loss": 46.0,
8448
+ "step": 1201
8449
+ },
8450
+ {
8451
+ "epoch": 0.024195577563734815,
8452
+ "grad_norm": 0.0009245016844943166,
8453
+ "learning_rate": 2.9959523017493386e-06,
8454
+ "loss": 46.0,
8455
+ "step": 1202
8456
+ },
8457
+ {
8458
+ "epoch": 0.024215706995984177,
8459
+ "grad_norm": 0.00034907733788713813,
8460
+ "learning_rate": 2.9372109177400854e-06,
8461
+ "loss": 46.0,
8462
+ "step": 1203
8463
+ },
8464
+ {
8465
+ "epoch": 0.024235836428233543,
8466
+ "grad_norm": 0.0015949602238833904,
8467
+ "learning_rate": 2.8790425345574745e-06,
8468
+ "loss": 46.0,
8469
+ "step": 1204
8470
+ },
8471
+ {
8472
+ "epoch": 0.024255965860482905,
8473
+ "grad_norm": 0.0008049356401897967,
8474
+ "learning_rate": 2.821447495592977e-06,
8475
+ "loss": 46.0,
8476
+ "step": 1205
8477
+ },
8478
+ {
8479
+ "epoch": 0.02427609529273227,
8480
+ "grad_norm": 0.0010959411738440394,
8481
+ "learning_rate": 2.7644261408533155e-06,
8482
+ "loss": 46.0,
8483
+ "step": 1206
8484
+ },
8485
+ {
8486
+ "epoch": 0.024296224724981632,
8487
+ "grad_norm": 0.001113040023483336,
8488
+ "learning_rate": 2.707978806958611e-06,
8489
+ "loss": 46.0,
8490
+ "step": 1207
8491
+ },
8492
+ {
8493
+ "epoch": 0.024316354157230994,
8494
+ "grad_norm": 0.0006179322372190654,
8495
+ "learning_rate": 2.6521058271402386e-06,
8496
+ "loss": 46.0,
8497
+ "step": 1208
8498
+ },
8499
+ {
8500
+ "epoch": 0.02433648358948036,
8501
+ "grad_norm": 0.0004471320426091552,
8502
+ "learning_rate": 2.596807531238965e-06,
8503
+ "loss": 46.0,
8504
+ "step": 1209
8505
+ },
8506
+ {
8507
+ "epoch": 0.02435661302172972,
8508
+ "grad_norm": 0.002076149685308337,
8509
+ "learning_rate": 2.542084245702947e-06,
8510
+ "loss": 46.0,
8511
+ "step": 1210
8512
+ },
8513
+ {
8514
+ "epoch": 0.024376742453979087,
8515
+ "grad_norm": 0.0005335964378900826,
8516
+ "learning_rate": 2.487936293585813e-06,
8517
+ "loss": 46.0,
8518
+ "step": 1211
8519
+ },
8520
+ {
8521
+ "epoch": 0.02439687188622845,
8522
+ "grad_norm": 0.001850920612923801,
8523
+ "learning_rate": 2.4343639945448306e-06,
8524
+ "loss": 46.0,
8525
+ "step": 1212
8526
+ },
8527
+ {
8528
+ "epoch": 0.02441700131847781,
8529
+ "grad_norm": 0.0012666831025853753,
8530
+ "learning_rate": 2.3813676648388517e-06,
8531
+ "loss": 46.0,
8532
+ "step": 1213
8533
+ },
8534
+ {
8535
+ "epoch": 0.024437130750727176,
8536
+ "grad_norm": 0.00046365856542252004,
8537
+ "learning_rate": 2.3289476173266376e-06,
8538
+ "loss": 46.0,
8539
+ "step": 1214
8540
+ },
8541
+ {
8542
+ "epoch": 0.024457260182976538,
8543
+ "grad_norm": 0.0010178579250350595,
8544
+ "learning_rate": 2.2771041614648825e-06,
8545
+ "loss": 46.0,
8546
+ "step": 1215
8547
+ },
8548
+ {
8549
+ "epoch": 0.024477389615225904,
8550
+ "grad_norm": 0.001140277599915862,
8551
+ "learning_rate": 2.2258376033064354e-06,
8552
+ "loss": 46.0,
8553
+ "step": 1216
8554
+ },
8555
+ {
8556
+ "epoch": 0.024497519047475266,
8557
+ "grad_norm": 0.0006400442798621953,
8558
+ "learning_rate": 2.1751482454984706e-06,
8559
+ "loss": 46.0,
8560
+ "step": 1217
8561
+ },
8562
+ {
8563
+ "epoch": 0.02451764847972463,
8564
+ "grad_norm": 0.0014165055472403765,
8565
+ "learning_rate": 2.1250363872807655e-06,
8566
+ "loss": 46.0,
8567
+ "step": 1218
8568
+ },
8569
+ {
8570
+ "epoch": 0.024537777911973993,
8571
+ "grad_norm": 0.0007371717365458608,
8572
+ "learning_rate": 2.0755023244838136e-06,
8573
+ "loss": 46.0,
8574
+ "step": 1219
8575
+ },
8576
+ {
8577
+ "epoch": 0.024557907344223355,
8578
+ "grad_norm": 0.0013694085646420717,
8579
+ "learning_rate": 2.026546349527181e-06,
8580
+ "loss": 46.0,
8581
+ "step": 1220
8582
+ },
8583
+ {
8584
+ "epoch": 0.02457803677647272,
8585
+ "grad_norm": 0.0012485695770010352,
8586
+ "learning_rate": 1.978168751417786e-06,
8587
+ "loss": 46.0,
8588
+ "step": 1221
8589
+ },
8590
+ {
8591
+ "epoch": 0.024598166208722082,
8592
+ "grad_norm": 0.001493003685027361,
8593
+ "learning_rate": 1.93036981574809e-06,
8594
+ "loss": 46.0,
8595
+ "step": 1222
8596
+ },
8597
+ {
8598
+ "epoch": 0.024618295640971448,
8599
+ "grad_norm": 0.0006664522225037217,
8600
+ "learning_rate": 1.8831498246945189e-06,
8601
+ "loss": 46.0,
8602
+ "step": 1223
8603
+ },
8604
+ {
8605
+ "epoch": 0.02463842507322081,
8606
+ "grad_norm": 0.0011530322954058647,
8607
+ "learning_rate": 1.836509057015734e-06,
8608
+ "loss": 46.0,
8609
+ "step": 1224
8610
+ },
8611
+ {
8612
+ "epoch": 0.024658554505470172,
8613
+ "grad_norm": 0.0006030354998074472,
8614
+ "learning_rate": 1.7904477880510307e-06,
8615
+ "loss": 46.0,
8616
+ "step": 1225
8617
+ },
8618
+ {
8619
+ "epoch": 0.024678683937719537,
8620
+ "grad_norm": 0.001384797622449696,
8621
+ "learning_rate": 1.7449662897186414e-06,
8622
+ "loss": 46.0,
8623
+ "step": 1226
8624
+ },
8625
+ {
8626
+ "epoch": 0.0246988133699689,
8627
+ "grad_norm": 0.0006306437426246703,
8628
+ "learning_rate": 1.7000648305142364e-06,
8629
+ "loss": 46.0,
8630
+ "step": 1227
8631
+ },
8632
+ {
8633
+ "epoch": 0.024718942802218265,
8634
+ "grad_norm": 0.0005167327472008765,
8635
+ "learning_rate": 1.655743675509258e-06,
8636
+ "loss": 46.0,
8637
+ "step": 1228
8638
+ },
8639
+ {
8640
+ "epoch": 0.024739072234467627,
8641
+ "grad_norm": 0.00042707190732471645,
8642
+ "learning_rate": 1.6120030863493674e-06,
8643
+ "loss": 46.0,
8644
+ "step": 1229
8645
+ },
8646
+ {
8647
+ "epoch": 0.02475920166671699,
8648
+ "grad_norm": 0.0003029134531971067,
8649
+ "learning_rate": 1.5688433212529107e-06,
8650
+ "loss": 46.0,
8651
+ "step": 1230
8652
+ },
8653
+ {
8654
+ "epoch": 0.024779331098966354,
8655
+ "grad_norm": 0.0007286612526513636,
8656
+ "learning_rate": 1.5262646350094334e-06,
8657
+ "loss": 46.0,
8658
+ "step": 1231
8659
+ },
8660
+ {
8661
+ "epoch": 0.024799460531215716,
8662
+ "grad_norm": 0.0004967825370840728,
8663
+ "learning_rate": 1.4842672789780798e-06,
8664
+ "loss": 46.0,
8665
+ "step": 1232
8666
+ },
8667
+ {
8668
+ "epoch": 0.02481958996346508,
8669
+ "grad_norm": 0.0014918498927727342,
8670
+ "learning_rate": 1.4428515010861955e-06,
8671
+ "loss": 46.0,
8672
+ "step": 1233
8673
+ },
8674
+ {
8675
+ "epoch": 0.024839719395714444,
8676
+ "grad_norm": 0.0008161486475728452,
8677
+ "learning_rate": 1.4020175458278607e-06,
8678
+ "loss": 46.0,
8679
+ "step": 1234
8680
+ },
8681
+ {
8682
+ "epoch": 0.02485984882796381,
8683
+ "grad_norm": 0.0008656067657284439,
8684
+ "learning_rate": 1.3617656542623813e-06,
8685
+ "loss": 46.0,
8686
+ "step": 1235
8687
+ },
8688
+ {
8689
+ "epoch": 0.02487997826021317,
8690
+ "grad_norm": 0.0005301354103721678,
8691
+ "learning_rate": 1.322096064012912e-06,
8692
+ "loss": 46.0,
8693
+ "step": 1236
8694
+ },
8695
+ {
8696
+ "epoch": 0.024900107692462533,
8697
+ "grad_norm": 0.0011264794738963246,
8698
+ "learning_rate": 1.2830090092650904e-06,
8699
+ "loss": 46.0,
8700
+ "step": 1237
8701
+ },
8702
+ {
8703
+ "epoch": 0.0249202371247119,
8704
+ "grad_norm": 0.000983362435363233,
8705
+ "learning_rate": 1.244504720765549e-06,
8706
+ "loss": 46.0,
8707
+ "step": 1238
8708
+ },
8709
+ {
8710
+ "epoch": 0.02494036655696126,
8711
+ "grad_norm": 0.0011257297592237592,
8712
+ "learning_rate": 1.20658342582064e-06,
8713
+ "loss": 46.0,
8714
+ "step": 1239
8715
+ },
8716
+ {
8717
+ "epoch": 0.024960495989210626,
8718
+ "grad_norm": 0.0009586882661096752,
8719
+ "learning_rate": 1.1692453482951115e-06,
8720
+ "loss": 46.0,
8721
+ "step": 1240
8722
+ },
8723
+ {
8724
+ "epoch": 0.024980625421459988,
8725
+ "grad_norm": 0.0005041824770160019,
8726
+ "learning_rate": 1.1324907086106895e-06,
8727
+ "loss": 46.0,
8728
+ "step": 1241
8729
+ },
8730
+ {
8731
+ "epoch": 0.02500075485370935,
8732
+ "grad_norm": 0.0012379593681544065,
8733
+ "learning_rate": 1.096319723744843e-06,
8734
+ "loss": 46.0,
8735
+ "step": 1242
8736
+ },
8737
+ {
8738
+ "epoch": 0.025020884285958715,
8739
+ "grad_norm": 0.0007608251180499792,
8740
+ "learning_rate": 1.0607326072295087e-06,
8741
+ "loss": 46.0,
8742
+ "step": 1243
8743
+ },
8744
+ {
8745
+ "epoch": 0.025041013718208077,
8746
+ "grad_norm": 0.001463228720240295,
8747
+ "learning_rate": 1.0257295691497914e-06,
8748
+ "loss": 46.0,
8749
+ "step": 1244
8750
+ },
8751
+ {
8752
+ "epoch": 0.025061143150457443,
8753
+ "grad_norm": 0.0005632633110508323,
8754
+ "learning_rate": 9.913108161427543e-07,
8755
+ "loss": 46.0,
8756
+ "step": 1245
8757
+ },
8758
+ {
8759
+ "epoch": 0.025081272582706805,
8760
+ "grad_norm": 0.0013915124582126737,
8761
+ "learning_rate": 9.57476551396197e-07,
8762
+ "loss": 46.0,
8763
+ "step": 1246
8764
+ },
8765
+ {
8766
+ "epoch": 0.025101402014956167,
8767
+ "grad_norm": 0.0010674886871129274,
8768
+ "learning_rate": 9.242269746474575e-07,
8769
+ "loss": 46.0,
8770
+ "step": 1247
8771
+ },
8772
+ {
8773
+ "epoch": 0.025121531447205532,
8774
+ "grad_norm": 0.0008928573224693537,
8775
+ "learning_rate": 8.915622821821789e-07,
8776
+ "loss": 46.0,
8777
+ "step": 1248
8778
+ },
8779
+ {
8780
+ "epoch": 0.025141660879454894,
8781
+ "grad_norm": 0.0014497325755655766,
8782
+ "learning_rate": 8.594826668332445e-07,
8783
+ "loss": 46.0,
8784
+ "step": 1249
8785
+ },
8786
+ {
8787
+ "epoch": 0.02516179031170426,
8788
+ "grad_norm": 0.0011807921109721065,
8789
+ "learning_rate": 8.279883179795666e-07,
8790
+ "loss": 46.0,
8791
+ "step": 1250
8792
+ },
8793
+ {
8794
+ "epoch": 0.02518191974395362,
8795
+ "grad_norm": 0.001125653157941997,
8796
+ "learning_rate": 7.970794215450106e-07,
8797
+ "loss": 46.0,
8798
+ "step": 1251
8799
+ },
8800
+ {
8801
+ "epoch": 0.025202049176202987,
8802
+ "grad_norm": 0.0013557058991864324,
8803
+ "learning_rate": 7.667561599972505e-07,
8804
+ "loss": 46.0,
8805
+ "step": 1252
8806
+ },
8807
+ {
8808
+ "epoch": 0.02522217860845235,
8809
+ "grad_norm": 0.0003978684253524989,
8810
+ "learning_rate": 7.370187123467708e-07,
8811
+ "loss": 46.0,
8812
+ "step": 1253
8813
+ },
8814
+ {
8815
+ "epoch": 0.02524230804070171,
8816
+ "grad_norm": 0.0008096559904515743,
8817
+ "learning_rate": 7.078672541456999e-07,
8818
+ "loss": 46.0,
8819
+ "step": 1254
8820
+ },
8821
+ {
8822
+ "epoch": 0.025262437472951076,
8823
+ "grad_norm": 0.0015750976745039225,
8824
+ "learning_rate": 6.793019574868775e-07,
8825
+ "loss": 46.0,
8826
+ "step": 1255
8827
+ },
8828
+ {
8829
+ "epoch": 0.02528256690520044,
8830
+ "grad_norm": 0.000689225154928863,
8831
+ "learning_rate": 6.513229910027896e-07,
8832
+ "loss": 46.0,
8833
+ "step": 1256
8834
+ },
8835
+ {
8836
+ "epoch": 0.025302696337449804,
8837
+ "grad_norm": 0.0008678320446051657,
8838
+ "learning_rate": 6.239305198645462e-07,
8839
+ "loss": 46.0,
8840
+ "step": 1257
8841
+ },
8842
+ {
8843
+ "epoch": 0.025322825769699166,
8844
+ "grad_norm": 0.001171753858216107,
8845
+ "learning_rate": 5.971247057809826e-07,
8846
+ "loss": 46.0,
8847
+ "step": 1258
8848
+ },
8849
+ {
8850
+ "epoch": 0.025342955201948528,
8851
+ "grad_norm": 0.000669551664032042,
8852
+ "learning_rate": 5.709057069976265e-07,
8853
+ "loss": 46.0,
8854
+ "step": 1259
8855
+ },
8856
+ {
8857
+ "epoch": 0.025363084634197893,
8858
+ "grad_norm": 0.00028675812063738704,
8859
+ "learning_rate": 5.452736782958323e-07,
8860
+ "loss": 46.0,
8861
+ "step": 1260
8862
+ },
8863
+ {
8864
+ "epoch": 0.025383214066447255,
8865
+ "grad_norm": 0.0010722498409450054,
8866
+ "learning_rate": 5.20228770991793e-07,
8867
+ "loss": 46.0,
8868
+ "step": 1261
8869
+ },
8870
+ {
8871
+ "epoch": 0.02540334349869662,
8872
+ "grad_norm": 0.0011695049470290542,
8873
+ "learning_rate": 4.957711329357073e-07,
8874
+ "loss": 46.0,
8875
+ "step": 1262
8876
+ },
8877
+ {
8878
+ "epoch": 0.025423472930945983,
8879
+ "grad_norm": 0.0005382261006161571,
8880
+ "learning_rate": 4.7190090851090274e-07,
8881
+ "loss": 46.0,
8882
+ "step": 1263
8883
+ },
8884
+ {
8885
+ "epoch": 0.025443602363195345,
8886
+ "grad_norm": 0.0011571204522624612,
8887
+ "learning_rate": 4.4861823863292516e-07,
8888
+ "loss": 46.0,
8889
+ "step": 1264
8890
+ },
8891
+ {
8892
+ "epoch": 0.02546373179544471,
8893
+ "grad_norm": 0.0008085128501988947,
8894
+ "learning_rate": 4.259232607487951e-07,
8895
+ "loss": 46.0,
8896
+ "step": 1265
8897
+ },
8898
+ {
8899
+ "epoch": 0.025483861227694072,
8900
+ "grad_norm": 0.0012183074140921235,
8901
+ "learning_rate": 4.038161088361192e-07,
8902
+ "loss": 46.0,
8903
+ "step": 1266
8904
+ },
8905
+ {
8906
+ "epoch": 0.025503990659943437,
8907
+ "grad_norm": 0.0012540913885459304,
8908
+ "learning_rate": 3.8229691340234684e-07,
8909
+ "loss": 46.0,
8910
+ "step": 1267
8911
+ },
8912
+ {
8913
+ "epoch": 0.0255241200921928,
8914
+ "grad_norm": 0.0005392631865106523,
8915
+ "learning_rate": 3.613658014839594e-07,
8916
+ "loss": 46.0,
8917
+ "step": 1268
8918
+ },
8919
+ {
8920
+ "epoch": 0.025544249524442165,
8921
+ "grad_norm": 0.0005177839775569737,
8922
+ "learning_rate": 3.4102289664578177e-07,
8923
+ "loss": 46.0,
8924
+ "step": 1269
8925
+ },
8926
+ {
8927
+ "epoch": 0.025564378956691527,
8928
+ "grad_norm": 0.0007628992316313088,
8929
+ "learning_rate": 3.212683189801724e-07,
8930
+ "loss": 46.0,
8931
+ "step": 1270
8932
+ },
8933
+ {
8934
+ "epoch": 0.02558450838894089,
8935
+ "grad_norm": 0.0019209292950108647,
8936
+ "learning_rate": 3.021021851063899e-07,
8937
+ "loss": 46.0,
8938
+ "step": 1271
8939
+ },
8940
+ {
8941
+ "epoch": 0.025604637821190254,
8942
+ "grad_norm": 0.0006337051163427532,
8943
+ "learning_rate": 2.8352460816986057e-07,
8944
+ "loss": 46.0,
8945
+ "step": 1272
8946
+ },
8947
+ {
8948
+ "epoch": 0.025624767253439616,
8949
+ "grad_norm": 0.0004375329881440848,
8950
+ "learning_rate": 2.6553569784152357e-07,
8951
+ "loss": 46.0,
8952
+ "step": 1273
8953
+ },
8954
+ {
8955
+ "epoch": 0.02564489668568898,
8956
+ "grad_norm": 0.0008538602269254625,
8957
+ "learning_rate": 2.481355603171531e-07,
8958
+ "loss": 46.0,
8959
+ "step": 1274
8960
+ },
8961
+ {
8962
+ "epoch": 0.025665026117938344,
8963
+ "grad_norm": 0.0008380180224776268,
8964
+ "learning_rate": 2.3132429831682622e-07,
8965
+ "loss": 46.0,
8966
+ "step": 1275
8967
+ },
8968
+ {
8969
+ "epoch": 0.025685155550187706,
8970
+ "grad_norm": 0.0007942443480715156,
8971
+ "learning_rate": 2.1510201108416728e-07,
8972
+ "loss": 46.0,
8973
+ "step": 1276
8974
+ },
8975
+ {
8976
+ "epoch": 0.02570528498243707,
8977
+ "grad_norm": 0.0008215562556870282,
8978
+ "learning_rate": 1.9946879438592636e-07,
8979
+ "loss": 46.0,
8980
+ "step": 1277
8981
+ },
8982
+ {
8983
+ "epoch": 0.025725414414686433,
8984
+ "grad_norm": 0.0011535886442288756,
8985
+ "learning_rate": 1.8442474051125757e-07,
8986
+ "loss": 46.0,
8987
+ "step": 1278
8988
+ },
8989
+ {
8990
+ "epoch": 0.0257455438469358,
8991
+ "grad_norm": 0.00102553132455796,
8992
+ "learning_rate": 1.6996993827129715e-07,
8993
+ "loss": 46.0,
8994
+ "step": 1279
8995
+ },
8996
+ {
8997
+ "epoch": 0.02576567327918516,
8998
+ "grad_norm": 0.0006207975093275309,
8999
+ "learning_rate": 1.561044729985861e-07,
9000
+ "loss": 46.0,
9001
+ "step": 1280
9002
+ },
9003
+ {
9004
+ "epoch": 0.025785802711434522,
9005
+ "grad_norm": 0.0006774533540010452,
9006
+ "learning_rate": 1.428284265465596e-07,
9007
+ "loss": 46.0,
9008
+ "step": 1281
9009
+ },
9010
+ {
9011
+ "epoch": 0.025805932143683888,
9012
+ "grad_norm": 0.0017024496337398887,
9013
+ "learning_rate": 1.3014187728906945e-07,
9014
+ "loss": 46.0,
9015
+ "step": 1282
9016
+ },
9017
+ {
9018
+ "epoch": 0.02582606157593325,
9019
+ "grad_norm": 0.0017212866805493832,
9020
+ "learning_rate": 1.1804490011995129e-07,
9021
+ "loss": 46.0,
9022
+ "step": 1283
9023
+ },
9024
+ {
9025
+ "epoch": 0.025846191008182615,
9026
+ "grad_norm": 0.0024159506428986788,
9027
+ "learning_rate": 1.0653756645252477e-07,
9028
+ "loss": 46.0,
9029
+ "step": 1284
9030
+ },
9031
+ {
9032
+ "epoch": 0.025866320440431977,
9033
+ "grad_norm": 0.0017721692565828562,
9034
+ "learning_rate": 9.561994421924958e-08,
9035
+ "loss": 46.0,
9036
+ "step": 1285
9037
+ },
9038
+ {
9039
+ "epoch": 0.025886449872681343,
9040
+ "grad_norm": 0.0007376950816251338,
9041
+ "learning_rate": 8.529209787123682e-08,
9042
+ "loss": 46.0,
9043
+ "step": 1286
9044
+ },
9045
+ {
9046
+ "epoch": 0.025906579304930705,
9047
+ "grad_norm": 0.0007463957881554961,
9048
+ "learning_rate": 7.555408837794931e-08,
9049
+ "loss": 46.0,
9050
+ "step": 1287
9051
+ },
9052
+ {
9053
+ "epoch": 0.025926708737180067,
9054
+ "grad_norm": 0.0006077784928493202,
9055
+ "learning_rate": 6.640597322677967e-08,
9056
+ "loss": 46.0,
9057
+ "step": 1288
9058
+ },
9059
+ {
9060
+ "epoch": 0.025946838169429432,
9061
+ "grad_norm": 0.002363705076277256,
9062
+ "learning_rate": 5.784780642275056e-08,
9063
+ "loss": 46.0,
9064
+ "step": 1289
9065
+ },
9066
+ {
9067
+ "epoch": 0.025966967601678794,
9068
+ "grad_norm": 0.0013910114066675305,
9069
+ "learning_rate": 4.9879638488159465e-08,
9070
+ "loss": 46.0,
9071
+ "step": 1290
9072
+ },
9073
+ {
9074
+ "epoch": 0.02598709703392816,
9075
+ "grad_norm": 0.001159190433099866,
9076
+ "learning_rate": 4.2501516462334356e-08,
9077
+ "loss": 46.0,
9078
+ "step": 1291
9079
+ },
9080
+ {
9081
+ "epoch": 0.02600722646617752,
9082
+ "grad_norm": 0.0009958260925486684,
9083
+ "learning_rate": 3.5713483901300696e-08,
9084
+ "loss": 46.0,
9085
+ "step": 1292
9086
+ },
9087
+ {
9088
+ "epoch": 0.026027355898426884,
9089
+ "grad_norm": 0.0004471206630114466,
9090
+ "learning_rate": 2.9515580877559346e-08,
9091
+ "loss": 46.0,
9092
+ "step": 1293
9093
+ },
9094
+ {
9095
+ "epoch": 0.02604748533067625,
9096
+ "grad_norm": 0.0009266930283047259,
9097
+ "learning_rate": 2.3907843979831257e-08,
9098
+ "loss": 46.0,
9099
+ "step": 1294
9100
+ },
9101
+ {
9102
+ "epoch": 0.02606761476292561,
9103
+ "grad_norm": 0.0013211799087002873,
9104
+ "learning_rate": 1.8890306312846495e-08,
9105
+ "loss": 46.0,
9106
+ "step": 1295
9107
+ },
9108
+ {
9109
+ "epoch": 0.026087744195174976,
9110
+ "grad_norm": 0.001065763528458774,
9111
+ "learning_rate": 1.446299749716662e-08,
9112
+ "loss": 46.0,
9113
+ "step": 1296
9114
+ },
9115
+ {
9116
+ "epoch": 0.02610787362742434,
9117
+ "grad_norm": 0.001209865789860487,
9118
+ "learning_rate": 1.0625943668973736e-08,
9119
+ "loss": 46.0,
9120
+ "step": 1297
9121
+ },
9122
+ {
9123
+ "epoch": 0.0261280030596737,
9124
+ "grad_norm": 0.0011283751809969544,
9125
+ "learning_rate": 7.379167479948379e-09,
9126
+ "loss": 46.0,
9127
+ "step": 1298
9128
+ },
9129
+ {
9130
+ "epoch": 0.026148132491923066,
9131
+ "grad_norm": 0.0004522628150880337,
9132
+ "learning_rate": 4.722688097125172e-09,
9133
+ "loss": 46.0,
9134
+ "step": 1299
9135
+ },
9136
+ {
9137
+ "epoch": 0.026168261924172428,
9138
+ "grad_norm": 0.0005747976247221231,
9139
+ "learning_rate": 2.656521202770712e-09,
9140
+ "loss": 46.0,
9141
+ "step": 1300
9142
+ },
9143
+ {
9144
+ "epoch": 0.026188391356421793,
9145
+ "grad_norm": 0.0009918762370944023,
9146
+ "learning_rate": 1.1806789942947484e-09,
9147
+ "loss": 46.0,
9148
+ "step": 1301
9149
+ },
9150
+ {
9151
+ "epoch": 0.026208520788671155,
9152
+ "grad_norm": 0.0008219339651986957,
9153
+ "learning_rate": 2.9517018420577305e-10,
9154
+ "loss": 46.0,
9155
+ "step": 1302
9156
+ },
9157
+ {
9158
+ "epoch": 0.02622865022092052,
9159
+ "grad_norm": 0.0007112828898243606,
9160
+ "learning_rate": 0.0,
9161
+ "loss": 46.0,
9162
+ "step": 1303
9163
  }
9164
  ],
9165
  "logging_steps": 1,
 
9174
  "should_evaluate": false,
9175
  "should_log": false,
9176
  "should_save": true,
9177
+ "should_training_stop": true
9178
  },
9179
  "attributes": {}
9180
  }
9181
  },
9182
+ "total_flos": 30018797125632.0,
9183
  "train_batch_size": 2,
9184
  "trial_name": null,
9185
  "trial_params": null