lesso commited on
Commit
d760802
·
verified ·
1 Parent(s): 6758362

Training in progress, step 50, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:72698aa029c702a244945ef40f373c767a14c49bb90cb2368b40a8bd023d1bbd
3
  size 34456
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d6754747b9ef7b418555c7a60f6d7224496e5b588b5c9c729b5bbb355306e1b2
3
  size 34456
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b6c477eaec40cd6ac98dbd68a0a4b41efb85c6e3e415c1d310eaacdda2cc138e
3
  size 73222
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:720367065ae9dc88bd08c6476d06387891d584bc15ef3262b9979b19eeaa80f6
3
  size 73222
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f96fd81130ea63001ae86aaba8896cde979c1f9e3d91c8d71a7955a135db6962
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:881608cbb07448770a5e76289b30723e66073325ba435fcdc41b961bd5ae0ba0
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c47edf82128c3f034f21204d4b9ce5c76cd3269748ce31061b148a0a389d049d
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1479f554a7a167fd87e9ce99235e9d065370465268e2f8373a74df4bd50982ce
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,16 +1,16 @@
1
  {
2
  "best_metric": 11.5,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-50",
4
- "epoch": 0.007275637527738368,
5
  "eval_steps": 50,
6
- "global_step": 200,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
  "epoch": 3.637818763869184e-05,
13
- "grad_norm": 3.0213206628104672e-05,
14
  "learning_rate": 1.0060000000000002e-05,
15
  "loss": 23.0,
16
  "step": 1
@@ -18,350 +18,350 @@
18
  {
19
  "epoch": 3.637818763869184e-05,
20
  "eval_loss": 11.5,
21
- "eval_runtime": 151.3209,
22
- "eval_samples_per_second": 76.493,
23
- "eval_steps_per_second": 19.125,
24
  "step": 1
25
  },
26
  {
27
  "epoch": 7.275637527738368e-05,
28
- "grad_norm": 2.2829284716863185e-05,
29
  "learning_rate": 2.0120000000000004e-05,
30
  "loss": 23.0,
31
  "step": 2
32
  },
33
  {
34
  "epoch": 0.00010913456291607552,
35
- "grad_norm": 1.8357066437602043e-05,
36
  "learning_rate": 3.018e-05,
37
  "loss": 23.0,
38
  "step": 3
39
  },
40
  {
41
  "epoch": 0.00014551275055476736,
42
- "grad_norm": 2.194116859755013e-05,
43
  "learning_rate": 4.024000000000001e-05,
44
  "loss": 23.0,
45
  "step": 4
46
  },
47
  {
48
  "epoch": 0.0001818909381934592,
49
- "grad_norm": 2.0882815078948624e-05,
50
  "learning_rate": 5.03e-05,
51
  "loss": 23.0,
52
  "step": 5
53
  },
54
  {
55
  "epoch": 0.00021826912583215103,
56
- "grad_norm": 3.217526318621822e-05,
57
  "learning_rate": 6.036e-05,
58
  "loss": 23.0,
59
  "step": 6
60
  },
61
  {
62
  "epoch": 0.00025464731347084286,
63
- "grad_norm": 2.8971715437364765e-05,
64
  "learning_rate": 7.042e-05,
65
  "loss": 23.0,
66
  "step": 7
67
  },
68
  {
69
  "epoch": 0.0002910255011095347,
70
- "grad_norm": 1.676463034527842e-05,
71
  "learning_rate": 8.048000000000002e-05,
72
  "loss": 23.0,
73
  "step": 8
74
  },
75
  {
76
  "epoch": 0.00032740368874822657,
77
- "grad_norm": 3.206745532224886e-05,
78
  "learning_rate": 9.054000000000001e-05,
79
  "loss": 23.0,
80
  "step": 9
81
  },
82
  {
83
  "epoch": 0.0003637818763869184,
84
- "grad_norm": 2.8715619919239543e-05,
85
  "learning_rate": 0.0001006,
86
  "loss": 23.0,
87
  "step": 10
88
  },
89
  {
90
  "epoch": 0.00040016006402561027,
91
- "grad_norm": 1.8758235455607064e-05,
92
  "learning_rate": 0.00010007052631578948,
93
  "loss": 23.0,
94
  "step": 11
95
  },
96
  {
97
  "epoch": 0.00043653825166430207,
98
- "grad_norm": 2.735985253821127e-05,
99
  "learning_rate": 9.954105263157895e-05,
100
  "loss": 23.0,
101
  "step": 12
102
  },
103
  {
104
  "epoch": 0.0004729164393029939,
105
- "grad_norm": 4.027846807730384e-05,
106
  "learning_rate": 9.901157894736842e-05,
107
  "loss": 23.0,
108
  "step": 13
109
  },
110
  {
111
  "epoch": 0.0005092946269416857,
112
- "grad_norm": 4.429101318237372e-05,
113
  "learning_rate": 9.84821052631579e-05,
114
  "loss": 23.0,
115
  "step": 14
116
  },
117
  {
118
  "epoch": 0.0005456728145803776,
119
- "grad_norm": 3.3590822567930445e-05,
120
  "learning_rate": 9.795263157894737e-05,
121
  "loss": 23.0,
122
  "step": 15
123
  },
124
  {
125
  "epoch": 0.0005820510022190694,
126
- "grad_norm": 2.6291587346349843e-05,
127
  "learning_rate": 9.742315789473686e-05,
128
  "loss": 23.0,
129
  "step": 16
130
  },
131
  {
132
  "epoch": 0.0006184291898577613,
133
- "grad_norm": 4.353782787802629e-05,
134
  "learning_rate": 9.689368421052633e-05,
135
  "loss": 23.0,
136
  "step": 17
137
  },
138
  {
139
  "epoch": 0.0006548073774964531,
140
- "grad_norm": 7.02256802469492e-05,
141
  "learning_rate": 9.63642105263158e-05,
142
  "loss": 23.0,
143
  "step": 18
144
  },
145
  {
146
  "epoch": 0.0006911855651351449,
147
- "grad_norm": 6.216230394784361e-05,
148
  "learning_rate": 9.583473684210527e-05,
149
  "loss": 23.0,
150
  "step": 19
151
  },
152
  {
153
  "epoch": 0.0007275637527738368,
154
- "grad_norm": 5.73032557440456e-05,
155
  "learning_rate": 9.530526315789474e-05,
156
  "loss": 23.0,
157
  "step": 20
158
  },
159
  {
160
  "epoch": 0.0007639419404125286,
161
- "grad_norm": 5.283307473291643e-05,
162
  "learning_rate": 9.477578947368422e-05,
163
  "loss": 23.0,
164
  "step": 21
165
  },
166
  {
167
  "epoch": 0.0008003201280512205,
168
- "grad_norm": 3.86905885534361e-05,
169
  "learning_rate": 9.424631578947369e-05,
170
  "loss": 23.0,
171
  "step": 22
172
  },
173
  {
174
  "epoch": 0.0008366983156899123,
175
- "grad_norm": 4.2620362364687026e-05,
176
  "learning_rate": 9.371684210526316e-05,
177
  "loss": 23.0,
178
  "step": 23
179
  },
180
  {
181
  "epoch": 0.0008730765033286041,
182
- "grad_norm": 2.9412009098450653e-05,
183
  "learning_rate": 9.318736842105263e-05,
184
  "loss": 23.0,
185
  "step": 24
186
  },
187
  {
188
  "epoch": 0.000909454690967296,
189
- "grad_norm": 7.737339910818264e-05,
190
  "learning_rate": 9.26578947368421e-05,
191
  "loss": 23.0,
192
  "step": 25
193
  },
194
  {
195
  "epoch": 0.0009458328786059878,
196
- "grad_norm": 6.505755300167948e-05,
197
  "learning_rate": 9.212842105263159e-05,
198
  "loss": 23.0,
199
  "step": 26
200
  },
201
  {
202
  "epoch": 0.0009822110662446796,
203
- "grad_norm": 7.259017729666084e-05,
204
  "learning_rate": 9.159894736842107e-05,
205
  "loss": 23.0,
206
  "step": 27
207
  },
208
  {
209
  "epoch": 0.0010185892538833714,
210
- "grad_norm": 5.836385753354989e-05,
211
  "learning_rate": 9.106947368421054e-05,
212
  "loss": 23.0,
213
  "step": 28
214
  },
215
  {
216
  "epoch": 0.0010549674415220635,
217
- "grad_norm": 0.00012386597518343478,
218
  "learning_rate": 9.054000000000001e-05,
219
  "loss": 23.0,
220
  "step": 29
221
  },
222
  {
223
  "epoch": 0.0010913456291607553,
224
- "grad_norm": 0.0001556278148200363,
225
  "learning_rate": 9.001052631578948e-05,
226
  "loss": 23.0,
227
  "step": 30
228
  },
229
  {
230
  "epoch": 0.001127723816799447,
231
- "grad_norm": 7.392914994852617e-05,
232
  "learning_rate": 8.948105263157895e-05,
233
  "loss": 23.0,
234
  "step": 31
235
  },
236
  {
237
  "epoch": 0.0011641020044381389,
238
- "grad_norm": 6.028249117662199e-05,
239
  "learning_rate": 8.895157894736842e-05,
240
  "loss": 23.0,
241
  "step": 32
242
  },
243
  {
244
  "epoch": 0.0012004801920768306,
245
- "grad_norm": 0.0001456019381294027,
246
  "learning_rate": 8.842210526315789e-05,
247
  "loss": 23.0,
248
  "step": 33
249
  },
250
  {
251
  "epoch": 0.0012368583797155227,
252
- "grad_norm": 8.436777716269717e-05,
253
  "learning_rate": 8.789263157894738e-05,
254
  "loss": 23.0,
255
  "step": 34
256
  },
257
  {
258
  "epoch": 0.0012732365673542145,
259
- "grad_norm": 9.687324927654117e-05,
260
  "learning_rate": 8.736315789473685e-05,
261
  "loss": 23.0,
262
  "step": 35
263
  },
264
  {
265
  "epoch": 0.0013096147549929063,
266
- "grad_norm": 0.00013006821973249316,
267
  "learning_rate": 8.683368421052632e-05,
268
  "loss": 23.0,
269
  "step": 36
270
  },
271
  {
272
  "epoch": 0.001345992942631598,
273
- "grad_norm": 0.00012605867232196033,
274
  "learning_rate": 8.63042105263158e-05,
275
  "loss": 23.0,
276
  "step": 37
277
  },
278
  {
279
  "epoch": 0.0013823711302702899,
280
- "grad_norm": 8.003330731298774e-05,
281
  "learning_rate": 8.577473684210527e-05,
282
  "loss": 23.0,
283
  "step": 38
284
  },
285
  {
286
  "epoch": 0.0014187493179089819,
287
- "grad_norm": 9.521541505819187e-05,
288
  "learning_rate": 8.524526315789474e-05,
289
  "loss": 23.0,
290
  "step": 39
291
  },
292
  {
293
  "epoch": 0.0014551275055476737,
294
- "grad_norm": 0.00017305008077528328,
295
  "learning_rate": 8.471578947368421e-05,
296
  "loss": 23.0,
297
  "step": 40
298
  },
299
  {
300
  "epoch": 0.0014915056931863655,
301
- "grad_norm": 0.00016906786186154932,
302
  "learning_rate": 8.41863157894737e-05,
303
  "loss": 23.0,
304
  "step": 41
305
  },
306
  {
307
  "epoch": 0.0015278838808250573,
308
- "grad_norm": 0.0001861914643086493,
309
  "learning_rate": 8.365684210526317e-05,
310
  "loss": 23.0,
311
  "step": 42
312
  },
313
  {
314
  "epoch": 0.001564262068463749,
315
- "grad_norm": 0.00020132421923335642,
316
  "learning_rate": 8.312736842105264e-05,
317
  "loss": 23.0,
318
  "step": 43
319
  },
320
  {
321
  "epoch": 0.001600640256102441,
322
- "grad_norm": 0.0002141977456631139,
323
  "learning_rate": 8.259789473684211e-05,
324
  "loss": 23.0,
325
  "step": 44
326
  },
327
  {
328
  "epoch": 0.0016370184437411329,
329
- "grad_norm": 0.0001226340827997774,
330
  "learning_rate": 8.206842105263158e-05,
331
  "loss": 23.0,
332
  "step": 45
333
  },
334
  {
335
  "epoch": 0.0016733966313798247,
336
- "grad_norm": 0.0001583473349455744,
337
  "learning_rate": 8.153894736842105e-05,
338
  "loss": 23.0,
339
  "step": 46
340
  },
341
  {
342
  "epoch": 0.0017097748190185165,
343
- "grad_norm": 0.0002799605717882514,
344
  "learning_rate": 8.100947368421053e-05,
345
  "loss": 23.0,
346
  "step": 47
347
  },
348
  {
349
  "epoch": 0.0017461530066572083,
350
- "grad_norm": 0.0002967856707982719,
351
  "learning_rate": 8.048000000000002e-05,
352
  "loss": 23.0,
353
  "step": 48
354
  },
355
  {
356
  "epoch": 0.0017825311942959,
357
- "grad_norm": 0.00010255781671730801,
358
  "learning_rate": 7.995052631578949e-05,
359
  "loss": 23.0,
360
  "step": 49
361
  },
362
  {
363
  "epoch": 0.001818909381934592,
364
- "grad_norm": 0.0003075671847909689,
365
  "learning_rate": 7.942105263157896e-05,
366
  "loss": 23.0,
367
  "step": 50
@@ -369,1084 +369,10 @@
369
  {
370
  "epoch": 0.001818909381934592,
371
  "eval_loss": 11.5,
372
- "eval_runtime": 151.2138,
373
- "eval_samples_per_second": 76.547,
374
- "eval_steps_per_second": 19.138,
375
  "step": 50
376
- },
377
- {
378
- "epoch": 0.0018552875695732839,
379
- "grad_norm": 6.767702871002257e-05,
380
- "learning_rate": 7.889157894736843e-05,
381
- "loss": 23.0,
382
- "step": 51
383
- },
384
- {
385
- "epoch": 0.0018916657572119757,
386
- "grad_norm": 6.940264574950561e-05,
387
- "learning_rate": 7.83621052631579e-05,
388
- "loss": 23.0,
389
- "step": 52
390
- },
391
- {
392
- "epoch": 0.0019280439448506675,
393
- "grad_norm": 0.00013540219515562057,
394
- "learning_rate": 7.783263157894737e-05,
395
- "loss": 23.0,
396
- "step": 53
397
- },
398
- {
399
- "epoch": 0.0019644221324893593,
400
- "grad_norm": 0.00010234087676508352,
401
- "learning_rate": 7.730315789473684e-05,
402
- "loss": 23.0,
403
- "step": 54
404
- },
405
- {
406
- "epoch": 0.0020008003201280513,
407
- "grad_norm": 3.912624379154295e-05,
408
- "learning_rate": 7.677368421052632e-05,
409
- "loss": 23.0,
410
- "step": 55
411
- },
412
- {
413
- "epoch": 0.002037178507766743,
414
- "grad_norm": 0.0001325135672232136,
415
- "learning_rate": 7.624421052631579e-05,
416
- "loss": 23.0,
417
- "step": 56
418
- },
419
- {
420
- "epoch": 0.002073556695405435,
421
- "grad_norm": 0.0001106501804315485,
422
- "learning_rate": 7.571473684210526e-05,
423
- "loss": 23.0,
424
- "step": 57
425
- },
426
- {
427
- "epoch": 0.002109934883044127,
428
- "grad_norm": 0.00014796988398302346,
429
- "learning_rate": 7.518526315789475e-05,
430
- "loss": 23.0,
431
- "step": 58
432
- },
433
- {
434
- "epoch": 0.0021463130706828185,
435
- "grad_norm": 0.00020090723410248756,
436
- "learning_rate": 7.465578947368422e-05,
437
- "loss": 23.0,
438
- "step": 59
439
- },
440
- {
441
- "epoch": 0.0021826912583215105,
442
- "grad_norm": 6.893830868648365e-05,
443
- "learning_rate": 7.412631578947369e-05,
444
- "loss": 23.0,
445
- "step": 60
446
- },
447
- {
448
- "epoch": 0.002219069445960202,
449
- "grad_norm": 0.00012792616325896233,
450
- "learning_rate": 7.359684210526317e-05,
451
- "loss": 23.0,
452
- "step": 61
453
- },
454
- {
455
- "epoch": 0.002255447633598894,
456
- "grad_norm": 0.00010460198973305523,
457
- "learning_rate": 7.306736842105264e-05,
458
- "loss": 23.0,
459
- "step": 62
460
- },
461
- {
462
- "epoch": 0.002291825821237586,
463
- "grad_norm": 8.348002302227542e-05,
464
- "learning_rate": 7.253789473684211e-05,
465
- "loss": 23.0,
466
- "step": 63
467
- },
468
- {
469
- "epoch": 0.0023282040088762777,
470
- "grad_norm": 0.00018085635383613408,
471
- "learning_rate": 7.200842105263158e-05,
472
- "loss": 23.0,
473
- "step": 64
474
- },
475
- {
476
- "epoch": 0.0023645821965149697,
477
- "grad_norm": 0.000223978262511082,
478
- "learning_rate": 7.147894736842105e-05,
479
- "loss": 23.0,
480
- "step": 65
481
- },
482
- {
483
- "epoch": 0.0024009603841536613,
484
- "grad_norm": 0.00012863126175943762,
485
- "learning_rate": 7.094947368421052e-05,
486
- "loss": 23.0,
487
- "step": 66
488
- },
489
- {
490
- "epoch": 0.0024373385717923533,
491
- "grad_norm": 0.0001924559473991394,
492
- "learning_rate": 7.042e-05,
493
- "loss": 23.0,
494
- "step": 67
495
- },
496
- {
497
- "epoch": 0.0024737167594310453,
498
- "grad_norm": 9.336372750112787e-05,
499
- "learning_rate": 6.989052631578948e-05,
500
- "loss": 23.0,
501
- "step": 68
502
- },
503
- {
504
- "epoch": 0.002510094947069737,
505
- "grad_norm": 0.00024296657647937536,
506
- "learning_rate": 6.936105263157896e-05,
507
- "loss": 23.0,
508
- "step": 69
509
- },
510
- {
511
- "epoch": 0.002546473134708429,
512
- "grad_norm": 0.0002156701812054962,
513
- "learning_rate": 6.883157894736843e-05,
514
- "loss": 23.0,
515
- "step": 70
516
- },
517
- {
518
- "epoch": 0.0025828513223471205,
519
- "grad_norm": 0.0001783580519258976,
520
- "learning_rate": 6.83021052631579e-05,
521
- "loss": 23.0,
522
- "step": 71
523
- },
524
- {
525
- "epoch": 0.0026192295099858125,
526
- "grad_norm": 0.000139903902891092,
527
- "learning_rate": 6.777263157894737e-05,
528
- "loss": 23.0,
529
- "step": 72
530
- },
531
- {
532
- "epoch": 0.0026556076976245045,
533
- "grad_norm": 0.00022315837850328535,
534
- "learning_rate": 6.724315789473684e-05,
535
- "loss": 23.0,
536
- "step": 73
537
- },
538
- {
539
- "epoch": 0.002691985885263196,
540
- "grad_norm": 0.00027320714434608817,
541
- "learning_rate": 6.671368421052631e-05,
542
- "loss": 23.0,
543
- "step": 74
544
- },
545
- {
546
- "epoch": 0.002728364072901888,
547
- "grad_norm": 0.0003263742255512625,
548
- "learning_rate": 6.61842105263158e-05,
549
- "loss": 23.0,
550
- "step": 75
551
- },
552
- {
553
- "epoch": 0.0027647422605405797,
554
- "grad_norm": 0.00010844551434274763,
555
- "learning_rate": 6.565473684210527e-05,
556
- "loss": 23.0,
557
- "step": 76
558
- },
559
- {
560
- "epoch": 0.0028011204481792717,
561
- "grad_norm": 0.00021539705630857497,
562
- "learning_rate": 6.512526315789474e-05,
563
- "loss": 23.0,
564
- "step": 77
565
- },
566
- {
567
- "epoch": 0.0028374986358179637,
568
- "grad_norm": 0.00018285549595020711,
569
- "learning_rate": 6.459578947368421e-05,
570
- "loss": 23.0,
571
- "step": 78
572
- },
573
- {
574
- "epoch": 0.0028738768234566553,
575
- "grad_norm": 0.0002819342480506748,
576
- "learning_rate": 6.406631578947369e-05,
577
- "loss": 23.0,
578
- "step": 79
579
- },
580
- {
581
- "epoch": 0.0029102550110953473,
582
- "grad_norm": 0.0002171331288991496,
583
- "learning_rate": 6.353684210526316e-05,
584
- "loss": 23.0,
585
- "step": 80
586
- },
587
- {
588
- "epoch": 0.002946633198734039,
589
- "grad_norm": 0.0004205996810924262,
590
- "learning_rate": 6.300736842105263e-05,
591
- "loss": 23.0,
592
- "step": 81
593
- },
594
- {
595
- "epoch": 0.002983011386372731,
596
- "grad_norm": 0.00041594888898544014,
597
- "learning_rate": 6.247789473684212e-05,
598
- "loss": 23.0,
599
- "step": 82
600
- },
601
- {
602
- "epoch": 0.003019389574011423,
603
- "grad_norm": 0.00038625358138233423,
604
- "learning_rate": 6.194842105263159e-05,
605
- "loss": 23.0,
606
- "step": 83
607
- },
608
- {
609
- "epoch": 0.0030557677616501145,
610
- "grad_norm": 0.00024285879044327885,
611
- "learning_rate": 6.141894736842106e-05,
612
- "loss": 23.0,
613
- "step": 84
614
- },
615
- {
616
- "epoch": 0.0030921459492888066,
617
- "grad_norm": 0.00017769836995285004,
618
- "learning_rate": 6.088947368421053e-05,
619
- "loss": 23.0,
620
- "step": 85
621
- },
622
- {
623
- "epoch": 0.003128524136927498,
624
- "grad_norm": 0.00035690178629010916,
625
- "learning_rate": 6.036e-05,
626
- "loss": 23.0,
627
- "step": 86
628
- },
629
- {
630
- "epoch": 0.00316490232456619,
631
- "grad_norm": 0.00021868004114367068,
632
- "learning_rate": 5.9830526315789475e-05,
633
- "loss": 23.0,
634
- "step": 87
635
- },
636
- {
637
- "epoch": 0.003201280512204882,
638
- "grad_norm": 0.00040930655086413026,
639
- "learning_rate": 5.9301052631578946e-05,
640
- "loss": 23.0,
641
- "step": 88
642
- },
643
- {
644
- "epoch": 0.0032376586998435737,
645
- "grad_norm": 0.0005343824159353971,
646
- "learning_rate": 5.877157894736843e-05,
647
- "loss": 23.0,
648
- "step": 89
649
- },
650
- {
651
- "epoch": 0.0032740368874822658,
652
- "grad_norm": 0.00020195181423332542,
653
- "learning_rate": 5.82421052631579e-05,
654
- "loss": 23.0,
655
- "step": 90
656
- },
657
- {
658
- "epoch": 0.0033104150751209573,
659
- "grad_norm": 0.00029612492653541267,
660
- "learning_rate": 5.771263157894737e-05,
661
- "loss": 23.0,
662
- "step": 91
663
- },
664
- {
665
- "epoch": 0.0033467932627596494,
666
- "grad_norm": 0.00038756342837587,
667
- "learning_rate": 5.718315789473685e-05,
668
- "loss": 23.0,
669
- "step": 92
670
- },
671
- {
672
- "epoch": 0.003383171450398341,
673
- "grad_norm": 0.00035572919296100736,
674
- "learning_rate": 5.665368421052632e-05,
675
- "loss": 23.0,
676
- "step": 93
677
- },
678
- {
679
- "epoch": 0.003419549638037033,
680
- "grad_norm": 0.0003987826348748058,
681
- "learning_rate": 5.612421052631579e-05,
682
- "loss": 23.0,
683
- "step": 94
684
- },
685
- {
686
- "epoch": 0.003455927825675725,
687
- "grad_norm": 0.0005160235450603068,
688
- "learning_rate": 5.559473684210527e-05,
689
- "loss": 23.0,
690
- "step": 95
691
- },
692
- {
693
- "epoch": 0.0034923060133144166,
694
- "grad_norm": 0.0004344135813880712,
695
- "learning_rate": 5.506526315789474e-05,
696
- "loss": 23.0,
697
- "step": 96
698
- },
699
- {
700
- "epoch": 0.0035286842009531086,
701
- "grad_norm": 0.00038862781366333365,
702
- "learning_rate": 5.453578947368421e-05,
703
- "loss": 23.0,
704
- "step": 97
705
- },
706
- {
707
- "epoch": 0.0035650623885918,
708
- "grad_norm": 0.0002816914056893438,
709
- "learning_rate": 5.400631578947369e-05,
710
- "loss": 23.0,
711
- "step": 98
712
- },
713
- {
714
- "epoch": 0.003601440576230492,
715
- "grad_norm": 0.0007659445982426405,
716
- "learning_rate": 5.347684210526316e-05,
717
- "loss": 23.0,
718
- "step": 99
719
- },
720
- {
721
- "epoch": 0.003637818763869184,
722
- "grad_norm": 0.0005744769005104899,
723
- "learning_rate": 5.294736842105263e-05,
724
- "loss": 23.0,
725
- "step": 100
726
- },
727
- {
728
- "epoch": 0.003637818763869184,
729
- "eval_loss": 11.5,
730
- "eval_runtime": 151.165,
731
- "eval_samples_per_second": 76.572,
732
- "eval_steps_per_second": 19.145,
733
- "step": 100
734
- },
735
- {
736
- "epoch": 0.0036741969515078758,
737
- "grad_norm": 7.865398220019415e-05,
738
- "learning_rate": 5.24178947368421e-05,
739
- "loss": 23.0,
740
- "step": 101
741
- },
742
- {
743
- "epoch": 0.0037105751391465678,
744
- "grad_norm": 0.00019760217401199043,
745
- "learning_rate": 5.1888421052631585e-05,
746
- "loss": 23.0,
747
- "step": 102
748
- },
749
- {
750
- "epoch": 0.0037469533267852594,
751
- "grad_norm": 0.00019329931819811463,
752
- "learning_rate": 5.135894736842106e-05,
753
- "loss": 23.0,
754
- "step": 103
755
- },
756
- {
757
- "epoch": 0.0037833315144239514,
758
- "grad_norm": 0.00010216799273621291,
759
- "learning_rate": 5.082947368421053e-05,
760
- "loss": 23.0,
761
- "step": 104
762
- },
763
- {
764
- "epoch": 0.0038197097020626434,
765
- "grad_norm": 0.0001492125156801194,
766
- "learning_rate": 5.03e-05,
767
- "loss": 23.0,
768
- "step": 105
769
- },
770
- {
771
- "epoch": 0.003856087889701335,
772
- "grad_norm": 0.000129396838019602,
773
- "learning_rate": 4.977052631578947e-05,
774
- "loss": 23.0,
775
- "step": 106
776
- },
777
- {
778
- "epoch": 0.003892466077340027,
779
- "grad_norm": 0.00021847736206836998,
780
- "learning_rate": 4.924105263157895e-05,
781
- "loss": 23.0,
782
- "step": 107
783
- },
784
- {
785
- "epoch": 0.003928844264978719,
786
- "grad_norm": 0.00036707802792079747,
787
- "learning_rate": 4.871157894736843e-05,
788
- "loss": 23.0,
789
- "step": 108
790
- },
791
- {
792
- "epoch": 0.003965222452617411,
793
- "grad_norm": 0.00036315497709438205,
794
- "learning_rate": 4.81821052631579e-05,
795
- "loss": 23.0,
796
- "step": 109
797
- },
798
- {
799
- "epoch": 0.004001600640256103,
800
- "grad_norm": 0.0002984280581586063,
801
- "learning_rate": 4.765263157894737e-05,
802
- "loss": 23.0,
803
- "step": 110
804
- },
805
- {
806
- "epoch": 0.004037978827894795,
807
- "grad_norm": 0.0002477980451658368,
808
- "learning_rate": 4.7123157894736845e-05,
809
- "loss": 23.0,
810
- "step": 111
811
- },
812
- {
813
- "epoch": 0.004074357015533486,
814
- "grad_norm": 0.00043583058868534863,
815
- "learning_rate": 4.6593684210526316e-05,
816
- "loss": 23.0,
817
- "step": 112
818
- },
819
- {
820
- "epoch": 0.004110735203172178,
821
- "grad_norm": 0.00018492768867872655,
822
- "learning_rate": 4.606421052631579e-05,
823
- "loss": 23.0,
824
- "step": 113
825
- },
826
- {
827
- "epoch": 0.00414711339081087,
828
- "grad_norm": 0.0003428026975598186,
829
- "learning_rate": 4.553473684210527e-05,
830
- "loss": 23.0,
831
- "step": 114
832
- },
833
- {
834
- "epoch": 0.004183491578449562,
835
- "grad_norm": 9.029536886373535e-05,
836
- "learning_rate": 4.500526315789474e-05,
837
- "loss": 23.0,
838
- "step": 115
839
- },
840
- {
841
- "epoch": 0.004219869766088254,
842
- "grad_norm": 0.00022797966084908694,
843
- "learning_rate": 4.447578947368421e-05,
844
- "loss": 23.0,
845
- "step": 116
846
- },
847
- {
848
- "epoch": 0.004256247953726945,
849
- "grad_norm": 0.00019539303320925683,
850
- "learning_rate": 4.394631578947369e-05,
851
- "loss": 23.0,
852
- "step": 117
853
- },
854
- {
855
- "epoch": 0.004292626141365637,
856
- "grad_norm": 0.00042453594505786896,
857
- "learning_rate": 4.341684210526316e-05,
858
- "loss": 23.0,
859
- "step": 118
860
- },
861
- {
862
- "epoch": 0.004329004329004329,
863
- "grad_norm": 0.0002705013903323561,
864
- "learning_rate": 4.2887368421052636e-05,
865
- "loss": 23.0,
866
- "step": 119
867
- },
868
- {
869
- "epoch": 0.004365382516643021,
870
- "grad_norm": 0.00021338310034479946,
871
- "learning_rate": 4.2357894736842106e-05,
872
- "loss": 23.0,
873
- "step": 120
874
- },
875
- {
876
- "epoch": 0.004401760704281713,
877
- "grad_norm": 0.0002350714203203097,
878
- "learning_rate": 4.182842105263158e-05,
879
- "loss": 23.0,
880
- "step": 121
881
- },
882
- {
883
- "epoch": 0.004438138891920404,
884
- "grad_norm": 0.0005433229962363839,
885
- "learning_rate": 4.1298947368421053e-05,
886
- "loss": 23.0,
887
- "step": 122
888
- },
889
- {
890
- "epoch": 0.004474517079559096,
891
- "grad_norm": 0.0003798740799538791,
892
- "learning_rate": 4.0769473684210524e-05,
893
- "loss": 23.0,
894
- "step": 123
895
- },
896
- {
897
- "epoch": 0.004510895267197788,
898
- "grad_norm": 0.0006719142547808588,
899
- "learning_rate": 4.024000000000001e-05,
900
- "loss": 23.0,
901
- "step": 124
902
- },
903
- {
904
- "epoch": 0.00454727345483648,
905
- "grad_norm": 0.0005423346301540732,
906
- "learning_rate": 3.971052631578948e-05,
907
- "loss": 23.0,
908
- "step": 125
909
- },
910
- {
911
- "epoch": 0.004583651642475172,
912
- "grad_norm": 0.0005073483916930854,
913
- "learning_rate": 3.918105263157895e-05,
914
- "loss": 23.0,
915
- "step": 126
916
- },
917
- {
918
- "epoch": 0.004620029830113863,
919
- "grad_norm": 0.0005138374399393797,
920
- "learning_rate": 3.865157894736842e-05,
921
- "loss": 23.0,
922
- "step": 127
923
- },
924
- {
925
- "epoch": 0.004656408017752555,
926
- "grad_norm": 0.0006768506718799472,
927
- "learning_rate": 3.8122105263157896e-05,
928
- "loss": 23.0,
929
- "step": 128
930
- },
931
- {
932
- "epoch": 0.004692786205391247,
933
- "grad_norm": 0.0005319022457115352,
934
- "learning_rate": 3.759263157894737e-05,
935
- "loss": 23.0,
936
- "step": 129
937
- },
938
- {
939
- "epoch": 0.0047291643930299394,
940
- "grad_norm": 0.0002845210547093302,
941
- "learning_rate": 3.7063157894736844e-05,
942
- "loss": 23.0,
943
- "step": 130
944
- },
945
- {
946
- "epoch": 0.0047655425806686314,
947
- "grad_norm": 0.0006470263469964266,
948
- "learning_rate": 3.653368421052632e-05,
949
- "loss": 23.0,
950
- "step": 131
951
- },
952
- {
953
- "epoch": 0.004801920768307323,
954
- "grad_norm": 0.00025029602693393826,
955
- "learning_rate": 3.600421052631579e-05,
956
- "loss": 23.0,
957
- "step": 132
958
- },
959
- {
960
- "epoch": 0.004838298955946015,
961
- "grad_norm": 0.0005236798897385597,
962
- "learning_rate": 3.547473684210526e-05,
963
- "loss": 23.0,
964
- "step": 133
965
- },
966
- {
967
- "epoch": 0.004874677143584707,
968
- "grad_norm": 0.00038987890002317727,
969
- "learning_rate": 3.494526315789474e-05,
970
- "loss": 23.0,
971
- "step": 134
972
- },
973
- {
974
- "epoch": 0.004911055331223399,
975
- "grad_norm": 0.00047775980783626437,
976
- "learning_rate": 3.4415789473684216e-05,
977
- "loss": 23.0,
978
- "step": 135
979
- },
980
- {
981
- "epoch": 0.004947433518862091,
982
- "grad_norm": 0.0008346535032615066,
983
- "learning_rate": 3.3886315789473686e-05,
984
- "loss": 23.0,
985
- "step": 136
986
- },
987
- {
988
- "epoch": 0.004983811706500782,
989
- "grad_norm": 0.0005931820487603545,
990
- "learning_rate": 3.3356842105263156e-05,
991
- "loss": 23.0,
992
- "step": 137
993
- },
994
- {
995
- "epoch": 0.005020189894139474,
996
- "grad_norm": 0.0006308462470769882,
997
- "learning_rate": 3.2827368421052634e-05,
998
- "loss": 23.0,
999
- "step": 138
1000
- },
1001
- {
1002
- "epoch": 0.005056568081778166,
1003
- "grad_norm": 0.00030234106816351414,
1004
- "learning_rate": 3.2297894736842104e-05,
1005
- "loss": 23.0,
1006
- "step": 139
1007
- },
1008
- {
1009
- "epoch": 0.005092946269416858,
1010
- "grad_norm": 0.00049857038538903,
1011
- "learning_rate": 3.176842105263158e-05,
1012
- "loss": 23.0,
1013
- "step": 140
1014
- },
1015
- {
1016
- "epoch": 0.00512932445705555,
1017
- "grad_norm": 0.0003955921274609864,
1018
- "learning_rate": 3.123894736842106e-05,
1019
- "loss": 23.0,
1020
- "step": 141
1021
- },
1022
- {
1023
- "epoch": 0.005165702644694241,
1024
- "grad_norm": 0.000981033779680729,
1025
- "learning_rate": 3.070947368421053e-05,
1026
- "loss": 23.0,
1027
- "step": 142
1028
- },
1029
- {
1030
- "epoch": 0.005202080832332933,
1031
- "grad_norm": 0.0009714752668514848,
1032
- "learning_rate": 3.018e-05,
1033
- "loss": 23.0,
1034
- "step": 143
1035
- },
1036
- {
1037
- "epoch": 0.005238459019971625,
1038
- "grad_norm": 0.0006258689099922776,
1039
- "learning_rate": 2.9650526315789473e-05,
1040
- "loss": 23.0,
1041
- "step": 144
1042
- },
1043
- {
1044
- "epoch": 0.005274837207610317,
1045
- "grad_norm": 0.0005813623429276049,
1046
- "learning_rate": 2.912105263157895e-05,
1047
- "loss": 23.0,
1048
- "step": 145
1049
- },
1050
- {
1051
- "epoch": 0.005311215395249009,
1052
- "grad_norm": 0.0007660622941330075,
1053
- "learning_rate": 2.8591578947368424e-05,
1054
- "loss": 23.0,
1055
- "step": 146
1056
- },
1057
- {
1058
- "epoch": 0.0053475935828877,
1059
- "grad_norm": 0.0005416110507212579,
1060
- "learning_rate": 2.8062105263157894e-05,
1061
- "loss": 23.0,
1062
- "step": 147
1063
- },
1064
- {
1065
- "epoch": 0.005383971770526392,
1066
- "grad_norm": 0.0005930187180638313,
1067
- "learning_rate": 2.753263157894737e-05,
1068
- "loss": 23.0,
1069
- "step": 148
1070
- },
1071
- {
1072
- "epoch": 0.005420349958165084,
1073
- "grad_norm": 0.00032056248164735734,
1074
- "learning_rate": 2.7003157894736845e-05,
1075
- "loss": 23.0,
1076
- "step": 149
1077
- },
1078
- {
1079
- "epoch": 0.005456728145803776,
1080
- "grad_norm": 0.00021866206952836365,
1081
- "learning_rate": 2.6473684210526315e-05,
1082
- "loss": 23.0,
1083
- "step": 150
1084
- },
1085
- {
1086
- "epoch": 0.005456728145803776,
1087
- "eval_loss": 11.5,
1088
- "eval_runtime": 151.2013,
1089
- "eval_samples_per_second": 76.554,
1090
- "eval_steps_per_second": 19.14,
1091
- "step": 150
1092
- },
1093
- {
1094
- "epoch": 0.005493106333442468,
1095
- "grad_norm": 0.00036631166585721076,
1096
- "learning_rate": 2.5944210526315793e-05,
1097
- "loss": 23.0,
1098
- "step": 151
1099
- },
1100
- {
1101
- "epoch": 0.005529484521081159,
1102
- "grad_norm": 0.00015086479834280908,
1103
- "learning_rate": 2.5414736842105266e-05,
1104
- "loss": 23.0,
1105
- "step": 152
1106
- },
1107
- {
1108
- "epoch": 0.0055658627087198514,
1109
- "grad_norm": 0.00014822417870163918,
1110
- "learning_rate": 2.4885263157894737e-05,
1111
- "loss": 23.0,
1112
- "step": 153
1113
- },
1114
- {
1115
- "epoch": 0.0056022408963585435,
1116
- "grad_norm": 0.0002642092586029321,
1117
- "learning_rate": 2.4355789473684214e-05,
1118
- "loss": 23.0,
1119
- "step": 154
1120
- },
1121
- {
1122
- "epoch": 0.0056386190839972355,
1123
- "grad_norm": 0.0001480352075304836,
1124
- "learning_rate": 2.3826315789473684e-05,
1125
- "loss": 23.0,
1126
- "step": 155
1127
- },
1128
- {
1129
- "epoch": 0.0056749972716359275,
1130
- "grad_norm": 0.0002700032200664282,
1131
- "learning_rate": 2.3296842105263158e-05,
1132
- "loss": 23.0,
1133
- "step": 156
1134
- },
1135
- {
1136
- "epoch": 0.005711375459274619,
1137
- "grad_norm": 0.00038544239941984415,
1138
- "learning_rate": 2.2767368421052635e-05,
1139
- "loss": 23.0,
1140
- "step": 157
1141
- },
1142
- {
1143
- "epoch": 0.005747753646913311,
1144
- "grad_norm": 0.0004912279546260834,
1145
- "learning_rate": 2.2237894736842105e-05,
1146
- "loss": 23.0,
1147
- "step": 158
1148
- },
1149
- {
1150
- "epoch": 0.005784131834552003,
1151
- "grad_norm": 0.00031220720848068595,
1152
- "learning_rate": 2.170842105263158e-05,
1153
- "loss": 23.0,
1154
- "step": 159
1155
- },
1156
- {
1157
- "epoch": 0.005820510022190695,
1158
- "grad_norm": 0.0002950205816887319,
1159
- "learning_rate": 2.1178947368421053e-05,
1160
- "loss": 23.0,
1161
- "step": 160
1162
- },
1163
- {
1164
- "epoch": 0.005856888209829387,
1165
- "grad_norm": 0.00036991629167459905,
1166
- "learning_rate": 2.0649473684210527e-05,
1167
- "loss": 23.0,
1168
- "step": 161
1169
- },
1170
- {
1171
- "epoch": 0.005893266397468078,
1172
- "grad_norm": 0.0002873014018405229,
1173
- "learning_rate": 2.0120000000000004e-05,
1174
- "loss": 23.0,
1175
- "step": 162
1176
- },
1177
- {
1178
- "epoch": 0.00592964458510677,
1179
- "grad_norm": 0.0011097885435447097,
1180
- "learning_rate": 1.9590526315789474e-05,
1181
- "loss": 23.0,
1182
- "step": 163
1183
- },
1184
- {
1185
- "epoch": 0.005966022772745462,
1186
- "grad_norm": 0.0004760735318996012,
1187
- "learning_rate": 1.9061052631578948e-05,
1188
- "loss": 23.0,
1189
- "step": 164
1190
- },
1191
- {
1192
- "epoch": 0.006002400960384154,
1193
- "grad_norm": 0.0005161721492186189,
1194
- "learning_rate": 1.8531578947368422e-05,
1195
- "loss": 23.0,
1196
- "step": 165
1197
- },
1198
- {
1199
- "epoch": 0.006038779148022846,
1200
- "grad_norm": 0.00017680494056548923,
1201
- "learning_rate": 1.8002105263157896e-05,
1202
- "loss": 23.0,
1203
- "step": 166
1204
- },
1205
- {
1206
- "epoch": 0.006075157335661537,
1207
- "grad_norm": 0.0006741180550307035,
1208
- "learning_rate": 1.747263157894737e-05,
1209
- "loss": 23.0,
1210
- "step": 167
1211
- },
1212
- {
1213
- "epoch": 0.006111535523300229,
1214
- "grad_norm": 0.00031311047496274114,
1215
- "learning_rate": 1.6943157894736843e-05,
1216
- "loss": 23.0,
1217
- "step": 168
1218
- },
1219
- {
1220
- "epoch": 0.006147913710938921,
1221
- "grad_norm": 0.0004291492805350572,
1222
- "learning_rate": 1.6413684210526317e-05,
1223
- "loss": 23.0,
1224
- "step": 169
1225
- },
1226
- {
1227
- "epoch": 0.006184291898577613,
1228
- "grad_norm": 0.0002491539344191551,
1229
- "learning_rate": 1.588421052631579e-05,
1230
- "loss": 23.0,
1231
- "step": 170
1232
- },
1233
- {
1234
- "epoch": 0.006220670086216305,
1235
- "grad_norm": 0.000621207058429718,
1236
- "learning_rate": 1.5354736842105264e-05,
1237
- "loss": 23.0,
1238
- "step": 171
1239
- },
1240
- {
1241
- "epoch": 0.006257048273854996,
1242
- "grad_norm": 0.0002547437616158277,
1243
- "learning_rate": 1.4825263157894736e-05,
1244
- "loss": 23.0,
1245
- "step": 172
1246
- },
1247
- {
1248
- "epoch": 0.006293426461493688,
1249
- "grad_norm": 0.0006873645470477641,
1250
- "learning_rate": 1.4295789473684212e-05,
1251
- "loss": 23.0,
1252
- "step": 173
1253
- },
1254
- {
1255
- "epoch": 0.00632980464913238,
1256
- "grad_norm": 0.0002644654014147818,
1257
- "learning_rate": 1.3766315789473686e-05,
1258
- "loss": 23.0,
1259
- "step": 174
1260
- },
1261
- {
1262
- "epoch": 0.006366182836771072,
1263
- "grad_norm": 0.0005771035212092102,
1264
- "learning_rate": 1.3236842105263158e-05,
1265
- "loss": 23.0,
1266
- "step": 175
1267
- },
1268
- {
1269
- "epoch": 0.006402561024409764,
1270
- "grad_norm": 0.000470922386739403,
1271
- "learning_rate": 1.2707368421052633e-05,
1272
- "loss": 23.0,
1273
- "step": 176
1274
- },
1275
- {
1276
- "epoch": 0.0064389392120484555,
1277
- "grad_norm": 0.0005482633132487535,
1278
- "learning_rate": 1.2177894736842107e-05,
1279
- "loss": 23.0,
1280
- "step": 177
1281
- },
1282
- {
1283
- "epoch": 0.0064753173996871475,
1284
- "grad_norm": 0.0002871015458367765,
1285
- "learning_rate": 1.1648421052631579e-05,
1286
- "loss": 23.0,
1287
- "step": 178
1288
- },
1289
- {
1290
- "epoch": 0.0065116955873258395,
1291
- "grad_norm": 0.0006182437646202743,
1292
- "learning_rate": 1.1118947368421053e-05,
1293
- "loss": 23.0,
1294
- "step": 179
1295
- },
1296
- {
1297
- "epoch": 0.0065480737749645315,
1298
- "grad_norm": 0.0006852405495010316,
1299
- "learning_rate": 1.0589473684210526e-05,
1300
- "loss": 23.0,
1301
- "step": 180
1302
- },
1303
- {
1304
- "epoch": 0.0065844519626032235,
1305
- "grad_norm": 0.0006683968240395188,
1306
- "learning_rate": 1.0060000000000002e-05,
1307
- "loss": 23.0,
1308
- "step": 181
1309
- },
1310
- {
1311
- "epoch": 0.006620830150241915,
1312
- "grad_norm": 0.0009705866104923189,
1313
- "learning_rate": 9.530526315789474e-06,
1314
- "loss": 23.0,
1315
- "step": 182
1316
- },
1317
- {
1318
- "epoch": 0.006657208337880607,
1319
- "grad_norm": 0.0004722289741039276,
1320
- "learning_rate": 9.001052631578948e-06,
1321
- "loss": 23.0,
1322
- "step": 183
1323
- },
1324
- {
1325
- "epoch": 0.006693586525519299,
1326
- "grad_norm": 0.0003802978608291596,
1327
- "learning_rate": 8.471578947368422e-06,
1328
- "loss": 23.0,
1329
- "step": 184
1330
- },
1331
- {
1332
- "epoch": 0.006729964713157991,
1333
- "grad_norm": 0.001799766207113862,
1334
- "learning_rate": 7.942105263157895e-06,
1335
- "loss": 23.0,
1336
- "step": 185
1337
- },
1338
- {
1339
- "epoch": 0.006766342900796682,
1340
- "grad_norm": 0.0008337293402291834,
1341
- "learning_rate": 7.412631578947368e-06,
1342
- "loss": 23.0,
1343
- "step": 186
1344
- },
1345
- {
1346
- "epoch": 0.006802721088435374,
1347
- "grad_norm": 0.0007884498336352408,
1348
- "learning_rate": 6.883157894736843e-06,
1349
- "loss": 23.0,
1350
- "step": 187
1351
- },
1352
- {
1353
- "epoch": 0.006839099276074066,
1354
- "grad_norm": 0.0008693984127603471,
1355
- "learning_rate": 6.3536842105263166e-06,
1356
- "loss": 23.0,
1357
- "step": 188
1358
- },
1359
- {
1360
- "epoch": 0.006875477463712758,
1361
- "grad_norm": 0.0009469325887039304,
1362
- "learning_rate": 5.8242105263157895e-06,
1363
- "loss": 23.0,
1364
- "step": 189
1365
- },
1366
- {
1367
- "epoch": 0.00691185565135145,
1368
- "grad_norm": 0.0007177354418672621,
1369
- "learning_rate": 5.294736842105263e-06,
1370
- "loss": 23.0,
1371
- "step": 190
1372
- },
1373
- {
1374
- "epoch": 0.006948233838990141,
1375
- "grad_norm": 0.0008088785689324141,
1376
- "learning_rate": 4.765263157894737e-06,
1377
- "loss": 23.0,
1378
- "step": 191
1379
- },
1380
- {
1381
- "epoch": 0.006984612026628833,
1382
- "grad_norm": 0.00048786430852487683,
1383
- "learning_rate": 4.235789473684211e-06,
1384
- "loss": 23.0,
1385
- "step": 192
1386
- },
1387
- {
1388
- "epoch": 0.007020990214267525,
1389
- "grad_norm": 0.00033468171022832394,
1390
- "learning_rate": 3.706315789473684e-06,
1391
- "loss": 23.0,
1392
- "step": 193
1393
- },
1394
- {
1395
- "epoch": 0.007057368401906217,
1396
- "grad_norm": 0.0012459014542400837,
1397
- "learning_rate": 3.1768421052631583e-06,
1398
- "loss": 23.0,
1399
- "step": 194
1400
- },
1401
- {
1402
- "epoch": 0.007093746589544909,
1403
- "grad_norm": 0.0007038541371002793,
1404
- "learning_rate": 2.6473684210526316e-06,
1405
- "loss": 23.0,
1406
- "step": 195
1407
- },
1408
- {
1409
- "epoch": 0.0071301247771836,
1410
- "grad_norm": 0.001085408846847713,
1411
- "learning_rate": 2.1178947368421054e-06,
1412
- "loss": 23.0,
1413
- "step": 196
1414
- },
1415
- {
1416
- "epoch": 0.007166502964822292,
1417
- "grad_norm": 0.0005441877874545753,
1418
- "learning_rate": 1.5884210526315791e-06,
1419
- "loss": 23.0,
1420
- "step": 197
1421
- },
1422
- {
1423
- "epoch": 0.007202881152460984,
1424
- "grad_norm": 0.0011435911292210221,
1425
- "learning_rate": 1.0589473684210527e-06,
1426
- "loss": 23.0,
1427
- "step": 198
1428
- },
1429
- {
1430
- "epoch": 0.007239259340099676,
1431
- "grad_norm": 0.000514986168127507,
1432
- "learning_rate": 5.294736842105263e-07,
1433
- "loss": 23.0,
1434
- "step": 199
1435
- },
1436
- {
1437
- "epoch": 0.007275637527738368,
1438
- "grad_norm": 0.0006262768292799592,
1439
- "learning_rate": 0.0,
1440
- "loss": 23.0,
1441
- "step": 200
1442
- },
1443
- {
1444
- "epoch": 0.007275637527738368,
1445
- "eval_loss": 11.5,
1446
- "eval_runtime": 204.8225,
1447
- "eval_samples_per_second": 56.512,
1448
- "eval_steps_per_second": 14.129,
1449
- "step": 200
1450
  }
1451
  ],
1452
  "logging_steps": 1,
@@ -1461,7 +387,7 @@
1461
  "early_stopping_threshold": 0.0
1462
  },
1463
  "attributes": {
1464
- "early_stopping_patience_counter": 3
1465
  }
1466
  },
1467
  "TrainerControl": {
@@ -1470,12 +396,12 @@
1470
  "should_evaluate": false,
1471
  "should_log": false,
1472
  "should_save": true,
1473
- "should_training_stop": true
1474
  },
1475
  "attributes": {}
1476
  }
1477
  },
1478
- "total_flos": 8059714732032.0,
1479
  "train_batch_size": 4,
1480
  "trial_name": null,
1481
  "trial_params": null
 
1
  {
2
  "best_metric": 11.5,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-50",
4
+ "epoch": 0.001818909381934592,
5
  "eval_steps": 50,
6
+ "global_step": 50,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
  "epoch": 3.637818763869184e-05,
13
+ "grad_norm": 2.948543624370359e-05,
14
  "learning_rate": 1.0060000000000002e-05,
15
  "loss": 23.0,
16
  "step": 1
 
18
  {
19
  "epoch": 3.637818763869184e-05,
20
  "eval_loss": 11.5,
21
+ "eval_runtime": 151.3578,
22
+ "eval_samples_per_second": 76.474,
23
+ "eval_steps_per_second": 19.12,
24
  "step": 1
25
  },
26
  {
27
  "epoch": 7.275637527738368e-05,
28
+ "grad_norm": 2.2105969037511386e-05,
29
  "learning_rate": 2.0120000000000004e-05,
30
  "loss": 23.0,
31
  "step": 2
32
  },
33
  {
34
  "epoch": 0.00010913456291607552,
35
+ "grad_norm": 1.7058524463209324e-05,
36
  "learning_rate": 3.018e-05,
37
  "loss": 23.0,
38
  "step": 3
39
  },
40
  {
41
  "epoch": 0.00014551275055476736,
42
+ "grad_norm": 2.060344922938384e-05,
43
  "learning_rate": 4.024000000000001e-05,
44
  "loss": 23.0,
45
  "step": 4
46
  },
47
  {
48
  "epoch": 0.0001818909381934592,
49
+ "grad_norm": 2.0100153051316738e-05,
50
  "learning_rate": 5.03e-05,
51
  "loss": 23.0,
52
  "step": 5
53
  },
54
  {
55
  "epoch": 0.00021826912583215103,
56
+ "grad_norm": 3.034624933206942e-05,
57
  "learning_rate": 6.036e-05,
58
  "loss": 23.0,
59
  "step": 6
60
  },
61
  {
62
  "epoch": 0.00025464731347084286,
63
+ "grad_norm": 2.815291918523144e-05,
64
  "learning_rate": 7.042e-05,
65
  "loss": 23.0,
66
  "step": 7
67
  },
68
  {
69
  "epoch": 0.0002910255011095347,
70
+ "grad_norm": 1.748102658893913e-05,
71
  "learning_rate": 8.048000000000002e-05,
72
  "loss": 23.0,
73
  "step": 8
74
  },
75
  {
76
  "epoch": 0.00032740368874822657,
77
+ "grad_norm": 3.207884219591506e-05,
78
  "learning_rate": 9.054000000000001e-05,
79
  "loss": 23.0,
80
  "step": 9
81
  },
82
  {
83
  "epoch": 0.0003637818763869184,
84
+ "grad_norm": 2.7205978767597117e-05,
85
  "learning_rate": 0.0001006,
86
  "loss": 23.0,
87
  "step": 10
88
  },
89
  {
90
  "epoch": 0.00040016006402561027,
91
+ "grad_norm": 1.864074874902144e-05,
92
  "learning_rate": 0.00010007052631578948,
93
  "loss": 23.0,
94
  "step": 11
95
  },
96
  {
97
  "epoch": 0.00043653825166430207,
98
+ "grad_norm": 2.7616073566605337e-05,
99
  "learning_rate": 9.954105263157895e-05,
100
  "loss": 23.0,
101
  "step": 12
102
  },
103
  {
104
  "epoch": 0.0004729164393029939,
105
+ "grad_norm": 3.965870928368531e-05,
106
  "learning_rate": 9.901157894736842e-05,
107
  "loss": 23.0,
108
  "step": 13
109
  },
110
  {
111
  "epoch": 0.0005092946269416857,
112
+ "grad_norm": 4.447407991392538e-05,
113
  "learning_rate": 9.84821052631579e-05,
114
  "loss": 23.0,
115
  "step": 14
116
  },
117
  {
118
  "epoch": 0.0005456728145803776,
119
+ "grad_norm": 3.3188109227921814e-05,
120
  "learning_rate": 9.795263157894737e-05,
121
  "loss": 23.0,
122
  "step": 15
123
  },
124
  {
125
  "epoch": 0.0005820510022190694,
126
+ "grad_norm": 2.72152046818519e-05,
127
  "learning_rate": 9.742315789473686e-05,
128
  "loss": 23.0,
129
  "step": 16
130
  },
131
  {
132
  "epoch": 0.0006184291898577613,
133
+ "grad_norm": 4.269916098564863e-05,
134
  "learning_rate": 9.689368421052633e-05,
135
  "loss": 23.0,
136
  "step": 17
137
  },
138
  {
139
  "epoch": 0.0006548073774964531,
140
+ "grad_norm": 7.144509436329827e-05,
141
  "learning_rate": 9.63642105263158e-05,
142
  "loss": 23.0,
143
  "step": 18
144
  },
145
  {
146
  "epoch": 0.0006911855651351449,
147
+ "grad_norm": 5.8125104260398075e-05,
148
  "learning_rate": 9.583473684210527e-05,
149
  "loss": 23.0,
150
  "step": 19
151
  },
152
  {
153
  "epoch": 0.0007275637527738368,
154
+ "grad_norm": 5.5581836932105944e-05,
155
  "learning_rate": 9.530526315789474e-05,
156
  "loss": 23.0,
157
  "step": 20
158
  },
159
  {
160
  "epoch": 0.0007639419404125286,
161
+ "grad_norm": 4.992326284991577e-05,
162
  "learning_rate": 9.477578947368422e-05,
163
  "loss": 23.0,
164
  "step": 21
165
  },
166
  {
167
  "epoch": 0.0008003201280512205,
168
+ "grad_norm": 3.754639328690246e-05,
169
  "learning_rate": 9.424631578947369e-05,
170
  "loss": 23.0,
171
  "step": 22
172
  },
173
  {
174
  "epoch": 0.0008366983156899123,
175
+ "grad_norm": 4.4129676098236814e-05,
176
  "learning_rate": 9.371684210526316e-05,
177
  "loss": 23.0,
178
  "step": 23
179
  },
180
  {
181
  "epoch": 0.0008730765033286041,
182
+ "grad_norm": 3.2032086892286316e-05,
183
  "learning_rate": 9.318736842105263e-05,
184
  "loss": 23.0,
185
  "step": 24
186
  },
187
  {
188
  "epoch": 0.000909454690967296,
189
+ "grad_norm": 7.238514808705077e-05,
190
  "learning_rate": 9.26578947368421e-05,
191
  "loss": 23.0,
192
  "step": 25
193
  },
194
  {
195
  "epoch": 0.0009458328786059878,
196
+ "grad_norm": 5.7584187743486837e-05,
197
  "learning_rate": 9.212842105263159e-05,
198
  "loss": 23.0,
199
  "step": 26
200
  },
201
  {
202
  "epoch": 0.0009822110662446796,
203
+ "grad_norm": 7.019707845756784e-05,
204
  "learning_rate": 9.159894736842107e-05,
205
  "loss": 23.0,
206
  "step": 27
207
  },
208
  {
209
  "epoch": 0.0010185892538833714,
210
+ "grad_norm": 5.2452742238529027e-05,
211
  "learning_rate": 9.106947368421054e-05,
212
  "loss": 23.0,
213
  "step": 28
214
  },
215
  {
216
  "epoch": 0.0010549674415220635,
217
+ "grad_norm": 0.00011238550359848887,
218
  "learning_rate": 9.054000000000001e-05,
219
  "loss": 23.0,
220
  "step": 29
221
  },
222
  {
223
  "epoch": 0.0010913456291607553,
224
+ "grad_norm": 0.00013983648386783898,
225
  "learning_rate": 9.001052631578948e-05,
226
  "loss": 23.0,
227
  "step": 30
228
  },
229
  {
230
  "epoch": 0.001127723816799447,
231
+ "grad_norm": 6.872925587231293e-05,
232
  "learning_rate": 8.948105263157895e-05,
233
  "loss": 23.0,
234
  "step": 31
235
  },
236
  {
237
  "epoch": 0.0011641020044381389,
238
+ "grad_norm": 5.7285513321403414e-05,
239
  "learning_rate": 8.895157894736842e-05,
240
  "loss": 23.0,
241
  "step": 32
242
  },
243
  {
244
  "epoch": 0.0012004801920768306,
245
+ "grad_norm": 0.00013172421313356608,
246
  "learning_rate": 8.842210526315789e-05,
247
  "loss": 23.0,
248
  "step": 33
249
  },
250
  {
251
  "epoch": 0.0012368583797155227,
252
+ "grad_norm": 8.472959598293528e-05,
253
  "learning_rate": 8.789263157894738e-05,
254
  "loss": 23.0,
255
  "step": 34
256
  },
257
  {
258
  "epoch": 0.0012732365673542145,
259
+ "grad_norm": 9.260691149393097e-05,
260
  "learning_rate": 8.736315789473685e-05,
261
  "loss": 23.0,
262
  "step": 35
263
  },
264
  {
265
  "epoch": 0.0013096147549929063,
266
+ "grad_norm": 0.00011570382775971666,
267
  "learning_rate": 8.683368421052632e-05,
268
  "loss": 23.0,
269
  "step": 36
270
  },
271
  {
272
  "epoch": 0.001345992942631598,
273
+ "grad_norm": 0.00013264735753182322,
274
  "learning_rate": 8.63042105263158e-05,
275
  "loss": 23.0,
276
  "step": 37
277
  },
278
  {
279
  "epoch": 0.0013823711302702899,
280
+ "grad_norm": 7.428869866998866e-05,
281
  "learning_rate": 8.577473684210527e-05,
282
  "loss": 23.0,
283
  "step": 38
284
  },
285
  {
286
  "epoch": 0.0014187493179089819,
287
+ "grad_norm": 9.110313112614676e-05,
288
  "learning_rate": 8.524526315789474e-05,
289
  "loss": 23.0,
290
  "step": 39
291
  },
292
  {
293
  "epoch": 0.0014551275055476737,
294
+ "grad_norm": 0.00014309283869806677,
295
  "learning_rate": 8.471578947368421e-05,
296
  "loss": 23.0,
297
  "step": 40
298
  },
299
  {
300
  "epoch": 0.0014915056931863655,
301
+ "grad_norm": 0.00016003995551727712,
302
  "learning_rate": 8.41863157894737e-05,
303
  "loss": 23.0,
304
  "step": 41
305
  },
306
  {
307
  "epoch": 0.0015278838808250573,
308
+ "grad_norm": 0.00016799979493953288,
309
  "learning_rate": 8.365684210526317e-05,
310
  "loss": 23.0,
311
  "step": 42
312
  },
313
  {
314
  "epoch": 0.001564262068463749,
315
+ "grad_norm": 0.00016025554214138538,
316
  "learning_rate": 8.312736842105264e-05,
317
  "loss": 23.0,
318
  "step": 43
319
  },
320
  {
321
  "epoch": 0.001600640256102441,
322
+ "grad_norm": 0.000203637799131684,
323
  "learning_rate": 8.259789473684211e-05,
324
  "loss": 23.0,
325
  "step": 44
326
  },
327
  {
328
  "epoch": 0.0016370184437411329,
329
+ "grad_norm": 9.858429984888062e-05,
330
  "learning_rate": 8.206842105263158e-05,
331
  "loss": 23.0,
332
  "step": 45
333
  },
334
  {
335
  "epoch": 0.0016733966313798247,
336
+ "grad_norm": 0.00014126356109045446,
337
  "learning_rate": 8.153894736842105e-05,
338
  "loss": 23.0,
339
  "step": 46
340
  },
341
  {
342
  "epoch": 0.0017097748190185165,
343
+ "grad_norm": 0.00022886847727932036,
344
  "learning_rate": 8.100947368421053e-05,
345
  "loss": 23.0,
346
  "step": 47
347
  },
348
  {
349
  "epoch": 0.0017461530066572083,
350
+ "grad_norm": 0.00025842548348009586,
351
  "learning_rate": 8.048000000000002e-05,
352
  "loss": 23.0,
353
  "step": 48
354
  },
355
  {
356
  "epoch": 0.0017825311942959,
357
+ "grad_norm": 0.00010498856863705441,
358
  "learning_rate": 7.995052631578949e-05,
359
  "loss": 23.0,
360
  "step": 49
361
  },
362
  {
363
  "epoch": 0.001818909381934592,
364
+ "grad_norm": 0.0002834200859069824,
365
  "learning_rate": 7.942105263157896e-05,
366
  "loss": 23.0,
367
  "step": 50
 
369
  {
370
  "epoch": 0.001818909381934592,
371
  "eval_loss": 11.5,
372
+ "eval_runtime": 151.2778,
373
+ "eval_samples_per_second": 76.515,
374
+ "eval_steps_per_second": 19.13,
375
  "step": 50
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
376
  }
377
  ],
378
  "logging_steps": 1,
 
387
  "early_stopping_threshold": 0.0
388
  },
389
  "attributes": {
390
+ "early_stopping_patience_counter": 0
391
  }
392
  },
393
  "TrainerControl": {
 
396
  "should_evaluate": false,
397
  "should_log": false,
398
  "should_save": true,
399
+ "should_training_stop": false
400
  },
401
  "attributes": {}
402
  }
403
  },
404
+ "total_flos": 2030002962432.0,
405
  "train_batch_size": 4,
406
  "trial_name": null,
407
  "trial_params": null
last-checkpoint/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2f70492f7bfc0b5a2028ba0ef950958a67d03aee8a68c11c59c8c04032c230aa
3
  size 6840
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:eff417ff5f179436b0b27b1f383c5d1106ad333a2a1841023fe6defd53aa6431
3
  size 6840