whiteapple8222 commited on
Commit
c554369
·
verified ·
1 Parent(s): e2fb253

Training in progress, step 682, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:669a93a7a599d147ac68d4e0cd4acfda8ad8db9f83a76565f9a7cbec3d5822cf
3
  size 83945296
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:56d4950327e454eb546afcd24441040fcf134a356d000a4ee7f08f3e052c16f6
3
  size 83945296
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b4e78b8cbbc492e035ec231795143bd705d58ffccf9c6af9264d03f3d598018d
3
  size 43123028
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:362f909bee5b34580b914d9065cdb21e5d0995cd8e786e547b2344f41615cc1e
3
  size 43123028
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ec6897e825191b0a80051b1e34fb6ced22b692c5c07df5bd607896b8ec6078eb
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4578a006fc558e462c5793425143656a8c4b614c7d3f96ea0cac6c8cb67c39ea
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5b0bb58a6976151803bee01b02feadab21639b27a6d2d75a55682622d20ee556
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e7940a7e9a9ca38750caa51b3df3b13af904a9fadc3ec71ad157f8c2d907c0d1
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.0668693009118541,
5
  "eval_steps": 341,
6
- "global_step": 341,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2410,6 +2410,2401 @@
2410
  "eval_samples_per_second": 27.624,
2411
  "eval_steps_per_second": 13.812,
2412
  "step": 341
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2413
  }
2414
  ],
2415
  "logging_steps": 1,
@@ -2429,7 +4824,7 @@
2429
  "attributes": {}
2430
  }
2431
  },
2432
- "total_flos": 7.34807651820503e+16,
2433
  "train_batch_size": 2,
2434
  "trial_name": null,
2435
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.1337386018237082,
5
  "eval_steps": 341,
6
+ "global_step": 682,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2410
  "eval_samples_per_second": 27.624,
2411
  "eval_steps_per_second": 13.812,
2412
  "step": 341
2413
+ },
2414
+ {
2415
+ "epoch": 0.0670653985684871,
2416
+ "grad_norm": 9.668785095214844,
2417
+ "learning_rate": 0.00017164979829596165,
2418
+ "loss": 3.3758,
2419
+ "step": 342
2420
+ },
2421
+ {
2422
+ "epoch": 0.06726149622512011,
2423
+ "grad_norm": 5.6129255294799805,
2424
+ "learning_rate": 0.00017148738851297256,
2425
+ "loss": 1.3369,
2426
+ "step": 343
2427
+ },
2428
+ {
2429
+ "epoch": 0.06745759388175311,
2430
+ "grad_norm": 8.042420387268066,
2431
+ "learning_rate": 0.0001713245921687629,
2432
+ "loss": 1.918,
2433
+ "step": 344
2434
+ },
2435
+ {
2436
+ "epoch": 0.06765369153838612,
2437
+ "grad_norm": 6.536214351654053,
2438
+ "learning_rate": 0.00017116141014363837,
2439
+ "loss": 0.97,
2440
+ "step": 345
2441
+ },
2442
+ {
2443
+ "epoch": 0.06784978919501912,
2444
+ "grad_norm": 10.576717376708984,
2445
+ "learning_rate": 0.0001709978433199901,
2446
+ "loss": 2.0315,
2447
+ "step": 346
2448
+ },
2449
+ {
2450
+ "epoch": 0.06804588685165212,
2451
+ "grad_norm": 13.645353317260742,
2452
+ "learning_rate": 0.00017083389258229013,
2453
+ "loss": 2.3226,
2454
+ "step": 347
2455
+ },
2456
+ {
2457
+ "epoch": 0.06824198450828513,
2458
+ "grad_norm": 10.135254859924316,
2459
+ "learning_rate": 0.00017066955881708636,
2460
+ "loss": 2.4686,
2461
+ "step": 348
2462
+ },
2463
+ {
2464
+ "epoch": 0.06843808216491813,
2465
+ "grad_norm": 5.7091569900512695,
2466
+ "learning_rate": 0.0001705048429129979,
2467
+ "loss": 1.633,
2468
+ "step": 349
2469
+ },
2470
+ {
2471
+ "epoch": 0.06863417982155114,
2472
+ "grad_norm": 7.3178935050964355,
2473
+ "learning_rate": 0.0001703397457607103,
2474
+ "loss": 1.5411,
2475
+ "step": 350
2476
+ },
2477
+ {
2478
+ "epoch": 0.06883027747818414,
2479
+ "grad_norm": 10.689863204956055,
2480
+ "learning_rate": 0.0001701742682529706,
2481
+ "loss": 2.8238,
2482
+ "step": 351
2483
+ },
2484
+ {
2485
+ "epoch": 0.06902637513481714,
2486
+ "grad_norm": 4.083006381988525,
2487
+ "learning_rate": 0.00017000841128458265,
2488
+ "loss": 1.7831,
2489
+ "step": 352
2490
+ },
2491
+ {
2492
+ "epoch": 0.06922247279145015,
2493
+ "grad_norm": 4.592381477355957,
2494
+ "learning_rate": 0.0001698421757524021,
2495
+ "loss": 1.1135,
2496
+ "step": 353
2497
+ },
2498
+ {
2499
+ "epoch": 0.06941857044808314,
2500
+ "grad_norm": 9.44848346710205,
2501
+ "learning_rate": 0.00016967556255533174,
2502
+ "loss": 1.6301,
2503
+ "step": 354
2504
+ },
2505
+ {
2506
+ "epoch": 0.06961466810471614,
2507
+ "grad_norm": 7.35884428024292,
2508
+ "learning_rate": 0.0001695085725943165,
2509
+ "loss": 1.6776,
2510
+ "step": 355
2511
+ },
2512
+ {
2513
+ "epoch": 0.06981076576134915,
2514
+ "grad_norm": 7.0129475593566895,
2515
+ "learning_rate": 0.00016934120677233863,
2516
+ "loss": 1.1665,
2517
+ "step": 356
2518
+ },
2519
+ {
2520
+ "epoch": 0.07000686341798215,
2521
+ "grad_norm": 11.612259864807129,
2522
+ "learning_rate": 0.00016917346599441276,
2523
+ "loss": 0.9044,
2524
+ "step": 357
2525
+ },
2526
+ {
2527
+ "epoch": 0.07020296107461516,
2528
+ "grad_norm": 5.861693382263184,
2529
+ "learning_rate": 0.00016900535116758125,
2530
+ "loss": 1.5738,
2531
+ "step": 358
2532
+ },
2533
+ {
2534
+ "epoch": 0.07039905873124816,
2535
+ "grad_norm": 4.579985618591309,
2536
+ "learning_rate": 0.00016883686320090884,
2537
+ "loss": 1.6305,
2538
+ "step": 359
2539
+ },
2540
+ {
2541
+ "epoch": 0.07059515638788116,
2542
+ "grad_norm": 6.142041206359863,
2543
+ "learning_rate": 0.00016866800300547813,
2544
+ "loss": 0.6206,
2545
+ "step": 360
2546
+ },
2547
+ {
2548
+ "epoch": 0.07079125404451417,
2549
+ "grad_norm": 3.1343085765838623,
2550
+ "learning_rate": 0.0001684987714943845,
2551
+ "loss": 0.7649,
2552
+ "step": 361
2553
+ },
2554
+ {
2555
+ "epoch": 0.07098735170114717,
2556
+ "grad_norm": 5.473539352416992,
2557
+ "learning_rate": 0.00016832916958273118,
2558
+ "loss": 1.4839,
2559
+ "step": 362
2560
+ },
2561
+ {
2562
+ "epoch": 0.07118344935778018,
2563
+ "grad_norm": 8.52957534790039,
2564
+ "learning_rate": 0.00016815919818762427,
2565
+ "loss": 2.5437,
2566
+ "step": 363
2567
+ },
2568
+ {
2569
+ "epoch": 0.07137954701441318,
2570
+ "grad_norm": 6.140387058258057,
2571
+ "learning_rate": 0.00016798885822816786,
2572
+ "loss": 1.2282,
2573
+ "step": 364
2574
+ },
2575
+ {
2576
+ "epoch": 0.07157564467104618,
2577
+ "grad_norm": 9.70067024230957,
2578
+ "learning_rate": 0.000167818150625459,
2579
+ "loss": 2.3286,
2580
+ "step": 365
2581
+ },
2582
+ {
2583
+ "epoch": 0.07177174232767919,
2584
+ "grad_norm": 6.14666223526001,
2585
+ "learning_rate": 0.0001676470763025827,
2586
+ "loss": 1.3825,
2587
+ "step": 366
2588
+ },
2589
+ {
2590
+ "epoch": 0.07196783998431219,
2591
+ "grad_norm": 10.377222061157227,
2592
+ "learning_rate": 0.0001674756361846071,
2593
+ "loss": 1.9278,
2594
+ "step": 367
2595
+ },
2596
+ {
2597
+ "epoch": 0.0721639376409452,
2598
+ "grad_norm": 7.09204626083374,
2599
+ "learning_rate": 0.00016730383119857817,
2600
+ "loss": 1.2413,
2601
+ "step": 368
2602
+ },
2603
+ {
2604
+ "epoch": 0.07236003529757819,
2605
+ "grad_norm": 12.448009490966797,
2606
+ "learning_rate": 0.00016713166227351497,
2607
+ "loss": 1.7415,
2608
+ "step": 369
2609
+ },
2610
+ {
2611
+ "epoch": 0.07255613295421119,
2612
+ "grad_norm": 4.5050811767578125,
2613
+ "learning_rate": 0.00016695913034040454,
2614
+ "loss": 1.7608,
2615
+ "step": 370
2616
+ },
2617
+ {
2618
+ "epoch": 0.0727522306108442,
2619
+ "grad_norm": 8.113517761230469,
2620
+ "learning_rate": 0.00016678623633219677,
2621
+ "loss": 1.8336,
2622
+ "step": 371
2623
+ },
2624
+ {
2625
+ "epoch": 0.0729483282674772,
2626
+ "grad_norm": 7.662284851074219,
2627
+ "learning_rate": 0.00016661298118379948,
2628
+ "loss": 2.5928,
2629
+ "step": 372
2630
+ },
2631
+ {
2632
+ "epoch": 0.0731444259241102,
2633
+ "grad_norm": 7.647708892822266,
2634
+ "learning_rate": 0.00016643936583207337,
2635
+ "loss": 3.006,
2636
+ "step": 373
2637
+ },
2638
+ {
2639
+ "epoch": 0.07334052358074321,
2640
+ "grad_norm": 7.049048900604248,
2641
+ "learning_rate": 0.00016626539121582685,
2642
+ "loss": 1.9476,
2643
+ "step": 374
2644
+ },
2645
+ {
2646
+ "epoch": 0.07353662123737621,
2647
+ "grad_norm": 4.551039218902588,
2648
+ "learning_rate": 0.000166091058275811,
2649
+ "loss": 2.2753,
2650
+ "step": 375
2651
+ },
2652
+ {
2653
+ "epoch": 0.07373271889400922,
2654
+ "grad_norm": 8.680680274963379,
2655
+ "learning_rate": 0.00016591636795471455,
2656
+ "loss": 2.0624,
2657
+ "step": 376
2658
+ },
2659
+ {
2660
+ "epoch": 0.07392881655064222,
2661
+ "grad_norm": 10.324525833129883,
2662
+ "learning_rate": 0.0001657413211971587,
2663
+ "loss": 1.6293,
2664
+ "step": 377
2665
+ },
2666
+ {
2667
+ "epoch": 0.07412491420727522,
2668
+ "grad_norm": 5.324687957763672,
2669
+ "learning_rate": 0.0001655659189496921,
2670
+ "loss": 1.4987,
2671
+ "step": 378
2672
+ },
2673
+ {
2674
+ "epoch": 0.07432101186390823,
2675
+ "grad_norm": 11.023552894592285,
2676
+ "learning_rate": 0.00016539016216078557,
2677
+ "loss": 1.9108,
2678
+ "step": 379
2679
+ },
2680
+ {
2681
+ "epoch": 0.07451710952054123,
2682
+ "grad_norm": 6.6586594581604,
2683
+ "learning_rate": 0.00016521405178082722,
2684
+ "loss": 2.4198,
2685
+ "step": 380
2686
+ },
2687
+ {
2688
+ "epoch": 0.07471320717717424,
2689
+ "grad_norm": 9.818254470825195,
2690
+ "learning_rate": 0.0001650375887621171,
2691
+ "loss": 2.162,
2692
+ "step": 381
2693
+ },
2694
+ {
2695
+ "epoch": 0.07490930483380724,
2696
+ "grad_norm": 6.547168254852295,
2697
+ "learning_rate": 0.000164860774058862,
2698
+ "loss": 1.8307,
2699
+ "step": 382
2700
+ },
2701
+ {
2702
+ "epoch": 0.07510540249044025,
2703
+ "grad_norm": 7.256173610687256,
2704
+ "learning_rate": 0.00016468360862717066,
2705
+ "loss": 0.9432,
2706
+ "step": 383
2707
+ },
2708
+ {
2709
+ "epoch": 0.07530150014707324,
2710
+ "grad_norm": 10.348817825317383,
2711
+ "learning_rate": 0.00016450609342504813,
2712
+ "loss": 1.7824,
2713
+ "step": 384
2714
+ },
2715
+ {
2716
+ "epoch": 0.07549759780370624,
2717
+ "grad_norm": 14.728826522827148,
2718
+ "learning_rate": 0.00016432822941239096,
2719
+ "loss": 3.1737,
2720
+ "step": 385
2721
+ },
2722
+ {
2723
+ "epoch": 0.07569369546033924,
2724
+ "grad_norm": 7.894331932067871,
2725
+ "learning_rate": 0.00016415001755098175,
2726
+ "loss": 2.0515,
2727
+ "step": 386
2728
+ },
2729
+ {
2730
+ "epoch": 0.07588979311697225,
2731
+ "grad_norm": 7.474819183349609,
2732
+ "learning_rate": 0.00016397145880448416,
2733
+ "loss": 3.1276,
2734
+ "step": 387
2735
+ },
2736
+ {
2737
+ "epoch": 0.07608589077360525,
2738
+ "grad_norm": 6.2442626953125,
2739
+ "learning_rate": 0.00016379255413843754,
2740
+ "loss": 0.9294,
2741
+ "step": 388
2742
+ },
2743
+ {
2744
+ "epoch": 0.07628198843023826,
2745
+ "grad_norm": 8.229086875915527,
2746
+ "learning_rate": 0.0001636133045202517,
2747
+ "loss": 2.122,
2748
+ "step": 389
2749
+ },
2750
+ {
2751
+ "epoch": 0.07647808608687126,
2752
+ "grad_norm": 5.9484100341796875,
2753
+ "learning_rate": 0.0001634337109192019,
2754
+ "loss": 1.3164,
2755
+ "step": 390
2756
+ },
2757
+ {
2758
+ "epoch": 0.07667418374350427,
2759
+ "grad_norm": 6.490477561950684,
2760
+ "learning_rate": 0.0001632537743064233,
2761
+ "loss": 1.1598,
2762
+ "step": 391
2763
+ },
2764
+ {
2765
+ "epoch": 0.07687028140013727,
2766
+ "grad_norm": 36.34891128540039,
2767
+ "learning_rate": 0.000163073495654906,
2768
+ "loss": 2.4203,
2769
+ "step": 392
2770
+ },
2771
+ {
2772
+ "epoch": 0.07706637905677027,
2773
+ "grad_norm": 5.949688911437988,
2774
+ "learning_rate": 0.00016289287593948952,
2775
+ "loss": 2.0893,
2776
+ "step": 393
2777
+ },
2778
+ {
2779
+ "epoch": 0.07726247671340328,
2780
+ "grad_norm": 5.93861198425293,
2781
+ "learning_rate": 0.00016271191613685776,
2782
+ "loss": 1.829,
2783
+ "step": 394
2784
+ },
2785
+ {
2786
+ "epoch": 0.07745857437003628,
2787
+ "grad_norm": 8.41703987121582,
2788
+ "learning_rate": 0.00016253061722553355,
2789
+ "loss": 2.1544,
2790
+ "step": 395
2791
+ },
2792
+ {
2793
+ "epoch": 0.07765467202666929,
2794
+ "grad_norm": 8.92647647857666,
2795
+ "learning_rate": 0.00016234898018587337,
2796
+ "loss": 1.3316,
2797
+ "step": 396
2798
+ },
2799
+ {
2800
+ "epoch": 0.07785076968330229,
2801
+ "grad_norm": 4.4784698486328125,
2802
+ "learning_rate": 0.0001621670060000622,
2803
+ "loss": 1.0305,
2804
+ "step": 397
2805
+ },
2806
+ {
2807
+ "epoch": 0.0780468673399353,
2808
+ "grad_norm": 10.080864906311035,
2809
+ "learning_rate": 0.00016198469565210805,
2810
+ "loss": 2.1012,
2811
+ "step": 398
2812
+ },
2813
+ {
2814
+ "epoch": 0.07824296499656828,
2815
+ "grad_norm": 8.505258560180664,
2816
+ "learning_rate": 0.0001618020501278367,
2817
+ "loss": 2.2348,
2818
+ "step": 399
2819
+ },
2820
+ {
2821
+ "epoch": 0.07843906265320129,
2822
+ "grad_norm": 6.3116559982299805,
2823
+ "learning_rate": 0.00016161907041488635,
2824
+ "loss": 1.3726,
2825
+ "step": 400
2826
+ },
2827
+ {
2828
+ "epoch": 0.07863516030983429,
2829
+ "grad_norm": 7.111060619354248,
2830
+ "learning_rate": 0.00016143575750270233,
2831
+ "loss": 1.5926,
2832
+ "step": 401
2833
+ },
2834
+ {
2835
+ "epoch": 0.0788312579664673,
2836
+ "grad_norm": 5.481679916381836,
2837
+ "learning_rate": 0.0001612521123825317,
2838
+ "loss": 0.8062,
2839
+ "step": 402
2840
+ },
2841
+ {
2842
+ "epoch": 0.0790273556231003,
2843
+ "grad_norm": 9.399847984313965,
2844
+ "learning_rate": 0.00016106813604741782,
2845
+ "loss": 1.7107,
2846
+ "step": 403
2847
+ },
2848
+ {
2849
+ "epoch": 0.0792234532797333,
2850
+ "grad_norm": 7.784383296966553,
2851
+ "learning_rate": 0.00016088382949219524,
2852
+ "loss": 1.4449,
2853
+ "step": 404
2854
+ },
2855
+ {
2856
+ "epoch": 0.07941955093636631,
2857
+ "grad_norm": 10.075730323791504,
2858
+ "learning_rate": 0.000160699193713484,
2859
+ "loss": 2.3277,
2860
+ "step": 405
2861
+ },
2862
+ {
2863
+ "epoch": 0.07961564859299931,
2864
+ "grad_norm": 4.376564979553223,
2865
+ "learning_rate": 0.00016051422970968438,
2866
+ "loss": 1.3489,
2867
+ "step": 406
2868
+ },
2869
+ {
2870
+ "epoch": 0.07981174624963232,
2871
+ "grad_norm": 28.959577560424805,
2872
+ "learning_rate": 0.00016032893848097165,
2873
+ "loss": 0.9703,
2874
+ "step": 407
2875
+ },
2876
+ {
2877
+ "epoch": 0.08000784390626532,
2878
+ "grad_norm": 9.604166030883789,
2879
+ "learning_rate": 0.00016014332102929027,
2880
+ "loss": 2.195,
2881
+ "step": 408
2882
+ },
2883
+ {
2884
+ "epoch": 0.08020394156289833,
2885
+ "grad_norm": 5.949897289276123,
2886
+ "learning_rate": 0.00015995737835834906,
2887
+ "loss": 0.8828,
2888
+ "step": 409
2889
+ },
2890
+ {
2891
+ "epoch": 0.08040003921953133,
2892
+ "grad_norm": 9.921558380126953,
2893
+ "learning_rate": 0.00015977111147361507,
2894
+ "loss": 2.1569,
2895
+ "step": 410
2896
+ },
2897
+ {
2898
+ "epoch": 0.08059613687616433,
2899
+ "grad_norm": 9.299111366271973,
2900
+ "learning_rate": 0.00015958452138230877,
2901
+ "loss": 1.4095,
2902
+ "step": 411
2903
+ },
2904
+ {
2905
+ "epoch": 0.08079223453279734,
2906
+ "grad_norm": 8.806063652038574,
2907
+ "learning_rate": 0.00015939760909339823,
2908
+ "loss": 1.7785,
2909
+ "step": 412
2910
+ },
2911
+ {
2912
+ "epoch": 0.08098833218943034,
2913
+ "grad_norm": 5.1091108322143555,
2914
+ "learning_rate": 0.00015921037561759377,
2915
+ "loss": 1.8415,
2916
+ "step": 413
2917
+ },
2918
+ {
2919
+ "epoch": 0.08118442984606333,
2920
+ "grad_norm": 12.836872100830078,
2921
+ "learning_rate": 0.0001590228219673425,
2922
+ "loss": 1.8644,
2923
+ "step": 414
2924
+ },
2925
+ {
2926
+ "epoch": 0.08138052750269634,
2927
+ "grad_norm": 6.567033767700195,
2928
+ "learning_rate": 0.00015883494915682289,
2929
+ "loss": 1.9557,
2930
+ "step": 415
2931
+ },
2932
+ {
2933
+ "epoch": 0.08157662515932934,
2934
+ "grad_norm": 8.996990203857422,
2935
+ "learning_rate": 0.00015864675820193922,
2936
+ "loss": 1.888,
2937
+ "step": 416
2938
+ },
2939
+ {
2940
+ "epoch": 0.08177272281596235,
2941
+ "grad_norm": 7.494692802429199,
2942
+ "learning_rate": 0.00015845825012031605,
2943
+ "loss": 2.4514,
2944
+ "step": 417
2945
+ },
2946
+ {
2947
+ "epoch": 0.08196882047259535,
2948
+ "grad_norm": 5.421525478363037,
2949
+ "learning_rate": 0.0001582694259312928,
2950
+ "loss": 1.0314,
2951
+ "step": 418
2952
+ },
2953
+ {
2954
+ "epoch": 0.08216491812922835,
2955
+ "grad_norm": 25.4990291595459,
2956
+ "learning_rate": 0.0001580802866559183,
2957
+ "loss": 0.9981,
2958
+ "step": 419
2959
+ },
2960
+ {
2961
+ "epoch": 0.08236101578586136,
2962
+ "grad_norm": 7.055636405944824,
2963
+ "learning_rate": 0.00015789083331694506,
2964
+ "loss": 1.718,
2965
+ "step": 420
2966
+ },
2967
+ {
2968
+ "epoch": 0.08255711344249436,
2969
+ "grad_norm": 8.986098289489746,
2970
+ "learning_rate": 0.00015770106693882387,
2971
+ "loss": 1.3962,
2972
+ "step": 421
2973
+ },
2974
+ {
2975
+ "epoch": 0.08275321109912737,
2976
+ "grad_norm": 4.7463788986206055,
2977
+ "learning_rate": 0.0001575109885476983,
2978
+ "loss": 1.4039,
2979
+ "step": 422
2980
+ },
2981
+ {
2982
+ "epoch": 0.08294930875576037,
2983
+ "grad_norm": 6.555906295776367,
2984
+ "learning_rate": 0.00015732059917139912,
2985
+ "loss": 1.0908,
2986
+ "step": 423
2987
+ },
2988
+ {
2989
+ "epoch": 0.08314540641239337,
2990
+ "grad_norm": 7.233346462249756,
2991
+ "learning_rate": 0.00015712989983943863,
2992
+ "loss": 1.9737,
2993
+ "step": 424
2994
+ },
2995
+ {
2996
+ "epoch": 0.08334150406902638,
2997
+ "grad_norm": 4.797744274139404,
2998
+ "learning_rate": 0.0001569388915830053,
2999
+ "loss": 1.2191,
3000
+ "step": 425
3001
+ },
3002
+ {
3003
+ "epoch": 0.08353760172565938,
3004
+ "grad_norm": 6.303066253662109,
3005
+ "learning_rate": 0.000156747575434958,
3006
+ "loss": 1.8937,
3007
+ "step": 426
3008
+ },
3009
+ {
3010
+ "epoch": 0.08373369938229239,
3011
+ "grad_norm": 12.17996597290039,
3012
+ "learning_rate": 0.00015655595242982048,
3013
+ "loss": 4.1888,
3014
+ "step": 427
3015
+ },
3016
+ {
3017
+ "epoch": 0.08392979703892539,
3018
+ "grad_norm": 7.345923900604248,
3019
+ "learning_rate": 0.00015636402360377587,
3020
+ "loss": 1.0776,
3021
+ "step": 428
3022
+ },
3023
+ {
3024
+ "epoch": 0.08412589469555838,
3025
+ "grad_norm": 7.688333034515381,
3026
+ "learning_rate": 0.0001561717899946609,
3027
+ "loss": 0.9205,
3028
+ "step": 429
3029
+ },
3030
+ {
3031
+ "epoch": 0.08432199235219139,
3032
+ "grad_norm": 5.487595558166504,
3033
+ "learning_rate": 0.00015597925264196049,
3034
+ "loss": 1.4256,
3035
+ "step": 430
3036
+ },
3037
+ {
3038
+ "epoch": 0.08451809000882439,
3039
+ "grad_norm": 7.871713161468506,
3040
+ "learning_rate": 0.0001557864125868019,
3041
+ "loss": 2.3536,
3042
+ "step": 431
3043
+ },
3044
+ {
3045
+ "epoch": 0.0847141876654574,
3046
+ "grad_norm": 5.0042033195495605,
3047
+ "learning_rate": 0.00015559327087194942,
3048
+ "loss": 3.0954,
3049
+ "step": 432
3050
+ },
3051
+ {
3052
+ "epoch": 0.0849102853220904,
3053
+ "grad_norm": 6.770071506500244,
3054
+ "learning_rate": 0.0001553998285417983,
3055
+ "loss": 1.5016,
3056
+ "step": 433
3057
+ },
3058
+ {
3059
+ "epoch": 0.0851063829787234,
3060
+ "grad_norm": 6.884315490722656,
3061
+ "learning_rate": 0.00015520608664236949,
3062
+ "loss": 0.9995,
3063
+ "step": 434
3064
+ },
3065
+ {
3066
+ "epoch": 0.0853024806353564,
3067
+ "grad_norm": 7.716054439544678,
3068
+ "learning_rate": 0.00015501204622130377,
3069
+ "loss": 1.525,
3070
+ "step": 435
3071
+ },
3072
+ {
3073
+ "epoch": 0.08549857829198941,
3074
+ "grad_norm": 9.22014045715332,
3075
+ "learning_rate": 0.0001548177083278562,
3076
+ "loss": 1.7368,
3077
+ "step": 436
3078
+ },
3079
+ {
3080
+ "epoch": 0.08569467594862241,
3081
+ "grad_norm": 11.081851959228516,
3082
+ "learning_rate": 0.0001546230740128904,
3083
+ "loss": 2.5292,
3084
+ "step": 437
3085
+ },
3086
+ {
3087
+ "epoch": 0.08589077360525542,
3088
+ "grad_norm": 3.8471319675445557,
3089
+ "learning_rate": 0.0001544281443288728,
3090
+ "loss": 1.8473,
3091
+ "step": 438
3092
+ },
3093
+ {
3094
+ "epoch": 0.08608687126188842,
3095
+ "grad_norm": 7.554915904998779,
3096
+ "learning_rate": 0.00015423292032986695,
3097
+ "loss": 1.4886,
3098
+ "step": 439
3099
+ },
3100
+ {
3101
+ "epoch": 0.08628296891852143,
3102
+ "grad_norm": 5.459715843200684,
3103
+ "learning_rate": 0.00015403740307152805,
3104
+ "loss": 2.7721,
3105
+ "step": 440
3106
+ },
3107
+ {
3108
+ "epoch": 0.08647906657515443,
3109
+ "grad_norm": 5.094114780426025,
3110
+ "learning_rate": 0.00015384159361109698,
3111
+ "loss": 0.6022,
3112
+ "step": 441
3113
+ },
3114
+ {
3115
+ "epoch": 0.08667516423178744,
3116
+ "grad_norm": 4.084317684173584,
3117
+ "learning_rate": 0.00015364549300739467,
3118
+ "loss": 0.8871,
3119
+ "step": 442
3120
+ },
3121
+ {
3122
+ "epoch": 0.08687126188842044,
3123
+ "grad_norm": 3.810145378112793,
3124
+ "learning_rate": 0.0001534491023208164,
3125
+ "loss": 2.2058,
3126
+ "step": 443
3127
+ },
3128
+ {
3129
+ "epoch": 0.08706735954505343,
3130
+ "grad_norm": 9.405007362365723,
3131
+ "learning_rate": 0.000153252422613326,
3132
+ "loss": 2.414,
3133
+ "step": 444
3134
+ },
3135
+ {
3136
+ "epoch": 0.08726345720168643,
3137
+ "grad_norm": 8.687947273254395,
3138
+ "learning_rate": 0.00015305545494845023,
3139
+ "loss": 0.8809,
3140
+ "step": 445
3141
+ },
3142
+ {
3143
+ "epoch": 0.08745955485831944,
3144
+ "grad_norm": 6.396414756774902,
3145
+ "learning_rate": 0.00015285820039127293,
3146
+ "loss": 1.488,
3147
+ "step": 446
3148
+ },
3149
+ {
3150
+ "epoch": 0.08765565251495244,
3151
+ "grad_norm": 4.447728157043457,
3152
+ "learning_rate": 0.00015266066000842917,
3153
+ "loss": 1.1921,
3154
+ "step": 447
3155
+ },
3156
+ {
3157
+ "epoch": 0.08785175017158545,
3158
+ "grad_norm": 9.093881607055664,
3159
+ "learning_rate": 0.00015246283486809977,
3160
+ "loss": 1.6693,
3161
+ "step": 448
3162
+ },
3163
+ {
3164
+ "epoch": 0.08804784782821845,
3165
+ "grad_norm": 8.160088539123535,
3166
+ "learning_rate": 0.0001522647260400053,
3167
+ "loss": 2.9597,
3168
+ "step": 449
3169
+ },
3170
+ {
3171
+ "epoch": 0.08824394548485145,
3172
+ "grad_norm": 4.759898662567139,
3173
+ "learning_rate": 0.00015206633459540023,
3174
+ "loss": 1.121,
3175
+ "step": 450
3176
+ },
3177
+ {
3178
+ "epoch": 0.08844004314148446,
3179
+ "grad_norm": 6.537527561187744,
3180
+ "learning_rate": 0.0001518676616070674,
3181
+ "loss": 1.1842,
3182
+ "step": 451
3183
+ },
3184
+ {
3185
+ "epoch": 0.08863614079811746,
3186
+ "grad_norm": 3.6689343452453613,
3187
+ "learning_rate": 0.0001516687081493119,
3188
+ "loss": 1.3464,
3189
+ "step": 452
3190
+ },
3191
+ {
3192
+ "epoch": 0.08883223845475047,
3193
+ "grad_norm": 13.292744636535645,
3194
+ "learning_rate": 0.00015146947529795567,
3195
+ "loss": 2.8284,
3196
+ "step": 453
3197
+ },
3198
+ {
3199
+ "epoch": 0.08902833611138347,
3200
+ "grad_norm": 3.7040257453918457,
3201
+ "learning_rate": 0.0001512699641303312,
3202
+ "loss": 1.0223,
3203
+ "step": 454
3204
+ },
3205
+ {
3206
+ "epoch": 0.08922443376801648,
3207
+ "grad_norm": 8.529545783996582,
3208
+ "learning_rate": 0.00015107017572527616,
3209
+ "loss": 1.9594,
3210
+ "step": 455
3211
+ },
3212
+ {
3213
+ "epoch": 0.08942053142464948,
3214
+ "grad_norm": 11.990189552307129,
3215
+ "learning_rate": 0.00015087011116312718,
3216
+ "loss": 1.2631,
3217
+ "step": 456
3218
+ },
3219
+ {
3220
+ "epoch": 0.08961662908128248,
3221
+ "grad_norm": 5.5952534675598145,
3222
+ "learning_rate": 0.00015066977152571428,
3223
+ "loss": 0.9935,
3224
+ "step": 457
3225
+ },
3226
+ {
3227
+ "epoch": 0.08981272673791549,
3228
+ "grad_norm": 6.168736457824707,
3229
+ "learning_rate": 0.0001504691578963549,
3230
+ "loss": 0.9699,
3231
+ "step": 458
3232
+ },
3233
+ {
3234
+ "epoch": 0.09000882439454848,
3235
+ "grad_norm": 6.674266338348389,
3236
+ "learning_rate": 0.0001502682713598481,
3237
+ "loss": 1.3238,
3238
+ "step": 459
3239
+ },
3240
+ {
3241
+ "epoch": 0.09020492205118148,
3242
+ "grad_norm": 7.915739059448242,
3243
+ "learning_rate": 0.00015006711300246853,
3244
+ "loss": 1.4752,
3245
+ "step": 460
3246
+ },
3247
+ {
3248
+ "epoch": 0.09040101970781449,
3249
+ "grad_norm": 9.858468055725098,
3250
+ "learning_rate": 0.00014986568391196092,
3251
+ "loss": 1.7595,
3252
+ "step": 461
3253
+ },
3254
+ {
3255
+ "epoch": 0.09059711736444749,
3256
+ "grad_norm": 7.993055820465088,
3257
+ "learning_rate": 0.0001496639851775337,
3258
+ "loss": 1.6935,
3259
+ "step": 462
3260
+ },
3261
+ {
3262
+ "epoch": 0.0907932150210805,
3263
+ "grad_norm": 8.133615493774414,
3264
+ "learning_rate": 0.00014946201788985358,
3265
+ "loss": 1.3022,
3266
+ "step": 463
3267
+ },
3268
+ {
3269
+ "epoch": 0.0909893126777135,
3270
+ "grad_norm": 23.21516990661621,
3271
+ "learning_rate": 0.0001492597831410393,
3272
+ "loss": 1.9148,
3273
+ "step": 464
3274
+ },
3275
+ {
3276
+ "epoch": 0.0911854103343465,
3277
+ "grad_norm": 5.873632431030273,
3278
+ "learning_rate": 0.00014905728202465595,
3279
+ "loss": 0.8053,
3280
+ "step": 465
3281
+ },
3282
+ {
3283
+ "epoch": 0.09138150799097951,
3284
+ "grad_norm": 9.700281143188477,
3285
+ "learning_rate": 0.000148854515635709,
3286
+ "loss": 1.8187,
3287
+ "step": 466
3288
+ },
3289
+ {
3290
+ "epoch": 0.09157760564761251,
3291
+ "grad_norm": 9.361727714538574,
3292
+ "learning_rate": 0.00014865148507063833,
3293
+ "loss": 1.5871,
3294
+ "step": 467
3295
+ },
3296
+ {
3297
+ "epoch": 0.09177370330424552,
3298
+ "grad_norm": 6.021685600280762,
3299
+ "learning_rate": 0.00014844819142731223,
3300
+ "loss": 0.6632,
3301
+ "step": 468
3302
+ },
3303
+ {
3304
+ "epoch": 0.09196980096087852,
3305
+ "grad_norm": 8.407185554504395,
3306
+ "learning_rate": 0.0001482446358050217,
3307
+ "loss": 2.1806,
3308
+ "step": 469
3309
+ },
3310
+ {
3311
+ "epoch": 0.09216589861751152,
3312
+ "grad_norm": 6.5181450843811035,
3313
+ "learning_rate": 0.00014804081930447433,
3314
+ "loss": 1.1511,
3315
+ "step": 470
3316
+ },
3317
+ {
3318
+ "epoch": 0.09236199627414453,
3319
+ "grad_norm": 6.047727584838867,
3320
+ "learning_rate": 0.00014783674302778832,
3321
+ "loss": 1.4668,
3322
+ "step": 471
3323
+ },
3324
+ {
3325
+ "epoch": 0.09255809393077753,
3326
+ "grad_norm": 5.636353969573975,
3327
+ "learning_rate": 0.00014763240807848666,
3328
+ "loss": 1.2796,
3329
+ "step": 472
3330
+ },
3331
+ {
3332
+ "epoch": 0.09275419158741054,
3333
+ "grad_norm": 10.02710247039795,
3334
+ "learning_rate": 0.00014742781556149103,
3335
+ "loss": 1.3822,
3336
+ "step": 473
3337
+ },
3338
+ {
3339
+ "epoch": 0.09295028924404353,
3340
+ "grad_norm": 5.736359596252441,
3341
+ "learning_rate": 0.00014722296658311595,
3342
+ "loss": 1.6941,
3343
+ "step": 474
3344
+ },
3345
+ {
3346
+ "epoch": 0.09314638690067653,
3347
+ "grad_norm": 4.80971622467041,
3348
+ "learning_rate": 0.0001470178622510627,
3349
+ "loss": 2.3505,
3350
+ "step": 475
3351
+ },
3352
+ {
3353
+ "epoch": 0.09334248455730954,
3354
+ "grad_norm": 6.357244491577148,
3355
+ "learning_rate": 0.00014681250367441328,
3356
+ "loss": 3.0606,
3357
+ "step": 476
3358
+ },
3359
+ {
3360
+ "epoch": 0.09353858221394254,
3361
+ "grad_norm": 6.115423202514648,
3362
+ "learning_rate": 0.00014660689196362462,
3363
+ "loss": 1.4211,
3364
+ "step": 477
3365
+ },
3366
+ {
3367
+ "epoch": 0.09373467987057554,
3368
+ "grad_norm": 10.913143157958984,
3369
+ "learning_rate": 0.0001464010282305224,
3370
+ "loss": 1.6531,
3371
+ "step": 478
3372
+ },
3373
+ {
3374
+ "epoch": 0.09393077752720855,
3375
+ "grad_norm": 7.621870517730713,
3376
+ "learning_rate": 0.000146194913588295,
3377
+ "loss": 1.964,
3378
+ "step": 479
3379
+ },
3380
+ {
3381
+ "epoch": 0.09412687518384155,
3382
+ "grad_norm": 11.227121353149414,
3383
+ "learning_rate": 0.0001459885491514878,
3384
+ "loss": 1.639,
3385
+ "step": 480
3386
+ },
3387
+ {
3388
+ "epoch": 0.09432297284047456,
3389
+ "grad_norm": 4.943283557891846,
3390
+ "learning_rate": 0.00014578193603599662,
3391
+ "loss": 0.5043,
3392
+ "step": 481
3393
+ },
3394
+ {
3395
+ "epoch": 0.09451907049710756,
3396
+ "grad_norm": 13.006143569946289,
3397
+ "learning_rate": 0.0001455750753590622,
3398
+ "loss": 3.0382,
3399
+ "step": 482
3400
+ },
3401
+ {
3402
+ "epoch": 0.09471516815374056,
3403
+ "grad_norm": 6.181257247924805,
3404
+ "learning_rate": 0.00014536796823926386,
3405
+ "loss": 1.3281,
3406
+ "step": 483
3407
+ },
3408
+ {
3409
+ "epoch": 0.09491126581037357,
3410
+ "grad_norm": 4.05950403213501,
3411
+ "learning_rate": 0.0001451606157965136,
3412
+ "loss": 1.5701,
3413
+ "step": 484
3414
+ },
3415
+ {
3416
+ "epoch": 0.09510736346700657,
3417
+ "grad_norm": 7.532302379608154,
3418
+ "learning_rate": 0.0001449530191520499,
3419
+ "loss": 1.811,
3420
+ "step": 485
3421
+ },
3422
+ {
3423
+ "epoch": 0.09530346112363958,
3424
+ "grad_norm": 7.403939247131348,
3425
+ "learning_rate": 0.00014474517942843175,
3426
+ "loss": 1.8269,
3427
+ "step": 486
3428
+ },
3429
+ {
3430
+ "epoch": 0.09549955878027258,
3431
+ "grad_norm": 18.15042495727539,
3432
+ "learning_rate": 0.0001445370977495326,
3433
+ "loss": 2.4586,
3434
+ "step": 487
3435
+ },
3436
+ {
3437
+ "epoch": 0.09569565643690559,
3438
+ "grad_norm": 13.836175918579102,
3439
+ "learning_rate": 0.00014432877524053427,
3440
+ "loss": 1.7828,
3441
+ "step": 488
3442
+ },
3443
+ {
3444
+ "epoch": 0.09589175409353858,
3445
+ "grad_norm": 5.9050822257995605,
3446
+ "learning_rate": 0.0001441202130279208,
3447
+ "loss": 2.7068,
3448
+ "step": 489
3449
+ },
3450
+ {
3451
+ "epoch": 0.09608785175017158,
3452
+ "grad_norm": 7.173941612243652,
3453
+ "learning_rate": 0.0001439114122394724,
3454
+ "loss": 2.7424,
3455
+ "step": 490
3456
+ },
3457
+ {
3458
+ "epoch": 0.09628394940680458,
3459
+ "grad_norm": 17.888187408447266,
3460
+ "learning_rate": 0.0001437023740042594,
3461
+ "loss": 2.0253,
3462
+ "step": 491
3463
+ },
3464
+ {
3465
+ "epoch": 0.09648004706343759,
3466
+ "grad_norm": 6.492856025695801,
3467
+ "learning_rate": 0.00014349309945263606,
3468
+ "loss": 2.1604,
3469
+ "step": 492
3470
+ },
3471
+ {
3472
+ "epoch": 0.09667614472007059,
3473
+ "grad_norm": 11.6004638671875,
3474
+ "learning_rate": 0.00014328358971623455,
3475
+ "loss": 2.1492,
3476
+ "step": 493
3477
+ },
3478
+ {
3479
+ "epoch": 0.0968722423767036,
3480
+ "grad_norm": 6.262972354888916,
3481
+ "learning_rate": 0.00014307384592795872,
3482
+ "loss": 2.3007,
3483
+ "step": 494
3484
+ },
3485
+ {
3486
+ "epoch": 0.0970683400333366,
3487
+ "grad_norm": 6.768704891204834,
3488
+ "learning_rate": 0.00014286386922197805,
3489
+ "loss": 0.6546,
3490
+ "step": 495
3491
+ },
3492
+ {
3493
+ "epoch": 0.0972644376899696,
3494
+ "grad_norm": 4.372698783874512,
3495
+ "learning_rate": 0.0001426536607337215,
3496
+ "loss": 2.3647,
3497
+ "step": 496
3498
+ },
3499
+ {
3500
+ "epoch": 0.09746053534660261,
3501
+ "grad_norm": 12.042864799499512,
3502
+ "learning_rate": 0.00014244322159987145,
3503
+ "loss": 2.1466,
3504
+ "step": 497
3505
+ },
3506
+ {
3507
+ "epoch": 0.09765663300323561,
3508
+ "grad_norm": 5.374109745025635,
3509
+ "learning_rate": 0.0001422325529583573,
3510
+ "loss": 0.8599,
3511
+ "step": 498
3512
+ },
3513
+ {
3514
+ "epoch": 0.09785273065986862,
3515
+ "grad_norm": 7.459904193878174,
3516
+ "learning_rate": 0.00014202165594834963,
3517
+ "loss": 1.7119,
3518
+ "step": 499
3519
+ },
3520
+ {
3521
+ "epoch": 0.09804882831650162,
3522
+ "grad_norm": 8.25338363647461,
3523
+ "learning_rate": 0.00014181053171025392,
3524
+ "loss": 1.3014,
3525
+ "step": 500
3526
+ },
3527
+ {
3528
+ "epoch": 0.09824492597313463,
3529
+ "grad_norm": 8.594246864318848,
3530
+ "learning_rate": 0.00014159918138570424,
3531
+ "loss": 1.9332,
3532
+ "step": 501
3533
+ },
3534
+ {
3535
+ "epoch": 0.09844102362976763,
3536
+ "grad_norm": 4.802338600158691,
3537
+ "learning_rate": 0.00014138760611755727,
3538
+ "loss": 1.6591,
3539
+ "step": 502
3540
+ },
3541
+ {
3542
+ "epoch": 0.09863712128640063,
3543
+ "grad_norm": 5.049933433532715,
3544
+ "learning_rate": 0.00014117580704988612,
3545
+ "loss": 1.3722,
3546
+ "step": 503
3547
+ },
3548
+ {
3549
+ "epoch": 0.09883321894303362,
3550
+ "grad_norm": 9.438610076904297,
3551
+ "learning_rate": 0.00014096378532797393,
3552
+ "loss": 2.1888,
3553
+ "step": 504
3554
+ },
3555
+ {
3556
+ "epoch": 0.09902931659966663,
3557
+ "grad_norm": 11.144261360168457,
3558
+ "learning_rate": 0.00014075154209830792,
3559
+ "loss": 1.2526,
3560
+ "step": 505
3561
+ },
3562
+ {
3563
+ "epoch": 0.09922541425629963,
3564
+ "grad_norm": 12.456216812133789,
3565
+ "learning_rate": 0.0001405390785085731,
3566
+ "loss": 2.8251,
3567
+ "step": 506
3568
+ },
3569
+ {
3570
+ "epoch": 0.09942151191293264,
3571
+ "grad_norm": 13.78912353515625,
3572
+ "learning_rate": 0.00014032639570764593,
3573
+ "loss": 2.3312,
3574
+ "step": 507
3575
+ },
3576
+ {
3577
+ "epoch": 0.09961760956956564,
3578
+ "grad_norm": 22.588031768798828,
3579
+ "learning_rate": 0.00014011349484558847,
3580
+ "loss": 1.8865,
3581
+ "step": 508
3582
+ },
3583
+ {
3584
+ "epoch": 0.09981370722619864,
3585
+ "grad_norm": 5.357258319854736,
3586
+ "learning_rate": 0.00013990037707364166,
3587
+ "loss": 2.1296,
3588
+ "step": 509
3589
+ },
3590
+ {
3591
+ "epoch": 0.10000980488283165,
3592
+ "grad_norm": 13.293752670288086,
3593
+ "learning_rate": 0.00013968704354421952,
3594
+ "loss": 2.0479,
3595
+ "step": 510
3596
+ },
3597
+ {
3598
+ "epoch": 0.10020590253946465,
3599
+ "grad_norm": 6.764191150665283,
3600
+ "learning_rate": 0.00013947349541090274,
3601
+ "loss": 1.3908,
3602
+ "step": 511
3603
+ },
3604
+ {
3605
+ "epoch": 0.10040200019609766,
3606
+ "grad_norm": 5.701320648193359,
3607
+ "learning_rate": 0.00013925973382843246,
3608
+ "loss": 1.1343,
3609
+ "step": 512
3610
+ },
3611
+ {
3612
+ "epoch": 0.10059809785273066,
3613
+ "grad_norm": 6.728299140930176,
3614
+ "learning_rate": 0.0001390457599527039,
3615
+ "loss": 1.3219,
3616
+ "step": 513
3617
+ },
3618
+ {
3619
+ "epoch": 0.10079419550936367,
3620
+ "grad_norm": 9.094908714294434,
3621
+ "learning_rate": 0.00013883157494076046,
3622
+ "loss": 1.1282,
3623
+ "step": 514
3624
+ },
3625
+ {
3626
+ "epoch": 0.10099029316599667,
3627
+ "grad_norm": 7.321430683135986,
3628
+ "learning_rate": 0.00013861717995078708,
3629
+ "loss": 1.0628,
3630
+ "step": 515
3631
+ },
3632
+ {
3633
+ "epoch": 0.10118639082262967,
3634
+ "grad_norm": 5.976141452789307,
3635
+ "learning_rate": 0.00013840257614210414,
3636
+ "loss": 1.5372,
3637
+ "step": 516
3638
+ },
3639
+ {
3640
+ "epoch": 0.10138248847926268,
3641
+ "grad_norm": 7.5356926918029785,
3642
+ "learning_rate": 0.00013818776467516125,
3643
+ "loss": 2.0415,
3644
+ "step": 517
3645
+ },
3646
+ {
3647
+ "epoch": 0.10157858613589568,
3648
+ "grad_norm": 5.656033992767334,
3649
+ "learning_rate": 0.00013797274671153092,
3650
+ "loss": 1.9171,
3651
+ "step": 518
3652
+ },
3653
+ {
3654
+ "epoch": 0.10177468379252867,
3655
+ "grad_norm": 4.822179317474365,
3656
+ "learning_rate": 0.0001377575234139022,
3657
+ "loss": 1.1379,
3658
+ "step": 519
3659
+ },
3660
+ {
3661
+ "epoch": 0.10197078144916168,
3662
+ "grad_norm": 2.5650954246520996,
3663
+ "learning_rate": 0.0001375420959460745,
3664
+ "loss": 0.3984,
3665
+ "step": 520
3666
+ },
3667
+ {
3668
+ "epoch": 0.10216687910579468,
3669
+ "grad_norm": 6.997866630554199,
3670
+ "learning_rate": 0.00013732646547295126,
3671
+ "loss": 1.2149,
3672
+ "step": 521
3673
+ },
3674
+ {
3675
+ "epoch": 0.10236297676242768,
3676
+ "grad_norm": 9.925884246826172,
3677
+ "learning_rate": 0.00013711063316053368,
3678
+ "loss": 1.9542,
3679
+ "step": 522
3680
+ },
3681
+ {
3682
+ "epoch": 0.10255907441906069,
3683
+ "grad_norm": 7.913006782531738,
3684
+ "learning_rate": 0.00013689460017591432,
3685
+ "loss": 1.3162,
3686
+ "step": 523
3687
+ },
3688
+ {
3689
+ "epoch": 0.1027551720756937,
3690
+ "grad_norm": 8.868382453918457,
3691
+ "learning_rate": 0.00013667836768727092,
3692
+ "loss": 2.8749,
3693
+ "step": 524
3694
+ },
3695
+ {
3696
+ "epoch": 0.1029512697323267,
3697
+ "grad_norm": 7.418759346008301,
3698
+ "learning_rate": 0.00013646193686386,
3699
+ "loss": 1.2697,
3700
+ "step": 525
3701
+ },
3702
+ {
3703
+ "epoch": 0.1031473673889597,
3704
+ "grad_norm": 9.501752853393555,
3705
+ "learning_rate": 0.00013624530887601055,
3706
+ "loss": 1.1473,
3707
+ "step": 526
3708
+ },
3709
+ {
3710
+ "epoch": 0.1033434650455927,
3711
+ "grad_norm": 6.225274562835693,
3712
+ "learning_rate": 0.0001360284848951177,
3713
+ "loss": 1.0762,
3714
+ "step": 527
3715
+ },
3716
+ {
3717
+ "epoch": 0.10353956270222571,
3718
+ "grad_norm": 6.502389907836914,
3719
+ "learning_rate": 0.0001358114660936364,
3720
+ "loss": 1.383,
3721
+ "step": 528
3722
+ },
3723
+ {
3724
+ "epoch": 0.10373566035885871,
3725
+ "grad_norm": 17.53512954711914,
3726
+ "learning_rate": 0.00013559425364507508,
3727
+ "loss": 1.7968,
3728
+ "step": 529
3729
+ },
3730
+ {
3731
+ "epoch": 0.10393175801549172,
3732
+ "grad_norm": 6.0248122215271,
3733
+ "learning_rate": 0.00013537684872398927,
3734
+ "loss": 1.2982,
3735
+ "step": 530
3736
+ },
3737
+ {
3738
+ "epoch": 0.10412785567212472,
3739
+ "grad_norm": 4.621517658233643,
3740
+ "learning_rate": 0.00013515925250597537,
3741
+ "loss": 1.5811,
3742
+ "step": 531
3743
+ },
3744
+ {
3745
+ "epoch": 0.10432395332875773,
3746
+ "grad_norm": 6.690089702606201,
3747
+ "learning_rate": 0.00013494146616766406,
3748
+ "loss": 1.3376,
3749
+ "step": 532
3750
+ },
3751
+ {
3752
+ "epoch": 0.10452005098539073,
3753
+ "grad_norm": 6.418732643127441,
3754
+ "learning_rate": 0.00013472349088671418,
3755
+ "loss": 1.507,
3756
+ "step": 533
3757
+ },
3758
+ {
3759
+ "epoch": 0.10471614864202373,
3760
+ "grad_norm": 12.271800994873047,
3761
+ "learning_rate": 0.0001345053278418062,
3762
+ "loss": 1.6329,
3763
+ "step": 534
3764
+ },
3765
+ {
3766
+ "epoch": 0.10491224629865673,
3767
+ "grad_norm": 10.394608497619629,
3768
+ "learning_rate": 0.000134286978212636,
3769
+ "loss": 1.8793,
3770
+ "step": 535
3771
+ },
3772
+ {
3773
+ "epoch": 0.10510834395528973,
3774
+ "grad_norm": 5.690524101257324,
3775
+ "learning_rate": 0.00013406844317990826,
3776
+ "loss": 2.2874,
3777
+ "step": 536
3778
+ },
3779
+ {
3780
+ "epoch": 0.10530444161192273,
3781
+ "grad_norm": 4.313036918640137,
3782
+ "learning_rate": 0.00013384972392533034,
3783
+ "loss": 2.2905,
3784
+ "step": 537
3785
+ },
3786
+ {
3787
+ "epoch": 0.10550053926855574,
3788
+ "grad_norm": 6.115211009979248,
3789
+ "learning_rate": 0.0001336308216316056,
3790
+ "loss": 2.3146,
3791
+ "step": 538
3792
+ },
3793
+ {
3794
+ "epoch": 0.10569663692518874,
3795
+ "grad_norm": 7.43934965133667,
3796
+ "learning_rate": 0.0001334117374824274,
3797
+ "loss": 2.5837,
3798
+ "step": 539
3799
+ },
3800
+ {
3801
+ "epoch": 0.10589273458182175,
3802
+ "grad_norm": 8.397297859191895,
3803
+ "learning_rate": 0.00013319247266247225,
3804
+ "loss": 2.1631,
3805
+ "step": 540
3806
+ },
3807
+ {
3808
+ "epoch": 0.10608883223845475,
3809
+ "grad_norm": 5.273848056793213,
3810
+ "learning_rate": 0.00013297302835739376,
3811
+ "loss": 1.261,
3812
+ "step": 541
3813
+ },
3814
+ {
3815
+ "epoch": 0.10628492989508775,
3816
+ "grad_norm": 5.789434909820557,
3817
+ "learning_rate": 0.00013275340575381598,
3818
+ "loss": 1.8465,
3819
+ "step": 542
3820
+ },
3821
+ {
3822
+ "epoch": 0.10648102755172076,
3823
+ "grad_norm": 8.769668579101562,
3824
+ "learning_rate": 0.0001325336060393272,
3825
+ "loss": 1.3243,
3826
+ "step": 543
3827
+ },
3828
+ {
3829
+ "epoch": 0.10667712520835376,
3830
+ "grad_norm": 7.573061943054199,
3831
+ "learning_rate": 0.00013231363040247334,
3832
+ "loss": 1.243,
3833
+ "step": 544
3834
+ },
3835
+ {
3836
+ "epoch": 0.10687322286498677,
3837
+ "grad_norm": 9.284170150756836,
3838
+ "learning_rate": 0.00013209348003275165,
3839
+ "loss": 1.6408,
3840
+ "step": 545
3841
+ },
3842
+ {
3843
+ "epoch": 0.10706932052161977,
3844
+ "grad_norm": 4.322136878967285,
3845
+ "learning_rate": 0.00013187315612060415,
3846
+ "loss": 3.2532,
3847
+ "step": 546
3848
+ },
3849
+ {
3850
+ "epoch": 0.10726541817825277,
3851
+ "grad_norm": 7.865033149719238,
3852
+ "learning_rate": 0.00013165265985741142,
3853
+ "loss": 3.5798,
3854
+ "step": 547
3855
+ },
3856
+ {
3857
+ "epoch": 0.10746151583488578,
3858
+ "grad_norm": 3.1747426986694336,
3859
+ "learning_rate": 0.00013143199243548587,
3860
+ "loss": 1.1817,
3861
+ "step": 548
3862
+ },
3863
+ {
3864
+ "epoch": 0.10765761349151878,
3865
+ "grad_norm": 6.890042781829834,
3866
+ "learning_rate": 0.00013121115504806553,
3867
+ "loss": 2.0318,
3868
+ "step": 549
3869
+ },
3870
+ {
3871
+ "epoch": 0.10785371114815177,
3872
+ "grad_norm": 7.632523059844971,
3873
+ "learning_rate": 0.00013099014888930748,
3874
+ "loss": 1.3925,
3875
+ "step": 550
3876
+ },
3877
+ {
3878
+ "epoch": 0.10804980880478478,
3879
+ "grad_norm": 4.939361095428467,
3880
+ "learning_rate": 0.00013076897515428132,
3881
+ "loss": 1.3661,
3882
+ "step": 551
3883
+ },
3884
+ {
3885
+ "epoch": 0.10824590646141778,
3886
+ "grad_norm": 6.433002948760986,
3887
+ "learning_rate": 0.00013054763503896294,
3888
+ "loss": 0.9917,
3889
+ "step": 552
3890
+ },
3891
+ {
3892
+ "epoch": 0.10844200411805079,
3893
+ "grad_norm": 4.507363319396973,
3894
+ "learning_rate": 0.00013032612974022784,
3895
+ "loss": 0.9992,
3896
+ "step": 553
3897
+ },
3898
+ {
3899
+ "epoch": 0.10863810177468379,
3900
+ "grad_norm": 9.477548599243164,
3901
+ "learning_rate": 0.00013010446045584479,
3902
+ "loss": 1.1149,
3903
+ "step": 554
3904
+ },
3905
+ {
3906
+ "epoch": 0.1088341994313168,
3907
+ "grad_norm": 5.909473419189453,
3908
+ "learning_rate": 0.00012988262838446922,
3909
+ "loss": 2.0005,
3910
+ "step": 555
3911
+ },
3912
+ {
3913
+ "epoch": 0.1090302970879498,
3914
+ "grad_norm": 8.154961585998535,
3915
+ "learning_rate": 0.00012966063472563685,
3916
+ "loss": 2.1173,
3917
+ "step": 556
3918
+ },
3919
+ {
3920
+ "epoch": 0.1092263947445828,
3921
+ "grad_norm": 4.8719868659973145,
3922
+ "learning_rate": 0.00012943848067975718,
3923
+ "loss": 2.925,
3924
+ "step": 557
3925
+ },
3926
+ {
3927
+ "epoch": 0.1094224924012158,
3928
+ "grad_norm": 5.895204544067383,
3929
+ "learning_rate": 0.00012921616744810698,
3930
+ "loss": 2.0375,
3931
+ "step": 558
3932
+ },
3933
+ {
3934
+ "epoch": 0.10961859005784881,
3935
+ "grad_norm": 5.050942897796631,
3936
+ "learning_rate": 0.0001289936962328238,
3937
+ "loss": 1.6125,
3938
+ "step": 559
3939
+ },
3940
+ {
3941
+ "epoch": 0.10981468771448182,
3942
+ "grad_norm": 5.890807151794434,
3943
+ "learning_rate": 0.0001287710682368995,
3944
+ "loss": 0.991,
3945
+ "step": 560
3946
+ },
3947
+ {
3948
+ "epoch": 0.11001078537111482,
3949
+ "grad_norm": 5.316340446472168,
3950
+ "learning_rate": 0.00012854828466417364,
3951
+ "loss": 1.8846,
3952
+ "step": 561
3953
+ },
3954
+ {
3955
+ "epoch": 0.11020688302774782,
3956
+ "grad_norm": 14.81187629699707,
3957
+ "learning_rate": 0.00012832534671932715,
3958
+ "loss": 2.141,
3959
+ "step": 562
3960
+ },
3961
+ {
3962
+ "epoch": 0.11040298068438083,
3963
+ "grad_norm": 11.379783630371094,
3964
+ "learning_rate": 0.0001281022556078756,
3965
+ "loss": 2.9432,
3966
+ "step": 563
3967
+ },
3968
+ {
3969
+ "epoch": 0.11059907834101383,
3970
+ "grad_norm": 17.28523826599121,
3971
+ "learning_rate": 0.0001278790125361629,
3972
+ "loss": 2.4028,
3973
+ "step": 564
3974
+ },
3975
+ {
3976
+ "epoch": 0.11079517599764682,
3977
+ "grad_norm": 6.626383304595947,
3978
+ "learning_rate": 0.0001276556187113546,
3979
+ "loss": 1.1534,
3980
+ "step": 565
3981
+ },
3982
+ {
3983
+ "epoch": 0.11099127365427983,
3984
+ "grad_norm": 7.6215128898620605,
3985
+ "learning_rate": 0.00012743207534143144,
3986
+ "loss": 1.6464,
3987
+ "step": 566
3988
+ },
3989
+ {
3990
+ "epoch": 0.11118737131091283,
3991
+ "grad_norm": 8.348710060119629,
3992
+ "learning_rate": 0.00012720838363518286,
3993
+ "loss": 1.1823,
3994
+ "step": 567
3995
+ },
3996
+ {
3997
+ "epoch": 0.11138346896754583,
3998
+ "grad_norm": 5.307929039001465,
3999
+ "learning_rate": 0.00012698454480220039,
4000
+ "loss": 2.3759,
4001
+ "step": 568
4002
+ },
4003
+ {
4004
+ "epoch": 0.11157956662417884,
4005
+ "grad_norm": 4.690614223480225,
4006
+ "learning_rate": 0.00012676056005287106,
4007
+ "loss": 1.3698,
4008
+ "step": 569
4009
+ },
4010
+ {
4011
+ "epoch": 0.11177566428081184,
4012
+ "grad_norm": 5.7534871101379395,
4013
+ "learning_rate": 0.00012653643059837107,
4014
+ "loss": 1.9587,
4015
+ "step": 570
4016
+ },
4017
+ {
4018
+ "epoch": 0.11197176193744485,
4019
+ "grad_norm": 5.088260650634766,
4020
+ "learning_rate": 0.00012631215765065897,
4021
+ "loss": 1.0195,
4022
+ "step": 571
4023
+ },
4024
+ {
4025
+ "epoch": 0.11216785959407785,
4026
+ "grad_norm": 5.987957000732422,
4027
+ "learning_rate": 0.0001260877424224693,
4028
+ "loss": 2.3612,
4029
+ "step": 572
4030
+ },
4031
+ {
4032
+ "epoch": 0.11236395725071086,
4033
+ "grad_norm": 5.895928859710693,
4034
+ "learning_rate": 0.000125863186127306,
4035
+ "loss": 2.0393,
4036
+ "step": 573
4037
+ },
4038
+ {
4039
+ "epoch": 0.11256005490734386,
4040
+ "grad_norm": 6.654543876647949,
4041
+ "learning_rate": 0.00012563848997943568,
4042
+ "loss": 1.7165,
4043
+ "step": 574
4044
+ },
4045
+ {
4046
+ "epoch": 0.11275615256397686,
4047
+ "grad_norm": 13.193924903869629,
4048
+ "learning_rate": 0.00012541365519388138,
4049
+ "loss": 1.3969,
4050
+ "step": 575
4051
+ },
4052
+ {
4053
+ "epoch": 0.11295225022060987,
4054
+ "grad_norm": 5.471423149108887,
4055
+ "learning_rate": 0.00012518868298641564,
4056
+ "loss": 1.091,
4057
+ "step": 576
4058
+ },
4059
+ {
4060
+ "epoch": 0.11314834787724287,
4061
+ "grad_norm": 9.188228607177734,
4062
+ "learning_rate": 0.00012496357457355422,
4063
+ "loss": 2.0812,
4064
+ "step": 577
4065
+ },
4066
+ {
4067
+ "epoch": 0.11334444553387588,
4068
+ "grad_norm": 11.622628211975098,
4069
+ "learning_rate": 0.00012473833117254931,
4070
+ "loss": 2.1117,
4071
+ "step": 578
4072
+ },
4073
+ {
4074
+ "epoch": 0.11354054319050888,
4075
+ "grad_norm": 4.972383975982666,
4076
+ "learning_rate": 0.00012451295400138314,
4077
+ "loss": 1.3126,
4078
+ "step": 579
4079
+ },
4080
+ {
4081
+ "epoch": 0.11373664084714187,
4082
+ "grad_norm": 7.87300968170166,
4083
+ "learning_rate": 0.0001242874442787611,
4084
+ "loss": 3.2112,
4085
+ "step": 580
4086
+ },
4087
+ {
4088
+ "epoch": 0.11393273850377487,
4089
+ "grad_norm": 5.145363807678223,
4090
+ "learning_rate": 0.0001240618032241056,
4091
+ "loss": 1.2819,
4092
+ "step": 581
4093
+ },
4094
+ {
4095
+ "epoch": 0.11412883616040788,
4096
+ "grad_norm": 12.539934158325195,
4097
+ "learning_rate": 0.00012383603205754894,
4098
+ "loss": 2.2262,
4099
+ "step": 582
4100
+ },
4101
+ {
4102
+ "epoch": 0.11432493381704088,
4103
+ "grad_norm": 5.802661895751953,
4104
+ "learning_rate": 0.00012361013199992726,
4105
+ "loss": 1.9663,
4106
+ "step": 583
4107
+ },
4108
+ {
4109
+ "epoch": 0.11452103147367389,
4110
+ "grad_norm": 16.773561477661133,
4111
+ "learning_rate": 0.0001233841042727734,
4112
+ "loss": 2.342,
4113
+ "step": 584
4114
+ },
4115
+ {
4116
+ "epoch": 0.11471712913030689,
4117
+ "grad_norm": 6.163604259490967,
4118
+ "learning_rate": 0.0001231579500983108,
4119
+ "loss": 1.3009,
4120
+ "step": 585
4121
+ },
4122
+ {
4123
+ "epoch": 0.1149132267869399,
4124
+ "grad_norm": 7.877258777618408,
4125
+ "learning_rate": 0.00012293167069944645,
4126
+ "loss": 1.9388,
4127
+ "step": 586
4128
+ },
4129
+ {
4130
+ "epoch": 0.1151093244435729,
4131
+ "grad_norm": 13.269306182861328,
4132
+ "learning_rate": 0.00012270526729976465,
4133
+ "loss": 2.3028,
4134
+ "step": 587
4135
+ },
4136
+ {
4137
+ "epoch": 0.1153054221002059,
4138
+ "grad_norm": 9.610801696777344,
4139
+ "learning_rate": 0.00012247874112352009,
4140
+ "loss": 1.0249,
4141
+ "step": 588
4142
+ },
4143
+ {
4144
+ "epoch": 0.11550151975683891,
4145
+ "grad_norm": 11.20408821105957,
4146
+ "learning_rate": 0.00012225209339563145,
4147
+ "loss": 2.2807,
4148
+ "step": 589
4149
+ },
4150
+ {
4151
+ "epoch": 0.11569761741347191,
4152
+ "grad_norm": 13.390026092529297,
4153
+ "learning_rate": 0.00012202532534167463,
4154
+ "loss": 1.7141,
4155
+ "step": 590
4156
+ },
4157
+ {
4158
+ "epoch": 0.11589371507010492,
4159
+ "grad_norm": 4.4530229568481445,
4160
+ "learning_rate": 0.00012179843818787624,
4161
+ "loss": 1.4108,
4162
+ "step": 591
4163
+ },
4164
+ {
4165
+ "epoch": 0.11608981272673792,
4166
+ "grad_norm": 12.671486854553223,
4167
+ "learning_rate": 0.00012157143316110684,
4168
+ "loss": 1.6154,
4169
+ "step": 592
4170
+ },
4171
+ {
4172
+ "epoch": 0.11628591038337092,
4173
+ "grad_norm": 6.195436477661133,
4174
+ "learning_rate": 0.00012134431148887442,
4175
+ "loss": 3.4713,
4176
+ "step": 593
4177
+ },
4178
+ {
4179
+ "epoch": 0.11648200804000393,
4180
+ "grad_norm": 5.860586643218994,
4181
+ "learning_rate": 0.00012111707439931776,
4182
+ "loss": 2.0938,
4183
+ "step": 594
4184
+ },
4185
+ {
4186
+ "epoch": 0.11667810569663692,
4187
+ "grad_norm": 7.4623260498046875,
4188
+ "learning_rate": 0.00012088972312119964,
4189
+ "loss": 1.9674,
4190
+ "step": 595
4191
+ },
4192
+ {
4193
+ "epoch": 0.11687420335326992,
4194
+ "grad_norm": 7.368410110473633,
4195
+ "learning_rate": 0.00012066225888390042,
4196
+ "loss": 1.3425,
4197
+ "step": 596
4198
+ },
4199
+ {
4200
+ "epoch": 0.11707030100990293,
4201
+ "grad_norm": 7.527665138244629,
4202
+ "learning_rate": 0.00012043468291741116,
4203
+ "loss": 1.6366,
4204
+ "step": 597
4205
+ },
4206
+ {
4207
+ "epoch": 0.11726639866653593,
4208
+ "grad_norm": 6.0890793800354,
4209
+ "learning_rate": 0.00012020699645232721,
4210
+ "loss": 1.9652,
4211
+ "step": 598
4212
+ },
4213
+ {
4214
+ "epoch": 0.11746249632316894,
4215
+ "grad_norm": 6.350461959838867,
4216
+ "learning_rate": 0.00011997920071984133,
4217
+ "loss": 2.2867,
4218
+ "step": 599
4219
+ },
4220
+ {
4221
+ "epoch": 0.11765859397980194,
4222
+ "grad_norm": 6.444486618041992,
4223
+ "learning_rate": 0.00011975129695173719,
4224
+ "loss": 0.7242,
4225
+ "step": 600
4226
+ },
4227
+ {
4228
+ "epoch": 0.11785469163643494,
4229
+ "grad_norm": 7.270365238189697,
4230
+ "learning_rate": 0.00011952328638038261,
4231
+ "loss": 2.2346,
4232
+ "step": 601
4233
+ },
4234
+ {
4235
+ "epoch": 0.11805078929306795,
4236
+ "grad_norm": 5.961056709289551,
4237
+ "learning_rate": 0.00011929517023872298,
4238
+ "loss": 2.4926,
4239
+ "step": 602
4240
+ },
4241
+ {
4242
+ "epoch": 0.11824688694970095,
4243
+ "grad_norm": 5.347055435180664,
4244
+ "learning_rate": 0.00011906694976027455,
4245
+ "loss": 1.3998,
4246
+ "step": 603
4247
+ },
4248
+ {
4249
+ "epoch": 0.11844298460633396,
4250
+ "grad_norm": 11.233309745788574,
4251
+ "learning_rate": 0.0001188386261791177,
4252
+ "loss": 2.0185,
4253
+ "step": 604
4254
+ },
4255
+ {
4256
+ "epoch": 0.11863908226296696,
4257
+ "grad_norm": 4.813647747039795,
4258
+ "learning_rate": 0.0001186102007298904,
4259
+ "loss": 1.3932,
4260
+ "step": 605
4261
+ },
4262
+ {
4263
+ "epoch": 0.11883517991959996,
4264
+ "grad_norm": 5.281280040740967,
4265
+ "learning_rate": 0.00011838167464778142,
4266
+ "loss": 1.7445,
4267
+ "step": 606
4268
+ },
4269
+ {
4270
+ "epoch": 0.11903127757623297,
4271
+ "grad_norm": 8.755961418151855,
4272
+ "learning_rate": 0.00011815304916852372,
4273
+ "loss": 1.656,
4274
+ "step": 607
4275
+ },
4276
+ {
4277
+ "epoch": 0.11922737523286597,
4278
+ "grad_norm": 15.501289367675781,
4279
+ "learning_rate": 0.00011792432552838772,
4280
+ "loss": 2.0894,
4281
+ "step": 608
4282
+ },
4283
+ {
4284
+ "epoch": 0.11942347288949898,
4285
+ "grad_norm": 6.1117753982543945,
4286
+ "learning_rate": 0.00011769550496417466,
4287
+ "loss": 1.0473,
4288
+ "step": 609
4289
+ },
4290
+ {
4291
+ "epoch": 0.11961957054613197,
4292
+ "grad_norm": 9.669829368591309,
4293
+ "learning_rate": 0.00011746658871320983,
4294
+ "loss": 0.7436,
4295
+ "step": 610
4296
+ },
4297
+ {
4298
+ "epoch": 0.11981566820276497,
4299
+ "grad_norm": 10.253652572631836,
4300
+ "learning_rate": 0.00011723757801333601,
4301
+ "loss": 2.7502,
4302
+ "step": 611
4303
+ },
4304
+ {
4305
+ "epoch": 0.12001176585939798,
4306
+ "grad_norm": 7.084132671356201,
4307
+ "learning_rate": 0.00011700847410290667,
4308
+ "loss": 2.5537,
4309
+ "step": 612
4310
+ },
4311
+ {
4312
+ "epoch": 0.12020786351603098,
4313
+ "grad_norm": 5.936439037322998,
4314
+ "learning_rate": 0.0001167792782207793,
4315
+ "loss": 1.1551,
4316
+ "step": 613
4317
+ },
4318
+ {
4319
+ "epoch": 0.12040396117266398,
4320
+ "grad_norm": 7.053248405456543,
4321
+ "learning_rate": 0.0001165499916063087,
4322
+ "loss": 1.2488,
4323
+ "step": 614
4324
+ },
4325
+ {
4326
+ "epoch": 0.12060005882929699,
4327
+ "grad_norm": 7.141607284545898,
4328
+ "learning_rate": 0.00011632061549934036,
4329
+ "loss": 1.4092,
4330
+ "step": 615
4331
+ },
4332
+ {
4333
+ "epoch": 0.12079615648592999,
4334
+ "grad_norm": 7.723854064941406,
4335
+ "learning_rate": 0.00011609115114020363,
4336
+ "loss": 1.7669,
4337
+ "step": 616
4338
+ },
4339
+ {
4340
+ "epoch": 0.120992254142563,
4341
+ "grad_norm": 7.095085144042969,
4342
+ "learning_rate": 0.00011586159976970514,
4343
+ "loss": 1.5018,
4344
+ "step": 617
4345
+ },
4346
+ {
4347
+ "epoch": 0.121188351799196,
4348
+ "grad_norm": 6.469241142272949,
4349
+ "learning_rate": 0.00011563196262912193,
4350
+ "loss": 2.3377,
4351
+ "step": 618
4352
+ },
4353
+ {
4354
+ "epoch": 0.121384449455829,
4355
+ "grad_norm": 6.16892671585083,
4356
+ "learning_rate": 0.00011540224096019494,
4357
+ "loss": 2.0011,
4358
+ "step": 619
4359
+ },
4360
+ {
4361
+ "epoch": 0.12158054711246201,
4362
+ "grad_norm": 4.764594554901123,
4363
+ "learning_rate": 0.00011517243600512209,
4364
+ "loss": 0.8995,
4365
+ "step": 620
4366
+ },
4367
+ {
4368
+ "epoch": 0.12177664476909501,
4369
+ "grad_norm": 8.256946563720703,
4370
+ "learning_rate": 0.00011494254900655175,
4371
+ "loss": 1.5867,
4372
+ "step": 621
4373
+ },
4374
+ {
4375
+ "epoch": 0.12197274242572802,
4376
+ "grad_norm": 9.220061302185059,
4377
+ "learning_rate": 0.00011471258120757586,
4378
+ "loss": 1.0146,
4379
+ "step": 622
4380
+ },
4381
+ {
4382
+ "epoch": 0.12216884008236102,
4383
+ "grad_norm": 6.284097194671631,
4384
+ "learning_rate": 0.00011448253385172335,
4385
+ "loss": 0.8305,
4386
+ "step": 623
4387
+ },
4388
+ {
4389
+ "epoch": 0.12236493773899403,
4390
+ "grad_norm": 6.183596134185791,
4391
+ "learning_rate": 0.00011425240818295326,
4392
+ "loss": 0.7749,
4393
+ "step": 624
4394
+ },
4395
+ {
4396
+ "epoch": 0.12256103539562702,
4397
+ "grad_norm": 7.550481796264648,
4398
+ "learning_rate": 0.00011402220544564819,
4399
+ "loss": 1.3157,
4400
+ "step": 625
4401
+ },
4402
+ {
4403
+ "epoch": 0.12275713305226002,
4404
+ "grad_norm": 4.810642719268799,
4405
+ "learning_rate": 0.0001137919268846074,
4406
+ "loss": 1.6442,
4407
+ "step": 626
4408
+ },
4409
+ {
4410
+ "epoch": 0.12295323070889302,
4411
+ "grad_norm": 10.603952407836914,
4412
+ "learning_rate": 0.00011356157374504027,
4413
+ "loss": 1.7275,
4414
+ "step": 627
4415
+ },
4416
+ {
4417
+ "epoch": 0.12314932836552603,
4418
+ "grad_norm": 13.009543418884277,
4419
+ "learning_rate": 0.00011333114727255929,
4420
+ "loss": 2.3718,
4421
+ "step": 628
4422
+ },
4423
+ {
4424
+ "epoch": 0.12334542602215903,
4425
+ "grad_norm": 8.453059196472168,
4426
+ "learning_rate": 0.00011310064871317366,
4427
+ "loss": 1.6558,
4428
+ "step": 629
4429
+ },
4430
+ {
4431
+ "epoch": 0.12354152367879204,
4432
+ "grad_norm": 7.005093574523926,
4433
+ "learning_rate": 0.00011287007931328226,
4434
+ "loss": 1.9709,
4435
+ "step": 630
4436
+ },
4437
+ {
4438
+ "epoch": 0.12373762133542504,
4439
+ "grad_norm": 5.710804462432861,
4440
+ "learning_rate": 0.00011263944031966714,
4441
+ "loss": 1.8595,
4442
+ "step": 631
4443
+ },
4444
+ {
4445
+ "epoch": 0.12393371899205805,
4446
+ "grad_norm": 3.608022689819336,
4447
+ "learning_rate": 0.00011240873297948653,
4448
+ "loss": 1.7165,
4449
+ "step": 632
4450
+ },
4451
+ {
4452
+ "epoch": 0.12412981664869105,
4453
+ "grad_norm": 8.973870277404785,
4454
+ "learning_rate": 0.0001121779585402684,
4455
+ "loss": 1.4924,
4456
+ "step": 633
4457
+ },
4458
+ {
4459
+ "epoch": 0.12432591430532405,
4460
+ "grad_norm": 4.735976219177246,
4461
+ "learning_rate": 0.00011194711824990344,
4462
+ "loss": 1.2721,
4463
+ "step": 634
4464
+ },
4465
+ {
4466
+ "epoch": 0.12452201196195706,
4467
+ "grad_norm": 4.169306755065918,
4468
+ "learning_rate": 0.00011171621335663844,
4469
+ "loss": 0.718,
4470
+ "step": 635
4471
+ },
4472
+ {
4473
+ "epoch": 0.12471810961859006,
4474
+ "grad_norm": 14.129206657409668,
4475
+ "learning_rate": 0.00011148524510906956,
4476
+ "loss": 1.1904,
4477
+ "step": 636
4478
+ },
4479
+ {
4480
+ "epoch": 0.12491420727522307,
4481
+ "grad_norm": 12.76352310180664,
4482
+ "learning_rate": 0.00011125421475613554,
4483
+ "loss": 2.4872,
4484
+ "step": 637
4485
+ },
4486
+ {
4487
+ "epoch": 0.12511030493185607,
4488
+ "grad_norm": 8.636000633239746,
4489
+ "learning_rate": 0.00011102312354711091,
4490
+ "loss": 0.7629,
4491
+ "step": 638
4492
+ },
4493
+ {
4494
+ "epoch": 0.12530640258848907,
4495
+ "grad_norm": 6.22203254699707,
4496
+ "learning_rate": 0.00011079197273159925,
4497
+ "loss": 1.7372,
4498
+ "step": 639
4499
+ },
4500
+ {
4501
+ "epoch": 0.12550250024512208,
4502
+ "grad_norm": 4.235958576202393,
4503
+ "learning_rate": 0.0001105607635595266,
4504
+ "loss": 1.8661,
4505
+ "step": 640
4506
+ },
4507
+ {
4508
+ "epoch": 0.12569859790175508,
4509
+ "grad_norm": 5.598705768585205,
4510
+ "learning_rate": 0.00011032949728113437,
4511
+ "loss": 1.7918,
4512
+ "step": 641
4513
+ },
4514
+ {
4515
+ "epoch": 0.1258946955583881,
4516
+ "grad_norm": 9.218809127807617,
4517
+ "learning_rate": 0.00011009817514697291,
4518
+ "loss": 1.2968,
4519
+ "step": 642
4520
+ },
4521
+ {
4522
+ "epoch": 0.1260907932150211,
4523
+ "grad_norm": 7.068932056427002,
4524
+ "learning_rate": 0.00010986679840789451,
4525
+ "loss": 1.8485,
4526
+ "step": 643
4527
+ },
4528
+ {
4529
+ "epoch": 0.1262868908716541,
4530
+ "grad_norm": 3.891483783721924,
4531
+ "learning_rate": 0.00010963536831504684,
4532
+ "loss": 0.3918,
4533
+ "step": 644
4534
+ },
4535
+ {
4536
+ "epoch": 0.1264829885282871,
4537
+ "grad_norm": 5.959576606750488,
4538
+ "learning_rate": 0.00010940388611986592,
4539
+ "loss": 0.7057,
4540
+ "step": 645
4541
+ },
4542
+ {
4543
+ "epoch": 0.1266790861849201,
4544
+ "grad_norm": 11.663713455200195,
4545
+ "learning_rate": 0.00010917235307406966,
4546
+ "loss": 1.5916,
4547
+ "step": 646
4548
+ },
4549
+ {
4550
+ "epoch": 0.12687518384155308,
4551
+ "grad_norm": 15.05775260925293,
4552
+ "learning_rate": 0.00010894077042965083,
4553
+ "loss": 2.979,
4554
+ "step": 647
4555
+ },
4556
+ {
4557
+ "epoch": 0.12707128149818608,
4558
+ "grad_norm": 7.2112650871276855,
4559
+ "learning_rate": 0.00010870913943887049,
4560
+ "loss": 1.6293,
4561
+ "step": 648
4562
+ },
4563
+ {
4564
+ "epoch": 0.1272673791548191,
4565
+ "grad_norm": 13.646367073059082,
4566
+ "learning_rate": 0.00010847746135425102,
4567
+ "loss": 2.5277,
4568
+ "step": 649
4569
+ },
4570
+ {
4571
+ "epoch": 0.1274634768114521,
4572
+ "grad_norm": 6.29921293258667,
4573
+ "learning_rate": 0.0001082457374285696,
4574
+ "loss": 2.4015,
4575
+ "step": 650
4576
+ },
4577
+ {
4578
+ "epoch": 0.1276595744680851,
4579
+ "grad_norm": 6.337920188903809,
4580
+ "learning_rate": 0.00010801396891485114,
4581
+ "loss": 0.9928,
4582
+ "step": 651
4583
+ },
4584
+ {
4585
+ "epoch": 0.1278556721247181,
4586
+ "grad_norm": 7.32103157043457,
4587
+ "learning_rate": 0.00010778215706636177,
4588
+ "loss": 2.4466,
4589
+ "step": 652
4590
+ },
4591
+ {
4592
+ "epoch": 0.1280517697813511,
4593
+ "grad_norm": 10.154195785522461,
4594
+ "learning_rate": 0.00010755030313660188,
4595
+ "loss": 2.4858,
4596
+ "step": 653
4597
+ },
4598
+ {
4599
+ "epoch": 0.1282478674379841,
4600
+ "grad_norm": 7.129855632781982,
4601
+ "learning_rate": 0.00010731840837929946,
4602
+ "loss": 1.2546,
4603
+ "step": 654
4604
+ },
4605
+ {
4606
+ "epoch": 0.1284439650946171,
4607
+ "grad_norm": 5.403641223907471,
4608
+ "learning_rate": 0.00010708647404840319,
4609
+ "loss": 1.1017,
4610
+ "step": 655
4611
+ },
4612
+ {
4613
+ "epoch": 0.12864006275125012,
4614
+ "grad_norm": 5.554705619812012,
4615
+ "learning_rate": 0.00010685450139807584,
4616
+ "loss": 2.0789,
4617
+ "step": 656
4618
+ },
4619
+ {
4620
+ "epoch": 0.12883616040788312,
4621
+ "grad_norm": 7.935024738311768,
4622
+ "learning_rate": 0.00010662249168268736,
4623
+ "loss": 1.9944,
4624
+ "step": 657
4625
+ },
4626
+ {
4627
+ "epoch": 0.12903225806451613,
4628
+ "grad_norm": 4.453607559204102,
4629
+ "learning_rate": 0.00010639044615680809,
4630
+ "loss": 0.8442,
4631
+ "step": 658
4632
+ },
4633
+ {
4634
+ "epoch": 0.12922835572114913,
4635
+ "grad_norm": 13.252726554870605,
4636
+ "learning_rate": 0.00010615836607520202,
4637
+ "loss": 1.1374,
4638
+ "step": 659
4639
+ },
4640
+ {
4641
+ "epoch": 0.12942445337778213,
4642
+ "grad_norm": 4.426390171051025,
4643
+ "learning_rate": 0.00010592625269282,
4644
+ "loss": 1.0554,
4645
+ "step": 660
4646
+ },
4647
+ {
4648
+ "epoch": 0.12962055103441514,
4649
+ "grad_norm": 6.692317008972168,
4650
+ "learning_rate": 0.000105694107264793,
4651
+ "loss": 0.6669,
4652
+ "step": 661
4653
+ },
4654
+ {
4655
+ "epoch": 0.12981664869104814,
4656
+ "grad_norm": 6.067706108093262,
4657
+ "learning_rate": 0.00010546193104642519,
4658
+ "loss": 1.488,
4659
+ "step": 662
4660
+ },
4661
+ {
4662
+ "epoch": 0.13001274634768115,
4663
+ "grad_norm": 7.749240875244141,
4664
+ "learning_rate": 0.00010522972529318733,
4665
+ "loss": 1.8632,
4666
+ "step": 663
4667
+ },
4668
+ {
4669
+ "epoch": 0.13020884400431415,
4670
+ "grad_norm": 4.964468955993652,
4671
+ "learning_rate": 0.00010499749126070979,
4672
+ "loss": 0.5845,
4673
+ "step": 664
4674
+ },
4675
+ {
4676
+ "epoch": 0.13040494166094715,
4677
+ "grad_norm": 6.432995319366455,
4678
+ "learning_rate": 0.00010476523020477593,
4679
+ "loss": 1.1617,
4680
+ "step": 665
4681
+ },
4682
+ {
4683
+ "epoch": 0.13060103931758016,
4684
+ "grad_norm": 6.4099249839782715,
4685
+ "learning_rate": 0.00010453294338131519,
4686
+ "loss": 1.2821,
4687
+ "step": 666
4688
+ },
4689
+ {
4690
+ "epoch": 0.13079713697421316,
4691
+ "grad_norm": 5.935438632965088,
4692
+ "learning_rate": 0.0001043006320463964,
4693
+ "loss": 1.4453,
4694
+ "step": 667
4695
+ },
4696
+ {
4697
+ "epoch": 0.13099323463084617,
4698
+ "grad_norm": 10.963349342346191,
4699
+ "learning_rate": 0.00010406829745622085,
4700
+ "loss": 1.6318,
4701
+ "step": 668
4702
+ },
4703
+ {
4704
+ "epoch": 0.13118933228747917,
4705
+ "grad_norm": 9.157288551330566,
4706
+ "learning_rate": 0.00010383594086711567,
4707
+ "loss": 1.6981,
4708
+ "step": 669
4709
+ },
4710
+ {
4711
+ "epoch": 0.13138542994411218,
4712
+ "grad_norm": 17.15442657470703,
4713
+ "learning_rate": 0.00010360356353552687,
4714
+ "loss": 1.498,
4715
+ "step": 670
4716
+ },
4717
+ {
4718
+ "epoch": 0.13158152760074518,
4719
+ "grad_norm": 3.763289451599121,
4720
+ "learning_rate": 0.00010337116671801272,
4721
+ "loss": 2.425,
4722
+ "step": 671
4723
+ },
4724
+ {
4725
+ "epoch": 0.13177762525737818,
4726
+ "grad_norm": 8.91812801361084,
4727
+ "learning_rate": 0.00010313875167123672,
4728
+ "loss": 2.3129,
4729
+ "step": 672
4730
+ },
4731
+ {
4732
+ "epoch": 0.1319737229140112,
4733
+ "grad_norm": 23.093202590942383,
4734
+ "learning_rate": 0.00010290631965196109,
4735
+ "loss": 2.3172,
4736
+ "step": 673
4737
+ },
4738
+ {
4739
+ "epoch": 0.1321698205706442,
4740
+ "grad_norm": 6.487079620361328,
4741
+ "learning_rate": 0.00010267387191703972,
4742
+ "loss": 1.6108,
4743
+ "step": 674
4744
+ },
4745
+ {
4746
+ "epoch": 0.1323659182272772,
4747
+ "grad_norm": 3.9093501567840576,
4748
+ "learning_rate": 0.00010244140972341155,
4749
+ "loss": 0.8954,
4750
+ "step": 675
4751
+ },
4752
+ {
4753
+ "epoch": 0.1325620158839102,
4754
+ "grad_norm": 11.078289985656738,
4755
+ "learning_rate": 0.00010220893432809365,
4756
+ "loss": 2.0604,
4757
+ "step": 676
4758
+ },
4759
+ {
4760
+ "epoch": 0.13275811354054318,
4761
+ "grad_norm": 7.805664539337158,
4762
+ "learning_rate": 0.00010197644698817446,
4763
+ "loss": 1.834,
4764
+ "step": 677
4765
+ },
4766
+ {
4767
+ "epoch": 0.13295421119717618,
4768
+ "grad_norm": 6.838125705718994,
4769
+ "learning_rate": 0.00010174394896080713,
4770
+ "loss": 1.4876,
4771
+ "step": 678
4772
+ },
4773
+ {
4774
+ "epoch": 0.13315030885380919,
4775
+ "grad_norm": 3.9814906120300293,
4776
+ "learning_rate": 0.00010151144150320247,
4777
+ "loss": 1.3479,
4778
+ "step": 679
4779
+ },
4780
+ {
4781
+ "epoch": 0.1333464065104422,
4782
+ "grad_norm": 6.396786212921143,
4783
+ "learning_rate": 0.00010127892587262233,
4784
+ "loss": 1.7642,
4785
+ "step": 680
4786
+ },
4787
+ {
4788
+ "epoch": 0.1335425041670752,
4789
+ "grad_norm": 10.133893013000488,
4790
+ "learning_rate": 0.00010104640332637278,
4791
+ "loss": 0.8957,
4792
+ "step": 681
4793
+ },
4794
+ {
4795
+ "epoch": 0.1337386018237082,
4796
+ "grad_norm": 6.3815412521362305,
4797
+ "learning_rate": 0.00010081387512179729,
4798
+ "loss": 1.4104,
4799
+ "step": 682
4800
+ },
4801
+ {
4802
+ "epoch": 0.1337386018237082,
4803
+ "eval_loss": 0.41039586067199707,
4804
+ "eval_runtime": 77.8442,
4805
+ "eval_samples_per_second": 27.594,
4806
+ "eval_steps_per_second": 13.797,
4807
+ "step": 682
4808
  }
4809
  ],
4810
  "logging_steps": 1,
 
4824
  "attributes": {}
4825
  }
4826
  },
4827
+ "total_flos": 1.470491639540613e+17,
4828
  "train_batch_size": 2,
4829
  "trial_name": null,
4830
  "trial_params": null