ErrorAI commited on
Commit
1ed3b0e
·
verified ·
1 Parent(s): 84d0900

Training in progress, step 346, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:724944de7f094b15fc569143ca4a81d654c9b7997910df4bcf6bdf73d2f0add2
3
  size 125248064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7c39b303b3b24c90608dda6b811a1313074653c2b41eefe49d8b132629403952
3
  size 125248064
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7674b18a175bfe375f927b20b24e4c90bf61ae3515ba608d178abbf28e4d0011
3
- size 64219860
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5dfc4521350c95d9abc2abce112bce9288c164b96a81482af74bacb192d8ba2b
3
+ size 64220436
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2cf419bfa6a2420a5571eb38ddd6b8c30257fad8d42dd391fc762aaf3e7ee3db
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d8eb5c3002d7e8ae1e2b9def5fa5c5531d299883fc64b5898be75ce56c2463ee
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6a1b7fb8afbb4805aa4088e62b7ce1004bcb0c85f1755cc1c6ba61487ae7fa2b
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:799bba65fc813f88f98a0005d4dd9bc4b536663da3ba1e7b7fc073c9e9774986
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.251088534107402,
5
  "eval_steps": 173,
6
- "global_step": 173,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -1234,6 +1234,1225 @@
1234
  "eval_samples_per_second": 8.978,
1235
  "eval_steps_per_second": 4.505,
1236
  "step": 173
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1237
  }
1238
  ],
1239
  "logging_steps": 1,
@@ -1253,7 +2472,7 @@
1253
  "attributes": {}
1254
  }
1255
  },
1256
- "total_flos": 1.0947220535771136e+17,
1257
  "train_batch_size": 2,
1258
  "trial_name": null,
1259
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.502177068214804,
5
  "eval_steps": 173,
6
+ "global_step": 346,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
1234
  "eval_samples_per_second": 8.978,
1235
  "eval_steps_per_second": 4.505,
1236
  "step": 173
1237
+ },
1238
+ {
1239
+ "epoch": 0.2525399129172714,
1240
+ "grad_norm": 0.24334195256233215,
1241
+ "learning_rate": 0.00017256662525779983,
1242
+ "loss": 0.5441,
1243
+ "step": 174
1244
+ },
1245
+ {
1246
+ "epoch": 0.2539912917271408,
1247
+ "grad_norm": 0.3937956988811493,
1248
+ "learning_rate": 0.00017224750460699556,
1249
+ "loss": 1.3447,
1250
+ "step": 175
1251
+ },
1252
+ {
1253
+ "epoch": 0.25544267053701014,
1254
+ "grad_norm": 0.32860031723976135,
1255
+ "learning_rate": 0.00017192683734099353,
1256
+ "loss": 1.1908,
1257
+ "step": 176
1258
+ },
1259
+ {
1260
+ "epoch": 0.25689404934687954,
1261
+ "grad_norm": 0.40750887989997864,
1262
+ "learning_rate": 0.000171604630324375,
1263
+ "loss": 0.4587,
1264
+ "step": 177
1265
+ },
1266
+ {
1267
+ "epoch": 0.25834542815674894,
1268
+ "grad_norm": 0.24471426010131836,
1269
+ "learning_rate": 0.00017128089045468294,
1270
+ "loss": 0.4731,
1271
+ "step": 178
1272
+ },
1273
+ {
1274
+ "epoch": 0.2597968069666183,
1275
+ "grad_norm": 0.3871125876903534,
1276
+ "learning_rate": 0.0001709556246622744,
1277
+ "loss": 1.5461,
1278
+ "step": 179
1279
+ },
1280
+ {
1281
+ "epoch": 0.2612481857764877,
1282
+ "grad_norm": 0.32278481125831604,
1283
+ "learning_rate": 0.00017062883991017218,
1284
+ "loss": 1.0052,
1285
+ "step": 180
1286
+ },
1287
+ {
1288
+ "epoch": 0.262699564586357,
1289
+ "grad_norm": 0.2906551957130432,
1290
+ "learning_rate": 0.00017030054319391562,
1291
+ "loss": 1.1581,
1292
+ "step": 181
1293
+ },
1294
+ {
1295
+ "epoch": 0.2641509433962264,
1296
+ "grad_norm": 0.2662639319896698,
1297
+ "learning_rate": 0.00016997074154141096,
1298
+ "loss": 0.4337,
1299
+ "step": 182
1300
+ },
1301
+ {
1302
+ "epoch": 0.2656023222060958,
1303
+ "grad_norm": 0.30343329906463623,
1304
+ "learning_rate": 0.00016963944201278097,
1305
+ "loss": 0.9429,
1306
+ "step": 183
1307
+ },
1308
+ {
1309
+ "epoch": 0.26705370101596515,
1310
+ "grad_norm": 0.48314595222473145,
1311
+ "learning_rate": 0.00016930665170021363,
1312
+ "loss": 1.146,
1313
+ "step": 184
1314
+ },
1315
+ {
1316
+ "epoch": 0.26850507982583455,
1317
+ "grad_norm": 0.22615785896778107,
1318
+ "learning_rate": 0.00016897237772781044,
1319
+ "loss": 0.288,
1320
+ "step": 185
1321
+ },
1322
+ {
1323
+ "epoch": 0.26995645863570394,
1324
+ "grad_norm": 0.3443828225135803,
1325
+ "learning_rate": 0.00016863662725143382,
1326
+ "loss": 1.0044,
1327
+ "step": 186
1328
+ },
1329
+ {
1330
+ "epoch": 0.2714078374455733,
1331
+ "grad_norm": 0.3521503508090973,
1332
+ "learning_rate": 0.00016829940745855408,
1333
+ "loss": 0.917,
1334
+ "step": 187
1335
+ },
1336
+ {
1337
+ "epoch": 0.2728592162554427,
1338
+ "grad_norm": 0.3083937168121338,
1339
+ "learning_rate": 0.00016796072556809534,
1340
+ "loss": 1.1641,
1341
+ "step": 188
1342
+ },
1343
+ {
1344
+ "epoch": 0.274310595065312,
1345
+ "grad_norm": 0.1671004444360733,
1346
+ "learning_rate": 0.0001676205888302812,
1347
+ "loss": 0.2087,
1348
+ "step": 189
1349
+ },
1350
+ {
1351
+ "epoch": 0.2757619738751814,
1352
+ "grad_norm": 0.3343052268028259,
1353
+ "learning_rate": 0.00016727900452647926,
1354
+ "loss": 0.8929,
1355
+ "step": 190
1356
+ },
1357
+ {
1358
+ "epoch": 0.2772133526850508,
1359
+ "grad_norm": 0.2790353000164032,
1360
+ "learning_rate": 0.00016693597996904564,
1361
+ "loss": 0.8818,
1362
+ "step": 191
1363
+ },
1364
+ {
1365
+ "epoch": 0.27866473149492016,
1366
+ "grad_norm": 0.3753064274787903,
1367
+ "learning_rate": 0.00016659152250116812,
1368
+ "loss": 0.7531,
1369
+ "step": 192
1370
+ },
1371
+ {
1372
+ "epoch": 0.28011611030478956,
1373
+ "grad_norm": 0.3089276850223541,
1374
+ "learning_rate": 0.00016624563949670904,
1375
+ "loss": 1.2895,
1376
+ "step": 193
1377
+ },
1378
+ {
1379
+ "epoch": 0.28156748911465895,
1380
+ "grad_norm": 0.24410511553287506,
1381
+ "learning_rate": 0.00016589833836004752,
1382
+ "loss": 0.444,
1383
+ "step": 194
1384
+ },
1385
+ {
1386
+ "epoch": 0.2830188679245283,
1387
+ "grad_norm": 0.4272465705871582,
1388
+ "learning_rate": 0.00016554962652592077,
1389
+ "loss": 0.9711,
1390
+ "step": 195
1391
+ },
1392
+ {
1393
+ "epoch": 0.2844702467343977,
1394
+ "grad_norm": 0.29573267698287964,
1395
+ "learning_rate": 0.00016519951145926515,
1396
+ "loss": 0.3583,
1397
+ "step": 196
1398
+ },
1399
+ {
1400
+ "epoch": 0.28592162554426703,
1401
+ "grad_norm": 0.42986953258514404,
1402
+ "learning_rate": 0.00016484800065505627,
1403
+ "loss": 1.6862,
1404
+ "step": 197
1405
+ },
1406
+ {
1407
+ "epoch": 0.28737300435413643,
1408
+ "grad_norm": 0.31086039543151855,
1409
+ "learning_rate": 0.00016449510163814854,
1410
+ "loss": 0.5808,
1411
+ "step": 198
1412
+ },
1413
+ {
1414
+ "epoch": 0.2888243831640058,
1415
+ "grad_norm": 0.4590548574924469,
1416
+ "learning_rate": 0.000164140821963114,
1417
+ "loss": 1.837,
1418
+ "step": 199
1419
+ },
1420
+ {
1421
+ "epoch": 0.29027576197387517,
1422
+ "grad_norm": 0.4661678969860077,
1423
+ "learning_rate": 0.00016378516921408077,
1424
+ "loss": 0.8179,
1425
+ "step": 200
1426
+ },
1427
+ {
1428
+ "epoch": 0.29172714078374457,
1429
+ "grad_norm": 0.5419331192970276,
1430
+ "learning_rate": 0.00016342815100457063,
1431
+ "loss": 0.8166,
1432
+ "step": 201
1433
+ },
1434
+ {
1435
+ "epoch": 0.2931785195936139,
1436
+ "grad_norm": 0.34207096695899963,
1437
+ "learning_rate": 0.00016306977497733592,
1438
+ "loss": 0.8683,
1439
+ "step": 202
1440
+ },
1441
+ {
1442
+ "epoch": 0.2946298984034833,
1443
+ "grad_norm": 0.4035762548446655,
1444
+ "learning_rate": 0.00016271004880419608,
1445
+ "loss": 0.7494,
1446
+ "step": 203
1447
+ },
1448
+ {
1449
+ "epoch": 0.2960812772133527,
1450
+ "grad_norm": 0.40903428196907043,
1451
+ "learning_rate": 0.00016234898018587337,
1452
+ "loss": 0.3219,
1453
+ "step": 204
1454
+ },
1455
+ {
1456
+ "epoch": 0.29753265602322204,
1457
+ "grad_norm": 0.3800163269042969,
1458
+ "learning_rate": 0.000161986576851828,
1459
+ "loss": 1.0624,
1460
+ "step": 205
1461
+ },
1462
+ {
1463
+ "epoch": 0.29898403483309144,
1464
+ "grad_norm": 0.20540378987789154,
1465
+ "learning_rate": 0.00016162284656009274,
1466
+ "loss": 0.2874,
1467
+ "step": 206
1468
+ },
1469
+ {
1470
+ "epoch": 0.30043541364296084,
1471
+ "grad_norm": 0.3501240313053131,
1472
+ "learning_rate": 0.00016125779709710665,
1473
+ "loss": 0.9726,
1474
+ "step": 207
1475
+ },
1476
+ {
1477
+ "epoch": 0.3018867924528302,
1478
+ "grad_norm": 0.46438068151474,
1479
+ "learning_rate": 0.00016089143627754862,
1480
+ "loss": 0.9383,
1481
+ "step": 208
1482
+ },
1483
+ {
1484
+ "epoch": 0.3033381712626996,
1485
+ "grad_norm": 0.37778106331825256,
1486
+ "learning_rate": 0.00016052377194417,
1487
+ "loss": 1.9048,
1488
+ "step": 209
1489
+ },
1490
+ {
1491
+ "epoch": 0.3047895500725689,
1492
+ "grad_norm": 0.4382157325744629,
1493
+ "learning_rate": 0.0001601548119676266,
1494
+ "loss": 1.2582,
1495
+ "step": 210
1496
+ },
1497
+ {
1498
+ "epoch": 0.3062409288824383,
1499
+ "grad_norm": 0.442871630191803,
1500
+ "learning_rate": 0.00015978456424631032,
1501
+ "loss": 1.086,
1502
+ "step": 211
1503
+ },
1504
+ {
1505
+ "epoch": 0.3076923076923077,
1506
+ "grad_norm": 0.5801809430122375,
1507
+ "learning_rate": 0.00015941303670618018,
1508
+ "loss": 1.234,
1509
+ "step": 212
1510
+ },
1511
+ {
1512
+ "epoch": 0.30914368650217705,
1513
+ "grad_norm": 0.2682696282863617,
1514
+ "learning_rate": 0.00015904023730059228,
1515
+ "loss": 0.6148,
1516
+ "step": 213
1517
+ },
1518
+ {
1519
+ "epoch": 0.31059506531204645,
1520
+ "grad_norm": 0.25142902135849,
1521
+ "learning_rate": 0.00015866617401012994,
1522
+ "loss": 0.6304,
1523
+ "step": 214
1524
+ },
1525
+ {
1526
+ "epoch": 0.31204644412191584,
1527
+ "grad_norm": 0.36662545800209045,
1528
+ "learning_rate": 0.00015829085484243266,
1529
+ "loss": 0.8005,
1530
+ "step": 215
1531
+ },
1532
+ {
1533
+ "epoch": 0.3134978229317852,
1534
+ "grad_norm": 0.2825576961040497,
1535
+ "learning_rate": 0.00015791428783202465,
1536
+ "loss": 0.7511,
1537
+ "step": 216
1538
+ },
1539
+ {
1540
+ "epoch": 0.3149492017416546,
1541
+ "grad_norm": 0.33648526668548584,
1542
+ "learning_rate": 0.00015753648104014297,
1543
+ "loss": 0.9242,
1544
+ "step": 217
1545
+ },
1546
+ {
1547
+ "epoch": 0.3164005805515239,
1548
+ "grad_norm": 0.5301381945610046,
1549
+ "learning_rate": 0.00015715744255456496,
1550
+ "loss": 0.9624,
1551
+ "step": 218
1552
+ },
1553
+ {
1554
+ "epoch": 0.3178519593613933,
1555
+ "grad_norm": 0.3330354690551758,
1556
+ "learning_rate": 0.00015677718048943496,
1557
+ "loss": 1.6149,
1558
+ "step": 219
1559
+ },
1560
+ {
1561
+ "epoch": 0.3193033381712627,
1562
+ "grad_norm": 0.2863297164440155,
1563
+ "learning_rate": 0.00015639570298509064,
1564
+ "loss": 0.5041,
1565
+ "step": 220
1566
+ },
1567
+ {
1568
+ "epoch": 0.32075471698113206,
1569
+ "grad_norm": 0.30266642570495605,
1570
+ "learning_rate": 0.00015601301820788898,
1571
+ "loss": 0.5615,
1572
+ "step": 221
1573
+ },
1574
+ {
1575
+ "epoch": 0.32220609579100146,
1576
+ "grad_norm": 0.3737308084964752,
1577
+ "learning_rate": 0.00015562913435003114,
1578
+ "loss": 0.5868,
1579
+ "step": 222
1580
+ },
1581
+ {
1582
+ "epoch": 0.32365747460087085,
1583
+ "grad_norm": 0.41030675172805786,
1584
+ "learning_rate": 0.00015524405962938714,
1585
+ "loss": 0.933,
1586
+ "step": 223
1587
+ },
1588
+ {
1589
+ "epoch": 0.3251088534107402,
1590
+ "grad_norm": 0.22345803678035736,
1591
+ "learning_rate": 0.0001548578022893202,
1592
+ "loss": 0.4072,
1593
+ "step": 224
1594
+ },
1595
+ {
1596
+ "epoch": 0.3265602322206096,
1597
+ "grad_norm": 0.4588911235332489,
1598
+ "learning_rate": 0.00015447037059851,
1599
+ "loss": 1.3702,
1600
+ "step": 225
1601
+ },
1602
+ {
1603
+ "epoch": 0.32801161103047893,
1604
+ "grad_norm": 0.40378692746162415,
1605
+ "learning_rate": 0.00015408177285077565,
1606
+ "loss": 0.7234,
1607
+ "step": 226
1608
+ },
1609
+ {
1610
+ "epoch": 0.32946298984034833,
1611
+ "grad_norm": 0.36572182178497314,
1612
+ "learning_rate": 0.0001536920173648984,
1613
+ "loss": 0.6561,
1614
+ "step": 227
1615
+ },
1616
+ {
1617
+ "epoch": 0.3309143686502177,
1618
+ "grad_norm": 0.24225015938282013,
1619
+ "learning_rate": 0.0001533011124844433,
1620
+ "loss": 0.5723,
1621
+ "step": 228
1622
+ },
1623
+ {
1624
+ "epoch": 0.33236574746008707,
1625
+ "grad_norm": 0.4880613386631012,
1626
+ "learning_rate": 0.00015290906657758083,
1627
+ "loss": 0.8659,
1628
+ "step": 229
1629
+ },
1630
+ {
1631
+ "epoch": 0.33381712626995647,
1632
+ "grad_norm": 0.4412708878517151,
1633
+ "learning_rate": 0.00015251588803690753,
1634
+ "loss": 0.8392,
1635
+ "step": 230
1636
+ },
1637
+ {
1638
+ "epoch": 0.3352685050798258,
1639
+ "grad_norm": 0.2982364594936371,
1640
+ "learning_rate": 0.00015212158527926634,
1641
+ "loss": 0.8567,
1642
+ "step": 231
1643
+ },
1644
+ {
1645
+ "epoch": 0.3367198838896952,
1646
+ "grad_norm": 0.3174440860748291,
1647
+ "learning_rate": 0.0001517261667455667,
1648
+ "loss": 0.6775,
1649
+ "step": 232
1650
+ },
1651
+ {
1652
+ "epoch": 0.3381712626995646,
1653
+ "grad_norm": 0.23971304297447205,
1654
+ "learning_rate": 0.00015132964090060357,
1655
+ "loss": 0.2637,
1656
+ "step": 233
1657
+ },
1658
+ {
1659
+ "epoch": 0.33962264150943394,
1660
+ "grad_norm": 0.3869999647140503,
1661
+ "learning_rate": 0.00015093201623287631,
1662
+ "loss": 0.7993,
1663
+ "step": 234
1664
+ },
1665
+ {
1666
+ "epoch": 0.34107402031930334,
1667
+ "grad_norm": 0.4646807014942169,
1668
+ "learning_rate": 0.000150533301254407,
1669
+ "loss": 1.0936,
1670
+ "step": 235
1671
+ },
1672
+ {
1673
+ "epoch": 0.34252539912917274,
1674
+ "grad_norm": 0.39114901423454285,
1675
+ "learning_rate": 0.0001501335045005582,
1676
+ "loss": 1.0431,
1677
+ "step": 236
1678
+ },
1679
+ {
1680
+ "epoch": 0.3439767779390421,
1681
+ "grad_norm": 0.32341787219047546,
1682
+ "learning_rate": 0.00014973263452985024,
1683
+ "loss": 0.5171,
1684
+ "step": 237
1685
+ },
1686
+ {
1687
+ "epoch": 0.3454281567489115,
1688
+ "grad_norm": 0.3025743365287781,
1689
+ "learning_rate": 0.00014933069992377793,
1690
+ "loss": 0.59,
1691
+ "step": 238
1692
+ },
1693
+ {
1694
+ "epoch": 0.3468795355587808,
1695
+ "grad_norm": 0.49004557728767395,
1696
+ "learning_rate": 0.00014892770928662697,
1697
+ "loss": 1.6646,
1698
+ "step": 239
1699
+ },
1700
+ {
1701
+ "epoch": 0.3483309143686502,
1702
+ "grad_norm": 0.5597532391548157,
1703
+ "learning_rate": 0.00014852367124528975,
1704
+ "loss": 1.3429,
1705
+ "step": 240
1706
+ },
1707
+ {
1708
+ "epoch": 0.3497822931785196,
1709
+ "grad_norm": 0.4048459827899933,
1710
+ "learning_rate": 0.00014811859444908052,
1711
+ "loss": 1.4101,
1712
+ "step": 241
1713
+ },
1714
+ {
1715
+ "epoch": 0.35123367198838895,
1716
+ "grad_norm": 0.5641282796859741,
1717
+ "learning_rate": 0.00014771248756955042,
1718
+ "loss": 1.6691,
1719
+ "step": 242
1720
+ },
1721
+ {
1722
+ "epoch": 0.35268505079825835,
1723
+ "grad_norm": 0.4494577646255493,
1724
+ "learning_rate": 0.00014730535930030172,
1725
+ "loss": 1.211,
1726
+ "step": 243
1727
+ },
1728
+ {
1729
+ "epoch": 0.35413642960812775,
1730
+ "grad_norm": 0.3181702792644501,
1731
+ "learning_rate": 0.00014689721835680182,
1732
+ "loss": 0.4831,
1733
+ "step": 244
1734
+ },
1735
+ {
1736
+ "epoch": 0.3555878084179971,
1737
+ "grad_norm": 0.3166160583496094,
1738
+ "learning_rate": 0.00014648807347619663,
1739
+ "loss": 1.59,
1740
+ "step": 245
1741
+ },
1742
+ {
1743
+ "epoch": 0.3570391872278665,
1744
+ "grad_norm": 0.3532291054725647,
1745
+ "learning_rate": 0.00014607793341712334,
1746
+ "loss": 0.3531,
1747
+ "step": 246
1748
+ },
1749
+ {
1750
+ "epoch": 0.3584905660377358,
1751
+ "grad_norm": 0.3703453540802002,
1752
+ "learning_rate": 0.00014566680695952332,
1753
+ "loss": 0.7499,
1754
+ "step": 247
1755
+ },
1756
+ {
1757
+ "epoch": 0.3599419448476052,
1758
+ "grad_norm": 0.29574841260910034,
1759
+ "learning_rate": 0.00014525470290445392,
1760
+ "loss": 0.7956,
1761
+ "step": 248
1762
+ },
1763
+ {
1764
+ "epoch": 0.3613933236574746,
1765
+ "grad_norm": 0.41456523537635803,
1766
+ "learning_rate": 0.0001448416300738999,
1767
+ "loss": 1.2597,
1768
+ "step": 249
1769
+ },
1770
+ {
1771
+ "epoch": 0.36284470246734396,
1772
+ "grad_norm": 0.3268081545829773,
1773
+ "learning_rate": 0.000144427597310585,
1774
+ "loss": 0.7744,
1775
+ "step": 250
1776
+ },
1777
+ {
1778
+ "epoch": 0.36429608127721336,
1779
+ "grad_norm": 0.4419240951538086,
1780
+ "learning_rate": 0.00014401261347778233,
1781
+ "loss": 1.2126,
1782
+ "step": 251
1783
+ },
1784
+ {
1785
+ "epoch": 0.36574746008708275,
1786
+ "grad_norm": 0.4968956410884857,
1787
+ "learning_rate": 0.0001435966874591247,
1788
+ "loss": 0.8786,
1789
+ "step": 252
1790
+ },
1791
+ {
1792
+ "epoch": 0.3671988388969521,
1793
+ "grad_norm": 0.4824519455432892,
1794
+ "learning_rate": 0.0001431798281584144,
1795
+ "loss": 3.0825,
1796
+ "step": 253
1797
+ },
1798
+ {
1799
+ "epoch": 0.3686502177068215,
1800
+ "grad_norm": 0.30820131301879883,
1801
+ "learning_rate": 0.0001427620444994328,
1802
+ "loss": 0.6051,
1803
+ "step": 254
1804
+ },
1805
+ {
1806
+ "epoch": 0.37010159651669083,
1807
+ "grad_norm": 0.42164450883865356,
1808
+ "learning_rate": 0.00014234334542574906,
1809
+ "loss": 0.5161,
1810
+ "step": 255
1811
+ },
1812
+ {
1813
+ "epoch": 0.37155297532656023,
1814
+ "grad_norm": 0.32636889815330505,
1815
+ "learning_rate": 0.00014192373990052877,
1816
+ "loss": 0.855,
1817
+ "step": 256
1818
+ },
1819
+ {
1820
+ "epoch": 0.37300435413642963,
1821
+ "grad_norm": 0.332589715719223,
1822
+ "learning_rate": 0.0001415032369063422,
1823
+ "loss": 0.402,
1824
+ "step": 257
1825
+ },
1826
+ {
1827
+ "epoch": 0.37445573294629897,
1828
+ "grad_norm": 0.37509143352508545,
1829
+ "learning_rate": 0.00014108184544497178,
1830
+ "loss": 1.1532,
1831
+ "step": 258
1832
+ },
1833
+ {
1834
+ "epoch": 0.37590711175616837,
1835
+ "grad_norm": 0.2669030725955963,
1836
+ "learning_rate": 0.00014065957453721962,
1837
+ "loss": 0.5493,
1838
+ "step": 259
1839
+ },
1840
+ {
1841
+ "epoch": 0.37735849056603776,
1842
+ "grad_norm": 0.387205570936203,
1843
+ "learning_rate": 0.00014023643322271426,
1844
+ "loss": 1.3697,
1845
+ "step": 260
1846
+ },
1847
+ {
1848
+ "epoch": 0.3788098693759071,
1849
+ "grad_norm": 0.3195268213748932,
1850
+ "learning_rate": 0.00013981243055971712,
1851
+ "loss": 0.731,
1852
+ "step": 261
1853
+ },
1854
+ {
1855
+ "epoch": 0.3802612481857765,
1856
+ "grad_norm": 0.3117748498916626,
1857
+ "learning_rate": 0.00013938757562492873,
1858
+ "loss": 0.4412,
1859
+ "step": 262
1860
+ },
1861
+ {
1862
+ "epoch": 0.38171262699564584,
1863
+ "grad_norm": 0.43555042147636414,
1864
+ "learning_rate": 0.00013896187751329437,
1865
+ "loss": 0.9857,
1866
+ "step": 263
1867
+ },
1868
+ {
1869
+ "epoch": 0.38316400580551524,
1870
+ "grad_norm": 0.3363146483898163,
1871
+ "learning_rate": 0.0001385353453378093,
1872
+ "loss": 0.8749,
1873
+ "step": 264
1874
+ },
1875
+ {
1876
+ "epoch": 0.38461538461538464,
1877
+ "grad_norm": 0.3038422465324402,
1878
+ "learning_rate": 0.00013810798822932378,
1879
+ "loss": 0.5955,
1880
+ "step": 265
1881
+ },
1882
+ {
1883
+ "epoch": 0.386066763425254,
1884
+ "grad_norm": 0.47416090965270996,
1885
+ "learning_rate": 0.00013767981533634754,
1886
+ "loss": 3.7495,
1887
+ "step": 266
1888
+ },
1889
+ {
1890
+ "epoch": 0.3875181422351234,
1891
+ "grad_norm": 0.237370103597641,
1892
+ "learning_rate": 0.00013725083582485397,
1893
+ "loss": 0.3979,
1894
+ "step": 267
1895
+ },
1896
+ {
1897
+ "epoch": 0.3889695210449927,
1898
+ "grad_norm": 0.1970636397600174,
1899
+ "learning_rate": 0.0001368210588780838,
1900
+ "loss": 0.297,
1901
+ "step": 268
1902
+ },
1903
+ {
1904
+ "epoch": 0.3904208998548621,
1905
+ "grad_norm": 0.5174916982650757,
1906
+ "learning_rate": 0.00013639049369634876,
1907
+ "loss": 1.4907,
1908
+ "step": 269
1909
+ },
1910
+ {
1911
+ "epoch": 0.3918722786647315,
1912
+ "grad_norm": 0.2811208665370941,
1913
+ "learning_rate": 0.00013595914949683432,
1914
+ "loss": 0.5772,
1915
+ "step": 270
1916
+ },
1917
+ {
1918
+ "epoch": 0.39332365747460085,
1919
+ "grad_norm": 0.30495163798332214,
1920
+ "learning_rate": 0.00013552703551340258,
1921
+ "loss": 0.3624,
1922
+ "step": 271
1923
+ },
1924
+ {
1925
+ "epoch": 0.39477503628447025,
1926
+ "grad_norm": 0.4540651738643646,
1927
+ "learning_rate": 0.00013509416099639457,
1928
+ "loss": 1.6049,
1929
+ "step": 272
1930
+ },
1931
+ {
1932
+ "epoch": 0.39622641509433965,
1933
+ "grad_norm": 0.4534936547279358,
1934
+ "learning_rate": 0.00013466053521243214,
1935
+ "loss": 1.3386,
1936
+ "step": 273
1937
+ },
1938
+ {
1939
+ "epoch": 0.397677793904209,
1940
+ "grad_norm": 0.23787882924079895,
1941
+ "learning_rate": 0.00013422616744421966,
1942
+ "loss": 0.5185,
1943
+ "step": 274
1944
+ },
1945
+ {
1946
+ "epoch": 0.3991291727140784,
1947
+ "grad_norm": 0.35515129566192627,
1948
+ "learning_rate": 0.00013379106699034537,
1949
+ "loss": 1.4753,
1950
+ "step": 275
1951
+ },
1952
+ {
1953
+ "epoch": 0.4005805515239477,
1954
+ "grad_norm": 0.38288307189941406,
1955
+ "learning_rate": 0.00013335524316508208,
1956
+ "loss": 1.4326,
1957
+ "step": 276
1958
+ },
1959
+ {
1960
+ "epoch": 0.4020319303338171,
1961
+ "grad_norm": 0.27358075976371765,
1962
+ "learning_rate": 0.0001329187052981881,
1963
+ "loss": 0.683,
1964
+ "step": 277
1965
+ },
1966
+ {
1967
+ "epoch": 0.4034833091436865,
1968
+ "grad_norm": 0.5965114831924438,
1969
+ "learning_rate": 0.00013248146273470726,
1970
+ "loss": 2.2199,
1971
+ "step": 278
1972
+ },
1973
+ {
1974
+ "epoch": 0.40493468795355586,
1975
+ "grad_norm": 0.27985599637031555,
1976
+ "learning_rate": 0.00013204352483476897,
1977
+ "loss": 0.6224,
1978
+ "step": 279
1979
+ },
1980
+ {
1981
+ "epoch": 0.40638606676342526,
1982
+ "grad_norm": 0.31146517395973206,
1983
+ "learning_rate": 0.0001316049009733879,
1984
+ "loss": 0.9722,
1985
+ "step": 280
1986
+ },
1987
+ {
1988
+ "epoch": 0.40783744557329465,
1989
+ "grad_norm": 0.2670224905014038,
1990
+ "learning_rate": 0.0001311656005402631,
1991
+ "loss": 0.4706,
1992
+ "step": 281
1993
+ },
1994
+ {
1995
+ "epoch": 0.409288824383164,
1996
+ "grad_norm": 0.30668875575065613,
1997
+ "learning_rate": 0.00013072563293957723,
1998
+ "loss": 0.8013,
1999
+ "step": 282
2000
+ },
2001
+ {
2002
+ "epoch": 0.4107402031930334,
2003
+ "grad_norm": 1.6362825632095337,
2004
+ "learning_rate": 0.00013028500758979506,
2005
+ "loss": 1.7021,
2006
+ "step": 283
2007
+ },
2008
+ {
2009
+ "epoch": 0.41219158200290273,
2010
+ "grad_norm": 0.3747856914997101,
2011
+ "learning_rate": 0.00012984373392346194,
2012
+ "loss": 0.7395,
2013
+ "step": 284
2014
+ },
2015
+ {
2016
+ "epoch": 0.41364296081277213,
2017
+ "grad_norm": 0.29460155963897705,
2018
+ "learning_rate": 0.0001294018213870018,
2019
+ "loss": 0.4852,
2020
+ "step": 285
2021
+ },
2022
+ {
2023
+ "epoch": 0.41509433962264153,
2024
+ "grad_norm": 0.3442453444004059,
2025
+ "learning_rate": 0.00012895927944051502,
2026
+ "loss": 1.0444,
2027
+ "step": 286
2028
+ },
2029
+ {
2030
+ "epoch": 0.41654571843251087,
2031
+ "grad_norm": 0.4372914731502533,
2032
+ "learning_rate": 0.00012851611755757586,
2033
+ "loss": 0.9556,
2034
+ "step": 287
2035
+ },
2036
+ {
2037
+ "epoch": 0.41799709724238027,
2038
+ "grad_norm": 0.36953088641166687,
2039
+ "learning_rate": 0.00012807234522502968,
2040
+ "loss": 0.6292,
2041
+ "step": 288
2042
+ },
2043
+ {
2044
+ "epoch": 0.41944847605224966,
2045
+ "grad_norm": 0.2996106445789337,
2046
+ "learning_rate": 0.00012762797194278984,
2047
+ "loss": 0.4637,
2048
+ "step": 289
2049
+ },
2050
+ {
2051
+ "epoch": 0.420899854862119,
2052
+ "grad_norm": 0.46969079971313477,
2053
+ "learning_rate": 0.0001271830072236343,
2054
+ "loss": 2.3145,
2055
+ "step": 290
2056
+ },
2057
+ {
2058
+ "epoch": 0.4223512336719884,
2059
+ "grad_norm": 0.377268522977829,
2060
+ "learning_rate": 0.00012673746059300208,
2061
+ "loss": 1.1514,
2062
+ "step": 291
2063
+ },
2064
+ {
2065
+ "epoch": 0.42380261248185774,
2066
+ "grad_norm": 0.37440070509910583,
2067
+ "learning_rate": 0.00012629134158878918,
2068
+ "loss": 1.2862,
2069
+ "step": 292
2070
+ },
2071
+ {
2072
+ "epoch": 0.42525399129172714,
2073
+ "grad_norm": 0.47031837701797485,
2074
+ "learning_rate": 0.0001258446597611447,
2075
+ "loss": 1.3154,
2076
+ "step": 293
2077
+ },
2078
+ {
2079
+ "epoch": 0.42670537010159654,
2080
+ "grad_norm": 0.28943926095962524,
2081
+ "learning_rate": 0.00012539742467226601,
2082
+ "loss": 0.7372,
2083
+ "step": 294
2084
+ },
2085
+ {
2086
+ "epoch": 0.4281567489114659,
2087
+ "grad_norm": 0.3967966139316559,
2088
+ "learning_rate": 0.00012494964589619423,
2089
+ "loss": 1.7696,
2090
+ "step": 295
2091
+ },
2092
+ {
2093
+ "epoch": 0.4296081277213353,
2094
+ "grad_norm": 0.3762686252593994,
2095
+ "learning_rate": 0.00012450133301860952,
2096
+ "loss": 1.2166,
2097
+ "step": 296
2098
+ },
2099
+ {
2100
+ "epoch": 0.4310595065312046,
2101
+ "grad_norm": 0.3782839775085449,
2102
+ "learning_rate": 0.00012405249563662537,
2103
+ "loss": 0.9249,
2104
+ "step": 297
2105
+ },
2106
+ {
2107
+ "epoch": 0.432510885341074,
2108
+ "grad_norm": 0.551977276802063,
2109
+ "learning_rate": 0.0001236031433585836,
2110
+ "loss": 0.7932,
2111
+ "step": 298
2112
+ },
2113
+ {
2114
+ "epoch": 0.4339622641509434,
2115
+ "grad_norm": 0.4811376631259918,
2116
+ "learning_rate": 0.00012315328580384842,
2117
+ "loss": 1.4454,
2118
+ "step": 299
2119
+ },
2120
+ {
2121
+ "epoch": 0.43541364296081275,
2122
+ "grad_norm": 0.6780052185058594,
2123
+ "learning_rate": 0.00012270293260260067,
2124
+ "loss": 1.8719,
2125
+ "step": 300
2126
+ },
2127
+ {
2128
+ "epoch": 0.43686502177068215,
2129
+ "grad_norm": 0.5372028350830078,
2130
+ "learning_rate": 0.00012225209339563145,
2131
+ "loss": 1.13,
2132
+ "step": 301
2133
+ },
2134
+ {
2135
+ "epoch": 0.43831640058055155,
2136
+ "grad_norm": 0.6659995317459106,
2137
+ "learning_rate": 0.00012180077783413601,
2138
+ "loss": 1.2524,
2139
+ "step": 302
2140
+ },
2141
+ {
2142
+ "epoch": 0.4397677793904209,
2143
+ "grad_norm": 0.30327922105789185,
2144
+ "learning_rate": 0.00012134899557950698,
2145
+ "loss": 0.4541,
2146
+ "step": 303
2147
+ },
2148
+ {
2149
+ "epoch": 0.4412191582002903,
2150
+ "grad_norm": 0.28171366453170776,
2151
+ "learning_rate": 0.00012089675630312754,
2152
+ "loss": 0.5961,
2153
+ "step": 304
2154
+ },
2155
+ {
2156
+ "epoch": 0.4426705370101596,
2157
+ "grad_norm": 0.49443453550338745,
2158
+ "learning_rate": 0.00012044406968616432,
2159
+ "loss": 1.3738,
2160
+ "step": 305
2161
+ },
2162
+ {
2163
+ "epoch": 0.444121915820029,
2164
+ "grad_norm": 0.27701106667518616,
2165
+ "learning_rate": 0.00011999094541936047,
2166
+ "loss": 0.8035,
2167
+ "step": 306
2168
+ },
2169
+ {
2170
+ "epoch": 0.4455732946298984,
2171
+ "grad_norm": 0.44474315643310547,
2172
+ "learning_rate": 0.00011953739320282778,
2173
+ "loss": 1.9202,
2174
+ "step": 307
2175
+ },
2176
+ {
2177
+ "epoch": 0.44702467343976776,
2178
+ "grad_norm": 0.36672115325927734,
2179
+ "learning_rate": 0.00011908342274583936,
2180
+ "loss": 1.3322,
2181
+ "step": 308
2182
+ },
2183
+ {
2184
+ "epoch": 0.44847605224963716,
2185
+ "grad_norm": 0.47056931257247925,
2186
+ "learning_rate": 0.00011862904376662167,
2187
+ "loss": 0.6009,
2188
+ "step": 309
2189
+ },
2190
+ {
2191
+ "epoch": 0.44992743105950656,
2192
+ "grad_norm": 0.33981776237487793,
2193
+ "learning_rate": 0.00011817426599214636,
2194
+ "loss": 0.8832,
2195
+ "step": 310
2196
+ },
2197
+ {
2198
+ "epoch": 0.4513788098693759,
2199
+ "grad_norm": 0.5165224075317383,
2200
+ "learning_rate": 0.0001177190991579223,
2201
+ "loss": 1.2614,
2202
+ "step": 311
2203
+ },
2204
+ {
2205
+ "epoch": 0.4528301886792453,
2206
+ "grad_norm": 0.36011219024658203,
2207
+ "learning_rate": 0.00011726355300778693,
2208
+ "loss": 0.5128,
2209
+ "step": 312
2210
+ },
2211
+ {
2212
+ "epoch": 0.45428156748911463,
2213
+ "grad_norm": 0.4018263518810272,
2214
+ "learning_rate": 0.00011680763729369783,
2215
+ "loss": 0.876,
2216
+ "step": 313
2217
+ },
2218
+ {
2219
+ "epoch": 0.45573294629898403,
2220
+ "grad_norm": 0.36778366565704346,
2221
+ "learning_rate": 0.00011635136177552391,
2222
+ "loss": 0.6217,
2223
+ "step": 314
2224
+ },
2225
+ {
2226
+ "epoch": 0.45718432510885343,
2227
+ "grad_norm": 0.3395918905735016,
2228
+ "learning_rate": 0.00011589473622083642,
2229
+ "loss": 0.7758,
2230
+ "step": 315
2231
+ },
2232
+ {
2233
+ "epoch": 0.45863570391872277,
2234
+ "grad_norm": 0.30903902649879456,
2235
+ "learning_rate": 0.00011543777040469994,
2236
+ "loss": 1.1969,
2237
+ "step": 316
2238
+ },
2239
+ {
2240
+ "epoch": 0.46008708272859217,
2241
+ "grad_norm": 0.36154720187187195,
2242
+ "learning_rate": 0.00011498047410946306,
2243
+ "loss": 0.7883,
2244
+ "step": 317
2245
+ },
2246
+ {
2247
+ "epoch": 0.46153846153846156,
2248
+ "grad_norm": 0.3478432595729828,
2249
+ "learning_rate": 0.00011452285712454904,
2250
+ "loss": 1.1028,
2251
+ "step": 318
2252
+ },
2253
+ {
2254
+ "epoch": 0.4629898403483309,
2255
+ "grad_norm": 0.8324244618415833,
2256
+ "learning_rate": 0.00011406492924624614,
2257
+ "loss": 2.98,
2258
+ "step": 319
2259
+ },
2260
+ {
2261
+ "epoch": 0.4644412191582003,
2262
+ "grad_norm": 0.36261022090911865,
2263
+ "learning_rate": 0.00011360670027749807,
2264
+ "loss": 0.8629,
2265
+ "step": 320
2266
+ },
2267
+ {
2268
+ "epoch": 0.46589259796806964,
2269
+ "grad_norm": 0.42329132556915283,
2270
+ "learning_rate": 0.00011314818002769389,
2271
+ "loss": 1.8163,
2272
+ "step": 321
2273
+ },
2274
+ {
2275
+ "epoch": 0.46734397677793904,
2276
+ "grad_norm": 0.5022541284561157,
2277
+ "learning_rate": 0.0001126893783124583,
2278
+ "loss": 1.5672,
2279
+ "step": 322
2280
+ },
2281
+ {
2282
+ "epoch": 0.46879535558780844,
2283
+ "grad_norm": 0.3574770987033844,
2284
+ "learning_rate": 0.00011223030495344127,
2285
+ "loss": 0.3025,
2286
+ "step": 323
2287
+ },
2288
+ {
2289
+ "epoch": 0.4702467343976778,
2290
+ "grad_norm": 0.4947843551635742,
2291
+ "learning_rate": 0.00011177096977810803,
2292
+ "loss": 0.8242,
2293
+ "step": 324
2294
+ },
2295
+ {
2296
+ "epoch": 0.4716981132075472,
2297
+ "grad_norm": 0.4501658082008362,
2298
+ "learning_rate": 0.00011131138261952845,
2299
+ "loss": 0.8425,
2300
+ "step": 325
2301
+ },
2302
+ {
2303
+ "epoch": 0.4731494920174166,
2304
+ "grad_norm": 0.21305899322032928,
2305
+ "learning_rate": 0.00011085155331616663,
2306
+ "loss": 0.245,
2307
+ "step": 326
2308
+ },
2309
+ {
2310
+ "epoch": 0.4746008708272859,
2311
+ "grad_norm": 0.38023510575294495,
2312
+ "learning_rate": 0.00011039149171167045,
2313
+ "loss": 1.0404,
2314
+ "step": 327
2315
+ },
2316
+ {
2317
+ "epoch": 0.4760522496371553,
2318
+ "grad_norm": 0.4849722385406494,
2319
+ "learning_rate": 0.00010993120765466056,
2320
+ "loss": 1.0257,
2321
+ "step": 328
2322
+ },
2323
+ {
2324
+ "epoch": 0.47750362844702465,
2325
+ "grad_norm": 0.4337415099143982,
2326
+ "learning_rate": 0.00010947071099851971,
2327
+ "loss": 0.787,
2328
+ "step": 329
2329
+ },
2330
+ {
2331
+ "epoch": 0.47895500725689405,
2332
+ "grad_norm": 0.3395763635635376,
2333
+ "learning_rate": 0.00010901001160118189,
2334
+ "loss": 0.9218,
2335
+ "step": 330
2336
+ },
2337
+ {
2338
+ "epoch": 0.48040638606676345,
2339
+ "grad_norm": 0.5438852906227112,
2340
+ "learning_rate": 0.00010854911932492114,
2341
+ "loss": 0.7867,
2342
+ "step": 331
2343
+ },
2344
+ {
2345
+ "epoch": 0.4818577648766328,
2346
+ "grad_norm": 0.299010306596756,
2347
+ "learning_rate": 0.00010808804403614043,
2348
+ "loss": 0.7583,
2349
+ "step": 332
2350
+ },
2351
+ {
2352
+ "epoch": 0.4833091436865022,
2353
+ "grad_norm": 0.44489172101020813,
2354
+ "learning_rate": 0.00010762679560516067,
2355
+ "loss": 1.9207,
2356
+ "step": 333
2357
+ },
2358
+ {
2359
+ "epoch": 0.4847605224963715,
2360
+ "grad_norm": 0.3161913752555847,
2361
+ "learning_rate": 0.00010716538390600908,
2362
+ "loss": 0.7175,
2363
+ "step": 334
2364
+ },
2365
+ {
2366
+ "epoch": 0.4862119013062409,
2367
+ "grad_norm": 0.38730329275131226,
2368
+ "learning_rate": 0.00010670381881620814,
2369
+ "loss": 1.2888,
2370
+ "step": 335
2371
+ },
2372
+ {
2373
+ "epoch": 0.4876632801161103,
2374
+ "grad_norm": 0.3712642788887024,
2375
+ "learning_rate": 0.00010624211021656392,
2376
+ "loss": 0.9692,
2377
+ "step": 336
2378
+ },
2379
+ {
2380
+ "epoch": 0.48911465892597966,
2381
+ "grad_norm": 0.3168681859970093,
2382
+ "learning_rate": 0.00010578026799095464,
2383
+ "loss": 1.1365,
2384
+ "step": 337
2385
+ },
2386
+ {
2387
+ "epoch": 0.49056603773584906,
2388
+ "grad_norm": 0.36398571729660034,
2389
+ "learning_rate": 0.00010531830202611904,
2390
+ "loss": 0.9235,
2391
+ "step": 338
2392
+ },
2393
+ {
2394
+ "epoch": 0.49201741654571846,
2395
+ "grad_norm": 0.30887413024902344,
2396
+ "learning_rate": 0.00010485622221144484,
2397
+ "loss": 0.4427,
2398
+ "step": 339
2399
+ },
2400
+ {
2401
+ "epoch": 0.4934687953555878,
2402
+ "grad_norm": 0.26171329617500305,
2403
+ "learning_rate": 0.0001043940384387569,
2404
+ "loss": 0.6965,
2405
+ "step": 340
2406
+ },
2407
+ {
2408
+ "epoch": 0.4949201741654572,
2409
+ "grad_norm": 0.44587722420692444,
2410
+ "learning_rate": 0.00010393176060210557,
2411
+ "loss": 1.8459,
2412
+ "step": 341
2413
+ },
2414
+ {
2415
+ "epoch": 0.49637155297532654,
2416
+ "grad_norm": 0.341634064912796,
2417
+ "learning_rate": 0.0001034693985975548,
2418
+ "loss": 0.7757,
2419
+ "step": 342
2420
+ },
2421
+ {
2422
+ "epoch": 0.49782293178519593,
2423
+ "grad_norm": 0.378426194190979,
2424
+ "learning_rate": 0.0001030069623229704,
2425
+ "loss": 1.1976,
2426
+ "step": 343
2427
+ },
2428
+ {
2429
+ "epoch": 0.49927431059506533,
2430
+ "grad_norm": 0.4587966799736023,
2431
+ "learning_rate": 0.00010254446167780803,
2432
+ "loss": 0.7019,
2433
+ "step": 344
2434
+ },
2435
+ {
2436
+ "epoch": 0.5007256894049347,
2437
+ "grad_norm": 0.2761523127555847,
2438
+ "learning_rate": 0.00010208190656290137,
2439
+ "loss": 0.3916,
2440
+ "step": 345
2441
+ },
2442
+ {
2443
+ "epoch": 0.502177068214804,
2444
+ "grad_norm": 0.42763715982437134,
2445
+ "learning_rate": 0.00010161930688025017,
2446
+ "loss": 0.8072,
2447
+ "step": 346
2448
+ },
2449
+ {
2450
+ "epoch": 0.502177068214804,
2451
+ "eval_loss": 0.23982280492782593,
2452
+ "eval_runtime": 32.4007,
2453
+ "eval_samples_per_second": 8.981,
2454
+ "eval_steps_per_second": 4.506,
2455
+ "step": 346
2456
  }
2457
  ],
2458
  "logging_steps": 1,
 
2472
  "attributes": {}
2473
  }
2474
  },
2475
+ "total_flos": 2.1878609950015488e+17,
2476
  "train_batch_size": 2,
2477
  "trial_name": null,
2478
  "trial_params": null