{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.06827140888975669,
  "eval_steps": 2000,
  "global_step": 450000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 6.82714088897567e-05,
      "grad_norm": 253.0,
      "learning_rate": 3.345166575641726e-07,
      "loss": 6.3289,
      "step": 50
    },
    {
      "epoch": 0.0001365428177795134,
      "grad_norm": 215.0,
      "learning_rate": 6.758601856908794e-07,
      "loss": 4.9924,
      "step": 100
    },
    {
      "epoch": 0.00020481422666927007,
      "grad_norm": 167.0,
      "learning_rate": 1.017203713817586e-06,
      "loss": 5.4112,
      "step": 150
    },
    {
      "epoch": 0.0002730856355590268,
      "grad_norm": 140.0,
      "learning_rate": 1.3585472419442928e-06,
      "loss": 3.7502,
      "step": 200
    },
    {
      "epoch": 0.0003413570444487835,
      "grad_norm": 54.5,
      "learning_rate": 1.6998907700709996e-06,
      "loss": 3.3193,
      "step": 250
    },
    {
      "epoch": 0.00040962845333854014,
      "grad_norm": 62.5,
      "learning_rate": 2.041234298197706e-06,
      "loss": 4.1638,
      "step": 300
    },
    {
      "epoch": 0.00047789986222829684,
      "grad_norm": 114.5,
      "learning_rate": 2.3825778263244133e-06,
      "loss": 4.8144,
      "step": 350
    },
    {
      "epoch": 0.0005461712711180536,
      "grad_norm": 61.5,
      "learning_rate": 2.7239213544511196e-06,
      "loss": 3.3647,
      "step": 400
    },
    {
      "epoch": 0.0006144426800078102,
      "grad_norm": 84.0,
      "learning_rate": 3.0652648825778264e-06,
      "loss": 2.9263,
      "step": 450
    },
    {
      "epoch": 0.000682714088897567,
      "grad_norm": 42.0,
      "learning_rate": 3.4066084107045327e-06,
      "loss": 3.6144,
      "step": 500
    },
    {
      "epoch": 0.0007509854977873236,
      "grad_norm": 58.0,
      "learning_rate": 3.74795193883124e-06,
      "loss": 3.3573,
      "step": 550
    },
    {
      "epoch": 0.0008192569066770803,
      "grad_norm": 17.375,
      "learning_rate": 4.089295466957946e-06,
      "loss": 2.8085,
      "step": 600
    },
    {
      "epoch": 0.000887528315566837,
      "grad_norm": 13.125,
      "learning_rate": 4.430638995084654e-06,
      "loss": 2.371,
      "step": 650
    },
    {
      "epoch": 0.0009557997244565937,
      "grad_norm": 28.125,
      "learning_rate": 4.771982523211361e-06,
      "loss": 2.6869,
      "step": 700
    },
    {
      "epoch": 0.0010240711333463503,
      "grad_norm": 14.9375,
      "learning_rate": 5.1133260513380665e-06,
      "loss": 2.7013,
      "step": 750
    },
    {
      "epoch": 0.0010923425422361072,
      "grad_norm": 30.375,
      "learning_rate": 5.454669579464774e-06,
      "loss": 2.6382,
      "step": 800
    },
    {
      "epoch": 0.0011606139511258638,
      "grad_norm": 17.5,
      "learning_rate": 5.79601310759148e-06,
      "loss": 2.664,
      "step": 850
    },
    {
      "epoch": 0.0012288853600156205,
      "grad_norm": 24.625,
      "learning_rate": 6.137356635718187e-06,
      "loss": 2.3529,
      "step": 900
    },
    {
      "epoch": 0.0012971567689053771,
      "grad_norm": 16.0,
      "learning_rate": 6.4787001638448935e-06,
      "loss": 2.1984,
      "step": 950
    },
    {
      "epoch": 0.001365428177795134,
      "grad_norm": 11.4375,
      "learning_rate": 6.8200436919716e-06,
      "loss": 2.2683,
      "step": 1000
    },
    {
      "epoch": 0.0014336995866848906,
      "grad_norm": 73.0,
      "learning_rate": 7.161387220098308e-06,
      "loss": 2.2773,
      "step": 1050
    },
    {
      "epoch": 0.0015019709955746473,
      "grad_norm": 23.375,
      "learning_rate": 7.502730748225014e-06,
      "loss": 2.3208,
      "step": 1100
    },
    {
      "epoch": 0.001570242404464404,
      "grad_norm": 21.25,
      "learning_rate": 7.84407427635172e-06,
      "loss": 2.0699,
      "step": 1150
    },
    {
      "epoch": 0.0016385138133541606,
      "grad_norm": 29.625,
      "learning_rate": 8.185417804478428e-06,
      "loss": 2.1951,
      "step": 1200
    },
    {
      "epoch": 0.0017067852222439174,
      "grad_norm": 10.875,
      "learning_rate": 8.526761332605135e-06,
      "loss": 2.2342,
      "step": 1250
    },
    {
      "epoch": 0.001775056631133674,
      "grad_norm": 25.875,
      "learning_rate": 8.86810486073184e-06,
      "loss": 2.5617,
      "step": 1300
    },
    {
      "epoch": 0.0018433280400234307,
      "grad_norm": 22.875,
      "learning_rate": 9.209448388858548e-06,
      "loss": 2.3963,
      "step": 1350
    },
    {
      "epoch": 0.0019115994489131874,
      "grad_norm": 53.75,
      "learning_rate": 9.550791916985255e-06,
      "loss": 2.0602,
      "step": 1400
    },
    {
      "epoch": 0.001979870857802944,
      "grad_norm": 26.25,
      "learning_rate": 9.89213544511196e-06,
      "loss": 2.0291,
      "step": 1450
    },
    {
      "epoch": 0.0020481422666927007,
      "grad_norm": 43.25,
      "learning_rate": 1.0233478973238669e-05,
      "loss": 2.7201,
      "step": 1500
    },
    {
      "epoch": 0.0021164136755824573,
      "grad_norm": 25.125,
      "learning_rate": 1.0574822501365375e-05,
      "loss": 1.9625,
      "step": 1550
    },
    {
      "epoch": 0.0021846850844722144,
      "grad_norm": 20.125,
      "learning_rate": 1.091616602949208e-05,
      "loss": 2.2334,
      "step": 1600
    },
    {
      "epoch": 0.002252956493361971,
      "grad_norm": 34.25,
      "learning_rate": 1.1257509557618787e-05,
      "loss": 2.4953,
      "step": 1650
    },
    {
      "epoch": 0.0023212279022517277,
      "grad_norm": 36.25,
      "learning_rate": 1.1598853085745496e-05,
      "loss": 1.9377,
      "step": 1700
    },
    {
      "epoch": 0.0023894993111414843,
      "grad_norm": 74.5,
      "learning_rate": 1.19401966138722e-05,
      "loss": 1.9838,
      "step": 1750
    },
    {
      "epoch": 0.002457770720031241,
      "grad_norm": 19.625,
      "learning_rate": 1.2281540141998908e-05,
      "loss": 2.5372,
      "step": 1800
    },
    {
      "epoch": 0.0025260421289209976,
      "grad_norm": 12.25,
      "learning_rate": 1.2622883670125616e-05,
      "loss": 2.001,
      "step": 1850
    },
    {
      "epoch": 0.0025943135378107543,
      "grad_norm": 12.625,
      "learning_rate": 1.2964227198252321e-05,
      "loss": 1.9494,
      "step": 1900
    },
    {
      "epoch": 0.002662584946700511,
      "grad_norm": 25.25,
      "learning_rate": 1.330557072637903e-05,
      "loss": 2.5968,
      "step": 1950
    },
    {
      "epoch": 0.002730856355590268,
      "grad_norm": 20.0,
      "learning_rate": 1.3646914254505736e-05,
      "loss": 2.0123,
      "step": 2000
    },
    {
      "epoch": 0.0027991277644800246,
      "grad_norm": 31.125,
      "learning_rate": 1.3988257782632441e-05,
      "loss": 2.0167,
      "step": 2050
    },
    {
      "epoch": 0.0028673991733697813,
      "grad_norm": 25.625,
      "learning_rate": 1.432960131075915e-05,
      "loss": 2.1625,
      "step": 2100
    },
    {
      "epoch": 0.002935670582259538,
      "grad_norm": 42.75,
      "learning_rate": 1.4670944838885855e-05,
      "loss": 1.7634,
      "step": 2150
    },
    {
      "epoch": 0.0030039419911492946,
      "grad_norm": 17.625,
      "learning_rate": 1.5012288367012562e-05,
      "loss": 1.8773,
      "step": 2200
    },
    {
      "epoch": 0.0030722134000390512,
      "grad_norm": 51.75,
      "learning_rate": 1.535363189513927e-05,
      "loss": 2.2806,
      "step": 2250
    },
    {
      "epoch": 0.003140484808928808,
      "grad_norm": 14.0625,
      "learning_rate": 1.5694975423265975e-05,
      "loss": 2.0841,
      "step": 2300
    },
    {
      "epoch": 0.0032087562178185645,
      "grad_norm": 43.5,
      "learning_rate": 1.6036318951392682e-05,
      "loss": 2.2429,
      "step": 2350
    },
    {
      "epoch": 0.003277027626708321,
      "grad_norm": 26.0,
      "learning_rate": 1.637766247951939e-05,
      "loss": 2.1419,
      "step": 2400
    },
    {
      "epoch": 0.0033452990355980782,
      "grad_norm": 41.0,
      "learning_rate": 1.6719006007646095e-05,
      "loss": 1.9208,
      "step": 2450
    },
    {
      "epoch": 0.003413570444487835,
      "grad_norm": 25.375,
      "learning_rate": 1.7060349535772802e-05,
      "loss": 1.9162,
      "step": 2500
    },
    {
      "epoch": 0.0034818418533775915,
      "grad_norm": 20.5,
      "learning_rate": 1.740169306389951e-05,
      "loss": 1.6742,
      "step": 2550
    },
    {
      "epoch": 0.003550113262267348,
      "grad_norm": 20.25,
      "learning_rate": 1.7743036592026216e-05,
      "loss": 1.9195,
      "step": 2600
    },
    {
      "epoch": 0.003618384671157105,
      "grad_norm": 22.125,
      "learning_rate": 1.8084380120152922e-05,
      "loss": 1.6621,
      "step": 2650
    },
    {
      "epoch": 0.0036866560800468615,
      "grad_norm": 23.375,
      "learning_rate": 1.842572364827963e-05,
      "loss": 1.8567,
      "step": 2700
    },
    {
      "epoch": 0.003754927488936618,
      "grad_norm": 57.25,
      "learning_rate": 1.8767067176406336e-05,
      "loss": 1.6148,
      "step": 2750
    },
    {
      "epoch": 0.0038231988978263748,
      "grad_norm": 20.75,
      "learning_rate": 1.9108410704533043e-05,
      "loss": 2.1279,
      "step": 2800
    },
    {
      "epoch": 0.0038914703067161314,
      "grad_norm": 24.75,
      "learning_rate": 1.944975423265975e-05,
      "loss": 1.9026,
      "step": 2850
    },
    {
      "epoch": 0.003959741715605888,
      "grad_norm": 24.25,
      "learning_rate": 1.9791097760786456e-05,
      "loss": 1.7618,
      "step": 2900
    },
    {
      "epoch": 0.004028013124495645,
      "grad_norm": 32.5,
      "learning_rate": 2.0132441288913163e-05,
      "loss": 1.9627,
      "step": 2950
    },
    {
      "epoch": 0.004096284533385401,
      "grad_norm": 11.25,
      "learning_rate": 2.047378481703987e-05,
      "loss": 2.0919,
      "step": 3000
    },
    {
      "epoch": 0.004164555942275158,
      "grad_norm": 31.875,
      "learning_rate": 2.0815128345166576e-05,
      "loss": 1.9261,
      "step": 3050
    },
    {
      "epoch": 0.004232827351164915,
      "grad_norm": 20.625,
      "learning_rate": 2.1156471873293283e-05,
      "loss": 1.8089,
      "step": 3100
    },
    {
      "epoch": 0.004301098760054672,
      "grad_norm": 11.3125,
      "learning_rate": 2.149781540141999e-05,
      "loss": 2.1698,
      "step": 3150
    },
    {
      "epoch": 0.004369370168944429,
      "grad_norm": 25.5,
      "learning_rate": 2.1839158929546697e-05,
      "loss": 2.2426,
      "step": 3200
    },
    {
      "epoch": 0.004437641577834185,
      "grad_norm": 37.0,
      "learning_rate": 2.2180502457673403e-05,
      "loss": 1.6831,
      "step": 3250
    },
    {
      "epoch": 0.004505912986723942,
      "grad_norm": 18.0,
      "learning_rate": 2.252184598580011e-05,
      "loss": 1.9481,
      "step": 3300
    },
    {
      "epoch": 0.004574184395613698,
      "grad_norm": 23.125,
      "learning_rate": 2.2863189513926817e-05,
      "loss": 1.9735,
      "step": 3350
    },
    {
      "epoch": 0.004642455804503455,
      "grad_norm": 15.125,
      "learning_rate": 2.3204533042053524e-05,
      "loss": 1.9206,
      "step": 3400
    },
    {
      "epoch": 0.004710727213393212,
      "grad_norm": 23.75,
      "learning_rate": 2.354587657018023e-05,
      "loss": 1.9724,
      "step": 3450
    },
    {
      "epoch": 0.004778998622282969,
      "grad_norm": 19.875,
      "learning_rate": 2.3887220098306937e-05,
      "loss": 1.946,
      "step": 3500
    },
    {
      "epoch": 0.004847270031172725,
      "grad_norm": 35.25,
      "learning_rate": 2.4228563626433644e-05,
      "loss": 1.8775,
      "step": 3550
    },
    {
      "epoch": 0.004915541440062482,
      "grad_norm": 20.25,
      "learning_rate": 2.456990715456035e-05,
      "loss": 1.8278,
      "step": 3600
    },
    {
      "epoch": 0.004983812848952239,
      "grad_norm": 10.375,
      "learning_rate": 2.4911250682687058e-05,
      "loss": 1.6792,
      "step": 3650
    },
    {
      "epoch": 0.005052084257841995,
      "grad_norm": 13.0,
      "learning_rate": 2.525259421081376e-05,
      "loss": 1.8607,
      "step": 3700
    },
    {
      "epoch": 0.005120355666731752,
      "grad_norm": 38.75,
      "learning_rate": 2.559393773894047e-05,
      "loss": 1.738,
      "step": 3750
    },
    {
      "epoch": 0.0051886270756215085,
      "grad_norm": 21.125,
      "learning_rate": 2.593528126706718e-05,
      "loss": 1.8947,
      "step": 3800
    },
    {
      "epoch": 0.005256898484511266,
      "grad_norm": 18.375,
      "learning_rate": 2.627662479519388e-05,
      "loss": 1.8636,
      "step": 3850
    },
    {
      "epoch": 0.005325169893401022,
      "grad_norm": 14.5,
      "learning_rate": 2.661796832332059e-05,
      "loss": 1.9114,
      "step": 3900
    },
    {
      "epoch": 0.005393441302290779,
      "grad_norm": 29.375,
      "learning_rate": 2.69593118514473e-05,
      "loss": 1.924,
      "step": 3950
    },
    {
      "epoch": 0.005461712711180536,
      "grad_norm": 30.875,
      "learning_rate": 2.7300655379574e-05,
      "loss": 1.9198,
      "step": 4000
    },
    {
      "epoch": 0.005529984120070292,
      "grad_norm": 34.0,
      "learning_rate": 2.764199890770071e-05,
      "loss": 1.7495,
      "step": 4050
    },
    {
      "epoch": 0.005598255528960049,
      "grad_norm": 14.875,
      "learning_rate": 2.798334243582742e-05,
      "loss": 1.6726,
      "step": 4100
    },
    {
      "epoch": 0.0056665269378498055,
      "grad_norm": 14.0625,
      "learning_rate": 2.832468596395412e-05,
      "loss": 1.7925,
      "step": 4150
    },
    {
      "epoch": 0.0057347983467395626,
      "grad_norm": 17.125,
      "learning_rate": 2.8666029492080832e-05,
      "loss": 1.8183,
      "step": 4200
    },
    {
      "epoch": 0.005803069755629319,
      "grad_norm": 14.8125,
      "learning_rate": 2.900737302020754e-05,
      "loss": 1.9318,
      "step": 4250
    },
    {
      "epoch": 0.005871341164519076,
      "grad_norm": 13.9375,
      "learning_rate": 2.9348716548334242e-05,
      "loss": 1.6782,
      "step": 4300
    },
    {
      "epoch": 0.005939612573408832,
      "grad_norm": 29.75,
      "learning_rate": 2.9690060076460952e-05,
      "loss": 1.7005,
      "step": 4350
    },
    {
      "epoch": 0.006007883982298589,
      "grad_norm": 11.9375,
      "learning_rate": 3.003140360458766e-05,
      "loss": 1.8605,
      "step": 4400
    },
    {
      "epoch": 0.006076155391188346,
      "grad_norm": 32.75,
      "learning_rate": 3.0372747132714362e-05,
      "loss": 1.9536,
      "step": 4450
    },
    {
      "epoch": 0.0061444268000781024,
      "grad_norm": 20.125,
      "learning_rate": 3.071409066084107e-05,
      "loss": 1.7595,
      "step": 4500
    },
    {
      "epoch": 0.0062126982089678595,
      "grad_norm": 30.125,
      "learning_rate": 3.105543418896778e-05,
      "loss": 1.6644,
      "step": 4550
    },
    {
      "epoch": 0.006280969617857616,
      "grad_norm": 13.6875,
      "learning_rate": 3.139677771709448e-05,
      "loss": 1.7087,
      "step": 4600
    },
    {
      "epoch": 0.006349241026747373,
      "grad_norm": 17.0,
      "learning_rate": 3.173812124522119e-05,
      "loss": 1.4165,
      "step": 4650
    },
    {
      "epoch": 0.006417512435637129,
      "grad_norm": 16.25,
      "learning_rate": 3.20794647733479e-05,
      "loss": 1.5283,
      "step": 4700
    },
    {
      "epoch": 0.006485783844526886,
      "grad_norm": 17.125,
      "learning_rate": 3.2420808301474606e-05,
      "loss": 1.9784,
      "step": 4750
    },
    {
      "epoch": 0.006554055253416642,
      "grad_norm": 14.75,
      "learning_rate": 3.276215182960131e-05,
      "loss": 1.7633,
      "step": 4800
    },
    {
      "epoch": 0.006622326662306399,
      "grad_norm": 38.5,
      "learning_rate": 3.310349535772802e-05,
      "loss": 1.7968,
      "step": 4850
    },
    {
      "epoch": 0.0066905980711961565,
      "grad_norm": 70.0,
      "learning_rate": 3.344483888585472e-05,
      "loss": 1.7471,
      "step": 4900
    },
    {
      "epoch": 0.006758869480085913,
      "grad_norm": 25.625,
      "learning_rate": 3.378618241398143e-05,
      "loss": 1.8545,
      "step": 4950
    },
    {
      "epoch": 0.00682714088897567,
      "grad_norm": 14.3125,
      "learning_rate": 3.412752594210814e-05,
      "loss": 1.5602,
      "step": 5000
    },
    {
      "epoch": 0.006895412297865426,
      "grad_norm": 15.8125,
      "learning_rate": 3.446886947023485e-05,
      "loss": 1.8482,
      "step": 5050
    },
    {
      "epoch": 0.006963683706755183,
      "grad_norm": 10.5,
      "learning_rate": 3.481021299836155e-05,
      "loss": 1.839,
      "step": 5100
    },
    {
      "epoch": 0.007031955115644939,
      "grad_norm": 36.0,
      "learning_rate": 3.515155652648826e-05,
      "loss": 1.7616,
      "step": 5150
    },
    {
      "epoch": 0.007100226524534696,
      "grad_norm": 15.8125,
      "learning_rate": 3.5492900054614964e-05,
      "loss": 1.7924,
      "step": 5200
    },
    {
      "epoch": 0.0071684979334244526,
      "grad_norm": 15.5625,
      "learning_rate": 3.5834243582741674e-05,
      "loss": 1.6461,
      "step": 5250
    },
    {
      "epoch": 0.00723676934231421,
      "grad_norm": 13.75,
      "learning_rate": 3.6175587110868384e-05,
      "loss": 1.8198,
      "step": 5300
    },
    {
      "epoch": 0.007305040751203967,
      "grad_norm": 10.4375,
      "learning_rate": 3.651693063899508e-05,
      "loss": 1.5421,
      "step": 5350
    },
    {
      "epoch": 0.007373312160093723,
      "grad_norm": 10.5,
      "learning_rate": 3.685827416712179e-05,
      "loss": 1.6121,
      "step": 5400
    },
    {
      "epoch": 0.00744158356898348,
      "grad_norm": 11.25,
      "learning_rate": 3.71996176952485e-05,
      "loss": 1.6397,
      "step": 5450
    },
    {
      "epoch": 0.007509854977873236,
      "grad_norm": 16.375,
      "learning_rate": 3.7540961223375204e-05,
      "loss": 1.6436,
      "step": 5500
    },
    {
      "epoch": 0.007578126386762993,
      "grad_norm": 24.625,
      "learning_rate": 3.7882304751501914e-05,
      "loss": 1.6409,
      "step": 5550
    },
    {
      "epoch": 0.0076463977956527495,
      "grad_norm": 9.125,
      "learning_rate": 3.8223648279628624e-05,
      "loss": 1.5707,
      "step": 5600
    },
    {
      "epoch": 0.007714669204542507,
      "grad_norm": 23.5,
      "learning_rate": 3.856499180775532e-05,
      "loss": 1.6206,
      "step": 5650
    },
    {
      "epoch": 0.007782940613432263,
      "grad_norm": 14.0,
      "learning_rate": 3.890633533588203e-05,
      "loss": 1.664,
      "step": 5700
    },
    {
      "epoch": 0.007851212022322019,
      "grad_norm": 36.5,
      "learning_rate": 3.924767886400874e-05,
      "loss": 1.6984,
      "step": 5750
    },
    {
      "epoch": 0.007919483431211776,
      "grad_norm": 11.75,
      "learning_rate": 3.958902239213545e-05,
      "loss": 1.6416,
      "step": 5800
    },
    {
      "epoch": 0.007987754840101533,
      "grad_norm": 10.625,
      "learning_rate": 3.9930365920262155e-05,
      "loss": 1.6641,
      "step": 5850
    },
    {
      "epoch": 0.00805602624899129,
      "grad_norm": 12.8125,
      "learning_rate": 4.027170944838886e-05,
      "loss": 2.0993,
      "step": 5900
    },
    {
      "epoch": 0.008124297657881047,
      "grad_norm": 27.875,
      "learning_rate": 4.061305297651557e-05,
      "loss": 1.5836,
      "step": 5950
    },
    {
      "epoch": 0.008192569066770803,
      "grad_norm": 17.125,
      "learning_rate": 4.095439650464227e-05,
      "loss": 1.696,
      "step": 6000
    },
    {
      "epoch": 0.00826084047566056,
      "grad_norm": 20.875,
      "learning_rate": 4.129574003276898e-05,
      "loss": 1.6664,
      "step": 6050
    },
    {
      "epoch": 0.008329111884550317,
      "grad_norm": 12.375,
      "learning_rate": 4.163708356089569e-05,
      "loss": 1.7243,
      "step": 6100
    },
    {
      "epoch": 0.008397383293440074,
      "grad_norm": 15.25,
      "learning_rate": 4.1978427089022395e-05,
      "loss": 1.8108,
      "step": 6150
    },
    {
      "epoch": 0.00846565470232983,
      "grad_norm": 23.5,
      "learning_rate": 4.23197706171491e-05,
      "loss": 1.8867,
      "step": 6200
    },
    {
      "epoch": 0.008533926111219586,
      "grad_norm": 14.5625,
      "learning_rate": 4.266111414527581e-05,
      "loss": 1.6835,
      "step": 6250
    },
    {
      "epoch": 0.008602197520109343,
      "grad_norm": 17.375,
      "learning_rate": 4.300245767340251e-05,
      "loss": 1.6362,
      "step": 6300
    },
    {
      "epoch": 0.0086704689289991,
      "grad_norm": 24.125,
      "learning_rate": 4.334380120152922e-05,
      "loss": 1.7662,
      "step": 6350
    },
    {
      "epoch": 0.008738740337888858,
      "grad_norm": 10.75,
      "learning_rate": 4.368514472965593e-05,
      "loss": 1.6708,
      "step": 6400
    },
    {
      "epoch": 0.008807011746778613,
      "grad_norm": 12.8125,
      "learning_rate": 4.4026488257782636e-05,
      "loss": 1.5773,
      "step": 6450
    },
    {
      "epoch": 0.00887528315566837,
      "grad_norm": 13.4375,
      "learning_rate": 4.436783178590934e-05,
      "loss": 1.4327,
      "step": 6500
    },
    {
      "epoch": 0.008943554564558127,
      "grad_norm": 45.0,
      "learning_rate": 4.470917531403605e-05,
      "loss": 1.6591,
      "step": 6550
    },
    {
      "epoch": 0.009011825973447884,
      "grad_norm": 11.5625,
      "learning_rate": 4.505051884216275e-05,
      "loss": 1.4032,
      "step": 6600
    },
    {
      "epoch": 0.00908009738233764,
      "grad_norm": 21.125,
      "learning_rate": 4.539186237028946e-05,
      "loss": 1.5654,
      "step": 6650
    },
    {
      "epoch": 0.009148368791227397,
      "grad_norm": 14.625,
      "learning_rate": 4.573320589841617e-05,
      "loss": 1.9882,
      "step": 6700
    },
    {
      "epoch": 0.009216640200117154,
      "grad_norm": 28.375,
      "learning_rate": 4.6074549426542876e-05,
      "loss": 1.4991,
      "step": 6750
    },
    {
      "epoch": 0.00928491160900691,
      "grad_norm": 10.3125,
      "learning_rate": 4.641589295466958e-05,
      "loss": 1.6666,
      "step": 6800
    },
    {
      "epoch": 0.009353183017896668,
      "grad_norm": 9.6875,
      "learning_rate": 4.675723648279629e-05,
      "loss": 1.6925,
      "step": 6850
    },
    {
      "epoch": 0.009421454426786423,
      "grad_norm": 13.625,
      "learning_rate": 4.709858001092299e-05,
      "loss": 1.6906,
      "step": 6900
    },
    {
      "epoch": 0.00948972583567618,
      "grad_norm": 16.125,
      "learning_rate": 4.7439923539049703e-05,
      "loss": 1.4496,
      "step": 6950
    },
    {
      "epoch": 0.009557997244565937,
      "grad_norm": 12.8125,
      "learning_rate": 4.7781267067176414e-05,
      "loss": 1.6222,
      "step": 7000
    },
    {
      "epoch": 0.009626268653455694,
      "grad_norm": 16.125,
      "learning_rate": 4.812261059530312e-05,
      "loss": 1.5879,
      "step": 7050
    },
    {
      "epoch": 0.00969454006234545,
      "grad_norm": 13.4375,
      "learning_rate": 4.846395412342982e-05,
      "loss": 1.2852,
      "step": 7100
    },
    {
      "epoch": 0.009762811471235207,
      "grad_norm": 19.875,
      "learning_rate": 4.880529765155653e-05,
      "loss": 1.4803,
      "step": 7150
    },
    {
      "epoch": 0.009831082880124964,
      "grad_norm": 18.375,
      "learning_rate": 4.9146641179683234e-05,
      "loss": 1.4824,
      "step": 7200
    },
    {
      "epoch": 0.009899354289014721,
      "grad_norm": 19.0,
      "learning_rate": 4.9487984707809944e-05,
      "loss": 1.6229,
      "step": 7250
    },
    {
      "epoch": 0.009967625697904478,
      "grad_norm": 19.5,
      "learning_rate": 4.9829328235936654e-05,
      "loss": 1.8175,
      "step": 7300
    },
    {
      "epoch": 0.010035897106794233,
      "grad_norm": 13.1875,
      "learning_rate": 5.017067176406336e-05,
      "loss": 1.9529,
      "step": 7350
    },
    {
      "epoch": 0.01010416851568399,
      "grad_norm": 11.0625,
      "learning_rate": 5.051201529219006e-05,
      "loss": 1.4441,
      "step": 7400
    },
    {
      "epoch": 0.010172439924573748,
      "grad_norm": 26.375,
      "learning_rate": 5.0853358820316764e-05,
      "loss": 1.7113,
      "step": 7450
    },
    {
      "epoch": 0.010240711333463505,
      "grad_norm": 13.5625,
      "learning_rate": 5.119470234844348e-05,
      "loss": 1.2876,
      "step": 7500
    },
    {
      "epoch": 0.01030898274235326,
      "grad_norm": 14.4375,
      "learning_rate": 5.1536045876570184e-05,
      "loss": 1.7726,
      "step": 7550
    },
    {
      "epoch": 0.010377254151243017,
      "grad_norm": 11.75,
      "learning_rate": 5.187738940469689e-05,
      "loss": 1.4734,
      "step": 7600
    },
    {
      "epoch": 0.010445525560132774,
      "grad_norm": 19.25,
      "learning_rate": 5.22187329328236e-05,
      "loss": 1.5029,
      "step": 7650
    },
    {
      "epoch": 0.010513796969022531,
      "grad_norm": 16.5,
      "learning_rate": 5.25600764609503e-05,
      "loss": 1.5939,
      "step": 7700
    },
    {
      "epoch": 0.010582068377912288,
      "grad_norm": 18.375,
      "learning_rate": 5.2901419989077005e-05,
      "loss": 1.6299,
      "step": 7750
    },
    {
      "epoch": 0.010650339786802044,
      "grad_norm": 15.125,
      "learning_rate": 5.324276351720372e-05,
      "loss": 1.7066,
      "step": 7800
    },
    {
      "epoch": 0.0107186111956918,
      "grad_norm": 13.375,
      "learning_rate": 5.3584107045330425e-05,
      "loss": 1.4502,
      "step": 7850
    },
    {
      "epoch": 0.010786882604581558,
      "grad_norm": 16.0,
      "learning_rate": 5.392545057345713e-05,
      "loss": 1.5003,
      "step": 7900
    },
    {
      "epoch": 0.010855154013471315,
      "grad_norm": 14.8125,
      "learning_rate": 5.426679410158384e-05,
      "loss": 1.6382,
      "step": 7950
    },
    {
      "epoch": 0.010923425422361072,
      "grad_norm": 9.125,
      "learning_rate": 5.460813762971054e-05,
      "loss": 1.5011,
      "step": 8000
    },
    {
      "epoch": 0.010991696831250827,
      "grad_norm": 8.875,
      "learning_rate": 5.4949481157837245e-05,
      "loss": 1.6208,
      "step": 8050
    },
    {
      "epoch": 0.011059968240140584,
      "grad_norm": 23.625,
      "learning_rate": 5.529082468596396e-05,
      "loss": 1.6415,
      "step": 8100
    },
    {
      "epoch": 0.011128239649030341,
      "grad_norm": 22.0,
      "learning_rate": 5.5632168214090666e-05,
      "loss": 1.6164,
      "step": 8150
    },
    {
      "epoch": 0.011196511057920099,
      "grad_norm": 9.8125,
      "learning_rate": 5.597351174221737e-05,
      "loss": 1.5373,
      "step": 8200
    },
    {
      "epoch": 0.011264782466809854,
      "grad_norm": 21.375,
      "learning_rate": 5.631485527034408e-05,
      "loss": 1.6069,
      "step": 8250
    },
    {
      "epoch": 0.011333053875699611,
      "grad_norm": 9.25,
      "learning_rate": 5.665619879847078e-05,
      "loss": 1.7099,
      "step": 8300
    },
    {
      "epoch": 0.011401325284589368,
      "grad_norm": 20.0,
      "learning_rate": 5.6997542326597486e-05,
      "loss": 1.5446,
      "step": 8350
    },
    {
      "epoch": 0.011469596693479125,
      "grad_norm": 21.25,
      "learning_rate": 5.73388858547242e-05,
      "loss": 1.5655,
      "step": 8400
    },
    {
      "epoch": 0.011537868102368882,
      "grad_norm": 17.125,
      "learning_rate": 5.7680229382850906e-05,
      "loss": 1.5122,
      "step": 8450
    },
    {
      "epoch": 0.011606139511258638,
      "grad_norm": 7.3125,
      "learning_rate": 5.802157291097761e-05,
      "loss": 1.4267,
      "step": 8500
    },
    {
      "epoch": 0.011674410920148395,
      "grad_norm": 8.625,
      "learning_rate": 5.836291643910432e-05,
      "loss": 1.5735,
      "step": 8550
    },
    {
      "epoch": 0.011742682329038152,
      "grad_norm": 12.5625,
      "learning_rate": 5.870425996723102e-05,
      "loss": 1.431,
      "step": 8600
    },
    {
      "epoch": 0.011810953737927909,
      "grad_norm": 12.6875,
      "learning_rate": 5.9045603495357726e-05,
      "loss": 1.5406,
      "step": 8650
    },
    {
      "epoch": 0.011879225146817664,
      "grad_norm": 7.90625,
      "learning_rate": 5.938694702348444e-05,
      "loss": 1.8198,
      "step": 8700
    },
    {
      "epoch": 0.011947496555707421,
      "grad_norm": 12.75,
      "learning_rate": 5.972829055161115e-05,
      "loss": 1.6222,
      "step": 8750
    },
    {
      "epoch": 0.012015767964597178,
      "grad_norm": 24.375,
      "learning_rate": 6.006963407973784e-05,
      "loss": 1.6902,
      "step": 8800
    },
    {
      "epoch": 0.012084039373486935,
      "grad_norm": 22.0,
      "learning_rate": 6.041097760786456e-05,
      "loss": 1.4332,
      "step": 8850
    },
    {
      "epoch": 0.012152310782376692,
      "grad_norm": 7.6875,
      "learning_rate": 6.0752321135991264e-05,
      "loss": 1.3918,
      "step": 8900
    },
    {
      "epoch": 0.012220582191266448,
      "grad_norm": 11.625,
      "learning_rate": 6.109366466411797e-05,
      "loss": 1.4715,
      "step": 8950
    },
    {
      "epoch": 0.012288853600156205,
      "grad_norm": 9.875,
      "learning_rate": 6.143500819224468e-05,
      "loss": 1.6232,
      "step": 9000
    },
    {
      "epoch": 0.012357125009045962,
      "grad_norm": 19.75,
      "learning_rate": 6.177635172037139e-05,
      "loss": 1.3601,
      "step": 9050
    },
    {
      "epoch": 0.012425396417935719,
      "grad_norm": 9.625,
      "learning_rate": 6.211769524849808e-05,
      "loss": 1.4477,
      "step": 9100
    },
    {
      "epoch": 0.012493667826825474,
      "grad_norm": 19.5,
      "learning_rate": 6.245903877662481e-05,
      "loss": 1.4837,
      "step": 9150
    },
    {
      "epoch": 0.012561939235715231,
      "grad_norm": 9.625,
      "learning_rate": 6.28003823047515e-05,
      "loss": 1.4087,
      "step": 9200
    },
    {
      "epoch": 0.012630210644604989,
      "grad_norm": 18.125,
      "learning_rate": 6.31417258328782e-05,
      "loss": 1.5086,
      "step": 9250
    },
    {
      "epoch": 0.012698482053494746,
      "grad_norm": 12.8125,
      "learning_rate": 6.348306936100492e-05,
      "loss": 1.7087,
      "step": 9300
    },
    {
      "epoch": 0.012766753462384503,
      "grad_norm": 19.5,
      "learning_rate": 6.382441288913162e-05,
      "loss": 1.4067,
      "step": 9350
    },
    {
      "epoch": 0.012835024871274258,
      "grad_norm": 7.40625,
      "learning_rate": 6.416575641725833e-05,
      "loss": 1.4746,
      "step": 9400
    },
    {
      "epoch": 0.012903296280164015,
      "grad_norm": 8.0625,
      "learning_rate": 6.450709994538504e-05,
      "loss": 1.3031,
      "step": 9450
    },
    {
      "epoch": 0.012971567689053772,
      "grad_norm": 9.0,
      "learning_rate": 6.484844347351174e-05,
      "loss": 1.2113,
      "step": 9500
    },
    {
      "epoch": 0.01303983909794353,
      "grad_norm": 10.5625,
      "learning_rate": 6.518978700163845e-05,
      "loss": 1.5255,
      "step": 9550
    },
    {
      "epoch": 0.013108110506833285,
      "grad_norm": 6.5,
      "learning_rate": 6.553113052976516e-05,
      "loss": 1.3687,
      "step": 9600
    },
    {
      "epoch": 0.013176381915723042,
      "grad_norm": 14.5,
      "learning_rate": 6.587247405789187e-05,
      "loss": 1.4028,
      "step": 9650
    },
    {
      "epoch": 0.013244653324612799,
      "grad_norm": 11.75,
      "learning_rate": 6.621381758601856e-05,
      "loss": 1.419,
      "step": 9700
    },
    {
      "epoch": 0.013312924733502556,
      "grad_norm": 12.6875,
      "learning_rate": 6.655516111414527e-05,
      "loss": 1.5586,
      "step": 9750
    },
    {
      "epoch": 0.013381196142392313,
      "grad_norm": 9.4375,
      "learning_rate": 6.689650464227199e-05,
      "loss": 1.446,
      "step": 9800
    },
    {
      "epoch": 0.013449467551282068,
      "grad_norm": 13.25,
      "learning_rate": 6.723784817039868e-05,
      "loss": 1.5687,
      "step": 9850
    },
    {
      "epoch": 0.013517738960171825,
      "grad_norm": 21.625,
      "learning_rate": 6.75791916985254e-05,
      "loss": 1.5028,
      "step": 9900
    },
    {
      "epoch": 0.013586010369061582,
      "grad_norm": 13.6875,
      "learning_rate": 6.79205352266521e-05,
      "loss": 1.3462,
      "step": 9950
    },
    {
      "epoch": 0.01365428177795134,
      "grad_norm": 8.375,
      "learning_rate": 6.826187875477881e-05,
      "loss": 1.6189,
      "step": 10000
    },
    {
      "epoch": 0.013722553186841095,
      "grad_norm": 13.25,
      "learning_rate": 6.860322228290552e-05,
      "loss": 1.4464,
      "step": 10050
    },
    {
      "epoch": 0.013790824595730852,
      "grad_norm": 9.5625,
      "learning_rate": 6.894456581103222e-05,
      "loss": 1.4823,
      "step": 10100
    },
    {
      "epoch": 0.013859096004620609,
      "grad_norm": 12.5,
      "learning_rate": 6.928590933915893e-05,
      "loss": 1.4166,
      "step": 10150
    },
    {
      "epoch": 0.013927367413510366,
      "grad_norm": 6.78125,
      "learning_rate": 6.962725286728564e-05,
      "loss": 1.424,
      "step": 10200
    },
    {
      "epoch": 0.013995638822400123,
      "grad_norm": 16.375,
      "learning_rate": 6.996859639541235e-05,
      "loss": 1.4416,
      "step": 10250
    },
    {
      "epoch": 0.014063910231289879,
      "grad_norm": 16.0,
      "learning_rate": 7.030993992353905e-05,
      "loss": 1.4639,
      "step": 10300
    },
    {
      "epoch": 0.014132181640179636,
      "grad_norm": 12.6875,
      "learning_rate": 7.065128345166576e-05,
      "loss": 1.7071,
      "step": 10350
    },
    {
      "epoch": 0.014200453049069393,
      "grad_norm": 6.3125,
      "learning_rate": 7.099262697979247e-05,
      "loss": 1.3783,
      "step": 10400
    },
    {
      "epoch": 0.01426872445795915,
      "grad_norm": 9.625,
      "learning_rate": 7.133397050791916e-05,
      "loss": 1.3332,
      "step": 10450
    },
    {
      "epoch": 0.014336995866848905,
      "grad_norm": 6.71875,
      "learning_rate": 7.167531403604589e-05,
      "loss": 1.5182,
      "step": 10500
    },
    {
      "epoch": 0.014405267275738662,
      "grad_norm": 13.3125,
      "learning_rate": 7.201665756417258e-05,
      "loss": 1.4109,
      "step": 10550
    },
    {
      "epoch": 0.01447353868462842,
      "grad_norm": 10.25,
      "learning_rate": 7.23580010922993e-05,
      "loss": 1.4153,
      "step": 10600
    },
    {
      "epoch": 0.014541810093518176,
      "grad_norm": 12.125,
      "learning_rate": 7.2699344620426e-05,
      "loss": 1.3785,
      "step": 10650
    },
    {
      "epoch": 0.014610081502407933,
      "grad_norm": 7.0,
      "learning_rate": 7.30406881485527e-05,
      "loss": 1.3664,
      "step": 10700
    },
    {
      "epoch": 0.014678352911297689,
      "grad_norm": 17.25,
      "learning_rate": 7.338203167667942e-05,
      "loss": 1.6136,
      "step": 10750
    },
    {
      "epoch": 0.014746624320187446,
      "grad_norm": 6.90625,
      "learning_rate": 7.372337520480612e-05,
      "loss": 1.4629,
      "step": 10800
    },
    {
      "epoch": 0.014814895729077203,
      "grad_norm": 17.0,
      "learning_rate": 7.406471873293283e-05,
      "loss": 1.4352,
      "step": 10850
    },
    {
      "epoch": 0.01488316713796696,
      "grad_norm": 12.0625,
      "learning_rate": 7.440606226105954e-05,
      "loss": 1.6236,
      "step": 10900
    },
    {
      "epoch": 0.014951438546856715,
      "grad_norm": 30.0,
      "learning_rate": 7.474740578918624e-05,
      "loss": 1.5277,
      "step": 10950
    },
    {
      "epoch": 0.015019709955746472,
      "grad_norm": 8.4375,
      "learning_rate": 7.508874931731295e-05,
      "loss": 1.5255,
      "step": 11000
    },
    {
      "epoch": 0.01508798136463623,
      "grad_norm": 12.875,
      "learning_rate": 7.543009284543966e-05,
      "loss": 1.6176,
      "step": 11050
    },
    {
      "epoch": 0.015156252773525987,
      "grad_norm": 13.25,
      "learning_rate": 7.577143637356637e-05,
      "loss": 1.7685,
      "step": 11100
    },
    {
      "epoch": 0.015224524182415744,
      "grad_norm": 8.75,
      "learning_rate": 7.611277990169306e-05,
      "loss": 1.4133,
      "step": 11150
    },
    {
      "epoch": 0.015292795591305499,
      "grad_norm": 8.25,
      "learning_rate": 7.645412342981977e-05,
      "loss": 1.3288,
      "step": 11200
    },
    {
      "epoch": 0.015361067000195256,
      "grad_norm": 21.375,
      "learning_rate": 7.679546695794648e-05,
      "loss": 1.4535,
      "step": 11250
    },
    {
      "epoch": 0.015429338409085013,
      "grad_norm": 12.625,
      "learning_rate": 7.713681048607318e-05,
      "loss": 1.3621,
      "step": 11300
    },
    {
      "epoch": 0.01549760981797477,
      "grad_norm": 13.0,
      "learning_rate": 7.74781540141999e-05,
      "loss": 1.4759,
      "step": 11350
    },
    {
      "epoch": 0.015565881226864526,
      "grad_norm": 8.0,
      "learning_rate": 7.78194975423266e-05,
      "loss": 1.8005,
      "step": 11400
    },
    {
      "epoch": 0.015634152635754284,
      "grad_norm": 10.375,
      "learning_rate": 7.816084107045331e-05,
      "loss": 1.3829,
      "step": 11450
    },
    {
      "epoch": 0.015702424044644038,
      "grad_norm": 7.84375,
      "learning_rate": 7.850218459858002e-05,
      "loss": 1.5725,
      "step": 11500
    },
    {
      "epoch": 0.015770695453533795,
      "grad_norm": 13.0625,
      "learning_rate": 7.884352812670672e-05,
      "loss": 1.6918,
      "step": 11550
    },
    {
      "epoch": 0.015838966862423552,
      "grad_norm": 15.0,
      "learning_rate": 7.918487165483343e-05,
      "loss": 1.5558,
      "step": 11600
    },
    {
      "epoch": 0.01590723827131331,
      "grad_norm": 12.3125,
      "learning_rate": 7.952621518296014e-05,
      "loss": 1.5147,
      "step": 11650
    },
    {
      "epoch": 0.015975509680203066,
      "grad_norm": 11.9375,
      "learning_rate": 7.986755871108685e-05,
      "loss": 1.3784,
      "step": 11700
    },
    {
      "epoch": 0.016043781089092823,
      "grad_norm": 7.09375,
      "learning_rate": 8.020890223921355e-05,
      "loss": 1.7875,
      "step": 11750
    },
    {
      "epoch": 0.01611205249798258,
      "grad_norm": 6.40625,
      "learning_rate": 8.055024576734026e-05,
      "loss": 1.4018,
      "step": 11800
    },
    {
      "epoch": 0.016180323906872338,
      "grad_norm": 12.0,
      "learning_rate": 8.089158929546697e-05,
      "loss": 1.3329,
      "step": 11850
    },
    {
      "epoch": 0.016248595315762095,
      "grad_norm": 11.75,
      "learning_rate": 8.123293282359366e-05,
      "loss": 1.4503,
      "step": 11900
    },
    {
      "epoch": 0.016316866724651848,
      "grad_norm": 21.375,
      "learning_rate": 8.157427635172039e-05,
      "loss": 1.4581,
      "step": 11950
    },
    {
      "epoch": 0.016385138133541605,
      "grad_norm": 9.375,
      "learning_rate": 8.191561987984708e-05,
      "loss": 1.6102,
      "step": 12000
    },
    {
      "epoch": 0.016453409542431362,
      "grad_norm": 16.0,
      "learning_rate": 8.225696340797379e-05,
      "loss": 1.402,
      "step": 12050
    },
    {
      "epoch": 0.01652168095132112,
      "grad_norm": 10.25,
      "learning_rate": 8.25983069361005e-05,
      "loss": 1.655,
      "step": 12100
    },
    {
      "epoch": 0.016589952360210877,
      "grad_norm": 23.0,
      "learning_rate": 8.29396504642272e-05,
      "loss": 1.3354,
      "step": 12150
    },
    {
      "epoch": 0.016658223769100634,
      "grad_norm": 11.1875,
      "learning_rate": 8.328099399235391e-05,
      "loss": 1.3456,
      "step": 12200
    },
    {
      "epoch": 0.01672649517799039,
      "grad_norm": 12.4375,
      "learning_rate": 8.362233752048062e-05,
      "loss": 1.4606,
      "step": 12250
    },
    {
      "epoch": 0.016794766586880148,
      "grad_norm": 9.9375,
      "learning_rate": 8.396368104860733e-05,
      "loss": 1.5258,
      "step": 12300
    },
    {
      "epoch": 0.016863037995769905,
      "grad_norm": 14.0625,
      "learning_rate": 8.430502457673403e-05,
      "loss": 1.743,
      "step": 12350
    },
    {
      "epoch": 0.01693130940465966,
      "grad_norm": 7.71875,
      "learning_rate": 8.464636810486074e-05,
      "loss": 1.3743,
      "step": 12400
    },
    {
      "epoch": 0.016999580813549416,
      "grad_norm": 18.75,
      "learning_rate": 8.498771163298745e-05,
      "loss": 1.6004,
      "step": 12450
    },
    {
      "epoch": 0.017067852222439173,
      "grad_norm": 6.5625,
      "learning_rate": 8.532905516111414e-05,
      "loss": 1.4443,
      "step": 12500
    },
    {
      "epoch": 0.01713612363132893,
      "grad_norm": 9.5625,
      "learning_rate": 8.567039868924087e-05,
      "loss": 1.5309,
      "step": 12550
    },
    {
      "epoch": 0.017204395040218687,
      "grad_norm": 11.875,
      "learning_rate": 8.601174221736756e-05,
      "loss": 1.568,
      "step": 12600
    },
    {
      "epoch": 0.017272666449108444,
      "grad_norm": 7.0625,
      "learning_rate": 8.635308574549426e-05,
      "loss": 1.3532,
      "step": 12650
    },
    {
      "epoch": 0.0173409378579982,
      "grad_norm": 7.03125,
      "learning_rate": 8.669442927362098e-05,
      "loss": 1.438,
      "step": 12700
    },
    {
      "epoch": 0.017409209266887958,
      "grad_norm": 21.625,
      "learning_rate": 8.703577280174768e-05,
      "loss": 1.4408,
      "step": 12750
    },
    {
      "epoch": 0.017477480675777715,
      "grad_norm": 7.125,
      "learning_rate": 8.737711632987439e-05,
      "loss": 1.4448,
      "step": 12800
    },
    {
      "epoch": 0.01754575208466747,
      "grad_norm": 9.375,
      "learning_rate": 8.77184598580011e-05,
      "loss": 1.5588,
      "step": 12850
    },
    {
      "epoch": 0.017614023493557226,
      "grad_norm": 7.53125,
      "learning_rate": 8.80598033861278e-05,
      "loss": 1.3721,
      "step": 12900
    },
    {
      "epoch": 0.017682294902446983,
      "grad_norm": 12.5,
      "learning_rate": 8.840114691425451e-05,
      "loss": 1.4389,
      "step": 12950
    },
    {
      "epoch": 0.01775056631133674,
      "grad_norm": 8.375,
      "learning_rate": 8.874249044238122e-05,
      "loss": 1.403,
      "step": 13000
    },
    {
      "epoch": 0.017818837720226497,
      "grad_norm": 9.8125,
      "learning_rate": 8.908383397050793e-05,
      "loss": 1.3344,
      "step": 13050
    },
    {
      "epoch": 0.017887109129116254,
      "grad_norm": 10.0625,
      "learning_rate": 8.942517749863462e-05,
      "loss": 1.6082,
      "step": 13100
    },
    {
      "epoch": 0.01795538053800601,
      "grad_norm": 13.0,
      "learning_rate": 8.976652102676133e-05,
      "loss": 1.356,
      "step": 13150
    },
    {
      "epoch": 0.01802365194689577,
      "grad_norm": 15.8125,
      "learning_rate": 9.010786455488804e-05,
      "loss": 1.5025,
      "step": 13200
    },
    {
      "epoch": 0.018091923355785525,
      "grad_norm": 11.875,
      "learning_rate": 9.044920808301474e-05,
      "loss": 1.3516,
      "step": 13250
    },
    {
      "epoch": 0.01816019476467528,
      "grad_norm": 9.1875,
      "learning_rate": 9.079055161114146e-05,
      "loss": 1.3036,
      "step": 13300
    },
    {
      "epoch": 0.018228466173565036,
      "grad_norm": 8.875,
      "learning_rate": 9.113189513926816e-05,
      "loss": 1.3453,
      "step": 13350
    },
    {
      "epoch": 0.018296737582454793,
      "grad_norm": 7.0,
      "learning_rate": 9.147323866739487e-05,
      "loss": 1.4139,
      "step": 13400
    },
    {
      "epoch": 0.01836500899134455,
      "grad_norm": 11.0,
      "learning_rate": 9.181458219552158e-05,
      "loss": 1.471,
      "step": 13450
    },
    {
      "epoch": 0.018433280400234307,
      "grad_norm": 5.21875,
      "learning_rate": 9.215592572364828e-05,
      "loss": 1.4074,
      "step": 13500
    },
    {
      "epoch": 0.018501551809124064,
      "grad_norm": 11.375,
      "learning_rate": 9.249726925177499e-05,
      "loss": 1.226,
      "step": 13550
    },
    {
      "epoch": 0.01856982321801382,
      "grad_norm": 8.75,
      "learning_rate": 9.28386127799017e-05,
      "loss": 1.3654,
      "step": 13600
    },
    {
      "epoch": 0.01863809462690358,
      "grad_norm": 13.9375,
      "learning_rate": 9.317995630802841e-05,
      "loss": 1.492,
      "step": 13650
    },
    {
      "epoch": 0.018706366035793336,
      "grad_norm": 5.59375,
      "learning_rate": 9.35212998361551e-05,
      "loss": 1.3356,
      "step": 13700
    },
    {
      "epoch": 0.01877463744468309,
      "grad_norm": 11.9375,
      "learning_rate": 9.386264336428182e-05,
      "loss": 1.383,
      "step": 13750
    },
    {
      "epoch": 0.018842908853572846,
      "grad_norm": 9.75,
      "learning_rate": 9.420398689240853e-05,
      "loss": 1.5239,
      "step": 13800
    },
    {
      "epoch": 0.018911180262462603,
      "grad_norm": 29.25,
      "learning_rate": 9.454533042053522e-05,
      "loss": 1.3737,
      "step": 13850
    },
    {
      "epoch": 0.01897945167135236,
      "grad_norm": 7.71875,
      "learning_rate": 9.488667394866195e-05,
      "loss": 1.4215,
      "step": 13900
    },
    {
      "epoch": 0.019047723080242118,
      "grad_norm": 12.625,
      "learning_rate": 9.522801747678864e-05,
      "loss": 1.2923,
      "step": 13950
    },
    {
      "epoch": 0.019115994489131875,
      "grad_norm": 5.625,
      "learning_rate": 9.556936100491535e-05,
      "loss": 1.2537,
      "step": 14000
    },
    {
      "epoch": 0.01918426589802163,
      "grad_norm": 11.25,
      "learning_rate": 9.591070453304206e-05,
      "loss": 1.2703,
      "step": 14050
    },
    {
      "epoch": 0.01925253730691139,
      "grad_norm": 5.21875,
      "learning_rate": 9.625204806116876e-05,
      "loss": 1.3219,
      "step": 14100
    },
    {
      "epoch": 0.019320808715801146,
      "grad_norm": 6.8125,
      "learning_rate": 9.659339158929547e-05,
      "loss": 1.3134,
      "step": 14150
    },
    {
      "epoch": 0.0193890801246909,
      "grad_norm": 12.125,
      "learning_rate": 9.693473511742218e-05,
      "loss": 1.4189,
      "step": 14200
    },
    {
      "epoch": 0.019457351533580657,
      "grad_norm": 16.0,
      "learning_rate": 9.727607864554889e-05,
      "loss": 1.4935,
      "step": 14250
    },
    {
      "epoch": 0.019525622942470414,
      "grad_norm": 8.25,
      "learning_rate": 9.761742217367559e-05,
      "loss": 1.5132,
      "step": 14300
    },
    {
      "epoch": 0.01959389435136017,
      "grad_norm": 7.4375,
      "learning_rate": 9.79587657018023e-05,
      "loss": 1.6266,
      "step": 14350
    },
    {
      "epoch": 0.019662165760249928,
      "grad_norm": 6.625,
      "learning_rate": 9.8300109229929e-05,
      "loss": 1.2938,
      "step": 14400
    },
    {
      "epoch": 0.019730437169139685,
      "grad_norm": 12.375,
      "learning_rate": 9.86414527580557e-05,
      "loss": 1.1987,
      "step": 14450
    },
    {
      "epoch": 0.019798708578029442,
      "grad_norm": 10.125,
      "learning_rate": 9.898279628618243e-05,
      "loss": 1.2759,
      "step": 14500
    },
    {
      "epoch": 0.0198669799869192,
      "grad_norm": 9.5625,
      "learning_rate": 9.932413981430912e-05,
      "loss": 1.2044,
      "step": 14550
    },
    {
      "epoch": 0.019935251395808956,
      "grad_norm": 7.40625,
      "learning_rate": 9.966548334243583e-05,
      "loss": 1.2883,
      "step": 14600
    },
    {
      "epoch": 0.02000352280469871,
      "grad_norm": 7.84375,
      "learning_rate": 9.9999999999521e-05,
      "loss": 1.3889,
      "step": 14650
    },
    {
      "epoch": 0.020071794213588467,
      "grad_norm": 6.6875,
      "learning_rate": 9.999999875414822e-05,
      "loss": 1.1889,
      "step": 14700
    },
    {
      "epoch": 0.020140065622478224,
      "grad_norm": 8.625,
      "learning_rate": 9.999999511382782e-05,
      "loss": 1.2904,
      "step": 14750
    },
    {
      "epoch": 0.02020833703136798,
      "grad_norm": 6.0,
      "learning_rate": 9.999998907855997e-05,
      "loss": 1.2598,
      "step": 14800
    },
    {
      "epoch": 0.020276608440257738,
      "grad_norm": 12.625,
      "learning_rate": 9.999998064834499e-05,
      "loss": 1.4029,
      "step": 14850
    },
    {
      "epoch": 0.020344879849147495,
      "grad_norm": 7.90625,
      "learning_rate": 9.999996982318324e-05,
      "loss": 1.3606,
      "step": 14900
    },
    {
      "epoch": 0.020413151258037252,
      "grad_norm": 6.40625,
      "learning_rate": 9.999995660307528e-05,
      "loss": 1.5118,
      "step": 14950
    },
    {
      "epoch": 0.02048142266692701,
      "grad_norm": 7.03125,
      "learning_rate": 9.99999409880217e-05,
      "loss": 1.4183,
      "step": 15000
    },
    {
      "epoch": 0.020549694075816766,
      "grad_norm": 6.21875,
      "learning_rate": 9.999992297802329e-05,
      "loss": 1.2812,
      "step": 15050
    },
    {
      "epoch": 0.02061796548470652,
      "grad_norm": 9.875,
      "learning_rate": 9.999990257308089e-05,
      "loss": 1.2445,
      "step": 15100
    },
    {
      "epoch": 0.020686236893596277,
      "grad_norm": 14.9375,
      "learning_rate": 9.999987977319549e-05,
      "loss": 1.3961,
      "step": 15150
    },
    {
      "epoch": 0.020754508302486034,
      "grad_norm": 8.3125,
      "learning_rate": 9.999985457836818e-05,
      "loss": 1.4531,
      "step": 15200
    },
    {
      "epoch": 0.02082277971137579,
      "grad_norm": 5.65625,
      "learning_rate": 9.999982698860015e-05,
      "loss": 1.442,
      "step": 15250
    },
    {
      "epoch": 0.02089105112026555,
      "grad_norm": 5.71875,
      "learning_rate": 9.999979700389272e-05,
      "loss": 1.1203,
      "step": 15300
    },
    {
      "epoch": 0.020959322529155305,
      "grad_norm": 8.125,
      "learning_rate": 9.999976462424737e-05,
      "loss": 1.3996,
      "step": 15350
    },
    {
      "epoch": 0.021027593938045062,
      "grad_norm": 5.5625,
      "learning_rate": 9.999972984966561e-05,
      "loss": 1.1626,
      "step": 15400
    },
    {
      "epoch": 0.02109586534693482,
      "grad_norm": 14.4375,
      "learning_rate": 9.999969268014911e-05,
      "loss": 1.4165,
      "step": 15450
    },
    {
      "epoch": 0.021164136755824577,
      "grad_norm": 7.90625,
      "learning_rate": 9.999965311569965e-05,
      "loss": 1.5716,
      "step": 15500
    },
    {
      "epoch": 0.021232408164714334,
      "grad_norm": 6.65625,
      "learning_rate": 9.999961115631914e-05,
      "loss": 1.2615,
      "step": 15550
    },
    {
      "epoch": 0.021300679573604087,
      "grad_norm": 5.75,
      "learning_rate": 9.999956680200959e-05,
      "loss": 1.1709,
      "step": 15600
    },
    {
      "epoch": 0.021368950982493844,
      "grad_norm": 11.125,
      "learning_rate": 9.99995200527731e-05,
      "loss": 1.4408,
      "step": 15650
    },
    {
      "epoch": 0.0214372223913836,
      "grad_norm": 6.25,
      "learning_rate": 9.999947090861195e-05,
      "loss": 1.2158,
      "step": 15700
    },
    {
      "epoch": 0.02150549380027336,
      "grad_norm": 6.46875,
      "learning_rate": 9.999941936952843e-05,
      "loss": 1.3653,
      "step": 15750
    },
    {
      "epoch": 0.021573765209163116,
      "grad_norm": 5.4375,
      "learning_rate": 9.999936543552508e-05,
      "loss": 1.2024,
      "step": 15800
    },
    {
      "epoch": 0.021642036618052873,
      "grad_norm": 10.0,
      "learning_rate": 9.999930910660445e-05,
      "loss": 1.2737,
      "step": 15850
    },
    {
      "epoch": 0.02171030802694263,
      "grad_norm": 5.84375,
      "learning_rate": 9.999925038276922e-05,
      "loss": 1.2085,
      "step": 15900
    },
    {
      "epoch": 0.021778579435832387,
      "grad_norm": 13.1875,
      "learning_rate": 9.999918926402224e-05,
      "loss": 1.1154,
      "step": 15950
    },
    {
      "epoch": 0.021846850844722144,
      "grad_norm": 6.46875,
      "learning_rate": 9.999912575036641e-05,
      "loss": 1.3405,
      "step": 16000
    },
    {
      "epoch": 0.021915122253611898,
      "grad_norm": 6.3125,
      "learning_rate": 9.999905984180477e-05,
      "loss": 1.4543,
      "step": 16050
    },
    {
      "epoch": 0.021983393662501655,
      "grad_norm": 6.78125,
      "learning_rate": 9.999899153834052e-05,
      "loss": 1.2388,
      "step": 16100
    },
    {
      "epoch": 0.02205166507139141,
      "grad_norm": 9.0625,
      "learning_rate": 9.999892083997689e-05,
      "loss": 1.2766,
      "step": 16150
    },
    {
      "epoch": 0.02211993648028117,
      "grad_norm": 4.9375,
      "learning_rate": 9.999884774671727e-05,
      "loss": 1.1315,
      "step": 16200
    },
    {
      "epoch": 0.022188207889170926,
      "grad_norm": 10.8125,
      "learning_rate": 9.999877225856515e-05,
      "loss": 1.1707,
      "step": 16250
    },
    {
      "epoch": 0.022256479298060683,
      "grad_norm": 7.21875,
      "learning_rate": 9.999869437552419e-05,
      "loss": 1.3146,
      "step": 16300
    },
    {
      "epoch": 0.02232475070695044,
      "grad_norm": 11.125,
      "learning_rate": 9.999861409759809e-05,
      "loss": 1.3346,
      "step": 16350
    },
    {
      "epoch": 0.022393022115840197,
      "grad_norm": 10.5625,
      "learning_rate": 9.99985314247907e-05,
      "loss": 1.1505,
      "step": 16400
    },
    {
      "epoch": 0.022461293524729954,
      "grad_norm": 7.5625,
      "learning_rate": 9.999844635710597e-05,
      "loss": 1.3094,
      "step": 16450
    },
    {
      "epoch": 0.022529564933619708,
      "grad_norm": 10.1875,
      "learning_rate": 9.999835889454798e-05,
      "loss": 1.2576,
      "step": 16500
    },
    {
      "epoch": 0.022597836342509465,
      "grad_norm": 4.9375,
      "learning_rate": 9.999826903712094e-05,
      "loss": 1.2767,
      "step": 16550
    },
    {
      "epoch": 0.022666107751399222,
      "grad_norm": 4.625,
      "learning_rate": 9.999817678482914e-05,
      "loss": 1.157,
      "step": 16600
    },
    {
      "epoch": 0.02273437916028898,
      "grad_norm": 13.375,
      "learning_rate": 9.999808213767699e-05,
      "loss": 1.3736,
      "step": 16650
    },
    {
      "epoch": 0.022802650569178736,
      "grad_norm": 5.96875,
      "learning_rate": 9.999798509566902e-05,
      "loss": 1.27,
      "step": 16700
    },
    {
      "epoch": 0.022870921978068493,
      "grad_norm": 17.75,
      "learning_rate": 9.999788565880989e-05,
      "loss": 1.2556,
      "step": 16750
    },
    {
      "epoch": 0.02293919338695825,
      "grad_norm": 7.375,
      "learning_rate": 9.999778382710436e-05,
      "loss": 1.377,
      "step": 16800
    },
    {
      "epoch": 0.023007464795848007,
      "grad_norm": 13.6875,
      "learning_rate": 9.999767960055732e-05,
      "loss": 1.1797,
      "step": 16850
    },
    {
      "epoch": 0.023075736204737764,
      "grad_norm": 5.21875,
      "learning_rate": 9.999757297917374e-05,
      "loss": 1.1392,
      "step": 16900
    },
    {
      "epoch": 0.023144007613627518,
      "grad_norm": 12.0,
      "learning_rate": 9.999746396295875e-05,
      "loss": 1.1648,
      "step": 16950
    },
    {
      "epoch": 0.023212279022517275,
      "grad_norm": 4.28125,
      "learning_rate": 9.999735255191756e-05,
      "loss": 1.0953,
      "step": 17000
    },
    {
      "epoch": 0.023280550431407032,
      "grad_norm": 7.65625,
      "learning_rate": 9.999723874605549e-05,
      "loss": 1.2114,
      "step": 17050
    },
    {
      "epoch": 0.02334882184029679,
      "grad_norm": 6.09375,
      "learning_rate": 9.9997122545378e-05,
      "loss": 1.1865,
      "step": 17100
    },
    {
      "epoch": 0.023417093249186546,
      "grad_norm": 5.90625,
      "learning_rate": 9.999700394989069e-05,
      "loss": 1.1546,
      "step": 17150
    },
    {
      "epoch": 0.023485364658076303,
      "grad_norm": 8.9375,
      "learning_rate": 9.999688295959922e-05,
      "loss": 1.0459,
      "step": 17200
    },
    {
      "epoch": 0.02355363606696606,
      "grad_norm": 7.09375,
      "learning_rate": 9.999675957450935e-05,
      "loss": 1.4209,
      "step": 17250
    },
    {
      "epoch": 0.023621907475855818,
      "grad_norm": 12.3125,
      "learning_rate": 9.999663379462702e-05,
      "loss": 1.2082,
      "step": 17300
    },
    {
      "epoch": 0.023690178884745575,
      "grad_norm": 6.34375,
      "learning_rate": 9.999650561995828e-05,
      "loss": 1.0822,
      "step": 17350
    },
    {
      "epoch": 0.023758450293635328,
      "grad_norm": 5.75,
      "learning_rate": 9.999637505050923e-05,
      "loss": 1.0204,
      "step": 17400
    },
    {
      "epoch": 0.023826721702525085,
      "grad_norm": 4.5625,
      "learning_rate": 9.999624208628613e-05,
      "loss": 1.2709,
      "step": 17450
    },
    {
      "epoch": 0.023894993111414842,
      "grad_norm": 7.28125,
      "learning_rate": 9.999610672729537e-05,
      "loss": 1.1041,
      "step": 17500
    },
    {
      "epoch": 0.0239632645203046,
      "grad_norm": 4.03125,
      "learning_rate": 9.99959689735434e-05,
      "loss": 1.0832,
      "step": 17550
    },
    {
      "epoch": 0.024031535929194357,
      "grad_norm": 4.90625,
      "learning_rate": 9.999582882503686e-05,
      "loss": 1.1095,
      "step": 17600
    },
    {
      "epoch": 0.024099807338084114,
      "grad_norm": 8.3125,
      "learning_rate": 9.999568628178244e-05,
      "loss": 1.1843,
      "step": 17650
    },
    {
      "epoch": 0.02416807874697387,
      "grad_norm": 4.6875,
      "learning_rate": 9.999554134378694e-05,
      "loss": 1.1424,
      "step": 17700
    },
    {
      "epoch": 0.024236350155863628,
      "grad_norm": 7.4375,
      "learning_rate": 9.999539401105738e-05,
      "loss": 1.1172,
      "step": 17750
    },
    {
      "epoch": 0.024304621564753385,
      "grad_norm": 10.125,
      "learning_rate": 9.999524428360072e-05,
      "loss": 1.1361,
      "step": 17800
    },
    {
      "epoch": 0.02437289297364314,
      "grad_norm": 6.0625,
      "learning_rate": 9.999509216142421e-05,
      "loss": 1.2406,
      "step": 17850
    },
    {
      "epoch": 0.024441164382532896,
      "grad_norm": 4.8125,
      "learning_rate": 9.999493764453509e-05,
      "loss": 1.1343,
      "step": 17900
    },
    {
      "epoch": 0.024509435791422653,
      "grad_norm": 8.125,
      "learning_rate": 9.99947807329408e-05,
      "loss": 1.1833,
      "step": 17950
    },
    {
      "epoch": 0.02457770720031241,
      "grad_norm": 6.03125,
      "learning_rate": 9.999462142664882e-05,
      "loss": 1.1754,
      "step": 18000
    },
    {
      "epoch": 0.024645978609202167,
      "grad_norm": 7.375,
      "learning_rate": 9.999445972566679e-05,
      "loss": 1.1709,
      "step": 18050
    },
    {
      "epoch": 0.024714250018091924,
      "grad_norm": 4.3125,
      "learning_rate": 9.999429563000246e-05,
      "loss": 1.1862,
      "step": 18100
    },
    {
      "epoch": 0.02478252142698168,
      "grad_norm": 10.4375,
      "learning_rate": 9.999412913966369e-05,
      "loss": 1.2038,
      "step": 18150
    },
    {
      "epoch": 0.024850792835871438,
      "grad_norm": 5.03125,
      "learning_rate": 9.999396025465845e-05,
      "loss": 1.2115,
      "step": 18200
    },
    {
      "epoch": 0.024919064244761195,
      "grad_norm": 12.9375,
      "learning_rate": 9.999378897499485e-05,
      "loss": 1.151,
      "step": 18250
    },
    {
      "epoch": 0.02498733565365095,
      "grad_norm": 5.8125,
      "learning_rate": 9.999361530068106e-05,
      "loss": 1.1185,
      "step": 18300
    },
    {
      "epoch": 0.025055607062540706,
      "grad_norm": 11.0,
      "learning_rate": 9.999343923172543e-05,
      "loss": 1.0781,
      "step": 18350
    },
    {
      "epoch": 0.025123878471430463,
      "grad_norm": 4.78125,
      "learning_rate": 9.999326076813638e-05,
      "loss": 1.0712,
      "step": 18400
    },
    {
      "epoch": 0.02519214988032022,
      "grad_norm": 8.0625,
      "learning_rate": 9.999307990992243e-05,
      "loss": 1.1889,
      "step": 18450
    },
    {
      "epoch": 0.025260421289209977,
      "grad_norm": 3.609375,
      "learning_rate": 9.99928966570923e-05,
      "loss": 1.1445,
      "step": 18500
    },
    {
      "epoch": 0.025328692698099734,
      "grad_norm": 6.1875,
      "learning_rate": 9.999271100965474e-05,
      "loss": 1.1914,
      "step": 18550
    },
    {
      "epoch": 0.02539696410698949,
      "grad_norm": 6.5,
      "learning_rate": 9.999252296761863e-05,
      "loss": 1.0861,
      "step": 18600
    },
    {
      "epoch": 0.02546523551587925,
      "grad_norm": 21.0,
      "learning_rate": 9.9992332530993e-05,
      "loss": 1.1753,
      "step": 18650
    },
    {
      "epoch": 0.025533506924769005,
      "grad_norm": 5.0,
      "learning_rate": 9.999213969978696e-05,
      "loss": 1.2014,
      "step": 18700
    },
    {
      "epoch": 0.02560177833365876,
      "grad_norm": 10.375,
      "learning_rate": 9.999194447400973e-05,
      "loss": 1.1655,
      "step": 18750
    },
    {
      "epoch": 0.025670049742548516,
      "grad_norm": 5.84375,
      "learning_rate": 9.999174685367069e-05,
      "loss": 1.1761,
      "step": 18800
    },
    {
      "epoch": 0.025738321151438273,
      "grad_norm": 8.1875,
      "learning_rate": 9.99915468387793e-05,
      "loss": 1.3246,
      "step": 18850
    },
    {
      "epoch": 0.02580659256032803,
      "grad_norm": 4.3125,
      "learning_rate": 9.99913444293451e-05,
      "loss": 1.111,
      "step": 18900
    },
    {
      "epoch": 0.025874863969217787,
      "grad_norm": 4.53125,
      "learning_rate": 9.999113962537785e-05,
      "loss": 1.0974,
      "step": 18950
    },
    {
      "epoch": 0.025943135378107544,
      "grad_norm": 6.0625,
      "learning_rate": 9.999093242688733e-05,
      "loss": 1.1264,
      "step": 19000
    },
    {
      "epoch": 0.0260114067869973,
      "grad_norm": 6.9375,
      "learning_rate": 9.999072283388344e-05,
      "loss": 1.1003,
      "step": 19050
    },
    {
      "epoch": 0.02607967819588706,
      "grad_norm": 5.25,
      "learning_rate": 9.999051084637628e-05,
      "loss": 1.2172,
      "step": 19100
    },
    {
      "epoch": 0.026147949604776816,
      "grad_norm": 9.125,
      "learning_rate": 9.999029646437593e-05,
      "loss": 1.1144,
      "step": 19150
    },
    {
      "epoch": 0.02621622101366657,
      "grad_norm": 4.96875,
      "learning_rate": 9.999007968789271e-05,
      "loss": 1.2226,
      "step": 19200
    },
    {
      "epoch": 0.026284492422556326,
      "grad_norm": 7.5,
      "learning_rate": 9.9989860516937e-05,
      "loss": 1.1726,
      "step": 19250
    },
    {
      "epoch": 0.026352763831446083,
      "grad_norm": 5.1875,
      "learning_rate": 9.998963895151927e-05,
      "loss": 0.9879,
      "step": 19300
    },
    {
      "epoch": 0.02642103524033584,
      "grad_norm": 8.0,
      "learning_rate": 9.998941499165016e-05,
      "loss": 1.1171,
      "step": 19350
    },
    {
      "epoch": 0.026489306649225598,
      "grad_norm": 4.59375,
      "learning_rate": 9.998918863734038e-05,
      "loss": 1.1372,
      "step": 19400
    },
    {
      "epoch": 0.026557578058115355,
      "grad_norm": 5.03125,
      "learning_rate": 9.998895988860078e-05,
      "loss": 1.0674,
      "step": 19450
    },
    {
      "epoch": 0.02662584946700511,
      "grad_norm": 9.125,
      "learning_rate": 9.998872874544232e-05,
      "loss": 1.1644,
      "step": 19500
    },
    {
      "epoch": 0.02669412087589487,
      "grad_norm": 5.875,
      "learning_rate": 9.998849520787605e-05,
      "loss": 1.0786,
      "step": 19550
    },
    {
      "epoch": 0.026762392284784626,
      "grad_norm": 4.53125,
      "learning_rate": 9.99882592759132e-05,
      "loss": 1.0682,
      "step": 19600
    },
    {
      "epoch": 0.02683066369367438,
      "grad_norm": 7.21875,
      "learning_rate": 9.998802094956503e-05,
      "loss": 1.1863,
      "step": 19650
    },
    {
      "epoch": 0.026898935102564137,
      "grad_norm": 4.1875,
      "learning_rate": 9.998778022884296e-05,
      "loss": 1.0588,
      "step": 19700
    },
    {
      "epoch": 0.026967206511453894,
      "grad_norm": 10.625,
      "learning_rate": 9.998753711375856e-05,
      "loss": 1.0643,
      "step": 19750
    },
    {
      "epoch": 0.02703547792034365,
      "grad_norm": 6.53125,
      "learning_rate": 9.998729160432343e-05,
      "loss": 1.0578,
      "step": 19800
    },
    {
      "epoch": 0.027103749329233408,
      "grad_norm": 6.125,
      "learning_rate": 9.998704370054934e-05,
      "loss": 1.1318,
      "step": 19850
    },
    {
      "epoch": 0.027172020738123165,
      "grad_norm": 4.46875,
      "learning_rate": 9.998679340244818e-05,
      "loss": 0.9701,
      "step": 19900
    },
    {
      "epoch": 0.027240292147012922,
      "grad_norm": 6.59375,
      "learning_rate": 9.998654071003191e-05,
      "loss": 1.1308,
      "step": 19950
    },
    {
      "epoch": 0.02730856355590268,
      "grad_norm": 4.6875,
      "learning_rate": 9.998628562331267e-05,
      "loss": 1.0051,
      "step": 20000
    },
    {
      "epoch": 0.027376834964792436,
      "grad_norm": 10.5,
      "learning_rate": 9.998602814230266e-05,
      "loss": 1.1147,
      "step": 20050
    },
    {
      "epoch": 0.02744510637368219,
      "grad_norm": 5.4375,
      "learning_rate": 9.99857682670142e-05,
      "loss": 1.0312,
      "step": 20100
    },
    {
      "epoch": 0.027513377782571947,
      "grad_norm": 6.96875,
      "learning_rate": 9.998550599745976e-05,
      "loss": 1.1102,
      "step": 20150
    },
    {
      "epoch": 0.027581649191461704,
      "grad_norm": 4.59375,
      "learning_rate": 9.99852413336519e-05,
      "loss": 1.0789,
      "step": 20200
    },
    {
      "epoch": 0.02764992060035146,
      "grad_norm": 4.46875,
      "learning_rate": 9.998497427560328e-05,
      "loss": 1.0872,
      "step": 20250
    },
    {
      "epoch": 0.027718192009241218,
      "grad_norm": 4.625,
      "learning_rate": 9.998470482332672e-05,
      "loss": 0.9912,
      "step": 20300
    },
    {
      "epoch": 0.027786463418130975,
      "grad_norm": 4.78125,
      "learning_rate": 9.998443297683509e-05,
      "loss": 1.1079,
      "step": 20350
    },
    {
      "epoch": 0.027854734827020732,
      "grad_norm": 3.71875,
      "learning_rate": 9.998415873614143e-05,
      "loss": 1.1797,
      "step": 20400
    },
    {
      "epoch": 0.02792300623591049,
      "grad_norm": 6.28125,
      "learning_rate": 9.998388210125888e-05,
      "loss": 1.1098,
      "step": 20450
    },
    {
      "epoch": 0.027991277644800246,
      "grad_norm": 4.65625,
      "learning_rate": 9.998360307220069e-05,
      "loss": 1.0327,
      "step": 20500
    },
    {
      "epoch": 0.02805954905369,
      "grad_norm": 8.875,
      "learning_rate": 9.998332164898023e-05,
      "loss": 1.0665,
      "step": 20550
    },
    {
      "epoch": 0.028127820462579757,
      "grad_norm": 4.4375,
      "learning_rate": 9.998303783161095e-05,
      "loss": 1.0034,
      "step": 20600
    },
    {
      "epoch": 0.028196091871469514,
      "grad_norm": 6.40625,
      "learning_rate": 9.998275162010648e-05,
      "loss": 1.0903,
      "step": 20650
    },
    {
      "epoch": 0.02826436328035927,
      "grad_norm": 8.375,
      "learning_rate": 9.998246301448054e-05,
      "loss": 1.063,
      "step": 20700
    },
    {
      "epoch": 0.02833263468924903,
      "grad_norm": 6.53125,
      "learning_rate": 9.99821720147469e-05,
      "loss": 1.0671,
      "step": 20750
    },
    {
      "epoch": 0.028400906098138785,
      "grad_norm": 4.8125,
      "learning_rate": 9.998187862091953e-05,
      "loss": 0.9838,
      "step": 20800
    },
    {
      "epoch": 0.028469177507028542,
      "grad_norm": 3.859375,
      "learning_rate": 9.998158283301247e-05,
      "loss": 0.957,
      "step": 20850
    },
    {
      "epoch": 0.0285374489159183,
      "grad_norm": 6.0,
      "learning_rate": 9.998128465103993e-05,
      "loss": 1.1477,
      "step": 20900
    },
    {
      "epoch": 0.028605720324808057,
      "grad_norm": 4.1875,
      "learning_rate": 9.998098407501612e-05,
      "loss": 1.0864,
      "step": 20950
    },
    {
      "epoch": 0.02867399173369781,
      "grad_norm": 4.8125,
      "learning_rate": 9.998068110495552e-05,
      "loss": 1.1466,
      "step": 21000
    },
    {
      "epoch": 0.028742263142587567,
      "grad_norm": 5.34375,
      "learning_rate": 9.998037574087258e-05,
      "loss": 1.0896,
      "step": 21050
    },
    {
      "epoch": 0.028810534551477324,
      "grad_norm": 8.625,
      "learning_rate": 9.998006798278195e-05,
      "loss": 1.0674,
      "step": 21100
    },
    {
      "epoch": 0.02887880596036708,
      "grad_norm": 5.125,
      "learning_rate": 9.997975783069837e-05,
      "loss": 1.075,
      "step": 21150
    },
    {
      "epoch": 0.02894707736925684,
      "grad_norm": 4.28125,
      "learning_rate": 9.99794452846367e-05,
      "loss": 0.9191,
      "step": 21200
    },
    {
      "epoch": 0.029015348778146596,
      "grad_norm": 4.5625,
      "learning_rate": 9.997913034461191e-05,
      "loss": 1.1066,
      "step": 21250
    },
    {
      "epoch": 0.029083620187036353,
      "grad_norm": 9.625,
      "learning_rate": 9.997881301063907e-05,
      "loss": 1.1748,
      "step": 21300
    },
    {
      "epoch": 0.02915189159592611,
      "grad_norm": 6.25,
      "learning_rate": 9.99784932827334e-05,
      "loss": 1.0665,
      "step": 21350
    },
    {
      "epoch": 0.029220163004815867,
      "grad_norm": 5.3125,
      "learning_rate": 9.997817116091019e-05,
      "loss": 1.0748,
      "step": 21400
    },
    {
      "epoch": 0.02928843441370562,
      "grad_norm": 4.9375,
      "learning_rate": 9.99778466451849e-05,
      "loss": 1.066,
      "step": 21450
    },
    {
      "epoch": 0.029356705822595378,
      "grad_norm": 4.375,
      "learning_rate": 9.997751973557306e-05,
      "loss": 1.0898,
      "step": 21500
    },
    {
      "epoch": 0.029424977231485135,
      "grad_norm": 5.6875,
      "learning_rate": 9.997719043209031e-05,
      "loss": 0.9643,
      "step": 21550
    },
    {
      "epoch": 0.02949324864037489,
      "grad_norm": 5.03125,
      "learning_rate": 9.997685873475246e-05,
      "loss": 1.0586,
      "step": 21600
    },
    {
      "epoch": 0.02956152004926465,
      "grad_norm": 7.125,
      "learning_rate": 9.997652464357536e-05,
      "loss": 1.0771,
      "step": 21650
    },
    {
      "epoch": 0.029629791458154406,
      "grad_norm": 9.4375,
      "learning_rate": 9.997618815857504e-05,
      "loss": 0.9696,
      "step": 21700
    },
    {
      "epoch": 0.029698062867044163,
      "grad_norm": 4.9375,
      "learning_rate": 9.997584927976762e-05,
      "loss": 1.1128,
      "step": 21750
    },
    {
      "epoch": 0.02976633427593392,
      "grad_norm": 3.984375,
      "learning_rate": 9.997550800716931e-05,
      "loss": 1.1134,
      "step": 21800
    },
    {
      "epoch": 0.029834605684823677,
      "grad_norm": 4.34375,
      "learning_rate": 9.997516434079647e-05,
      "loss": 1.0827,
      "step": 21850
    },
    {
      "epoch": 0.02990287709371343,
      "grad_norm": 4.5,
      "learning_rate": 9.997481828066555e-05,
      "loss": 1.0413,
      "step": 21900
    },
    {
      "epoch": 0.029971148502603188,
      "grad_norm": 4.34375,
      "learning_rate": 9.997446982679314e-05,
      "loss": 1.1115,
      "step": 21950
    },
    {
      "epoch": 0.030039419911492945,
      "grad_norm": 5.09375,
      "learning_rate": 9.997411897919594e-05,
      "loss": 1.0399,
      "step": 22000
    },
    {
      "epoch": 0.030107691320382702,
      "grad_norm": 5.84375,
      "learning_rate": 9.997376573789071e-05,
      "loss": 1.0381,
      "step": 22050
    },
    {
      "epoch": 0.03017596272927246,
      "grad_norm": 3.640625,
      "learning_rate": 9.997341010289442e-05,
      "loss": 1.063,
      "step": 22100
    },
    {
      "epoch": 0.030244234138162216,
      "grad_norm": 5.40625,
      "learning_rate": 9.997305207422407e-05,
      "loss": 1.0685,
      "step": 22150
    },
    {
      "epoch": 0.030312505547051973,
      "grad_norm": 3.484375,
      "learning_rate": 9.997269165189685e-05,
      "loss": 1.1062,
      "step": 22200
    },
    {
      "epoch": 0.03038077695594173,
      "grad_norm": 5.03125,
      "learning_rate": 9.997232883592997e-05,
      "loss": 1.1888,
      "step": 22250
    },
    {
      "epoch": 0.030449048364831487,
      "grad_norm": 4.3125,
      "learning_rate": 9.997196362634085e-05,
      "loss": 1.0514,
      "step": 22300
    },
    {
      "epoch": 0.03051731977372124,
      "grad_norm": 7.34375,
      "learning_rate": 9.997159602314696e-05,
      "loss": 0.9803,
      "step": 22350
    },
    {
      "epoch": 0.030585591182610998,
      "grad_norm": 4.6875,
      "learning_rate": 9.997122602636593e-05,
      "loss": 1.1427,
      "step": 22400
    },
    {
      "epoch": 0.030653862591500755,
      "grad_norm": 3.984375,
      "learning_rate": 9.997085363601545e-05,
      "loss": 1.0772,
      "step": 22450
    },
    {
      "epoch": 0.030722134000390512,
      "grad_norm": 8.1875,
      "learning_rate": 9.997047885211339e-05,
      "loss": 1.0318,
      "step": 22500
    },
    {
      "epoch": 0.03079040540928027,
      "grad_norm": 5.5625,
      "learning_rate": 9.997010167467769e-05,
      "loss": 1.0531,
      "step": 22550
    },
    {
      "epoch": 0.030858676818170026,
      "grad_norm": 4.625,
      "learning_rate": 9.996972210372641e-05,
      "loss": 0.9576,
      "step": 22600
    },
    {
      "epoch": 0.030926948227059783,
      "grad_norm": 6.1875,
      "learning_rate": 9.996934013927774e-05,
      "loss": 1.1573,
      "step": 22650
    },
    {
      "epoch": 0.03099521963594954,
      "grad_norm": 8.625,
      "learning_rate": 9.996895578134997e-05,
      "loss": 1.0959,
      "step": 22700
    },
    {
      "epoch": 0.031063491044839298,
      "grad_norm": 5.5625,
      "learning_rate": 9.99685690299615e-05,
      "loss": 1.1653,
      "step": 22750
    },
    {
      "epoch": 0.03113176245372905,
      "grad_norm": 8.25,
      "learning_rate": 9.996817988513087e-05,
      "loss": 1.0287,
      "step": 22800
    },
    {
      "epoch": 0.031200033862618808,
      "grad_norm": 4.3125,
      "learning_rate": 9.996778834687674e-05,
      "loss": 1.0117,
      "step": 22850
    },
    {
      "epoch": 0.03126830527150857,
      "grad_norm": 3.921875,
      "learning_rate": 9.996739441521783e-05,
      "loss": 1.0644,
      "step": 22900
    },
    {
      "epoch": 0.031336576680398326,
      "grad_norm": 6.40625,
      "learning_rate": 9.996699809017301e-05,
      "loss": 0.9906,
      "step": 22950
    },
    {
      "epoch": 0.031404848089288076,
      "grad_norm": 4.25,
      "learning_rate": 9.996659937176127e-05,
      "loss": 0.9601,
      "step": 23000
    },
    {
      "epoch": 0.03147311949817783,
      "grad_norm": 4.625,
      "learning_rate": 9.996619826000172e-05,
      "loss": 1.1839,
      "step": 23050
    },
    {
      "epoch": 0.03154139090706759,
      "grad_norm": 4.25,
      "learning_rate": 9.996579475491357e-05,
      "loss": 1.0806,
      "step": 23100
    },
    {
      "epoch": 0.03160966231595735,
      "grad_norm": 4.84375,
      "learning_rate": 9.996538885651612e-05,
      "loss": 0.9597,
      "step": 23150
    },
    {
      "epoch": 0.031677933724847104,
      "grad_norm": 3.875,
      "learning_rate": 9.996498056482886e-05,
      "loss": 0.9774,
      "step": 23200
    },
    {
      "epoch": 0.03174620513373686,
      "grad_norm": 5.4375,
      "learning_rate": 9.99645698798713e-05,
      "loss": 1.15,
      "step": 23250
    },
    {
      "epoch": 0.03181447654262662,
      "grad_norm": 3.640625,
      "learning_rate": 9.996415680166315e-05,
      "loss": 0.9833,
      "step": 23300
    },
    {
      "epoch": 0.031882747951516376,
      "grad_norm": 4.75,
      "learning_rate": 9.996374133022417e-05,
      "loss": 0.9388,
      "step": 23350
    },
    {
      "epoch": 0.03195101936040613,
      "grad_norm": 3.984375,
      "learning_rate": 9.996332346557426e-05,
      "loss": 0.995,
      "step": 23400
    },
    {
      "epoch": 0.03201929076929589,
      "grad_norm": 9.0625,
      "learning_rate": 9.996290320773345e-05,
      "loss": 0.9797,
      "step": 23450
    },
    {
      "epoch": 0.03208756217818565,
      "grad_norm": 3.59375,
      "learning_rate": 9.996248055672186e-05,
      "loss": 0.9726,
      "step": 23500
    },
    {
      "epoch": 0.032155833587075404,
      "grad_norm": 4.84375,
      "learning_rate": 9.996205551255975e-05,
      "loss": 1.0533,
      "step": 23550
    },
    {
      "epoch": 0.03222410499596516,
      "grad_norm": 4.21875,
      "learning_rate": 9.996162807526745e-05,
      "loss": 0.9609,
      "step": 23600
    },
    {
      "epoch": 0.03229237640485492,
      "grad_norm": 3.9375,
      "learning_rate": 9.996119824486547e-05,
      "loss": 1.019,
      "step": 23650
    },
    {
      "epoch": 0.032360647813744675,
      "grad_norm": 4.25,
      "learning_rate": 9.996076602137437e-05,
      "loss": 1.0109,
      "step": 23700
    },
    {
      "epoch": 0.03242891922263443,
      "grad_norm": 4.34375,
      "learning_rate": 9.996033140481487e-05,
      "loss": 0.9931,
      "step": 23750
    },
    {
      "epoch": 0.03249719063152419,
      "grad_norm": 9.625,
      "learning_rate": 9.995989439520777e-05,
      "loss": 1.1069,
      "step": 23800
    },
    {
      "epoch": 0.032565462040413946,
      "grad_norm": 3.859375,
      "learning_rate": 9.995945499257402e-05,
      "loss": 0.9942,
      "step": 23850
    },
    {
      "epoch": 0.032633733449303697,
      "grad_norm": 3.203125,
      "learning_rate": 9.995901319693466e-05,
      "loss": 0.9671,
      "step": 23900
    },
    {
      "epoch": 0.032702004858193454,
      "grad_norm": 4.21875,
      "learning_rate": 9.995856900831084e-05,
      "loss": 0.9563,
      "step": 23950
    },
    {
      "epoch": 0.03277027626708321,
      "grad_norm": 5.0,
      "learning_rate": 9.995812242672385e-05,
      "loss": 1.0915,
      "step": 24000
    },
    {
      "epoch": 0.03283854767597297,
      "grad_norm": 4.625,
      "learning_rate": 9.995767345219508e-05,
      "loss": 1.0357,
      "step": 24050
    },
    {
      "epoch": 0.032906819084862725,
      "grad_norm": 5.8125,
      "learning_rate": 9.995722208474605e-05,
      "loss": 0.9695,
      "step": 24100
    },
    {
      "epoch": 0.03297509049375248,
      "grad_norm": 5.1875,
      "learning_rate": 9.995676832439836e-05,
      "loss": 1.0059,
      "step": 24150
    },
    {
      "epoch": 0.03304336190264224,
      "grad_norm": 4.96875,
      "learning_rate": 9.995631217117373e-05,
      "loss": 1.0657,
      "step": 24200
    },
    {
      "epoch": 0.033111633311531996,
      "grad_norm": 4.4375,
      "learning_rate": 9.995585362509403e-05,
      "loss": 1.1396,
      "step": 24250
    },
    {
      "epoch": 0.03317990472042175,
      "grad_norm": 3.484375,
      "learning_rate": 9.995539268618123e-05,
      "loss": 1.1855,
      "step": 24300
    },
    {
      "epoch": 0.03324817612931151,
      "grad_norm": 3.703125,
      "learning_rate": 9.99549293544574e-05,
      "loss": 1.0792,
      "step": 24350
    },
    {
      "epoch": 0.03331644753820127,
      "grad_norm": 4.9375,
      "learning_rate": 9.995446362994472e-05,
      "loss": 0.9702,
      "step": 24400
    },
    {
      "epoch": 0.033384718947091024,
      "grad_norm": 3.609375,
      "learning_rate": 9.995399551266553e-05,
      "loss": 0.9543,
      "step": 24450
    },
    {
      "epoch": 0.03345299035598078,
      "grad_norm": 9.75,
      "learning_rate": 9.995352500264223e-05,
      "loss": 1.1718,
      "step": 24500
    },
    {
      "epoch": 0.03352126176487054,
      "grad_norm": 4.65625,
      "learning_rate": 9.995305209989735e-05,
      "loss": 0.8687,
      "step": 24550
    },
    {
      "epoch": 0.033589533173760296,
      "grad_norm": 5.8125,
      "learning_rate": 9.995257680445356e-05,
      "loss": 1.0648,
      "step": 24600
    },
    {
      "epoch": 0.03365780458265005,
      "grad_norm": 6.3125,
      "learning_rate": 9.995209911633361e-05,
      "loss": 1.0022,
      "step": 24650
    },
    {
      "epoch": 0.03372607599153981,
      "grad_norm": 4.875,
      "learning_rate": 9.995161903556038e-05,
      "loss": 0.8582,
      "step": 24700
    },
    {
      "epoch": 0.03379434740042957,
      "grad_norm": 9.9375,
      "learning_rate": 9.995113656215689e-05,
      "loss": 1.1118,
      "step": 24750
    },
    {
      "epoch": 0.03386261880931932,
      "grad_norm": 9.75,
      "learning_rate": 9.995065169614623e-05,
      "loss": 0.9797,
      "step": 24800
    },
    {
      "epoch": 0.033930890218209074,
      "grad_norm": 8.875,
      "learning_rate": 9.995016443755163e-05,
      "loss": 0.9978,
      "step": 24850
    },
    {
      "epoch": 0.03399916162709883,
      "grad_norm": 4.5625,
      "learning_rate": 9.994967478639643e-05,
      "loss": 0.9314,
      "step": 24900
    },
    {
      "epoch": 0.03406743303598859,
      "grad_norm": 7.25,
      "learning_rate": 9.994918274270408e-05,
      "loss": 1.1109,
      "step": 24950
    },
    {
      "epoch": 0.034135704444878345,
      "grad_norm": 4.125,
      "learning_rate": 9.994868830649815e-05,
      "loss": 0.9912,
      "step": 25000
    },
    {
      "epoch": 0.0342039758537681,
      "grad_norm": 4.03125,
      "learning_rate": 9.994819147780231e-05,
      "loss": 0.9632,
      "step": 25050
    },
    {
      "epoch": 0.03427224726265786,
      "grad_norm": 4.25,
      "learning_rate": 9.994769225664038e-05,
      "loss": 0.9346,
      "step": 25100
    },
    {
      "epoch": 0.03434051867154762,
      "grad_norm": 4.3125,
      "learning_rate": 9.994719064303625e-05,
      "loss": 1.0358,
      "step": 25150
    },
    {
      "epoch": 0.034408790080437374,
      "grad_norm": 3.671875,
      "learning_rate": 9.994668663701399e-05,
      "loss": 0.8914,
      "step": 25200
    },
    {
      "epoch": 0.03447706148932713,
      "grad_norm": 6.78125,
      "learning_rate": 9.994618023859768e-05,
      "loss": 0.914,
      "step": 25250
    },
    {
      "epoch": 0.03454533289821689,
      "grad_norm": 4.3125,
      "learning_rate": 9.994567144781162e-05,
      "loss": 0.8218,
      "step": 25300
    },
    {
      "epoch": 0.034613604307106645,
      "grad_norm": 4.5625,
      "learning_rate": 9.994516026468017e-05,
      "loss": 0.8815,
      "step": 25350
    },
    {
      "epoch": 0.0346818757159964,
      "grad_norm": 4.25,
      "learning_rate": 9.99446466892278e-05,
      "loss": 0.8933,
      "step": 25400
    },
    {
      "epoch": 0.03475014712488616,
      "grad_norm": 6.3125,
      "learning_rate": 9.994413072147914e-05,
      "loss": 1.0271,
      "step": 25450
    },
    {
      "epoch": 0.034818418533775916,
      "grad_norm": 4.78125,
      "learning_rate": 9.994361236145886e-05,
      "loss": 1.0701,
      "step": 25500
    },
    {
      "epoch": 0.03488668994266567,
      "grad_norm": 5.4375,
      "learning_rate": 9.994309160919185e-05,
      "loss": 0.971,
      "step": 25550
    },
    {
      "epoch": 0.03495496135155543,
      "grad_norm": 23.375,
      "learning_rate": 9.994256846470298e-05,
      "loss": 0.8974,
      "step": 25600
    },
    {
      "epoch": 0.03502323276044519,
      "grad_norm": 5.0,
      "learning_rate": 9.994204292801737e-05,
      "loss": 0.9322,
      "step": 25650
    },
    {
      "epoch": 0.03509150416933494,
      "grad_norm": 4.3125,
      "learning_rate": 9.994151499916016e-05,
      "loss": 0.9878,
      "step": 25700
    },
    {
      "epoch": 0.035159775578224695,
      "grad_norm": 3.6875,
      "learning_rate": 9.994098467815666e-05,
      "loss": 1.0414,
      "step": 25750
    },
    {
      "epoch": 0.03522804698711445,
      "grad_norm": 4.15625,
      "learning_rate": 9.994045196503225e-05,
      "loss": 0.9238,
      "step": 25800
    },
    {
      "epoch": 0.03529631839600421,
      "grad_norm": 9.3125,
      "learning_rate": 9.993991685981246e-05,
      "loss": 0.9644,
      "step": 25850
    },
    {
      "epoch": 0.035364589804893966,
      "grad_norm": 4.4375,
      "learning_rate": 9.99393793625229e-05,
      "loss": 0.885,
      "step": 25900
    },
    {
      "epoch": 0.03543286121378372,
      "grad_norm": 3.546875,
      "learning_rate": 9.993883947318934e-05,
      "loss": 0.9372,
      "step": 25950
    },
    {
      "epoch": 0.03550113262267348,
      "grad_norm": 4.59375,
      "learning_rate": 9.993829719183763e-05,
      "loss": 0.8949,
      "step": 26000
    },
    {
      "epoch": 0.03556940403156324,
      "grad_norm": 11.3125,
      "learning_rate": 9.993775251849376e-05,
      "loss": 0.9672,
      "step": 26050
    },
    {
      "epoch": 0.035637675440452994,
      "grad_norm": 3.34375,
      "learning_rate": 9.993720545318379e-05,
      "loss": 0.9008,
      "step": 26100
    },
    {
      "epoch": 0.03570594684934275,
      "grad_norm": 4.75,
      "learning_rate": 9.993665599593394e-05,
      "loss": 0.9875,
      "step": 26150
    },
    {
      "epoch": 0.03577421825823251,
      "grad_norm": 4.0625,
      "learning_rate": 9.993610414677053e-05,
      "loss": 1.0508,
      "step": 26200
    },
    {
      "epoch": 0.035842489667122265,
      "grad_norm": 6.03125,
      "learning_rate": 9.993554990572e-05,
      "loss": 0.9348,
      "step": 26250
    },
    {
      "epoch": 0.03591076107601202,
      "grad_norm": 3.171875,
      "learning_rate": 9.993499327280887e-05,
      "loss": 1.1408,
      "step": 26300
    },
    {
      "epoch": 0.03597903248490178,
      "grad_norm": 4.34375,
      "learning_rate": 9.993443424806384e-05,
      "loss": 0.9188,
      "step": 26350
    },
    {
      "epoch": 0.03604730389379154,
      "grad_norm": 5.40625,
      "learning_rate": 9.993387283151165e-05,
      "loss": 0.9838,
      "step": 26400
    },
    {
      "epoch": 0.036115575302681294,
      "grad_norm": 4.8125,
      "learning_rate": 9.993330902317922e-05,
      "loss": 0.9529,
      "step": 26450
    },
    {
      "epoch": 0.03618384671157105,
      "grad_norm": 4.0,
      "learning_rate": 9.993274282309355e-05,
      "loss": 0.9363,
      "step": 26500
    },
    {
      "epoch": 0.03625211812046081,
      "grad_norm": 4.53125,
      "learning_rate": 9.993217423128174e-05,
      "loss": 0.9784,
      "step": 26550
    },
    {
      "epoch": 0.03632038952935056,
      "grad_norm": 4.9375,
      "learning_rate": 9.993160324777105e-05,
      "loss": 0.9792,
      "step": 26600
    },
    {
      "epoch": 0.036388660938240315,
      "grad_norm": 10.0625,
      "learning_rate": 9.99310298725888e-05,
      "loss": 0.9313,
      "step": 26650
    },
    {
      "epoch": 0.03645693234713007,
      "grad_norm": 3.765625,
      "learning_rate": 9.993045410576249e-05,
      "loss": 0.9338,
      "step": 26700
    },
    {
      "epoch": 0.03652520375601983,
      "grad_norm": 5.34375,
      "learning_rate": 9.992987594731968e-05,
      "loss": 0.8419,
      "step": 26750
    },
    {
      "epoch": 0.036593475164909586,
      "grad_norm": 4.90625,
      "learning_rate": 9.992929539728806e-05,
      "loss": 1.0111,
      "step": 26800
    },
    {
      "epoch": 0.03666174657379934,
      "grad_norm": 4.90625,
      "learning_rate": 9.992871245569546e-05,
      "loss": 1.082,
      "step": 26850
    },
    {
      "epoch": 0.0367300179826891,
      "grad_norm": 3.03125,
      "learning_rate": 9.992812712256976e-05,
      "loss": 1.0223,
      "step": 26900
    },
    {
      "epoch": 0.03679828939157886,
      "grad_norm": 4.53125,
      "learning_rate": 9.992753939793904e-05,
      "loss": 1.0365,
      "step": 26950
    },
    {
      "epoch": 0.036866560800468615,
      "grad_norm": 4.53125,
      "learning_rate": 9.992694928183141e-05,
      "loss": 0.8451,
      "step": 27000
    },
    {
      "epoch": 0.03693483220935837,
      "grad_norm": 6.71875,
      "learning_rate": 9.992635677427518e-05,
      "loss": 1.0177,
      "step": 27050
    },
    {
      "epoch": 0.03700310361824813,
      "grad_norm": 3.9375,
      "learning_rate": 9.992576187529872e-05,
      "loss": 0.8916,
      "step": 27100
    },
    {
      "epoch": 0.037071375027137886,
      "grad_norm": 4.5,
      "learning_rate": 9.99251645849305e-05,
      "loss": 0.9101,
      "step": 27150
    },
    {
      "epoch": 0.03713964643602764,
      "grad_norm": 9.0,
      "learning_rate": 9.992456490319914e-05,
      "loss": 0.8673,
      "step": 27200
    },
    {
      "epoch": 0.0372079178449174,
      "grad_norm": 4.25,
      "learning_rate": 9.992396283013337e-05,
      "loss": 0.9523,
      "step": 27250
    },
    {
      "epoch": 0.03727618925380716,
      "grad_norm": 4.8125,
      "learning_rate": 9.992335836576203e-05,
      "loss": 0.9367,
      "step": 27300
    },
    {
      "epoch": 0.037344460662696914,
      "grad_norm": 5.15625,
      "learning_rate": 9.992275151011408e-05,
      "loss": 0.912,
      "step": 27350
    },
    {
      "epoch": 0.03741273207158667,
      "grad_norm": 4.15625,
      "learning_rate": 9.992214226321856e-05,
      "loss": 1.1117,
      "step": 27400
    },
    {
      "epoch": 0.03748100348047643,
      "grad_norm": 3.984375,
      "learning_rate": 9.992153062510468e-05,
      "loss": 0.9636,
      "step": 27450
    },
    {
      "epoch": 0.03754927488936618,
      "grad_norm": 10.5,
      "learning_rate": 9.992091659580173e-05,
      "loss": 1.0416,
      "step": 27500
    },
    {
      "epoch": 0.037617546298255936,
      "grad_norm": 11.0,
      "learning_rate": 9.992030017533911e-05,
      "loss": 1.0088,
      "step": 27550
    },
    {
      "epoch": 0.03768581770714569,
      "grad_norm": 4.03125,
      "learning_rate": 9.991968136374637e-05,
      "loss": 0.9662,
      "step": 27600
    },
    {
      "epoch": 0.03775408911603545,
      "grad_norm": 7.53125,
      "learning_rate": 9.991906016105312e-05,
      "loss": 0.8185,
      "step": 27650
    },
    {
      "epoch": 0.03782236052492521,
      "grad_norm": 2.859375,
      "learning_rate": 9.991843656728912e-05,
      "loss": 1.0725,
      "step": 27700
    },
    {
      "epoch": 0.037890631933814964,
      "grad_norm": 5.8125,
      "learning_rate": 9.991781058248426e-05,
      "loss": 0.8877,
      "step": 27750
    },
    {
      "epoch": 0.03795890334270472,
      "grad_norm": 5.34375,
      "learning_rate": 9.991718220666852e-05,
      "loss": 0.9743,
      "step": 27800
    },
    {
      "epoch": 0.03802717475159448,
      "grad_norm": 5.65625,
      "learning_rate": 9.991655143987199e-05,
      "loss": 1.0078,
      "step": 27850
    },
    {
      "epoch": 0.038095446160484235,
      "grad_norm": 8.5625,
      "learning_rate": 9.991591828212488e-05,
      "loss": 1.024,
      "step": 27900
    },
    {
      "epoch": 0.03816371756937399,
      "grad_norm": 3.75,
      "learning_rate": 9.991528273345753e-05,
      "loss": 0.9582,
      "step": 27950
    },
    {
      "epoch": 0.03823198897826375,
      "grad_norm": 4.0625,
      "learning_rate": 9.991464479390037e-05,
      "loss": 0.8295,
      "step": 28000
    },
    {
      "epoch": 0.038300260387153506,
      "grad_norm": 6.09375,
      "learning_rate": 9.991400446348395e-05,
      "loss": 1.0282,
      "step": 28050
    },
    {
      "epoch": 0.03836853179604326,
      "grad_norm": 3.578125,
      "learning_rate": 9.991336174223898e-05,
      "loss": 0.8597,
      "step": 28100
    },
    {
      "epoch": 0.03843680320493302,
      "grad_norm": 4.625,
      "learning_rate": 9.991271663019619e-05,
      "loss": 1.0515,
      "step": 28150
    },
    {
      "epoch": 0.03850507461382278,
      "grad_norm": 9.25,
      "learning_rate": 9.991206912738653e-05,
      "loss": 0.9636,
      "step": 28200
    },
    {
      "epoch": 0.038573346022712535,
      "grad_norm": 3.03125,
      "learning_rate": 9.991141923384097e-05,
      "loss": 0.978,
      "step": 28250
    },
    {
      "epoch": 0.03864161743160229,
      "grad_norm": 4.3125,
      "learning_rate": 9.991076694959068e-05,
      "loss": 0.8088,
      "step": 28300
    },
    {
      "epoch": 0.03870988884049205,
      "grad_norm": 3.578125,
      "learning_rate": 9.991011227466688e-05,
      "loss": 0.8459,
      "step": 28350
    },
    {
      "epoch": 0.0387781602493818,
      "grad_norm": 3.34375,
      "learning_rate": 9.990945520910093e-05,
      "loss": 0.8172,
      "step": 28400
    },
    {
      "epoch": 0.038846431658271556,
      "grad_norm": 3.65625,
      "learning_rate": 9.990879575292432e-05,
      "loss": 0.9498,
      "step": 28450
    },
    {
      "epoch": 0.03891470306716131,
      "grad_norm": 8.375,
      "learning_rate": 9.990813390616862e-05,
      "loss": 1.0283,
      "step": 28500
    },
    {
      "epoch": 0.03898297447605107,
      "grad_norm": 5.1875,
      "learning_rate": 9.990746966886553e-05,
      "loss": 0.9548,
      "step": 28550
    },
    {
      "epoch": 0.03905124588494083,
      "grad_norm": 3.796875,
      "learning_rate": 9.990680304104687e-05,
      "loss": 1.0027,
      "step": 28600
    },
    {
      "epoch": 0.039119517293830584,
      "grad_norm": 3.28125,
      "learning_rate": 9.990613402274458e-05,
      "loss": 0.7904,
      "step": 28650
    },
    {
      "epoch": 0.03918778870272034,
      "grad_norm": 8.625,
      "learning_rate": 9.99054626139907e-05,
      "loss": 0.9542,
      "step": 28700
    },
    {
      "epoch": 0.0392560601116101,
      "grad_norm": 4.625,
      "learning_rate": 9.990478881481739e-05,
      "loss": 0.8737,
      "step": 28750
    },
    {
      "epoch": 0.039324331520499856,
      "grad_norm": 3.671875,
      "learning_rate": 9.990411262525692e-05,
      "loss": 0.9165,
      "step": 28800
    },
    {
      "epoch": 0.03939260292938961,
      "grad_norm": 9.5625,
      "learning_rate": 9.990343404534166e-05,
      "loss": 0.8205,
      "step": 28850
    },
    {
      "epoch": 0.03946087433827937,
      "grad_norm": 4.375,
      "learning_rate": 9.990275307510415e-05,
      "loss": 0.9702,
      "step": 28900
    },
    {
      "epoch": 0.03952914574716913,
      "grad_norm": 3.9375,
      "learning_rate": 9.990206971457701e-05,
      "loss": 0.9204,
      "step": 28950
    },
    {
      "epoch": 0.039597417156058884,
      "grad_norm": 3.734375,
      "learning_rate": 9.990138396379293e-05,
      "loss": 1.0282,
      "step": 29000
    },
    {
      "epoch": 0.03966568856494864,
      "grad_norm": 4.6875,
      "learning_rate": 9.990069582278478e-05,
      "loss": 0.8939,
      "step": 29050
    },
    {
      "epoch": 0.0397339599738384,
      "grad_norm": 4.875,
      "learning_rate": 9.990000529158555e-05,
      "loss": 0.8637,
      "step": 29100
    },
    {
      "epoch": 0.039802231382728155,
      "grad_norm": 4.375,
      "learning_rate": 9.989931237022828e-05,
      "loss": 0.8113,
      "step": 29150
    },
    {
      "epoch": 0.03987050279161791,
      "grad_norm": 4.25,
      "learning_rate": 9.989861705874615e-05,
      "loss": 0.8758,
      "step": 29200
    },
    {
      "epoch": 0.03993877420050767,
      "grad_norm": 4.65625,
      "learning_rate": 9.989791935717249e-05,
      "loss": 0.964,
      "step": 29250
    },
    {
      "epoch": 0.04000704560939742,
      "grad_norm": 4.15625,
      "learning_rate": 9.989721926554071e-05,
      "loss": 0.8567,
      "step": 29300
    },
    {
      "epoch": 0.040075317018287177,
      "grad_norm": 4.625,
      "learning_rate": 9.989651678388434e-05,
      "loss": 1.0082,
      "step": 29350
    },
    {
      "epoch": 0.040143588427176934,
      "grad_norm": 4.0625,
      "learning_rate": 9.989581191223705e-05,
      "loss": 0.9486,
      "step": 29400
    },
    {
      "epoch": 0.04021185983606669,
      "grad_norm": 4.9375,
      "learning_rate": 9.989510465063259e-05,
      "loss": 0.9527,
      "step": 29450
    },
    {
      "epoch": 0.04028013124495645,
      "grad_norm": 3.015625,
      "learning_rate": 9.989439499910482e-05,
      "loss": 0.8651,
      "step": 29500
    },
    {
      "epoch": 0.040348402653846205,
      "grad_norm": 6.125,
      "learning_rate": 9.989368295768775e-05,
      "loss": 0.9011,
      "step": 29550
    },
    {
      "epoch": 0.04041667406273596,
      "grad_norm": 3.953125,
      "learning_rate": 9.989296852641548e-05,
      "loss": 0.8883,
      "step": 29600
    },
    {
      "epoch": 0.04048494547162572,
      "grad_norm": 3.546875,
      "learning_rate": 9.989225170532223e-05,
      "loss": 0.8341,
      "step": 29650
    },
    {
      "epoch": 0.040553216880515476,
      "grad_norm": 5.65625,
      "learning_rate": 9.989153249444234e-05,
      "loss": 0.9042,
      "step": 29700
    },
    {
      "epoch": 0.04062148828940523,
      "grad_norm": 3.890625,
      "learning_rate": 9.989081089381025e-05,
      "loss": 0.9389,
      "step": 29750
    },
    {
      "epoch": 0.04068975969829499,
      "grad_norm": 6.0625,
      "learning_rate": 9.989008690346054e-05,
      "loss": 1.0691,
      "step": 29800
    },
    {
      "epoch": 0.04075803110718475,
      "grad_norm": 4.0,
      "learning_rate": 9.988936052342788e-05,
      "loss": 0.9359,
      "step": 29850
    },
    {
      "epoch": 0.040826302516074504,
      "grad_norm": 3.84375,
      "learning_rate": 9.988863175374706e-05,
      "loss": 1.0149,
      "step": 29900
    },
    {
      "epoch": 0.04089457392496426,
      "grad_norm": 4.03125,
      "learning_rate": 9.988790059445296e-05,
      "loss": 0.9894,
      "step": 29950
    },
    {
      "epoch": 0.04096284533385402,
      "grad_norm": 4.21875,
      "learning_rate": 9.988716704558067e-05,
      "loss": 0.8969,
      "step": 30000
    },
    {
      "epoch": 0.041031116742743776,
      "grad_norm": 4.6875,
      "learning_rate": 9.988643110716526e-05,
      "loss": 0.8887,
      "step": 30050
    },
    {
      "epoch": 0.04109938815163353,
      "grad_norm": 3.234375,
      "learning_rate": 9.988569277924202e-05,
      "loss": 0.9187,
      "step": 30100
    },
    {
      "epoch": 0.04116765956052329,
      "grad_norm": 5.125,
      "learning_rate": 9.98849520618463e-05,
      "loss": 0.8083,
      "step": 30150
    },
    {
      "epoch": 0.04123593096941304,
      "grad_norm": 3.125,
      "learning_rate": 9.988420895501358e-05,
      "loss": 0.9834,
      "step": 30200
    },
    {
      "epoch": 0.0413042023783028,
      "grad_norm": 2.78125,
      "learning_rate": 9.988346345877946e-05,
      "loss": 0.9035,
      "step": 30250
    },
    {
      "epoch": 0.041372473787192554,
      "grad_norm": 4.25,
      "learning_rate": 9.988271557317965e-05,
      "loss": 0.7651,
      "step": 30300
    },
    {
      "epoch": 0.04144074519608231,
      "grad_norm": 3.796875,
      "learning_rate": 9.988196529824996e-05,
      "loss": 0.7928,
      "step": 30350
    },
    {
      "epoch": 0.04150901660497207,
      "grad_norm": 3.453125,
      "learning_rate": 9.988121263402633e-05,
      "loss": 0.8993,
      "step": 30400
    },
    {
      "epoch": 0.041577288013861825,
      "grad_norm": 4.25,
      "learning_rate": 9.988045758054482e-05,
      "loss": 0.8735,
      "step": 30450
    },
    {
      "epoch": 0.04164555942275158,
      "grad_norm": 4.3125,
      "learning_rate": 9.987970013784161e-05,
      "loss": 1.0239,
      "step": 30500
    },
    {
      "epoch": 0.04171383083164134,
      "grad_norm": 5.15625,
      "learning_rate": 9.987894030595296e-05,
      "loss": 0.9268,
      "step": 30550
    },
    {
      "epoch": 0.0417821022405311,
      "grad_norm": 3.015625,
      "learning_rate": 9.987817808491524e-05,
      "loss": 0.9426,
      "step": 30600
    },
    {
      "epoch": 0.041850373649420854,
      "grad_norm": 4.34375,
      "learning_rate": 9.9877413474765e-05,
      "loss": 0.9805,
      "step": 30650
    },
    {
      "epoch": 0.04191864505831061,
      "grad_norm": 3.875,
      "learning_rate": 9.987664647553888e-05,
      "loss": 0.8177,
      "step": 30700
    },
    {
      "epoch": 0.04198691646720037,
      "grad_norm": 3.234375,
      "learning_rate": 9.987587708727355e-05,
      "loss": 0.8606,
      "step": 30750
    },
    {
      "epoch": 0.042055187876090125,
      "grad_norm": 4.125,
      "learning_rate": 9.987510531000593e-05,
      "loss": 0.9447,
      "step": 30800
    },
    {
      "epoch": 0.04212345928497988,
      "grad_norm": 9.3125,
      "learning_rate": 9.987433114377297e-05,
      "loss": 0.9009,
      "step": 30850
    },
    {
      "epoch": 0.04219173069386964,
      "grad_norm": 3.6875,
      "learning_rate": 9.987355458861171e-05,
      "loss": 1.0408,
      "step": 30900
    },
    {
      "epoch": 0.042260002102759396,
      "grad_norm": 9.125,
      "learning_rate": 9.98727756445594e-05,
      "loss": 0.968,
      "step": 30950
    },
    {
      "epoch": 0.04232827351164915,
      "grad_norm": 8.125,
      "learning_rate": 9.987199431165332e-05,
      "loss": 0.9426,
      "step": 31000
    },
    {
      "epoch": 0.04239654492053891,
      "grad_norm": 5.1875,
      "learning_rate": 9.987121058993092e-05,
      "loss": 0.8704,
      "step": 31050
    },
    {
      "epoch": 0.04246481632942867,
      "grad_norm": 4.03125,
      "learning_rate": 9.987042447942972e-05,
      "loss": 0.8797,
      "step": 31100
    },
    {
      "epoch": 0.04253308773831842,
      "grad_norm": 9.1875,
      "learning_rate": 9.986963598018737e-05,
      "loss": 0.9164,
      "step": 31150
    },
    {
      "epoch": 0.042601359147208175,
      "grad_norm": 4.3125,
      "learning_rate": 9.986884509224166e-05,
      "loss": 0.8597,
      "step": 31200
    },
    {
      "epoch": 0.04266963055609793,
      "grad_norm": 3.046875,
      "learning_rate": 9.986805181563044e-05,
      "loss": 0.7952,
      "step": 31250
    },
    {
      "epoch": 0.04273790196498769,
      "grad_norm": 3.1875,
      "learning_rate": 9.986725615039175e-05,
      "loss": 0.7673,
      "step": 31300
    },
    {
      "epoch": 0.042806173373877446,
      "grad_norm": 3.5625,
      "learning_rate": 9.986645809656365e-05,
      "loss": 0.9186,
      "step": 31350
    },
    {
      "epoch": 0.0428744447827672,
      "grad_norm": 3.171875,
      "learning_rate": 9.986565765418441e-05,
      "loss": 0.8807,
      "step": 31400
    },
    {
      "epoch": 0.04294271619165696,
      "grad_norm": 8.5,
      "learning_rate": 9.986485482329236e-05,
      "loss": 0.8737,
      "step": 31450
    },
    {
      "epoch": 0.04301098760054672,
      "grad_norm": 3.65625,
      "learning_rate": 9.986404960392592e-05,
      "loss": 0.9195,
      "step": 31500
    },
    {
      "epoch": 0.043079259009436474,
      "grad_norm": 3.859375,
      "learning_rate": 9.986324199612372e-05,
      "loss": 0.8089,
      "step": 31550
    },
    {
      "epoch": 0.04314753041832623,
      "grad_norm": 4.21875,
      "learning_rate": 9.98624319999244e-05,
      "loss": 0.8901,
      "step": 31600
    },
    {
      "epoch": 0.04321580182721599,
      "grad_norm": 4.84375,
      "learning_rate": 9.986161961536676e-05,
      "loss": 0.9182,
      "step": 31650
    },
    {
      "epoch": 0.043284073236105745,
      "grad_norm": 3.265625,
      "learning_rate": 9.986080484248973e-05,
      "loss": 0.8749,
      "step": 31700
    },
    {
      "epoch": 0.0433523446449955,
      "grad_norm": 4.34375,
      "learning_rate": 9.985998768133233e-05,
      "loss": 0.8396,
      "step": 31750
    },
    {
      "epoch": 0.04342061605388526,
      "grad_norm": 3.984375,
      "learning_rate": 9.98591681319337e-05,
      "loss": 0.7485,
      "step": 31800
    },
    {
      "epoch": 0.04348888746277502,
      "grad_norm": 4.03125,
      "learning_rate": 9.98583461943331e-05,
      "loss": 0.8754,
      "step": 31850
    },
    {
      "epoch": 0.043557158871664774,
      "grad_norm": 3.75,
      "learning_rate": 9.985752186856989e-05,
      "loss": 0.8423,
      "step": 31900
    },
    {
      "epoch": 0.04362543028055453,
      "grad_norm": 4.1875,
      "learning_rate": 9.985669515468355e-05,
      "loss": 0.9238,
      "step": 31950
    },
    {
      "epoch": 0.04369370168944429,
      "grad_norm": 3.9375,
      "learning_rate": 9.98558660527137e-05,
      "loss": 0.8531,
      "step": 32000
    },
    {
      "epoch": 0.04376197309833404,
      "grad_norm": 3.484375,
      "learning_rate": 9.985503456270003e-05,
      "loss": 0.7531,
      "step": 32050
    },
    {
      "epoch": 0.043830244507223795,
      "grad_norm": 3.953125,
      "learning_rate": 9.985420068468238e-05,
      "loss": 0.9894,
      "step": 32100
    },
    {
      "epoch": 0.04389851591611355,
      "grad_norm": 9.5,
      "learning_rate": 9.985336441870071e-05,
      "loss": 0.835,
      "step": 32150
    },
    {
      "epoch": 0.04396678732500331,
      "grad_norm": 3.953125,
      "learning_rate": 9.985252576479504e-05,
      "loss": 0.9372,
      "step": 32200
    },
    {
      "epoch": 0.044035058733893066,
      "grad_norm": 9.4375,
      "learning_rate": 9.985168472300557e-05,
      "loss": 0.8485,
      "step": 32250
    },
    {
      "epoch": 0.04410333014278282,
      "grad_norm": 3.84375,
      "learning_rate": 9.985084129337256e-05,
      "loss": 0.8354,
      "step": 32300
    },
    {
      "epoch": 0.04417160155167258,
      "grad_norm": 4.3125,
      "learning_rate": 9.984999547593644e-05,
      "loss": 0.9367,
      "step": 32350
    },
    {
      "epoch": 0.04423987296056234,
      "grad_norm": 3.03125,
      "learning_rate": 9.984914727073769e-05,
      "loss": 0.8688,
      "step": 32400
    },
    {
      "epoch": 0.044308144369452095,
      "grad_norm": 5.3125,
      "learning_rate": 9.984829667781695e-05,
      "loss": 0.9729,
      "step": 32450
    },
    {
      "epoch": 0.04437641577834185,
      "grad_norm": 3.21875,
      "learning_rate": 9.984744369721498e-05,
      "loss": 0.8233,
      "step": 32500
    },
    {
      "epoch": 0.04444468718723161,
      "grad_norm": 3.734375,
      "learning_rate": 9.984658832897262e-05,
      "loss": 1.004,
      "step": 32550
    },
    {
      "epoch": 0.044512958596121366,
      "grad_norm": 4.21875,
      "learning_rate": 9.984573057313084e-05,
      "loss": 0.8974,
      "step": 32600
    },
    {
      "epoch": 0.04458123000501112,
      "grad_norm": 3.671875,
      "learning_rate": 9.984487042973074e-05,
      "loss": 0.8624,
      "step": 32650
    },
    {
      "epoch": 0.04464950141390088,
      "grad_norm": 4.5,
      "learning_rate": 9.98440078988135e-05,
      "loss": 0.87,
      "step": 32700
    },
    {
      "epoch": 0.04471777282279064,
      "grad_norm": 3.59375,
      "learning_rate": 9.984314298042046e-05,
      "loss": 0.9011,
      "step": 32750
    },
    {
      "epoch": 0.044786044231680394,
      "grad_norm": 3.734375,
      "learning_rate": 9.984227567459301e-05,
      "loss": 0.8077,
      "step": 32800
    },
    {
      "epoch": 0.04485431564057015,
      "grad_norm": 9.5625,
      "learning_rate": 9.984140598137273e-05,
      "loss": 0.8951,
      "step": 32850
    },
    {
      "epoch": 0.04492258704945991,
      "grad_norm": 3.9375,
      "learning_rate": 9.984053390080126e-05,
      "loss": 0.9,
      "step": 32900
    },
    {
      "epoch": 0.04499085845834966,
      "grad_norm": 3.546875,
      "learning_rate": 9.983965943292037e-05,
      "loss": 0.893,
      "step": 32950
    },
    {
      "epoch": 0.045059129867239416,
      "grad_norm": 3.328125,
      "learning_rate": 9.983878257777197e-05,
      "loss": 0.789,
      "step": 33000
    },
    {
      "epoch": 0.04512740127612917,
      "grad_norm": 2.75,
      "learning_rate": 9.983790333539802e-05,
      "loss": 0.8748,
      "step": 33050
    },
    {
      "epoch": 0.04519567268501893,
      "grad_norm": 3.734375,
      "learning_rate": 9.983702170584067e-05,
      "loss": 0.8785,
      "step": 33100
    },
    {
      "epoch": 0.04526394409390869,
      "grad_norm": 3.984375,
      "learning_rate": 9.983613768914214e-05,
      "loss": 0.8779,
      "step": 33150
    },
    {
      "epoch": 0.045332215502798444,
      "grad_norm": 2.828125,
      "learning_rate": 9.983525128534477e-05,
      "loss": 0.8902,
      "step": 33200
    },
    {
      "epoch": 0.0454004869116882,
      "grad_norm": 12.25,
      "learning_rate": 9.9834362494491e-05,
      "loss": 0.9516,
      "step": 33250
    },
    {
      "epoch": 0.04546875832057796,
      "grad_norm": 4.5625,
      "learning_rate": 9.983347131662343e-05,
      "loss": 0.848,
      "step": 33300
    },
    {
      "epoch": 0.045537029729467715,
      "grad_norm": 5.53125,
      "learning_rate": 9.983257775178474e-05,
      "loss": 0.858,
      "step": 33350
    },
    {
      "epoch": 0.04560530113835747,
      "grad_norm": 3.734375,
      "learning_rate": 9.983168180001772e-05,
      "loss": 0.8836,
      "step": 33400
    },
    {
      "epoch": 0.04567357254724723,
      "grad_norm": 4.9375,
      "learning_rate": 9.98307834613653e-05,
      "loss": 0.9109,
      "step": 33450
    },
    {
      "epoch": 0.045741843956136986,
      "grad_norm": 9.1875,
      "learning_rate": 9.982988273587048e-05,
      "loss": 0.8996,
      "step": 33500
    },
    {
      "epoch": 0.04581011536502674,
      "grad_norm": 3.75,
      "learning_rate": 9.982897962357645e-05,
      "loss": 0.8487,
      "step": 33550
    },
    {
      "epoch": 0.0458783867739165,
      "grad_norm": 4.65625,
      "learning_rate": 9.982807412452644e-05,
      "loss": 0.8645,
      "step": 33600
    },
    {
      "epoch": 0.04594665818280626,
      "grad_norm": 4.375,
      "learning_rate": 9.982716623876381e-05,
      "loss": 0.9081,
      "step": 33650
    },
    {
      "epoch": 0.046014929591696015,
      "grad_norm": 3.671875,
      "learning_rate": 9.982625596633208e-05,
      "loss": 0.7862,
      "step": 33700
    },
    {
      "epoch": 0.04608320100058577,
      "grad_norm": 4.84375,
      "learning_rate": 9.982534330727482e-05,
      "loss": 0.9359,
      "step": 33750
    },
    {
      "epoch": 0.04615147240947553,
      "grad_norm": 3.375,
      "learning_rate": 9.982442826163576e-05,
      "loss": 0.8439,
      "step": 33800
    },
    {
      "epoch": 0.04621974381836528,
      "grad_norm": 4.0,
      "learning_rate": 9.982351082945874e-05,
      "loss": 0.7963,
      "step": 33850
    },
    {
      "epoch": 0.046288015227255036,
      "grad_norm": 4.625,
      "learning_rate": 9.982259101078768e-05,
      "loss": 0.8952,
      "step": 33900
    },
    {
      "epoch": 0.04635628663614479,
      "grad_norm": 9.5,
      "learning_rate": 9.982166880566666e-05,
      "loss": 0.8354,
      "step": 33950
    },
    {
      "epoch": 0.04642455804503455,
      "grad_norm": 8.125,
      "learning_rate": 9.982074421413985e-05,
      "loss": 0.8761,
      "step": 34000
    },
    {
      "epoch": 0.04649282945392431,
      "grad_norm": 3.578125,
      "learning_rate": 9.981981723625152e-05,
      "loss": 0.863,
      "step": 34050
    },
    {
      "epoch": 0.046561100862814064,
      "grad_norm": 8.0625,
      "learning_rate": 9.981888787204608e-05,
      "loss": 0.8595,
      "step": 34100
    },
    {
      "epoch": 0.04662937227170382,
      "grad_norm": 4.09375,
      "learning_rate": 9.981795612156805e-05,
      "loss": 0.7778,
      "step": 34150
    },
    {
      "epoch": 0.04669764368059358,
      "grad_norm": 3.5625,
      "learning_rate": 9.981702198486206e-05,
      "loss": 0.9871,
      "step": 34200
    },
    {
      "epoch": 0.046765915089483336,
      "grad_norm": 4.28125,
      "learning_rate": 9.981608546197285e-05,
      "loss": 0.7778,
      "step": 34250
    },
    {
      "epoch": 0.04683418649837309,
      "grad_norm": 4.46875,
      "learning_rate": 9.981514655294528e-05,
      "loss": 0.7922,
      "step": 34300
    },
    {
      "epoch": 0.04690245790726285,
      "grad_norm": 4.40625,
      "learning_rate": 9.981420525782432e-05,
      "loss": 0.9186,
      "step": 34350
    },
    {
      "epoch": 0.04697072931615261,
      "grad_norm": 4.03125,
      "learning_rate": 9.981326157665507e-05,
      "loss": 0.7014,
      "step": 34400
    },
    {
      "epoch": 0.047039000725042364,
      "grad_norm": 8.5625,
      "learning_rate": 9.981231550948272e-05,
      "loss": 1.0062,
      "step": 34450
    },
    {
      "epoch": 0.04710727213393212,
      "grad_norm": 3.359375,
      "learning_rate": 9.981136705635257e-05,
      "loss": 0.8374,
      "step": 34500
    },
    {
      "epoch": 0.04717554354282188,
      "grad_norm": 3.640625,
      "learning_rate": 9.981041621731008e-05,
      "loss": 1.007,
      "step": 34550
    },
    {
      "epoch": 0.047243814951711635,
      "grad_norm": 3.875,
      "learning_rate": 9.980946299240079e-05,
      "loss": 0.8909,
      "step": 34600
    },
    {
      "epoch": 0.04731208636060139,
      "grad_norm": 8.625,
      "learning_rate": 9.980850738167033e-05,
      "loss": 1.0019,
      "step": 34650
    },
    {
      "epoch": 0.04738035776949115,
      "grad_norm": 4.09375,
      "learning_rate": 9.98075493851645e-05,
      "loss": 0.7862,
      "step": 34700
    },
    {
      "epoch": 0.0474486291783809,
      "grad_norm": 3.546875,
      "learning_rate": 9.980658900292918e-05,
      "loss": 0.8097,
      "step": 34750
    },
    {
      "epoch": 0.047516900587270657,
      "grad_norm": 4.1875,
      "learning_rate": 9.980562623501038e-05,
      "loss": 0.9053,
      "step": 34800
    },
    {
      "epoch": 0.047585171996160414,
      "grad_norm": 4.96875,
      "learning_rate": 9.980466108145418e-05,
      "loss": 0.8517,
      "step": 34850
    },
    {
      "epoch": 0.04765344340505017,
      "grad_norm": 3.171875,
      "learning_rate": 9.980369354230687e-05,
      "loss": 0.8129,
      "step": 34900
    },
    {
      "epoch": 0.04772171481393993,
      "grad_norm": 4.5,
      "learning_rate": 9.980272361761474e-05,
      "loss": 0.7791,
      "step": 34950
    },
    {
      "epoch": 0.047789986222829685,
      "grad_norm": 3.640625,
      "learning_rate": 9.980175130742428e-05,
      "loss": 0.8649,
      "step": 35000
    },
    {
      "epoch": 0.04785825763171944,
      "grad_norm": 5.1875,
      "learning_rate": 9.980077661178204e-05,
      "loss": 0.9646,
      "step": 35050
    },
    {
      "epoch": 0.0479265290406092,
      "grad_norm": 8.5625,
      "learning_rate": 9.979979953073472e-05,
      "loss": 0.9283,
      "step": 35100
    },
    {
      "epoch": 0.047994800449498956,
      "grad_norm": 3.71875,
      "learning_rate": 9.979882006432913e-05,
      "loss": 0.8335,
      "step": 35150
    },
    {
      "epoch": 0.04806307185838871,
      "grad_norm": 8.375,
      "learning_rate": 9.979783821261215e-05,
      "loss": 0.9061,
      "step": 35200
    },
    {
      "epoch": 0.04813134326727847,
      "grad_norm": 8.8125,
      "learning_rate": 9.979685397563086e-05,
      "loss": 0.9406,
      "step": 35250
    },
    {
      "epoch": 0.04819961467616823,
      "grad_norm": 3.09375,
      "learning_rate": 9.979586735343237e-05,
      "loss": 0.9505,
      "step": 35300
    },
    {
      "epoch": 0.048267886085057984,
      "grad_norm": 9.3125,
      "learning_rate": 9.979487834606393e-05,
      "loss": 0.8197,
      "step": 35350
    },
    {
      "epoch": 0.04833615749394774,
      "grad_norm": 3.703125,
      "learning_rate": 9.979388695357295e-05,
      "loss": 0.8552,
      "step": 35400
    },
    {
      "epoch": 0.0484044289028375,
      "grad_norm": 3.40625,
      "learning_rate": 9.979289317600688e-05,
      "loss": 0.7641,
      "step": 35450
    },
    {
      "epoch": 0.048472700311727256,
      "grad_norm": 3.5,
      "learning_rate": 9.979189701341334e-05,
      "loss": 0.7152,
      "step": 35500
    },
    {
      "epoch": 0.04854097172061701,
      "grad_norm": 3.203125,
      "learning_rate": 9.979089846584005e-05,
      "loss": 0.91,
      "step": 35550
    },
    {
      "epoch": 0.04860924312950677,
      "grad_norm": 3.34375,
      "learning_rate": 9.978989753333483e-05,
      "loss": 0.9329,
      "step": 35600
    },
    {
      "epoch": 0.04867751453839652,
      "grad_norm": 3.1875,
      "learning_rate": 9.978889421594562e-05,
      "loss": 0.9875,
      "step": 35650
    },
    {
      "epoch": 0.04874578594728628,
      "grad_norm": 3.9375,
      "learning_rate": 9.978788851372048e-05,
      "loss": 0.7495,
      "step": 35700
    },
    {
      "epoch": 0.048814057356176034,
      "grad_norm": 4.34375,
      "learning_rate": 9.978688042670758e-05,
      "loss": 0.8849,
      "step": 35750
    },
    {
      "epoch": 0.04888232876506579,
      "grad_norm": 3.6875,
      "learning_rate": 9.978586995495522e-05,
      "loss": 0.8171,
      "step": 35800
    },
    {
      "epoch": 0.04895060017395555,
      "grad_norm": 8.25,
      "learning_rate": 9.97848570985118e-05,
      "loss": 0.7503,
      "step": 35850
    },
    {
      "epoch": 0.049018871582845305,
      "grad_norm": 7.21875,
      "learning_rate": 9.978384185742581e-05,
      "loss": 0.8707,
      "step": 35900
    },
    {
      "epoch": 0.04908714299173506,
      "grad_norm": 3.4375,
      "learning_rate": 9.978282423174591e-05,
      "loss": 0.7968,
      "step": 35950
    },
    {
      "epoch": 0.04915541440062482,
      "grad_norm": 3.390625,
      "learning_rate": 9.978180422152081e-05,
      "loss": 0.8328,
      "step": 36000
    },
    {
      "epoch": 0.04922368580951458,
      "grad_norm": 3.40625,
      "learning_rate": 9.97807818267994e-05,
      "loss": 0.8267,
      "step": 36050
    },
    {
      "epoch": 0.049291957218404334,
      "grad_norm": 4.5,
      "learning_rate": 9.977975704763063e-05,
      "loss": 0.7622,
      "step": 36100
    },
    {
      "epoch": 0.04936022862729409,
      "grad_norm": 4.8125,
      "learning_rate": 9.977872988406361e-05,
      "loss": 0.8404,
      "step": 36150
    },
    {
      "epoch": 0.04942850003618385,
      "grad_norm": 3.71875,
      "learning_rate": 9.97777003361475e-05,
      "loss": 0.873,
      "step": 36200
    },
    {
      "epoch": 0.049496771445073605,
      "grad_norm": 8.1875,
      "learning_rate": 9.977666840393165e-05,
      "loss": 0.9462,
      "step": 36250
    },
    {
      "epoch": 0.04956504285396336,
      "grad_norm": 3.578125,
      "learning_rate": 9.977563408746546e-05,
      "loss": 0.7178,
      "step": 36300
    },
    {
      "epoch": 0.04963331426285312,
      "grad_norm": 3.1875,
      "learning_rate": 9.977459738679851e-05,
      "loss": 0.8454,
      "step": 36350
    },
    {
      "epoch": 0.049701585671742876,
      "grad_norm": 4.03125,
      "learning_rate": 9.977355830198043e-05,
      "loss": 0.8906,
      "step": 36400
    },
    {
      "epoch": 0.04976985708063263,
      "grad_norm": 4.28125,
      "learning_rate": 9.977251683306099e-05,
      "loss": 0.7997,
      "step": 36450
    },
    {
      "epoch": 0.04983812848952239,
      "grad_norm": 4.3125,
      "learning_rate": 9.977147298009009e-05,
      "loss": 0.8311,
      "step": 36500
    },
    {
      "epoch": 0.04990639989841214,
      "grad_norm": 3.703125,
      "learning_rate": 9.977042674311772e-05,
      "loss": 0.828,
      "step": 36550
    },
    {
      "epoch": 0.0499746713073019,
      "grad_norm": 3.40625,
      "learning_rate": 9.976937812219398e-05,
      "loss": 0.7854,
      "step": 36600
    },
    {
      "epoch": 0.050042942716191655,
      "grad_norm": 4.375,
      "learning_rate": 9.976832711736912e-05,
      "loss": 0.7967,
      "step": 36650
    },
    {
      "epoch": 0.05011121412508141,
      "grad_norm": 3.03125,
      "learning_rate": 9.976727372869347e-05,
      "loss": 0.8794,
      "step": 36700
    },
    {
      "epoch": 0.05017948553397117,
      "grad_norm": 3.46875,
      "learning_rate": 9.976621795621751e-05,
      "loss": 0.8809,
      "step": 36750
    },
    {
      "epoch": 0.050247756942860926,
      "grad_norm": 3.5,
      "learning_rate": 9.976515979999179e-05,
      "loss": 0.7959,
      "step": 36800
    },
    {
      "epoch": 0.05031602835175068,
      "grad_norm": 8.1875,
      "learning_rate": 9.976409926006698e-05,
      "loss": 0.747,
      "step": 36850
    },
    {
      "epoch": 0.05038429976064044,
      "grad_norm": 2.984375,
      "learning_rate": 9.976303633649391e-05,
      "loss": 0.8081,
      "step": 36900
    },
    {
      "epoch": 0.0504525711695302,
      "grad_norm": 7.21875,
      "learning_rate": 9.976197102932346e-05,
      "loss": 0.8334,
      "step": 36950
    },
    {
      "epoch": 0.050520842578419954,
      "grad_norm": 9.125,
      "learning_rate": 9.976090333860668e-05,
      "loss": 0.8339,
      "step": 37000
    },
    {
      "epoch": 0.05058911398730971,
      "grad_norm": 3.796875,
      "learning_rate": 9.975983326439472e-05,
      "loss": 0.6967,
      "step": 37050
    },
    {
      "epoch": 0.05065738539619947,
      "grad_norm": 4.09375,
      "learning_rate": 9.97587608067388e-05,
      "loss": 0.8401,
      "step": 37100
    },
    {
      "epoch": 0.050725656805089225,
      "grad_norm": 10.0,
      "learning_rate": 9.975768596569032e-05,
      "loss": 0.766,
      "step": 37150
    },
    {
      "epoch": 0.05079392821397898,
      "grad_norm": 4.09375,
      "learning_rate": 9.975660874130077e-05,
      "loss": 0.9122,
      "step": 37200
    },
    {
      "epoch": 0.05086219962286874,
      "grad_norm": 3.578125,
      "learning_rate": 9.975552913362172e-05,
      "loss": 0.7358,
      "step": 37250
    },
    {
      "epoch": 0.0509304710317585,
      "grad_norm": 10.375,
      "learning_rate": 9.97544471427049e-05,
      "loss": 0.9625,
      "step": 37300
    },
    {
      "epoch": 0.050998742440648254,
      "grad_norm": 8.5625,
      "learning_rate": 9.975336276860212e-05,
      "loss": 0.8606,
      "step": 37350
    },
    {
      "epoch": 0.05106701384953801,
      "grad_norm": 4.65625,
      "learning_rate": 9.975227601136534e-05,
      "loss": 0.9373,
      "step": 37400
    },
    {
      "epoch": 0.05113528525842776,
      "grad_norm": 4.46875,
      "learning_rate": 9.97511868710466e-05,
      "loss": 0.8125,
      "step": 37450
    },
    {
      "epoch": 0.05120355666731752,
      "grad_norm": 3.109375,
      "learning_rate": 9.975009534769808e-05,
      "loss": 0.7688,
      "step": 37500
    },
    {
      "epoch": 0.051271828076207275,
      "grad_norm": 3.296875,
      "learning_rate": 9.974900144137207e-05,
      "loss": 0.7438,
      "step": 37550
    },
    {
      "epoch": 0.05134009948509703,
      "grad_norm": 2.953125,
      "learning_rate": 9.974790515212093e-05,
      "loss": 0.7845,
      "step": 37600
    },
    {
      "epoch": 0.05140837089398679,
      "grad_norm": 4.625,
      "learning_rate": 9.974680647999721e-05,
      "loss": 0.9228,
      "step": 37650
    },
    {
      "epoch": 0.051476642302876546,
      "grad_norm": 3.625,
      "learning_rate": 9.974570542505352e-05,
      "loss": 0.798,
      "step": 37700
    },
    {
      "epoch": 0.0515449137117663,
      "grad_norm": 4.8125,
      "learning_rate": 9.97446019873426e-05,
      "loss": 0.8707,
      "step": 37750
    },
    {
      "epoch": 0.05161318512065606,
      "grad_norm": 4.40625,
      "learning_rate": 9.97434961669173e-05,
      "loss": 0.7486,
      "step": 37800
    },
    {
      "epoch": 0.05168145652954582,
      "grad_norm": 3.4375,
      "learning_rate": 9.97423879638306e-05,
      "loss": 0.9074,
      "step": 37850
    },
    {
      "epoch": 0.051749727938435575,
      "grad_norm": 7.46875,
      "learning_rate": 9.974127737813556e-05,
      "loss": 0.9857,
      "step": 37900
    },
    {
      "epoch": 0.05181799934732533,
      "grad_norm": 3.71875,
      "learning_rate": 9.97401644098854e-05,
      "loss": 0.7827,
      "step": 37950
    },
    {
      "epoch": 0.05188627075621509,
      "grad_norm": 3.1875,
      "learning_rate": 9.97390490591334e-05,
      "loss": 0.9158,
      "step": 38000
    },
    {
      "epoch": 0.051954542165104846,
      "grad_norm": 3.984375,
      "learning_rate": 9.973793132593304e-05,
      "loss": 0.8058,
      "step": 38050
    },
    {
      "epoch": 0.0520228135739946,
      "grad_norm": 7.9375,
      "learning_rate": 9.973681121033779e-05,
      "loss": 0.9009,
      "step": 38100
    },
    {
      "epoch": 0.05209108498288436,
      "grad_norm": 4.9375,
      "learning_rate": 9.973568871240134e-05,
      "loss": 0.7986,
      "step": 38150
    },
    {
      "epoch": 0.05215935639177412,
      "grad_norm": 3.125,
      "learning_rate": 9.973456383217746e-05,
      "loss": 0.7949,
      "step": 38200
    },
    {
      "epoch": 0.052227627800663874,
      "grad_norm": 7.84375,
      "learning_rate": 9.973343656972e-05,
      "loss": 0.8557,
      "step": 38250
    },
    {
      "epoch": 0.05229589920955363,
      "grad_norm": 3.203125,
      "learning_rate": 9.973230692508299e-05,
      "loss": 0.863,
      "step": 38300
    },
    {
      "epoch": 0.05236417061844338,
      "grad_norm": 9.0625,
      "learning_rate": 9.973117489832053e-05,
      "loss": 0.9052,
      "step": 38350
    },
    {
      "epoch": 0.05243244202733314,
      "grad_norm": 3.4375,
      "learning_rate": 9.973004048948683e-05,
      "loss": 0.8404,
      "step": 38400
    },
    {
      "epoch": 0.052500713436222896,
      "grad_norm": 6.3125,
      "learning_rate": 9.972890369863623e-05,
      "loss": 0.8869,
      "step": 38450
    },
    {
      "epoch": 0.05256898484511265,
      "grad_norm": 3.125,
      "learning_rate": 9.97277645258232e-05,
      "loss": 0.8598,
      "step": 38500
    },
    {
      "epoch": 0.05263725625400241,
      "grad_norm": 3.953125,
      "learning_rate": 9.972662297110228e-05,
      "loss": 0.8871,
      "step": 38550
    },
    {
      "epoch": 0.05270552766289217,
      "grad_norm": 3.421875,
      "learning_rate": 9.972547903452816e-05,
      "loss": 0.822,
      "step": 38600
    },
    {
      "epoch": 0.052773799071781924,
      "grad_norm": 4.125,
      "learning_rate": 9.972433271615563e-05,
      "loss": 0.9229,
      "step": 38650
    },
    {
      "epoch": 0.05284207048067168,
      "grad_norm": 3.625,
      "learning_rate": 9.972318401603962e-05,
      "loss": 0.7875,
      "step": 38700
    },
    {
      "epoch": 0.05291034188956144,
      "grad_norm": 3.03125,
      "learning_rate": 9.97220329342351e-05,
      "loss": 0.7958,
      "step": 38750
    },
    {
      "epoch": 0.052978613298451195,
      "grad_norm": 3.703125,
      "learning_rate": 9.972087947079727e-05,
      "loss": 0.6869,
      "step": 38800
    },
    {
      "epoch": 0.05304688470734095,
      "grad_norm": 4.84375,
      "learning_rate": 9.971972362578132e-05,
      "loss": 0.8925,
      "step": 38850
    },
    {
      "epoch": 0.05311515611623071,
      "grad_norm": 7.5,
      "learning_rate": 9.971856539924265e-05,
      "loss": 0.8185,
      "step": 38900
    },
    {
      "epoch": 0.053183427525120466,
      "grad_norm": 3.40625,
      "learning_rate": 9.971740479123675e-05,
      "loss": 0.7362,
      "step": 38950
    },
    {
      "epoch": 0.05325169893401022,
      "grad_norm": 3.421875,
      "learning_rate": 9.971624180181916e-05,
      "loss": 0.7658,
      "step": 39000
    },
    {
      "epoch": 0.05331997034289998,
      "grad_norm": 3.25,
      "learning_rate": 9.971507643104563e-05,
      "loss": 0.773,
      "step": 39050
    },
    {
      "epoch": 0.05338824175178974,
      "grad_norm": 3.59375,
      "learning_rate": 9.971390867897196e-05,
      "loss": 0.7682,
      "step": 39100
    },
    {
      "epoch": 0.053456513160679495,
      "grad_norm": 4.6875,
      "learning_rate": 9.97127385456541e-05,
      "loss": 0.8872,
      "step": 39150
    },
    {
      "epoch": 0.05352478456956925,
      "grad_norm": 4.40625,
      "learning_rate": 9.97115660311481e-05,
      "loss": 0.8829,
      "step": 39200
    },
    {
      "epoch": 0.053593055978459,
      "grad_norm": 7.53125,
      "learning_rate": 9.97103911355101e-05,
      "loss": 0.939,
      "step": 39250
    },
    {
      "epoch": 0.05366132738734876,
      "grad_norm": 3.265625,
      "learning_rate": 9.970921385879638e-05,
      "loss": 0.8351,
      "step": 39300
    },
    {
      "epoch": 0.053729598796238516,
      "grad_norm": 3.953125,
      "learning_rate": 9.970803420106336e-05,
      "loss": 0.6722,
      "step": 39350
    },
    {
      "epoch": 0.05379787020512827,
      "grad_norm": 2.828125,
      "learning_rate": 9.970685216236751e-05,
      "loss": 0.7845,
      "step": 39400
    },
    {
      "epoch": 0.05386614161401803,
      "grad_norm": 3.375,
      "learning_rate": 9.970566774276544e-05,
      "loss": 0.8517,
      "step": 39450
    },
    {
      "epoch": 0.05393441302290779,
      "grad_norm": 3.140625,
      "learning_rate": 9.970448094231392e-05,
      "loss": 0.779,
      "step": 39500
    },
    {
      "epoch": 0.054002684431797544,
      "grad_norm": 4.34375,
      "learning_rate": 9.970329176106979e-05,
      "loss": 0.7176,
      "step": 39550
    },
    {
      "epoch": 0.0540709558406873,
      "grad_norm": 3.96875,
      "learning_rate": 9.970210019909e-05,
      "loss": 0.9188,
      "step": 39600
    },
    {
      "epoch": 0.05413922724957706,
      "grad_norm": 3.421875,
      "learning_rate": 9.97009062564316e-05,
      "loss": 0.841,
      "step": 39650
    },
    {
      "epoch": 0.054207498658466816,
      "grad_norm": 3.046875,
      "learning_rate": 9.969970993315183e-05,
      "loss": 0.8262,
      "step": 39700
    },
    {
      "epoch": 0.05427577006735657,
      "grad_norm": 4.09375,
      "learning_rate": 9.969851122930796e-05,
      "loss": 0.6858,
      "step": 39750
    },
    {
      "epoch": 0.05434404147624633,
      "grad_norm": 3.09375,
      "learning_rate": 9.96973101449574e-05,
      "loss": 0.8458,
      "step": 39800
    },
    {
      "epoch": 0.05441231288513609,
      "grad_norm": 4.1875,
      "learning_rate": 9.969610668015771e-05,
      "loss": 0.8915,
      "step": 39850
    },
    {
      "epoch": 0.054480584294025844,
      "grad_norm": 4.0625,
      "learning_rate": 9.969490083496652e-05,
      "loss": 0.8486,
      "step": 39900
    },
    {
      "epoch": 0.0545488557029156,
      "grad_norm": 10.0625,
      "learning_rate": 9.969369260944157e-05,
      "loss": 0.9542,
      "step": 39950
    },
    {
      "epoch": 0.05461712711180536,
      "grad_norm": 8.75,
      "learning_rate": 9.969248200364077e-05,
      "loss": 0.9306,
      "step": 40000
    },
    {
      "epoch": 0.054685398520695115,
      "grad_norm": 4.25,
      "learning_rate": 9.969126901762205e-05,
      "loss": 0.8614,
      "step": 40050
    },
    {
      "epoch": 0.05475366992958487,
      "grad_norm": 3.84375,
      "learning_rate": 9.969005365144359e-05,
      "loss": 0.9272,
      "step": 40100
    },
    {
      "epoch": 0.05482194133847462,
      "grad_norm": 4.5,
      "learning_rate": 9.968883590516354e-05,
      "loss": 0.8408,
      "step": 40150
    },
    {
      "epoch": 0.05489021274736438,
      "grad_norm": 2.734375,
      "learning_rate": 9.968761577884025e-05,
      "loss": 0.7896,
      "step": 40200
    },
    {
      "epoch": 0.054958484156254137,
      "grad_norm": 3.0,
      "learning_rate": 9.968639327253217e-05,
      "loss": 0.9162,
      "step": 40250
    },
    {
      "epoch": 0.055026755565143894,
      "grad_norm": 3.96875,
      "learning_rate": 9.968516838629784e-05,
      "loss": 0.8816,
      "step": 40300
    },
    {
      "epoch": 0.05509502697403365,
      "grad_norm": 7.84375,
      "learning_rate": 9.968394112019596e-05,
      "loss": 0.8145,
      "step": 40350
    },
    {
      "epoch": 0.05516329838292341,
      "grad_norm": 3.21875,
      "learning_rate": 9.968271147428527e-05,
      "loss": 0.8205,
      "step": 40400
    },
    {
      "epoch": 0.055231569791813165,
      "grad_norm": 10.0,
      "learning_rate": 9.968147944862472e-05,
      "loss": 0.9001,
      "step": 40450
    },
    {
      "epoch": 0.05529984120070292,
      "grad_norm": 4.4375,
      "learning_rate": 9.968024504327329e-05,
      "loss": 0.9485,
      "step": 40500
    },
    {
      "epoch": 0.05536811260959268,
      "grad_norm": 4.5625,
      "learning_rate": 9.967900825829011e-05,
      "loss": 0.7799,
      "step": 40550
    },
    {
      "epoch": 0.055436384018482436,
      "grad_norm": 9.25,
      "learning_rate": 9.967776909373442e-05,
      "loss": 0.7875,
      "step": 40600
    },
    {
      "epoch": 0.05550465542737219,
      "grad_norm": 3.03125,
      "learning_rate": 9.967652754966559e-05,
      "loss": 0.7933,
      "step": 40650
    },
    {
      "epoch": 0.05557292683626195,
      "grad_norm": 3.5,
      "learning_rate": 9.967528362614306e-05,
      "loss": 0.6946,
      "step": 40700
    },
    {
      "epoch": 0.05564119824515171,
      "grad_norm": 3.1875,
      "learning_rate": 9.967403732322644e-05,
      "loss": 0.8587,
      "step": 40750
    },
    {
      "epoch": 0.055709469654041464,
      "grad_norm": 3.5,
      "learning_rate": 9.967278864097543e-05,
      "loss": 0.9339,
      "step": 40800
    },
    {
      "epoch": 0.05577774106293122,
      "grad_norm": 3.65625,
      "learning_rate": 9.967153757944983e-05,
      "loss": 0.7302,
      "step": 40850
    },
    {
      "epoch": 0.05584601247182098,
      "grad_norm": 2.609375,
      "learning_rate": 9.967028413870954e-05,
      "loss": 0.7095,
      "step": 40900
    },
    {
      "epoch": 0.055914283880710736,
      "grad_norm": 3.25,
      "learning_rate": 9.966902831881464e-05,
      "loss": 0.8342,
      "step": 40950
    },
    {
      "epoch": 0.05598255528960049,
      "grad_norm": 3.765625,
      "learning_rate": 9.966777011982524e-05,
      "loss": 0.8616,
      "step": 41000
    },
    {
      "epoch": 0.05605082669849024,
      "grad_norm": 3.890625,
      "learning_rate": 9.966650954180166e-05,
      "loss": 0.7455,
      "step": 41050
    },
    {
      "epoch": 0.05611909810738,
      "grad_norm": 3.0,
      "learning_rate": 9.966524658480423e-05,
      "loss": 0.8017,
      "step": 41100
    },
    {
      "epoch": 0.05618736951626976,
      "grad_norm": 5.09375,
      "learning_rate": 9.966398124889347e-05,
      "loss": 0.7579,
      "step": 41150
    },
    {
      "epoch": 0.056255640925159514,
      "grad_norm": 4.1875,
      "learning_rate": 9.966271353412998e-05,
      "loss": 0.8395,
      "step": 41200
    },
    {
      "epoch": 0.05632391233404927,
      "grad_norm": 3.78125,
      "learning_rate": 9.966144344057448e-05,
      "loss": 0.9858,
      "step": 41250
    },
    {
      "epoch": 0.05639218374293903,
      "grad_norm": 4.0,
      "learning_rate": 9.966017096828783e-05,
      "loss": 0.8713,
      "step": 41300
    },
    {
      "epoch": 0.056460455151828785,
      "grad_norm": 4.8125,
      "learning_rate": 9.965889611733095e-05,
      "loss": 0.8241,
      "step": 41350
    },
    {
      "epoch": 0.05652872656071854,
      "grad_norm": 9.375,
      "learning_rate": 9.965761888776491e-05,
      "loss": 0.846,
      "step": 41400
    },
    {
      "epoch": 0.0565969979696083,
      "grad_norm": 6.71875,
      "learning_rate": 9.96563392796509e-05,
      "loss": 0.7735,
      "step": 41450
    },
    {
      "epoch": 0.05666526937849806,
      "grad_norm": 3.671875,
      "learning_rate": 9.965505729305021e-05,
      "loss": 0.8223,
      "step": 41500
    },
    {
      "epoch": 0.056733540787387814,
      "grad_norm": 4.28125,
      "learning_rate": 9.965377292802423e-05,
      "loss": 0.896,
      "step": 41550
    },
    {
      "epoch": 0.05680181219627757,
      "grad_norm": 8.4375,
      "learning_rate": 9.965248618463449e-05,
      "loss": 0.8731,
      "step": 41600
    },
    {
      "epoch": 0.05687008360516733,
      "grad_norm": 3.46875,
      "learning_rate": 9.965119706294264e-05,
      "loss": 0.8183,
      "step": 41650
    },
    {
      "epoch": 0.056938355014057085,
      "grad_norm": 3.21875,
      "learning_rate": 9.96499055630104e-05,
      "loss": 0.7537,
      "step": 41700
    },
    {
      "epoch": 0.05700662642294684,
      "grad_norm": 4.28125,
      "learning_rate": 9.964861168489964e-05,
      "loss": 0.8697,
      "step": 41750
    },
    {
      "epoch": 0.0570748978318366,
      "grad_norm": 3.421875,
      "learning_rate": 9.964731542867233e-05,
      "loss": 0.812,
      "step": 41800
    },
    {
      "epoch": 0.057143169240726356,
      "grad_norm": 4.875,
      "learning_rate": 9.96460167943906e-05,
      "loss": 0.6927,
      "step": 41850
    },
    {
      "epoch": 0.05721144064961611,
      "grad_norm": 3.15625,
      "learning_rate": 9.96447157821166e-05,
      "loss": 0.8214,
      "step": 41900
    },
    {
      "epoch": 0.05727971205850586,
      "grad_norm": 3.328125,
      "learning_rate": 9.964341239191267e-05,
      "loss": 0.8212,
      "step": 41950
    },
    {
      "epoch": 0.05734798346739562,
      "grad_norm": 3.75,
      "learning_rate": 9.964210662384123e-05,
      "loss": 0.7999,
      "step": 42000
    },
    {
      "epoch": 0.05741625487628538,
      "grad_norm": 5.90625,
      "learning_rate": 9.964079847796486e-05,
      "loss": 0.6826,
      "step": 42050
    },
    {
      "epoch": 0.057484526285175135,
      "grad_norm": 4.03125,
      "learning_rate": 9.963948795434617e-05,
      "loss": 0.8555,
      "step": 42100
    },
    {
      "epoch": 0.05755279769406489,
      "grad_norm": 4.15625,
      "learning_rate": 9.963817505304797e-05,
      "loss": 0.877,
      "step": 42150
    },
    {
      "epoch": 0.05762106910295465,
      "grad_norm": 3.171875,
      "learning_rate": 9.963685977413313e-05,
      "loss": 0.8049,
      "step": 42200
    },
    {
      "epoch": 0.057689340511844406,
      "grad_norm": 3.953125,
      "learning_rate": 9.963554211766463e-05,
      "loss": 0.907,
      "step": 42250
    },
    {
      "epoch": 0.05775761192073416,
      "grad_norm": 2.828125,
      "learning_rate": 9.963422208370565e-05,
      "loss": 0.7367,
      "step": 42300
    },
    {
      "epoch": 0.05782588332962392,
      "grad_norm": 4.34375,
      "learning_rate": 9.963289967231935e-05,
      "loss": 0.8349,
      "step": 42350
    },
    {
      "epoch": 0.05789415473851368,
      "grad_norm": 8.875,
      "learning_rate": 9.963157488356909e-05,
      "loss": 0.7925,
      "step": 42400
    },
    {
      "epoch": 0.057962426147403434,
      "grad_norm": 3.859375,
      "learning_rate": 9.963024771751834e-05,
      "loss": 0.7382,
      "step": 42450
    },
    {
      "epoch": 0.05803069755629319,
      "grad_norm": 3.296875,
      "learning_rate": 9.962891817423067e-05,
      "loss": 0.7263,
      "step": 42500
    },
    {
      "epoch": 0.05809896896518295,
      "grad_norm": 3.15625,
      "learning_rate": 9.962758625376976e-05,
      "loss": 0.8408,
      "step": 42550
    },
    {
      "epoch": 0.058167240374072705,
      "grad_norm": 2.84375,
      "learning_rate": 9.96262519561994e-05,
      "loss": 0.7667,
      "step": 42600
    },
    {
      "epoch": 0.05823551178296246,
      "grad_norm": 4.53125,
      "learning_rate": 9.962491528158351e-05,
      "loss": 0.7797,
      "step": 42650
    },
    {
      "epoch": 0.05830378319185222,
      "grad_norm": 3.234375,
      "learning_rate": 9.962357622998611e-05,
      "loss": 0.8373,
      "step": 42700
    },
    {
      "epoch": 0.05837205460074198,
      "grad_norm": 4.15625,
      "learning_rate": 9.962223480147133e-05,
      "loss": 0.8291,
      "step": 42750
    },
    {
      "epoch": 0.058440326009631734,
      "grad_norm": 2.828125,
      "learning_rate": 9.962089099610346e-05,
      "loss": 0.6547,
      "step": 42800
    },
    {
      "epoch": 0.058508597418521484,
      "grad_norm": 3.796875,
      "learning_rate": 9.961954481394681e-05,
      "loss": 0.8013,
      "step": 42850
    },
    {
      "epoch": 0.05857686882741124,
      "grad_norm": 2.765625,
      "learning_rate": 9.96181962550659e-05,
      "loss": 0.7841,
      "step": 42900
    },
    {
      "epoch": 0.058645140236301,
      "grad_norm": 3.578125,
      "learning_rate": 9.961684531952533e-05,
      "loss": 0.8317,
      "step": 42950
    },
    {
      "epoch": 0.058713411645190755,
      "grad_norm": 4.03125,
      "learning_rate": 9.961549200738977e-05,
      "loss": 0.7604,
      "step": 43000
    },
    {
      "epoch": 0.05878168305408051,
      "grad_norm": 4.875,
      "learning_rate": 9.961413631872409e-05,
      "loss": 0.6978,
      "step": 43050
    },
    {
      "epoch": 0.05884995446297027,
      "grad_norm": 3.5,
      "learning_rate": 9.96127782535932e-05,
      "loss": 0.8865,
      "step": 43100
    },
    {
      "epoch": 0.058918225871860026,
      "grad_norm": 4.5625,
      "learning_rate": 9.961141781206215e-05,
      "loss": 0.8052,
      "step": 43150
    },
    {
      "epoch": 0.05898649728074978,
      "grad_norm": 3.625,
      "learning_rate": 9.96100549941961e-05,
      "loss": 0.8414,
      "step": 43200
    },
    {
      "epoch": 0.05905476868963954,
      "grad_norm": 9.125,
      "learning_rate": 9.960868980006035e-05,
      "loss": 0.9395,
      "step": 43250
    },
    {
      "epoch": 0.0591230400985293,
      "grad_norm": 2.8125,
      "learning_rate": 9.960732222972024e-05,
      "loss": 0.7283,
      "step": 43300
    },
    {
      "epoch": 0.059191311507419055,
      "grad_norm": 10.1875,
      "learning_rate": 9.960595228324135e-05,
      "loss": 0.8421,
      "step": 43350
    },
    {
      "epoch": 0.05925958291630881,
      "grad_norm": 2.765625,
      "learning_rate": 9.960457996068923e-05,
      "loss": 0.7818,
      "step": 43400
    },
    {
      "epoch": 0.05932785432519857,
      "grad_norm": 4.125,
      "learning_rate": 9.960320526212967e-05,
      "loss": 0.7926,
      "step": 43450
    },
    {
      "epoch": 0.059396125734088326,
      "grad_norm": 3.25,
      "learning_rate": 9.960182818762846e-05,
      "loss": 0.9188,
      "step": 43500
    },
    {
      "epoch": 0.05946439714297808,
      "grad_norm": 3.546875,
      "learning_rate": 9.96004487372516e-05,
      "loss": 0.7127,
      "step": 43550
    },
    {
      "epoch": 0.05953266855186784,
      "grad_norm": 3.9375,
      "learning_rate": 9.959906691106517e-05,
      "loss": 0.7582,
      "step": 43600
    },
    {
      "epoch": 0.0596009399607576,
      "grad_norm": 3.296875,
      "learning_rate": 9.959768270913533e-05,
      "loss": 0.8606,
      "step": 43650
    },
    {
      "epoch": 0.059669211369647354,
      "grad_norm": 3.671875,
      "learning_rate": 9.959629613152838e-05,
      "loss": 0.854,
      "step": 43700
    },
    {
      "epoch": 0.059737482778537104,
      "grad_norm": 3.828125,
      "learning_rate": 9.959490717831077e-05,
      "loss": 0.6716,
      "step": 43750
    },
    {
      "epoch": 0.05980575418742686,
      "grad_norm": 3.734375,
      "learning_rate": 9.9593515849549e-05,
      "loss": 0.8606,
      "step": 43800
    },
    {
      "epoch": 0.05987402559631662,
      "grad_norm": 12.375,
      "learning_rate": 9.959212214530973e-05,
      "loss": 0.8074,
      "step": 43850
    },
    {
      "epoch": 0.059942297005206376,
      "grad_norm": 2.625,
      "learning_rate": 9.959072606565969e-05,
      "loss": 0.8621,
      "step": 43900
    },
    {
      "epoch": 0.06001056841409613,
      "grad_norm": 7.5625,
      "learning_rate": 9.958932761066578e-05,
      "loss": 0.8341,
      "step": 43950
    },
    {
      "epoch": 0.06007883982298589,
      "grad_norm": 3.4375,
      "learning_rate": 9.958792678039497e-05,
      "loss": 0.8015,
      "step": 44000
    },
    {
      "epoch": 0.06014711123187565,
      "grad_norm": 3.59375,
      "learning_rate": 9.958652357491437e-05,
      "loss": 0.7845,
      "step": 44050
    },
    {
      "epoch": 0.060215382640765404,
      "grad_norm": 2.78125,
      "learning_rate": 9.958511799429118e-05,
      "loss": 0.7217,
      "step": 44100
    },
    {
      "epoch": 0.06028365404965516,
      "grad_norm": 3.28125,
      "learning_rate": 9.958371003859273e-05,
      "loss": 0.8279,
      "step": 44150
    },
    {
      "epoch": 0.06035192545854492,
      "grad_norm": 3.25,
      "learning_rate": 9.958229970788646e-05,
      "loss": 0.6669,
      "step": 44200
    },
    {
      "epoch": 0.060420196867434675,
      "grad_norm": 2.78125,
      "learning_rate": 9.958088700223993e-05,
      "loss": 0.7196,
      "step": 44250
    },
    {
      "epoch": 0.06048846827632443,
      "grad_norm": 4.375,
      "learning_rate": 9.95794719217208e-05,
      "loss": 0.8279,
      "step": 44300
    },
    {
      "epoch": 0.06055673968521419,
      "grad_norm": 3.9375,
      "learning_rate": 9.957805446639683e-05,
      "loss": 0.8983,
      "step": 44350
    },
    {
      "epoch": 0.060625011094103946,
      "grad_norm": 8.0625,
      "learning_rate": 9.957663463633595e-05,
      "loss": 0.7287,
      "step": 44400
    },
    {
      "epoch": 0.0606932825029937,
      "grad_norm": 3.953125,
      "learning_rate": 9.957521243160614e-05,
      "loss": 0.8782,
      "step": 44450
    },
    {
      "epoch": 0.06076155391188346,
      "grad_norm": 3.875,
      "learning_rate": 9.957378785227556e-05,
      "loss": 0.7724,
      "step": 44500
    },
    {
      "epoch": 0.06082982532077322,
      "grad_norm": 3.578125,
      "learning_rate": 9.957236089841242e-05,
      "loss": 0.6825,
      "step": 44550
    },
    {
      "epoch": 0.060898096729662975,
      "grad_norm": 8.375,
      "learning_rate": 9.957093157008505e-05,
      "loss": 0.891,
      "step": 44600
    },
    {
      "epoch": 0.060966368138552725,
      "grad_norm": 2.609375,
      "learning_rate": 9.956949986736196e-05,
      "loss": 0.7101,
      "step": 44650
    },
    {
      "epoch": 0.06103463954744248,
      "grad_norm": 3.515625,
      "learning_rate": 9.956806579031168e-05,
      "loss": 0.7555,
      "step": 44700
    },
    {
      "epoch": 0.06110291095633224,
      "grad_norm": 4.0625,
      "learning_rate": 9.956662933900294e-05,
      "loss": 0.7975,
      "step": 44750
    },
    {
      "epoch": 0.061171182365221996,
      "grad_norm": 3.359375,
      "learning_rate": 9.956519051350452e-05,
      "loss": 0.844,
      "step": 44800
    },
    {
      "epoch": 0.06123945377411175,
      "grad_norm": 3.859375,
      "learning_rate": 9.956374931388535e-05,
      "loss": 0.7603,
      "step": 44850
    },
    {
      "epoch": 0.06130772518300151,
      "grad_norm": 4.15625,
      "learning_rate": 9.956230574021446e-05,
      "loss": 0.7388,
      "step": 44900
    },
    {
      "epoch": 0.06137599659189127,
      "grad_norm": 2.828125,
      "learning_rate": 9.956085979256098e-05,
      "loss": 0.7506,
      "step": 44950
    },
    {
      "epoch": 0.061444268000781024,
      "grad_norm": 4.375,
      "learning_rate": 9.955941147099419e-05,
      "loss": 0.7456,
      "step": 45000
    },
    {
      "epoch": 0.06151253940967078,
      "grad_norm": 5.1875,
      "learning_rate": 9.955796077558346e-05,
      "loss": 0.7445,
      "step": 45050
    },
    {
      "epoch": 0.06158081081856054,
      "grad_norm": 4.6875,
      "learning_rate": 9.955650770639827e-05,
      "loss": 0.767,
      "step": 45100
    },
    {
      "epoch": 0.061649082227450296,
      "grad_norm": 3.609375,
      "learning_rate": 9.955505226350821e-05,
      "loss": 0.8283,
      "step": 45150
    },
    {
      "epoch": 0.06171735363634005,
      "grad_norm": 2.9375,
      "learning_rate": 9.955359444698303e-05,
      "loss": 0.797,
      "step": 45200
    },
    {
      "epoch": 0.06178562504522981,
      "grad_norm": 3.265625,
      "learning_rate": 9.955213425689252e-05,
      "loss": 0.8437,
      "step": 45250
    },
    {
      "epoch": 0.06185389645411957,
      "grad_norm": 2.75,
      "learning_rate": 9.955067169330663e-05,
      "loss": 0.8357,
      "step": 45300
    },
    {
      "epoch": 0.061922167863009324,
      "grad_norm": 3.40625,
      "learning_rate": 9.954920675629544e-05,
      "loss": 0.6999,
      "step": 45350
    },
    {
      "epoch": 0.06199043927189908,
      "grad_norm": 3.15625,
      "learning_rate": 9.954773944592909e-05,
      "loss": 0.7846,
      "step": 45400
    },
    {
      "epoch": 0.06205871068078884,
      "grad_norm": 3.609375,
      "learning_rate": 9.954626976227788e-05,
      "loss": 0.6922,
      "step": 45450
    },
    {
      "epoch": 0.062126982089678595,
      "grad_norm": 3.609375,
      "learning_rate": 9.954479770541219e-05,
      "loss": 0.8076,
      "step": 45500
    },
    {
      "epoch": 0.062195253498568345,
      "grad_norm": 3.625,
      "learning_rate": 9.954332327540255e-05,
      "loss": 0.7048,
      "step": 45550
    },
    {
      "epoch": 0.0622635249074581,
      "grad_norm": 7.0625,
      "learning_rate": 9.954184647231957e-05,
      "loss": 0.8385,
      "step": 45600
    },
    {
      "epoch": 0.06233179631634786,
      "grad_norm": 7.53125,
      "learning_rate": 9.9540367296234e-05,
      "loss": 0.7155,
      "step": 45650
    },
    {
      "epoch": 0.062400067725237617,
      "grad_norm": 3.265625,
      "learning_rate": 9.953888574721666e-05,
      "loss": 0.8573,
      "step": 45700
    },
    {
      "epoch": 0.062468339134127374,
      "grad_norm": 8.8125,
      "learning_rate": 9.953740182533855e-05,
      "loss": 0.8536,
      "step": 45750
    },
    {
      "epoch": 0.06253661054301714,
      "grad_norm": 4.0,
      "learning_rate": 9.953591553067073e-05,
      "loss": 0.8287,
      "step": 45800
    },
    {
      "epoch": 0.06260488195190689,
      "grad_norm": 4.28125,
      "learning_rate": 9.95344268632844e-05,
      "loss": 0.6971,
      "step": 45850
    },
    {
      "epoch": 0.06267315336079665,
      "grad_norm": 3.140625,
      "learning_rate": 9.953293582325085e-05,
      "loss": 0.7463,
      "step": 45900
    },
    {
      "epoch": 0.0627414247696864,
      "grad_norm": 3.1875,
      "learning_rate": 9.953144241064153e-05,
      "loss": 0.7714,
      "step": 45950
    },
    {
      "epoch": 0.06280969617857615,
      "grad_norm": 3.125,
      "learning_rate": 9.952994662552795e-05,
      "loss": 0.6864,
      "step": 46000
    },
    {
      "epoch": 0.06287796758746592,
      "grad_norm": 3.578125,
      "learning_rate": 9.952844846798174e-05,
      "loss": 0.7242,
      "step": 46050
    },
    {
      "epoch": 0.06294623899635567,
      "grad_norm": 3.109375,
      "learning_rate": 9.952694793807471e-05,
      "loss": 0.7668,
      "step": 46100
    },
    {
      "epoch": 0.06301451040524543,
      "grad_norm": 8.375,
      "learning_rate": 9.95254450358787e-05,
      "loss": 0.7778,
      "step": 46150
    },
    {
      "epoch": 0.06308278181413518,
      "grad_norm": 4.125,
      "learning_rate": 9.95239397614657e-05,
      "loss": 0.7698,
      "step": 46200
    },
    {
      "epoch": 0.06315105322302494,
      "grad_norm": 3.421875,
      "learning_rate": 9.952243211490781e-05,
      "loss": 0.871,
      "step": 46250
    },
    {
      "epoch": 0.0632193246319147,
      "grad_norm": 4.375,
      "learning_rate": 9.952092209627723e-05,
      "loss": 0.8163,
      "step": 46300
    },
    {
      "epoch": 0.06328759604080446,
      "grad_norm": 2.984375,
      "learning_rate": 9.951940970564634e-05,
      "loss": 0.795,
      "step": 46350
    },
    {
      "epoch": 0.06335586744969421,
      "grad_norm": 3.21875,
      "learning_rate": 9.951789494308754e-05,
      "loss": 0.8895,
      "step": 46400
    },
    {
      "epoch": 0.06342413885858397,
      "grad_norm": 4.125,
      "learning_rate": 9.951637780867337e-05,
      "loss": 0.7426,
      "step": 46450
    },
    {
      "epoch": 0.06349241026747372,
      "grad_norm": 3.015625,
      "learning_rate": 9.951485830247655e-05,
      "loss": 0.7394,
      "step": 46500
    },
    {
      "epoch": 0.06356068167636349,
      "grad_norm": 3.59375,
      "learning_rate": 9.951333642456981e-05,
      "loss": 0.7815,
      "step": 46550
    },
    {
      "epoch": 0.06362895308525324,
      "grad_norm": 3.28125,
      "learning_rate": 9.95118121750261e-05,
      "loss": 0.7008,
      "step": 46600
    },
    {
      "epoch": 0.063697224494143,
      "grad_norm": 2.796875,
      "learning_rate": 9.951028555391839e-05,
      "loss": 0.7536,
      "step": 46650
    },
    {
      "epoch": 0.06376549590303275,
      "grad_norm": 3.40625,
      "learning_rate": 9.950875656131981e-05,
      "loss": 0.7686,
      "step": 46700
    },
    {
      "epoch": 0.06383376731192252,
      "grad_norm": 7.21875,
      "learning_rate": 9.950722519730362e-05,
      "loss": 0.8457,
      "step": 46750
    },
    {
      "epoch": 0.06390203872081227,
      "grad_norm": 8.3125,
      "learning_rate": 9.950569146194313e-05,
      "loss": 0.818,
      "step": 46800
    },
    {
      "epoch": 0.06397031012970203,
      "grad_norm": 3.25,
      "learning_rate": 9.950415535531184e-05,
      "loss": 0.7022,
      "step": 46850
    },
    {
      "epoch": 0.06403858153859178,
      "grad_norm": 3.328125,
      "learning_rate": 9.950261687748332e-05,
      "loss": 0.7908,
      "step": 46900
    },
    {
      "epoch": 0.06410685294748153,
      "grad_norm": 4.09375,
      "learning_rate": 9.950107602853124e-05,
      "loss": 0.7366,
      "step": 46950
    },
    {
      "epoch": 0.0641751243563713,
      "grad_norm": 4.3125,
      "learning_rate": 9.949953280852945e-05,
      "loss": 0.8165,
      "step": 47000
    },
    {
      "epoch": 0.06424339576526104,
      "grad_norm": 7.6875,
      "learning_rate": 9.949798721755182e-05,
      "loss": 1.0,
      "step": 47050
    },
    {
      "epoch": 0.06431166717415081,
      "grad_norm": 3.203125,
      "learning_rate": 9.949643925567241e-05,
      "loss": 0.8115,
      "step": 47100
    },
    {
      "epoch": 0.06437993858304056,
      "grad_norm": 8.6875,
      "learning_rate": 9.949488892296537e-05,
      "loss": 0.8474,
      "step": 47150
    },
    {
      "epoch": 0.06444820999193032,
      "grad_norm": 4.59375,
      "learning_rate": 9.949333621950493e-05,
      "loss": 0.7954,
      "step": 47200
    },
    {
      "epoch": 0.06451648140082007,
      "grad_norm": 8.0,
      "learning_rate": 9.949178114536549e-05,
      "loss": 0.9013,
      "step": 47250
    },
    {
      "epoch": 0.06458475280970984,
      "grad_norm": 3.0,
      "learning_rate": 9.949022370062151e-05,
      "loss": 0.727,
      "step": 47300
    },
    {
      "epoch": 0.06465302421859959,
      "grad_norm": 3.609375,
      "learning_rate": 9.948866388534764e-05,
      "loss": 0.7933,
      "step": 47350
    },
    {
      "epoch": 0.06472129562748935,
      "grad_norm": 4.09375,
      "learning_rate": 9.948710169961854e-05,
      "loss": 0.8465,
      "step": 47400
    },
    {
      "epoch": 0.0647895670363791,
      "grad_norm": 3.265625,
      "learning_rate": 9.948553714350906e-05,
      "loss": 0.7409,
      "step": 47450
    },
    {
      "epoch": 0.06485783844526886,
      "grad_norm": 3.796875,
      "learning_rate": 9.948397021709415e-05,
      "loss": 0.7403,
      "step": 47500
    },
    {
      "epoch": 0.06492610985415861,
      "grad_norm": 3.703125,
      "learning_rate": 9.948240092044882e-05,
      "loss": 0.7529,
      "step": 47550
    },
    {
      "epoch": 0.06499438126304838,
      "grad_norm": 3.09375,
      "learning_rate": 9.94808292536483e-05,
      "loss": 0.8277,
      "step": 47600
    },
    {
      "epoch": 0.06506265267193813,
      "grad_norm": 3.265625,
      "learning_rate": 9.947925521676785e-05,
      "loss": 0.7864,
      "step": 47650
    },
    {
      "epoch": 0.06513092408082789,
      "grad_norm": 3.640625,
      "learning_rate": 9.947767880988284e-05,
      "loss": 0.8395,
      "step": 47700
    },
    {
      "epoch": 0.06519919548971764,
      "grad_norm": 3.640625,
      "learning_rate": 9.947610003306879e-05,
      "loss": 0.8568,
      "step": 47750
    },
    {
      "epoch": 0.06526746689860739,
      "grad_norm": 3.421875,
      "learning_rate": 9.947451888640134e-05,
      "loss": 0.8314,
      "step": 47800
    },
    {
      "epoch": 0.06533573830749716,
      "grad_norm": 3.296875,
      "learning_rate": 9.947293536995619e-05,
      "loss": 0.7175,
      "step": 47850
    },
    {
      "epoch": 0.06540400971638691,
      "grad_norm": 4.0625,
      "learning_rate": 9.947134948380923e-05,
      "loss": 0.6626,
      "step": 47900
    },
    {
      "epoch": 0.06547228112527667,
      "grad_norm": 3.671875,
      "learning_rate": 9.94697612280364e-05,
      "loss": 0.8143,
      "step": 47950
    },
    {
      "epoch": 0.06554055253416642,
      "grad_norm": 3.1875,
      "learning_rate": 9.946817060271378e-05,
      "loss": 0.7328,
      "step": 48000
    },
    {
      "epoch": 0.06560882394305619,
      "grad_norm": 4.03125,
      "learning_rate": 9.946657760791755e-05,
      "loss": 0.6879,
      "step": 48050
    },
    {
      "epoch": 0.06567709535194594,
      "grad_norm": 3.109375,
      "learning_rate": 9.946498224372403e-05,
      "loss": 0.822,
      "step": 48100
    },
    {
      "epoch": 0.0657453667608357,
      "grad_norm": 3.765625,
      "learning_rate": 9.946338451020961e-05,
      "loss": 0.7446,
      "step": 48150
    },
    {
      "epoch": 0.06581363816972545,
      "grad_norm": 8.1875,
      "learning_rate": 9.946178440745085e-05,
      "loss": 0.7005,
      "step": 48200
    },
    {
      "epoch": 0.06588190957861521,
      "grad_norm": 4.0625,
      "learning_rate": 9.946018193552437e-05,
      "loss": 0.7346,
      "step": 48250
    },
    {
      "epoch": 0.06595018098750496,
      "grad_norm": 7.5,
      "learning_rate": 9.945857709450694e-05,
      "loss": 0.8005,
      "step": 48300
    },
    {
      "epoch": 0.06601845239639473,
      "grad_norm": 3.640625,
      "learning_rate": 9.945696988447543e-05,
      "loss": 0.8037,
      "step": 48350
    },
    {
      "epoch": 0.06608672380528448,
      "grad_norm": 3.734375,
      "learning_rate": 9.945536030550684e-05,
      "loss": 0.7772,
      "step": 48400
    },
    {
      "epoch": 0.06615499521417424,
      "grad_norm": 3.828125,
      "learning_rate": 9.945374835767822e-05,
      "loss": 0.7503,
      "step": 48450
    },
    {
      "epoch": 0.06622326662306399,
      "grad_norm": 3.65625,
      "learning_rate": 9.945213404106682e-05,
      "loss": 0.7113,
      "step": 48500
    },
    {
      "epoch": 0.06629153803195376,
      "grad_norm": 2.8125,
      "learning_rate": 9.945051735574995e-05,
      "loss": 0.7939,
      "step": 48550
    },
    {
      "epoch": 0.0663598094408435,
      "grad_norm": 2.796875,
      "learning_rate": 9.944889830180504e-05,
      "loss": 0.6563,
      "step": 48600
    },
    {
      "epoch": 0.06642808084973327,
      "grad_norm": 3.96875,
      "learning_rate": 9.944727687930965e-05,
      "loss": 0.7887,
      "step": 48650
    },
    {
      "epoch": 0.06649635225862302,
      "grad_norm": 2.765625,
      "learning_rate": 9.944565308834147e-05,
      "loss": 0.7132,
      "step": 48700
    },
    {
      "epoch": 0.06656462366751277,
      "grad_norm": 8.6875,
      "learning_rate": 9.944402692897824e-05,
      "loss": 0.7785,
      "step": 48750
    },
    {
      "epoch": 0.06663289507640253,
      "grad_norm": 4.25,
      "learning_rate": 9.944239840129786e-05,
      "loss": 0.739,
      "step": 48800
    },
    {
      "epoch": 0.06670116648529228,
      "grad_norm": 3.671875,
      "learning_rate": 9.944076750537834e-05,
      "loss": 0.8696,
      "step": 48850
    },
    {
      "epoch": 0.06676943789418205,
      "grad_norm": 2.96875,
      "learning_rate": 9.94391342412978e-05,
      "loss": 0.7604,
      "step": 48900
    },
    {
      "epoch": 0.0668377093030718,
      "grad_norm": 3.625,
      "learning_rate": 9.943749860913447e-05,
      "loss": 0.8803,
      "step": 48950
    },
    {
      "epoch": 0.06690598071196156,
      "grad_norm": 4.40625,
      "learning_rate": 9.94358606089667e-05,
      "loss": 0.7364,
      "step": 49000
    },
    {
      "epoch": 0.06697425212085131,
      "grad_norm": 3.953125,
      "learning_rate": 9.943422024087293e-05,
      "loss": 0.8084,
      "step": 49050
    },
    {
      "epoch": 0.06704252352974108,
      "grad_norm": 7.9375,
      "learning_rate": 9.943257750493175e-05,
      "loss": 0.8067,
      "step": 49100
    },
    {
      "epoch": 0.06711079493863083,
      "grad_norm": 3.8125,
      "learning_rate": 9.943093240122184e-05,
      "loss": 0.7283,
      "step": 49150
    },
    {
      "epoch": 0.06717906634752059,
      "grad_norm": 3.59375,
      "learning_rate": 9.942928492982199e-05,
      "loss": 0.7467,
      "step": 49200
    },
    {
      "epoch": 0.06724733775641034,
      "grad_norm": 3.421875,
      "learning_rate": 9.942763509081114e-05,
      "loss": 0.7896,
      "step": 49250
    },
    {
      "epoch": 0.0673156091653001,
      "grad_norm": 3.921875,
      "learning_rate": 9.942598288426828e-05,
      "loss": 0.7892,
      "step": 49300
    },
    {
      "epoch": 0.06738388057418986,
      "grad_norm": 4.3125,
      "learning_rate": 9.942432831027258e-05,
      "loss": 0.8339,
      "step": 49350
    },
    {
      "epoch": 0.06745215198307962,
      "grad_norm": 2.859375,
      "learning_rate": 9.942267136890326e-05,
      "loss": 0.9025,
      "step": 49400
    },
    {
      "epoch": 0.06752042339196937,
      "grad_norm": 6.625,
      "learning_rate": 9.942101206023971e-05,
      "loss": 0.8272,
      "step": 49450
    },
    {
      "epoch": 0.06758869480085913,
      "grad_norm": 2.90625,
      "learning_rate": 9.941935038436141e-05,
      "loss": 0.6807,
      "step": 49500
    },
    {
      "epoch": 0.06765696620974888,
      "grad_norm": 2.71875,
      "learning_rate": 9.941768634134793e-05,
      "loss": 0.6585,
      "step": 49550
    },
    {
      "epoch": 0.06772523761863863,
      "grad_norm": 3.859375,
      "learning_rate": 9.941601993127901e-05,
      "loss": 0.7693,
      "step": 49600
    },
    {
      "epoch": 0.0677935090275284,
      "grad_norm": 4.28125,
      "learning_rate": 9.941435115423445e-05,
      "loss": 0.8926,
      "step": 49650
    },
    {
      "epoch": 0.06786178043641815,
      "grad_norm": 3.140625,
      "learning_rate": 9.941268001029417e-05,
      "loss": 0.7642,
      "step": 49700
    },
    {
      "epoch": 0.06793005184530791,
      "grad_norm": 4.09375,
      "learning_rate": 9.941100649953823e-05,
      "loss": 0.7238,
      "step": 49750
    },
    {
      "epoch": 0.06799832325419766,
      "grad_norm": 7.78125,
      "learning_rate": 9.94093306220468e-05,
      "loss": 0.8356,
      "step": 49800
    },
    {
      "epoch": 0.06806659466308743,
      "grad_norm": 3.75,
      "learning_rate": 9.940765237790013e-05,
      "loss": 0.8311,
      "step": 49850
    },
    {
      "epoch": 0.06813486607197718,
      "grad_norm": 2.796875,
      "learning_rate": 9.940597176717862e-05,
      "loss": 0.7574,
      "step": 49900
    },
    {
      "epoch": 0.06820313748086694,
      "grad_norm": 3.140625,
      "learning_rate": 9.940428878996277e-05,
      "loss": 0.6875,
      "step": 49950
    },
    {
      "epoch": 0.06827140888975669,
      "grad_norm": 3.359375,
      "learning_rate": 9.940260344633318e-05,
      "loss": 0.8484,
      "step": 50000
    },
    {
      "epoch": 0.06833968029864645,
      "grad_norm": 3.125,
      "learning_rate": 9.94009157363706e-05,
      "loss": 0.6597,
      "step": 50050
    },
    {
      "epoch": 0.0684079517075362,
      "grad_norm": 3.46875,
      "learning_rate": 9.939922566015585e-05,
      "loss": 0.7381,
      "step": 50100
    },
    {
      "epoch": 0.06847622311642597,
      "grad_norm": 4.5625,
      "learning_rate": 9.939753321776988e-05,
      "loss": 0.8286,
      "step": 50150
    },
    {
      "epoch": 0.06854449452531572,
      "grad_norm": 3.3125,
      "learning_rate": 9.939583840929378e-05,
      "loss": 0.7138,
      "step": 50200
    },
    {
      "epoch": 0.06861276593420548,
      "grad_norm": 3.203125,
      "learning_rate": 9.93941412348087e-05,
      "loss": 0.6999,
      "step": 50250
    },
    {
      "epoch": 0.06868103734309523,
      "grad_norm": 3.078125,
      "learning_rate": 9.939244169439597e-05,
      "loss": 0.8693,
      "step": 50300
    },
    {
      "epoch": 0.068749308751985,
      "grad_norm": 2.875,
      "learning_rate": 9.939073978813694e-05,
      "loss": 0.7304,
      "step": 50350
    },
    {
      "epoch": 0.06881758016087475,
      "grad_norm": 2.796875,
      "learning_rate": 9.938903551611318e-05,
      "loss": 0.7562,
      "step": 50400
    },
    {
      "epoch": 0.06888585156976451,
      "grad_norm": 3.75,
      "learning_rate": 9.938732887840632e-05,
      "loss": 0.8042,
      "step": 50450
    },
    {
      "epoch": 0.06895412297865426,
      "grad_norm": 3.421875,
      "learning_rate": 9.938561987509807e-05,
      "loss": 0.838,
      "step": 50500
    },
    {
      "epoch": 0.06902239438754401,
      "grad_norm": 3.3125,
      "learning_rate": 9.93839085062703e-05,
      "loss": 0.7865,
      "step": 50550
    },
    {
      "epoch": 0.06909066579643378,
      "grad_norm": 8.0,
      "learning_rate": 9.938219477200502e-05,
      "loss": 0.8071,
      "step": 50600
    },
    {
      "epoch": 0.06915893720532353,
      "grad_norm": 3.40625,
      "learning_rate": 9.93804786723843e-05,
      "loss": 0.8708,
      "step": 50650
    },
    {
      "epoch": 0.06922720861421329,
      "grad_norm": 3.9375,
      "learning_rate": 9.93787602074903e-05,
      "loss": 0.7402,
      "step": 50700
    },
    {
      "epoch": 0.06929548002310304,
      "grad_norm": 7.8125,
      "learning_rate": 9.937703937740537e-05,
      "loss": 0.8798,
      "step": 50750
    },
    {
      "epoch": 0.0693637514319928,
      "grad_norm": 2.921875,
      "learning_rate": 9.937531618221193e-05,
      "loss": 0.782,
      "step": 50800
    },
    {
      "epoch": 0.06943202284088255,
      "grad_norm": 8.4375,
      "learning_rate": 9.937359062199251e-05,
      "loss": 0.9265,
      "step": 50850
    },
    {
      "epoch": 0.06950029424977232,
      "grad_norm": 3.75,
      "learning_rate": 9.93718626968298e-05,
      "loss": 0.8107,
      "step": 50900
    },
    {
      "epoch": 0.06956856565866207,
      "grad_norm": 7.9375,
      "learning_rate": 9.93701324068065e-05,
      "loss": 0.8941,
      "step": 50950
    },
    {
      "epoch": 0.06963683706755183,
      "grad_norm": 3.609375,
      "learning_rate": 9.936839975200553e-05,
      "loss": 0.6913,
      "step": 51000
    },
    {
      "epoch": 0.06970510847644158,
      "grad_norm": 3.359375,
      "learning_rate": 9.93666647325099e-05,
      "loss": 0.837,
      "step": 51050
    },
    {
      "epoch": 0.06977337988533135,
      "grad_norm": 3.171875,
      "learning_rate": 9.936492734840268e-05,
      "loss": 0.8298,
      "step": 51100
    },
    {
      "epoch": 0.0698416512942211,
      "grad_norm": 2.609375,
      "learning_rate": 9.93631875997671e-05,
      "loss": 0.7102,
      "step": 51150
    },
    {
      "epoch": 0.06990992270311086,
      "grad_norm": 4.1875,
      "learning_rate": 9.93614454866865e-05,
      "loss": 0.8319,
      "step": 51200
    },
    {
      "epoch": 0.06997819411200061,
      "grad_norm": 3.34375,
      "learning_rate": 9.935970100924431e-05,
      "loss": 0.7856,
      "step": 51250
    },
    {
      "epoch": 0.07004646552089037,
      "grad_norm": 3.53125,
      "learning_rate": 9.93579541675241e-05,
      "loss": 0.7621,
      "step": 51300
    },
    {
      "epoch": 0.07011473692978012,
      "grad_norm": 3.5,
      "learning_rate": 9.935620496160955e-05,
      "loss": 0.8063,
      "step": 51350
    },
    {
      "epoch": 0.07018300833866987,
      "grad_norm": 8.3125,
      "learning_rate": 9.935445339158442e-05,
      "loss": 0.8111,
      "step": 51400
    },
    {
      "epoch": 0.07025127974755964,
      "grad_norm": 3.296875,
      "learning_rate": 9.935269945753263e-05,
      "loss": 0.652,
      "step": 51450
    },
    {
      "epoch": 0.07031955115644939,
      "grad_norm": 8.125,
      "learning_rate": 9.935094315953818e-05,
      "loss": 0.7489,
      "step": 51500
    },
    {
      "epoch": 0.07038782256533915,
      "grad_norm": 3.046875,
      "learning_rate": 9.93491844976852e-05,
      "loss": 0.8025,
      "step": 51550
    },
    {
      "epoch": 0.0704560939742289,
      "grad_norm": 3.5625,
      "learning_rate": 9.934742347205794e-05,
      "loss": 0.813,
      "step": 51600
    },
    {
      "epoch": 0.07052436538311867,
      "grad_norm": 3.9375,
      "learning_rate": 9.934566008274074e-05,
      "loss": 0.7217,
      "step": 51650
    },
    {
      "epoch": 0.07059263679200842,
      "grad_norm": 4.59375,
      "learning_rate": 9.934389432981803e-05,
      "loss": 0.8747,
      "step": 51700
    },
    {
      "epoch": 0.07066090820089818,
      "grad_norm": 3.75,
      "learning_rate": 9.934212621337445e-05,
      "loss": 0.7859,
      "step": 51750
    },
    {
      "epoch": 0.07072917960978793,
      "grad_norm": 2.984375,
      "learning_rate": 9.934035573349466e-05,
      "loss": 0.7259,
      "step": 51800
    },
    {
      "epoch": 0.0707974510186777,
      "grad_norm": 3.921875,
      "learning_rate": 9.933858289026347e-05,
      "loss": 0.9409,
      "step": 51850
    },
    {
      "epoch": 0.07086572242756745,
      "grad_norm": 3.328125,
      "learning_rate": 9.933680768376579e-05,
      "loss": 0.7207,
      "step": 51900
    },
    {
      "epoch": 0.07093399383645721,
      "grad_norm": 8.625,
      "learning_rate": 9.933503011408665e-05,
      "loss": 0.7652,
      "step": 51950
    },
    {
      "epoch": 0.07100226524534696,
      "grad_norm": 2.765625,
      "learning_rate": 9.93332501813112e-05,
      "loss": 0.7692,
      "step": 52000
    },
    {
      "epoch": 0.07107053665423672,
      "grad_norm": 3.265625,
      "learning_rate": 9.933146788552469e-05,
      "loss": 0.8224,
      "step": 52050
    },
    {
      "epoch": 0.07113880806312647,
      "grad_norm": 3.703125,
      "learning_rate": 9.932968322681248e-05,
      "loss": 0.8168,
      "step": 52100
    },
    {
      "epoch": 0.07120707947201624,
      "grad_norm": 3.71875,
      "learning_rate": 9.93278962052601e-05,
      "loss": 0.9562,
      "step": 52150
    },
    {
      "epoch": 0.07127535088090599,
      "grad_norm": 3.515625,
      "learning_rate": 9.93261068209531e-05,
      "loss": 0.9763,
      "step": 52200
    },
    {
      "epoch": 0.07134362228979575,
      "grad_norm": 2.953125,
      "learning_rate": 9.932431507397722e-05,
      "loss": 0.736,
      "step": 52250
    },
    {
      "epoch": 0.0714118936986855,
      "grad_norm": 7.78125,
      "learning_rate": 9.932252096441825e-05,
      "loss": 1.1145,
      "step": 52300
    },
    {
      "epoch": 0.07148016510757525,
      "grad_norm": 9.25,
      "learning_rate": 9.932072449236214e-05,
      "loss": 0.7287,
      "step": 52350
    },
    {
      "epoch": 0.07154843651646502,
      "grad_norm": 3.9375,
      "learning_rate": 9.931892565789494e-05,
      "loss": 0.8955,
      "step": 52400
    },
    {
      "epoch": 0.07161670792535477,
      "grad_norm": 2.90625,
      "learning_rate": 9.931712446110283e-05,
      "loss": 0.9482,
      "step": 52450
    },
    {
      "epoch": 0.07168497933424453,
      "grad_norm": 3.1875,
      "learning_rate": 9.931532090207205e-05,
      "loss": 0.8081,
      "step": 52500
    },
    {
      "epoch": 0.07175325074313428,
      "grad_norm": 3.609375,
      "learning_rate": 9.931351498088903e-05,
      "loss": 0.8146,
      "step": 52550
    },
    {
      "epoch": 0.07182152215202404,
      "grad_norm": 4.15625,
      "learning_rate": 9.931170669764024e-05,
      "loss": 0.756,
      "step": 52600
    },
    {
      "epoch": 0.0718897935609138,
      "grad_norm": 3.546875,
      "learning_rate": 9.93098960524123e-05,
      "loss": 0.7356,
      "step": 52650
    },
    {
      "epoch": 0.07195806496980356,
      "grad_norm": 3.765625,
      "learning_rate": 9.930808304529196e-05,
      "loss": 0.8174,
      "step": 52700
    },
    {
      "epoch": 0.07202633637869331,
      "grad_norm": 3.78125,
      "learning_rate": 9.930626767636603e-05,
      "loss": 0.7614,
      "step": 52750
    },
    {
      "epoch": 0.07209460778758307,
      "grad_norm": 3.234375,
      "learning_rate": 9.930444994572148e-05,
      "loss": 0.7558,
      "step": 52800
    },
    {
      "epoch": 0.07216287919647282,
      "grad_norm": 4.71875,
      "learning_rate": 9.930262985344538e-05,
      "loss": 0.7225,
      "step": 52850
    },
    {
      "epoch": 0.07223115060536259,
      "grad_norm": 4.5,
      "learning_rate": 9.93008073996249e-05,
      "loss": 0.8761,
      "step": 52900
    },
    {
      "epoch": 0.07229942201425234,
      "grad_norm": 2.671875,
      "learning_rate": 9.929898258434734e-05,
      "loss": 0.9409,
      "step": 52950
    },
    {
      "epoch": 0.0723676934231421,
      "grad_norm": 4.09375,
      "learning_rate": 9.929715540770012e-05,
      "loss": 0.8195,
      "step": 53000
    },
    {
      "epoch": 0.07243596483203185,
      "grad_norm": 9.0625,
      "learning_rate": 9.929532586977073e-05,
      "loss": 0.8797,
      "step": 53050
    },
    {
      "epoch": 0.07250423624092162,
      "grad_norm": 3.4375,
      "learning_rate": 9.929349397064683e-05,
      "loss": 0.7966,
      "step": 53100
    },
    {
      "epoch": 0.07257250764981137,
      "grad_norm": 4.53125,
      "learning_rate": 9.929165971041616e-05,
      "loss": 0.8404,
      "step": 53150
    },
    {
      "epoch": 0.07264077905870112,
      "grad_norm": 3.609375,
      "learning_rate": 9.928982308916657e-05,
      "loss": 0.8584,
      "step": 53200
    },
    {
      "epoch": 0.07270905046759088,
      "grad_norm": 7.46875,
      "learning_rate": 9.928798410698603e-05,
      "loss": 0.8484,
      "step": 53250
    },
    {
      "epoch": 0.07277732187648063,
      "grad_norm": 3.9375,
      "learning_rate": 9.928614276396264e-05,
      "loss": 0.8011,
      "step": 53300
    },
    {
      "epoch": 0.0728455932853704,
      "grad_norm": 3.140625,
      "learning_rate": 9.928429906018458e-05,
      "loss": 0.83,
      "step": 53350
    },
    {
      "epoch": 0.07291386469426014,
      "grad_norm": 3.125,
      "learning_rate": 9.928245299574018e-05,
      "loss": 0.8382,
      "step": 53400
    },
    {
      "epoch": 0.07298213610314991,
      "grad_norm": 3.8125,
      "learning_rate": 9.928060457071787e-05,
      "loss": 0.8387,
      "step": 53450
    },
    {
      "epoch": 0.07305040751203966,
      "grad_norm": 2.765625,
      "learning_rate": 9.927875378520615e-05,
      "loss": 0.9743,
      "step": 53500
    },
    {
      "epoch": 0.07311867892092942,
      "grad_norm": 8.4375,
      "learning_rate": 9.927690063929371e-05,
      "loss": 0.8451,
      "step": 53550
    },
    {
      "epoch": 0.07318695032981917,
      "grad_norm": 3.046875,
      "learning_rate": 9.92750451330693e-05,
      "loss": 0.7783,
      "step": 53600
    },
    {
      "epoch": 0.07325522173870894,
      "grad_norm": 3.1875,
      "learning_rate": 9.927318726662178e-05,
      "loss": 0.7966,
      "step": 53650
    },
    {
      "epoch": 0.07332349314759869,
      "grad_norm": 2.9375,
      "learning_rate": 9.927132704004017e-05,
      "loss": 0.9174,
      "step": 53700
    },
    {
      "epoch": 0.07339176455648845,
      "grad_norm": 3.375,
      "learning_rate": 9.926946445341356e-05,
      "loss": 0.6969,
      "step": 53750
    },
    {
      "epoch": 0.0734600359653782,
      "grad_norm": 2.953125,
      "learning_rate": 9.926759950683115e-05,
      "loss": 0.7645,
      "step": 53800
    },
    {
      "epoch": 0.07352830737426796,
      "grad_norm": 4.40625,
      "learning_rate": 9.92657322003823e-05,
      "loss": 0.9214,
      "step": 53850
    },
    {
      "epoch": 0.07359657878315772,
      "grad_norm": 4.9375,
      "learning_rate": 9.926386253415643e-05,
      "loss": 0.7988,
      "step": 53900
    },
    {
      "epoch": 0.07366485019204748,
      "grad_norm": 4.75,
      "learning_rate": 9.926199050824309e-05,
      "loss": 0.7728,
      "step": 53950
    },
    {
      "epoch": 0.07373312160093723,
      "grad_norm": 8.625,
      "learning_rate": 9.926011612273198e-05,
      "loss": 0.9335,
      "step": 54000
    },
    {
      "epoch": 0.073801393009827,
      "grad_norm": 4.78125,
      "learning_rate": 9.925823937771283e-05,
      "loss": 0.8252,
      "step": 54050
    },
    {
      "epoch": 0.07386966441871674,
      "grad_norm": 3.4375,
      "learning_rate": 9.925636027327558e-05,
      "loss": 0.8376,
      "step": 54100
    },
    {
      "epoch": 0.0739379358276065,
      "grad_norm": 5.3125,
      "learning_rate": 9.925447880951022e-05,
      "loss": 0.8146,
      "step": 54150
    },
    {
      "epoch": 0.07400620723649626,
      "grad_norm": 3.625,
      "learning_rate": 9.925259498650687e-05,
      "loss": 0.7736,
      "step": 54200
    },
    {
      "epoch": 0.07407447864538601,
      "grad_norm": 7.84375,
      "learning_rate": 9.925070880435579e-05,
      "loss": 0.8599,
      "step": 54250
    },
    {
      "epoch": 0.07414275005427577,
      "grad_norm": 3.15625,
      "learning_rate": 9.924882026314726e-05,
      "loss": 0.8841,
      "step": 54300
    },
    {
      "epoch": 0.07421102146316552,
      "grad_norm": 4.65625,
      "learning_rate": 9.92469293629718e-05,
      "loss": 0.7611,
      "step": 54350
    },
    {
      "epoch": 0.07427929287205529,
      "grad_norm": 4.25,
      "learning_rate": 9.924503610391996e-05,
      "loss": 0.7989,
      "step": 54400
    },
    {
      "epoch": 0.07434756428094504,
      "grad_norm": 3.46875,
      "learning_rate": 9.924314048608243e-05,
      "loss": 0.7695,
      "step": 54450
    },
    {
      "epoch": 0.0744158356898348,
      "grad_norm": 3.59375,
      "learning_rate": 9.924124250954999e-05,
      "loss": 0.7995,
      "step": 54500
    },
    {
      "epoch": 0.07448410709872455,
      "grad_norm": 4.6875,
      "learning_rate": 9.923934217441358e-05,
      "loss": 0.907,
      "step": 54550
    },
    {
      "epoch": 0.07455237850761431,
      "grad_norm": 4.21875,
      "learning_rate": 9.923743948076421e-05,
      "loss": 0.8743,
      "step": 54600
    },
    {
      "epoch": 0.07462064991650406,
      "grad_norm": 3.234375,
      "learning_rate": 9.9235534428693e-05,
      "loss": 0.8662,
      "step": 54650
    },
    {
      "epoch": 0.07468892132539383,
      "grad_norm": 8.625,
      "learning_rate": 9.923362701829124e-05,
      "loss": 0.876,
      "step": 54700
    },
    {
      "epoch": 0.07475719273428358,
      "grad_norm": 8.0,
      "learning_rate": 9.923171724965026e-05,
      "loss": 0.9727,
      "step": 54750
    },
    {
      "epoch": 0.07482546414317334,
      "grad_norm": 2.640625,
      "learning_rate": 9.922980512286154e-05,
      "loss": 0.806,
      "step": 54800
    },
    {
      "epoch": 0.07489373555206309,
      "grad_norm": 3.3125,
      "learning_rate": 9.922789063801668e-05,
      "loss": 0.7436,
      "step": 54850
    },
    {
      "epoch": 0.07496200696095286,
      "grad_norm": 2.71875,
      "learning_rate": 9.922597379520737e-05,
      "loss": 0.8147,
      "step": 54900
    },
    {
      "epoch": 0.0750302783698426,
      "grad_norm": 2.734375,
      "learning_rate": 9.922405459452544e-05,
      "loss": 0.7757,
      "step": 54950
    },
    {
      "epoch": 0.07509854977873236,
      "grad_norm": 3.0625,
      "learning_rate": 9.922213303606282e-05,
      "loss": 0.8189,
      "step": 55000
    },
    {
      "epoch": 0.07516682118762212,
      "grad_norm": 3.171875,
      "learning_rate": 9.922020911991152e-05,
      "loss": 0.7104,
      "step": 55050
    },
    {
      "epoch": 0.07523509259651187,
      "grad_norm": 3.140625,
      "learning_rate": 9.921828284616372e-05,
      "loss": 0.8481,
      "step": 55100
    },
    {
      "epoch": 0.07530336400540164,
      "grad_norm": 3.625,
      "learning_rate": 9.92163542149117e-05,
      "loss": 0.9307,
      "step": 55150
    },
    {
      "epoch": 0.07537163541429139,
      "grad_norm": 7.96875,
      "learning_rate": 9.921442322624779e-05,
      "loss": 0.8643,
      "step": 55200
    },
    {
      "epoch": 0.07543990682318115,
      "grad_norm": 3.296875,
      "learning_rate": 9.921248988026451e-05,
      "loss": 0.8825,
      "step": 55250
    },
    {
      "epoch": 0.0755081782320709,
      "grad_norm": 3.75,
      "learning_rate": 9.921055417705449e-05,
      "loss": 0.8265,
      "step": 55300
    },
    {
      "epoch": 0.07557644964096066,
      "grad_norm": 2.890625,
      "learning_rate": 9.92086161167104e-05,
      "loss": 0.7236,
      "step": 55350
    },
    {
      "epoch": 0.07564472104985041,
      "grad_norm": 3.484375,
      "learning_rate": 9.920667569932512e-05,
      "loss": 0.8029,
      "step": 55400
    },
    {
      "epoch": 0.07571299245874018,
      "grad_norm": 3.3125,
      "learning_rate": 9.920473292499155e-05,
      "loss": 0.7907,
      "step": 55450
    },
    {
      "epoch": 0.07578126386762993,
      "grad_norm": 3.34375,
      "learning_rate": 9.920278779380278e-05,
      "loss": 0.8113,
      "step": 55500
    },
    {
      "epoch": 0.07584953527651969,
      "grad_norm": 2.859375,
      "learning_rate": 9.920084030585196e-05,
      "loss": 0.8342,
      "step": 55550
    },
    {
      "epoch": 0.07591780668540944,
      "grad_norm": 3.828125,
      "learning_rate": 9.919889046123239e-05,
      "loss": 0.9136,
      "step": 55600
    },
    {
      "epoch": 0.0759860780942992,
      "grad_norm": 8.875,
      "learning_rate": 9.919693826003744e-05,
      "loss": 0.8039,
      "step": 55650
    },
    {
      "epoch": 0.07605434950318896,
      "grad_norm": 8.375,
      "learning_rate": 9.919498370236064e-05,
      "loss": 0.8424,
      "step": 55700
    },
    {
      "epoch": 0.07612262091207872,
      "grad_norm": 3.140625,
      "learning_rate": 9.91930267882956e-05,
      "loss": 0.8504,
      "step": 55750
    },
    {
      "epoch": 0.07619089232096847,
      "grad_norm": 4.125,
      "learning_rate": 9.919106751793607e-05,
      "loss": 0.7437,
      "step": 55800
    },
    {
      "epoch": 0.07625916372985823,
      "grad_norm": 7.5,
      "learning_rate": 9.918910589137588e-05,
      "loss": 0.9332,
      "step": 55850
    },
    {
      "epoch": 0.07632743513874798,
      "grad_norm": 3.53125,
      "learning_rate": 9.9187141908709e-05,
      "loss": 0.7825,
      "step": 55900
    },
    {
      "epoch": 0.07639570654763773,
      "grad_norm": 3.15625,
      "learning_rate": 9.918517557002948e-05,
      "loss": 0.8755,
      "step": 55950
    },
    {
      "epoch": 0.0764639779565275,
      "grad_norm": 3.84375,
      "learning_rate": 9.918320687543154e-05,
      "loss": 0.8715,
      "step": 56000
    },
    {
      "epoch": 0.07653224936541725,
      "grad_norm": 2.8125,
      "learning_rate": 9.918123582500946e-05,
      "loss": 0.7477,
      "step": 56050
    },
    {
      "epoch": 0.07660052077430701,
      "grad_norm": 4.3125,
      "learning_rate": 9.917926241885765e-05,
      "loss": 0.7165,
      "step": 56100
    },
    {
      "epoch": 0.07666879218319676,
      "grad_norm": 3.6875,
      "learning_rate": 9.917728665707063e-05,
      "loss": 0.701,
      "step": 56150
    },
    {
      "epoch": 0.07673706359208653,
      "grad_norm": 4.375,
      "learning_rate": 9.917530853974306e-05,
      "loss": 0.7852,
      "step": 56200
    },
    {
      "epoch": 0.07680533500097628,
      "grad_norm": 2.703125,
      "learning_rate": 9.917332806696966e-05,
      "loss": 0.8831,
      "step": 56250
    },
    {
      "epoch": 0.07687360640986604,
      "grad_norm": 3.046875,
      "learning_rate": 9.917134523884531e-05,
      "loss": 0.6773,
      "step": 56300
    },
    {
      "epoch": 0.07694187781875579,
      "grad_norm": 4.96875,
      "learning_rate": 9.9169360055465e-05,
      "loss": 0.8778,
      "step": 56350
    },
    {
      "epoch": 0.07701014922764556,
      "grad_norm": 2.84375,
      "learning_rate": 9.916737251692378e-05,
      "loss": 0.8175,
      "step": 56400
    },
    {
      "epoch": 0.0770784206365353,
      "grad_norm": 8.1875,
      "learning_rate": 9.916538262331688e-05,
      "loss": 0.8588,
      "step": 56450
    },
    {
      "epoch": 0.07714669204542507,
      "grad_norm": 7.375,
      "learning_rate": 9.91633903747396e-05,
      "loss": 0.8597,
      "step": 56500
    },
    {
      "epoch": 0.07721496345431482,
      "grad_norm": 3.46875,
      "learning_rate": 9.916139577128737e-05,
      "loss": 0.7692,
      "step": 56550
    },
    {
      "epoch": 0.07728323486320458,
      "grad_norm": 3.65625,
      "learning_rate": 9.915939881305573e-05,
      "loss": 0.7214,
      "step": 56600
    },
    {
      "epoch": 0.07735150627209433,
      "grad_norm": 4.40625,
      "learning_rate": 9.915739950014035e-05,
      "loss": 0.8271,
      "step": 56650
    },
    {
      "epoch": 0.0774197776809841,
      "grad_norm": 3.203125,
      "learning_rate": 9.915539783263696e-05,
      "loss": 0.7807,
      "step": 56700
    },
    {
      "epoch": 0.07748804908987385,
      "grad_norm": 3.546875,
      "learning_rate": 9.915339381064146e-05,
      "loss": 0.8374,
      "step": 56750
    },
    {
      "epoch": 0.0775563204987636,
      "grad_norm": 3.671875,
      "learning_rate": 9.915138743424984e-05,
      "loss": 0.8487,
      "step": 56800
    },
    {
      "epoch": 0.07762459190765336,
      "grad_norm": 3.515625,
      "learning_rate": 9.91493787035582e-05,
      "loss": 0.9385,
      "step": 56850
    },
    {
      "epoch": 0.07769286331654311,
      "grad_norm": 3.5,
      "learning_rate": 9.914736761866277e-05,
      "loss": 0.775,
      "step": 56900
    },
    {
      "epoch": 0.07776113472543288,
      "grad_norm": 4.78125,
      "learning_rate": 9.914535417965984e-05,
      "loss": 0.7481,
      "step": 56950
    },
    {
      "epoch": 0.07782940613432263,
      "grad_norm": 3.9375,
      "learning_rate": 9.914333838664589e-05,
      "loss": 0.9002,
      "step": 57000
    },
    {
      "epoch": 0.07789767754321239,
      "grad_norm": 2.671875,
      "learning_rate": 9.914132023971745e-05,
      "loss": 0.8356,
      "step": 57050
    },
    {
      "epoch": 0.07796594895210214,
      "grad_norm": 7.9375,
      "learning_rate": 9.913929973897122e-05,
      "loss": 0.8127,
      "step": 57100
    },
    {
      "epoch": 0.0780342203609919,
      "grad_norm": 2.859375,
      "learning_rate": 9.913727688450394e-05,
      "loss": 0.8087,
      "step": 57150
    },
    {
      "epoch": 0.07810249176988165,
      "grad_norm": 2.875,
      "learning_rate": 9.913525167641252e-05,
      "loss": 0.7762,
      "step": 57200
    },
    {
      "epoch": 0.07817076317877142,
      "grad_norm": 7.40625,
      "learning_rate": 9.913322411479397e-05,
      "loss": 0.9196,
      "step": 57250
    },
    {
      "epoch": 0.07823903458766117,
      "grad_norm": 3.28125,
      "learning_rate": 9.913119419974542e-05,
      "loss": 0.8748,
      "step": 57300
    },
    {
      "epoch": 0.07830730599655093,
      "grad_norm": 3.1875,
      "learning_rate": 9.912916193136406e-05,
      "loss": 0.6632,
      "step": 57350
    },
    {
      "epoch": 0.07837557740544068,
      "grad_norm": 8.25,
      "learning_rate": 9.912712730974727e-05,
      "loss": 0.7672,
      "step": 57400
    },
    {
      "epoch": 0.07844384881433045,
      "grad_norm": 3.03125,
      "learning_rate": 9.912509033499248e-05,
      "loss": 0.8443,
      "step": 57450
    },
    {
      "epoch": 0.0785121202232202,
      "grad_norm": 7.53125,
      "learning_rate": 9.912305100719729e-05,
      "loss": 0.7539,
      "step": 57500
    },
    {
      "epoch": 0.07858039163210996,
      "grad_norm": 4.34375,
      "learning_rate": 9.912100932645937e-05,
      "loss": 0.9031,
      "step": 57550
    },
    {
      "epoch": 0.07864866304099971,
      "grad_norm": 3.078125,
      "learning_rate": 9.91189652928765e-05,
      "loss": 0.7807,
      "step": 57600
    },
    {
      "epoch": 0.07871693444988948,
      "grad_norm": 2.59375,
      "learning_rate": 9.91169189065466e-05,
      "loss": 0.8216,
      "step": 57650
    },
    {
      "epoch": 0.07878520585877923,
      "grad_norm": 3.84375,
      "learning_rate": 9.911487016756768e-05,
      "loss": 0.7206,
      "step": 57700
    },
    {
      "epoch": 0.07885347726766898,
      "grad_norm": 3.71875,
      "learning_rate": 9.911281907603789e-05,
      "loss": 0.7849,
      "step": 57750
    },
    {
      "epoch": 0.07892174867655874,
      "grad_norm": 4.46875,
      "learning_rate": 9.911076563205545e-05,
      "loss": 0.8385,
      "step": 57800
    },
    {
      "epoch": 0.07899002008544849,
      "grad_norm": 3.875,
      "learning_rate": 9.910870983571874e-05,
      "loss": 0.8668,
      "step": 57850
    },
    {
      "epoch": 0.07905829149433825,
      "grad_norm": 3.71875,
      "learning_rate": 9.910665168712623e-05,
      "loss": 0.863,
      "step": 57900
    },
    {
      "epoch": 0.079126562903228,
      "grad_norm": 4.0625,
      "learning_rate": 9.910459118637647e-05,
      "loss": 0.7942,
      "step": 57950
    },
    {
      "epoch": 0.07919483431211777,
      "grad_norm": 3.234375,
      "learning_rate": 9.910252833356821e-05,
      "loss": 0.8158,
      "step": 58000
    },
    {
      "epoch": 0.07926310572100752,
      "grad_norm": 3.453125,
      "learning_rate": 9.910046312880021e-05,
      "loss": 0.7801,
      "step": 58050
    },
    {
      "epoch": 0.07933137712989728,
      "grad_norm": 3.484375,
      "learning_rate": 9.909839557217142e-05,
      "loss": 0.7847,
      "step": 58100
    },
    {
      "epoch": 0.07939964853878703,
      "grad_norm": 3.1875,
      "learning_rate": 9.909632566378087e-05,
      "loss": 0.6863,
      "step": 58150
    },
    {
      "epoch": 0.0794679199476768,
      "grad_norm": 7.09375,
      "learning_rate": 9.909425340372769e-05,
      "loss": 0.8453,
      "step": 58200
    },
    {
      "epoch": 0.07953619135656655,
      "grad_norm": 4.3125,
      "learning_rate": 9.909217879211115e-05,
      "loss": 0.7466,
      "step": 58250
    },
    {
      "epoch": 0.07960446276545631,
      "grad_norm": 8.1875,
      "learning_rate": 9.909010182903063e-05,
      "loss": 0.9482,
      "step": 58300
    },
    {
      "epoch": 0.07967273417434606,
      "grad_norm": 2.84375,
      "learning_rate": 9.908802251458561e-05,
      "loss": 0.8177,
      "step": 58350
    },
    {
      "epoch": 0.07974100558323582,
      "grad_norm": 3.703125,
      "learning_rate": 9.908594084887569e-05,
      "loss": 0.9263,
      "step": 58400
    },
    {
      "epoch": 0.07980927699212557,
      "grad_norm": 3.15625,
      "learning_rate": 9.908385683200055e-05,
      "loss": 0.7917,
      "step": 58450
    },
    {
      "epoch": 0.07987754840101534,
      "grad_norm": 3.984375,
      "learning_rate": 9.908177046406005e-05,
      "loss": 0.7765,
      "step": 58500
    },
    {
      "epoch": 0.07994581980990509,
      "grad_norm": 3.03125,
      "learning_rate": 9.90796817451541e-05,
      "loss": 0.8696,
      "step": 58550
    },
    {
      "epoch": 0.08001409121879484,
      "grad_norm": 3.296875,
      "learning_rate": 9.907759067538276e-05,
      "loss": 0.8398,
      "step": 58600
    },
    {
      "epoch": 0.0800823626276846,
      "grad_norm": 2.9375,
      "learning_rate": 9.90754972548462e-05,
      "loss": 0.8049,
      "step": 58650
    },
    {
      "epoch": 0.08015063403657435,
      "grad_norm": 7.96875,
      "learning_rate": 9.907340148364466e-05,
      "loss": 0.7592,
      "step": 58700
    },
    {
      "epoch": 0.08021890544546412,
      "grad_norm": 3.5,
      "learning_rate": 9.907130336187856e-05,
      "loss": 0.8994,
      "step": 58750
    },
    {
      "epoch": 0.08028717685435387,
      "grad_norm": 3.046875,
      "learning_rate": 9.906920288964838e-05,
      "loss": 0.8674,
      "step": 58800
    },
    {
      "epoch": 0.08035544826324363,
      "grad_norm": 3.3125,
      "learning_rate": 9.906710006705473e-05,
      "loss": 0.7424,
      "step": 58850
    },
    {
      "epoch": 0.08042371967213338,
      "grad_norm": 3.28125,
      "learning_rate": 9.906499489419834e-05,
      "loss": 0.7855,
      "step": 58900
    },
    {
      "epoch": 0.08049199108102315,
      "grad_norm": 8.125,
      "learning_rate": 9.906288737118003e-05,
      "loss": 0.8226,
      "step": 58950
    },
    {
      "epoch": 0.0805602624899129,
      "grad_norm": 2.796875,
      "learning_rate": 9.906077749810079e-05,
      "loss": 0.7837,
      "step": 59000
    },
    {
      "epoch": 0.08062853389880266,
      "grad_norm": 3.1875,
      "learning_rate": 9.905866527506163e-05,
      "loss": 0.8213,
      "step": 59050
    },
    {
      "epoch": 0.08069680530769241,
      "grad_norm": 7.96875,
      "learning_rate": 9.905655070216376e-05,
      "loss": 0.8591,
      "step": 59100
    },
    {
      "epoch": 0.08076507671658217,
      "grad_norm": 3.78125,
      "learning_rate": 9.905443377950842e-05,
      "loss": 0.8425,
      "step": 59150
    },
    {
      "epoch": 0.08083334812547192,
      "grad_norm": 3.015625,
      "learning_rate": 9.905231450719706e-05,
      "loss": 0.7728,
      "step": 59200
    },
    {
      "epoch": 0.08090161953436169,
      "grad_norm": 7.78125,
      "learning_rate": 9.905019288533117e-05,
      "loss": 0.8262,
      "step": 59250
    },
    {
      "epoch": 0.08096989094325144,
      "grad_norm": 3.6875,
      "learning_rate": 9.904806891401237e-05,
      "loss": 0.8709,
      "step": 59300
    },
    {
      "epoch": 0.0810381623521412,
      "grad_norm": 7.59375,
      "learning_rate": 9.904594259334239e-05,
      "loss": 0.9603,
      "step": 59350
    },
    {
      "epoch": 0.08110643376103095,
      "grad_norm": 3.359375,
      "learning_rate": 9.90438139234231e-05,
      "loss": 0.7674,
      "step": 59400
    },
    {
      "epoch": 0.08117470516992072,
      "grad_norm": 4.3125,
      "learning_rate": 9.904168290435645e-05,
      "loss": 0.8044,
      "step": 59450
    },
    {
      "epoch": 0.08124297657881047,
      "grad_norm": 7.65625,
      "learning_rate": 9.90395495362445e-05,
      "loss": 0.7119,
      "step": 59500
    },
    {
      "epoch": 0.08131124798770022,
      "grad_norm": 7.59375,
      "learning_rate": 9.903741381918945e-05,
      "loss": 0.9369,
      "step": 59550
    },
    {
      "epoch": 0.08137951939658998,
      "grad_norm": 3.21875,
      "learning_rate": 9.903527575329362e-05,
      "loss": 0.8549,
      "step": 59600
    },
    {
      "epoch": 0.08144779080547973,
      "grad_norm": 3.515625,
      "learning_rate": 9.903313533865937e-05,
      "loss": 0.7497,
      "step": 59650
    },
    {
      "epoch": 0.0815160622143695,
      "grad_norm": 4.0625,
      "learning_rate": 9.903099257538926e-05,
      "loss": 0.7923,
      "step": 59700
    },
    {
      "epoch": 0.08158433362325924,
      "grad_norm": 3.515625,
      "learning_rate": 9.902884746358592e-05,
      "loss": 0.7929,
      "step": 59750
    },
    {
      "epoch": 0.08165260503214901,
      "grad_norm": 3.203125,
      "learning_rate": 9.90267000033521e-05,
      "loss": 0.7786,
      "step": 59800
    },
    {
      "epoch": 0.08172087644103876,
      "grad_norm": 7.96875,
      "learning_rate": 9.902455019479064e-05,
      "loss": 0.6304,
      "step": 59850
    },
    {
      "epoch": 0.08178914784992852,
      "grad_norm": 3.015625,
      "learning_rate": 9.902239803800455e-05,
      "loss": 0.8331,
      "step": 59900
    },
    {
      "epoch": 0.08185741925881827,
      "grad_norm": 3.53125,
      "learning_rate": 9.902024353309688e-05,
      "loss": 0.7569,
      "step": 59950
    },
    {
      "epoch": 0.08192569066770804,
      "grad_norm": 3.296875,
      "learning_rate": 9.901808668017087e-05,
      "loss": 0.798,
      "step": 60000
    },
    {
      "epoch": 0.08199396207659779,
      "grad_norm": 8.125,
      "learning_rate": 9.90159274793298e-05,
      "loss": 0.7377,
      "step": 60050
    },
    {
      "epoch": 0.08206223348548755,
      "grad_norm": 3.09375,
      "learning_rate": 9.90137659306771e-05,
      "loss": 0.7991,
      "step": 60100
    },
    {
      "epoch": 0.0821305048943773,
      "grad_norm": 3.90625,
      "learning_rate": 9.90116020343163e-05,
      "loss": 0.7962,
      "step": 60150
    },
    {
      "epoch": 0.08219877630326707,
      "grad_norm": 3.125,
      "learning_rate": 9.900943579035104e-05,
      "loss": 0.8055,
      "step": 60200
    },
    {
      "epoch": 0.08226704771215682,
      "grad_norm": 8.3125,
      "learning_rate": 9.900726719888511e-05,
      "loss": 0.7691,
      "step": 60250
    },
    {
      "epoch": 0.08233531912104658,
      "grad_norm": 3.4375,
      "learning_rate": 9.900509626002236e-05,
      "loss": 0.8423,
      "step": 60300
    },
    {
      "epoch": 0.08240359052993633,
      "grad_norm": 8.9375,
      "learning_rate": 9.900292297386681e-05,
      "loss": 0.8721,
      "step": 60350
    },
    {
      "epoch": 0.08247186193882608,
      "grad_norm": 9.0625,
      "learning_rate": 9.900074734052251e-05,
      "loss": 0.8522,
      "step": 60400
    },
    {
      "epoch": 0.08254013334771584,
      "grad_norm": 2.96875,
      "learning_rate": 9.89985693600937e-05,
      "loss": 0.7499,
      "step": 60450
    },
    {
      "epoch": 0.0826084047566056,
      "grad_norm": 7.625,
      "learning_rate": 9.899638903268469e-05,
      "loss": 0.8442,
      "step": 60500
    },
    {
      "epoch": 0.08267667616549536,
      "grad_norm": 4.8125,
      "learning_rate": 9.899420635839993e-05,
      "loss": 0.8281,
      "step": 60550
    },
    {
      "epoch": 0.08274494757438511,
      "grad_norm": 3.21875,
      "learning_rate": 9.899202133734395e-05,
      "loss": 0.734,
      "step": 60600
    },
    {
      "epoch": 0.08281321898327487,
      "grad_norm": 4.53125,
      "learning_rate": 9.898983396962143e-05,
      "loss": 0.7184,
      "step": 60650
    },
    {
      "epoch": 0.08288149039216462,
      "grad_norm": 8.6875,
      "learning_rate": 9.898764425533711e-05,
      "loss": 0.8806,
      "step": 60700
    },
    {
      "epoch": 0.08294976180105439,
      "grad_norm": 3.078125,
      "learning_rate": 9.898545219459592e-05,
      "loss": 0.7476,
      "step": 60750
    },
    {
      "epoch": 0.08301803320994414,
      "grad_norm": 3.3125,
      "learning_rate": 9.898325778750282e-05,
      "loss": 0.7791,
      "step": 60800
    },
    {
      "epoch": 0.0830863046188339,
      "grad_norm": 4.53125,
      "learning_rate": 9.898106103416295e-05,
      "loss": 0.7361,
      "step": 60850
    },
    {
      "epoch": 0.08315457602772365,
      "grad_norm": 2.609375,
      "learning_rate": 9.89788619346815e-05,
      "loss": 0.7898,
      "step": 60900
    },
    {
      "epoch": 0.08322284743661341,
      "grad_norm": 3.09375,
      "learning_rate": 9.897666048916383e-05,
      "loss": 0.8256,
      "step": 60950
    },
    {
      "epoch": 0.08329111884550316,
      "grad_norm": 2.546875,
      "learning_rate": 9.897445669771538e-05,
      "loss": 0.7058,
      "step": 61000
    },
    {
      "epoch": 0.08335939025439293,
      "grad_norm": 3.09375,
      "learning_rate": 9.89722505604417e-05,
      "loss": 0.8133,
      "step": 61050
    },
    {
      "epoch": 0.08342766166328268,
      "grad_norm": 8.5625,
      "learning_rate": 9.897004207744847e-05,
      "loss": 0.9119,
      "step": 61100
    },
    {
      "epoch": 0.08349593307217244,
      "grad_norm": 3.34375,
      "learning_rate": 9.896783124884148e-05,
      "loss": 0.7743,
      "step": 61150
    },
    {
      "epoch": 0.0835642044810622,
      "grad_norm": 2.890625,
      "learning_rate": 9.896561807472661e-05,
      "loss": 0.6715,
      "step": 61200
    },
    {
      "epoch": 0.08363247588995196,
      "grad_norm": 9.5,
      "learning_rate": 9.896340255520988e-05,
      "loss": 0.7757,
      "step": 61250
    },
    {
      "epoch": 0.08370074729884171,
      "grad_norm": 3.03125,
      "learning_rate": 9.896118469039742e-05,
      "loss": 0.7572,
      "step": 61300
    },
    {
      "epoch": 0.08376901870773146,
      "grad_norm": 3.84375,
      "learning_rate": 9.895896448039543e-05,
      "loss": 0.7391,
      "step": 61350
    },
    {
      "epoch": 0.08383729011662122,
      "grad_norm": 4.59375,
      "learning_rate": 9.89567419253103e-05,
      "loss": 0.7343,
      "step": 61400
    },
    {
      "epoch": 0.08390556152551097,
      "grad_norm": 4.375,
      "learning_rate": 9.895451702524845e-05,
      "loss": 0.7931,
      "step": 61450
    },
    {
      "epoch": 0.08397383293440074,
      "grad_norm": 7.65625,
      "learning_rate": 9.895228978031648e-05,
      "loss": 0.7818,
      "step": 61500
    },
    {
      "epoch": 0.08404210434329049,
      "grad_norm": 3.375,
      "learning_rate": 9.895006019062105e-05,
      "loss": 0.7319,
      "step": 61550
    },
    {
      "epoch": 0.08411037575218025,
      "grad_norm": 3.046875,
      "learning_rate": 9.894782825626896e-05,
      "loss": 0.7902,
      "step": 61600
    },
    {
      "epoch": 0.08417864716107,
      "grad_norm": 3.421875,
      "learning_rate": 9.894559397736714e-05,
      "loss": 0.8146,
      "step": 61650
    },
    {
      "epoch": 0.08424691856995976,
      "grad_norm": 3.265625,
      "learning_rate": 9.894335735402258e-05,
      "loss": 0.8485,
      "step": 61700
    },
    {
      "epoch": 0.08431518997884951,
      "grad_norm": 3.203125,
      "learning_rate": 9.894111838634241e-05,
      "loss": 0.8346,
      "step": 61750
    },
    {
      "epoch": 0.08438346138773928,
      "grad_norm": 2.984375,
      "learning_rate": 9.89388770744339e-05,
      "loss": 0.7519,
      "step": 61800
    },
    {
      "epoch": 0.08445173279662903,
      "grad_norm": 3.3125,
      "learning_rate": 9.89366334184044e-05,
      "loss": 0.8153,
      "step": 61850
    },
    {
      "epoch": 0.08452000420551879,
      "grad_norm": 10.125,
      "learning_rate": 9.893438741836136e-05,
      "loss": 0.9153,
      "step": 61900
    },
    {
      "epoch": 0.08458827561440854,
      "grad_norm": 4.5625,
      "learning_rate": 9.89321390744124e-05,
      "loss": 0.7469,
      "step": 61950
    },
    {
      "epoch": 0.0846565470232983,
      "grad_norm": 3.234375,
      "learning_rate": 9.892988838666516e-05,
      "loss": 0.7123,
      "step": 62000
    },
    {
      "epoch": 0.08472481843218806,
      "grad_norm": 8.3125,
      "learning_rate": 9.892763535522748e-05,
      "loss": 0.8206,
      "step": 62050
    },
    {
      "epoch": 0.08479308984107782,
      "grad_norm": 3.015625,
      "learning_rate": 9.892537998020727e-05,
      "loss": 0.7887,
      "step": 62100
    },
    {
      "epoch": 0.08486136124996757,
      "grad_norm": 2.90625,
      "learning_rate": 9.892312226171257e-05,
      "loss": 0.9266,
      "step": 62150
    },
    {
      "epoch": 0.08492963265885733,
      "grad_norm": 2.84375,
      "learning_rate": 9.89208621998515e-05,
      "loss": 0.6725,
      "step": 62200
    },
    {
      "epoch": 0.08499790406774708,
      "grad_norm": 4.125,
      "learning_rate": 9.891859979473233e-05,
      "loss": 0.775,
      "step": 62250
    },
    {
      "epoch": 0.08506617547663683,
      "grad_norm": 8.4375,
      "learning_rate": 9.891633504646343e-05,
      "loss": 0.9601,
      "step": 62300
    },
    {
      "epoch": 0.0851344468855266,
      "grad_norm": 2.96875,
      "learning_rate": 9.891406795515326e-05,
      "loss": 0.8776,
      "step": 62350
    },
    {
      "epoch": 0.08520271829441635,
      "grad_norm": 2.65625,
      "learning_rate": 9.891179852091043e-05,
      "loss": 0.6799,
      "step": 62400
    },
    {
      "epoch": 0.08527098970330611,
      "grad_norm": 2.78125,
      "learning_rate": 9.890952674384365e-05,
      "loss": 0.7499,
      "step": 62450
    },
    {
      "epoch": 0.08533926111219586,
      "grad_norm": 3.53125,
      "learning_rate": 9.890725262406172e-05,
      "loss": 0.7569,
      "step": 62500
    },
    {
      "epoch": 0.08540753252108563,
      "grad_norm": 4.25,
      "learning_rate": 9.890497616167356e-05,
      "loss": 0.6965,
      "step": 62550
    },
    {
      "epoch": 0.08547580392997538,
      "grad_norm": 4.15625,
      "learning_rate": 9.890269735678824e-05,
      "loss": 0.7785,
      "step": 62600
    },
    {
      "epoch": 0.08554407533886514,
      "grad_norm": 2.984375,
      "learning_rate": 9.890041620951488e-05,
      "loss": 0.7576,
      "step": 62650
    },
    {
      "epoch": 0.08561234674775489,
      "grad_norm": 3.90625,
      "learning_rate": 9.889813271996276e-05,
      "loss": 0.8115,
      "step": 62700
    },
    {
      "epoch": 0.08568061815664466,
      "grad_norm": 3.390625,
      "learning_rate": 9.889584688824128e-05,
      "loss": 0.7899,
      "step": 62750
    },
    {
      "epoch": 0.0857488895655344,
      "grad_norm": 2.9375,
      "learning_rate": 9.889355871445986e-05,
      "loss": 0.7684,
      "step": 62800
    },
    {
      "epoch": 0.08581716097442417,
      "grad_norm": 2.578125,
      "learning_rate": 9.889126819872819e-05,
      "loss": 0.7516,
      "step": 62850
    },
    {
      "epoch": 0.08588543238331392,
      "grad_norm": 3.0,
      "learning_rate": 9.888897534115591e-05,
      "loss": 0.7889,
      "step": 62900
    },
    {
      "epoch": 0.08595370379220368,
      "grad_norm": 3.390625,
      "learning_rate": 9.888668014185289e-05,
      "loss": 0.8611,
      "step": 62950
    },
    {
      "epoch": 0.08602197520109343,
      "grad_norm": 3.328125,
      "learning_rate": 9.888438260092904e-05,
      "loss": 0.7589,
      "step": 63000
    },
    {
      "epoch": 0.0860902466099832,
      "grad_norm": 7.46875,
      "learning_rate": 9.888208271849443e-05,
      "loss": 0.9694,
      "step": 63050
    },
    {
      "epoch": 0.08615851801887295,
      "grad_norm": 7.6875,
      "learning_rate": 9.887978049465922e-05,
      "loss": 0.8436,
      "step": 63100
    },
    {
      "epoch": 0.0862267894277627,
      "grad_norm": 7.75,
      "learning_rate": 9.887747592953367e-05,
      "loss": 0.7981,
      "step": 63150
    },
    {
      "epoch": 0.08629506083665246,
      "grad_norm": 4.46875,
      "learning_rate": 9.887516902322817e-05,
      "loss": 0.7653,
      "step": 63200
    },
    {
      "epoch": 0.08636333224554221,
      "grad_norm": 7.96875,
      "learning_rate": 9.887285977585324e-05,
      "loss": 0.8393,
      "step": 63250
    },
    {
      "epoch": 0.08643160365443198,
      "grad_norm": 3.34375,
      "learning_rate": 9.887054818751945e-05,
      "loss": 0.7688,
      "step": 63300
    },
    {
      "epoch": 0.08649987506332173,
      "grad_norm": 2.953125,
      "learning_rate": 9.886823425833756e-05,
      "loss": 0.8773,
      "step": 63350
    },
    {
      "epoch": 0.08656814647221149,
      "grad_norm": 2.875,
      "learning_rate": 9.886591798841839e-05,
      "loss": 0.8252,
      "step": 63400
    },
    {
      "epoch": 0.08663641788110124,
      "grad_norm": 4.71875,
      "learning_rate": 9.886359937787289e-05,
      "loss": 0.8841,
      "step": 63450
    },
    {
      "epoch": 0.086704689289991,
      "grad_norm": 3.234375,
      "learning_rate": 9.886127842681211e-05,
      "loss": 0.7539,
      "step": 63500
    },
    {
      "epoch": 0.08677296069888076,
      "grad_norm": 7.65625,
      "learning_rate": 9.885895513534723e-05,
      "loss": 0.8004,
      "step": 63550
    },
    {
      "epoch": 0.08684123210777052,
      "grad_norm": 3.015625,
      "learning_rate": 9.885662950358953e-05,
      "loss": 0.7496,
      "step": 63600
    },
    {
      "epoch": 0.08690950351666027,
      "grad_norm": 3.359375,
      "learning_rate": 9.885430153165041e-05,
      "loss": 0.8825,
      "step": 63650
    },
    {
      "epoch": 0.08697777492555003,
      "grad_norm": 3.953125,
      "learning_rate": 9.885197121964136e-05,
      "loss": 0.8198,
      "step": 63700
    },
    {
      "epoch": 0.08704604633443978,
      "grad_norm": 4.03125,
      "learning_rate": 9.884963856767404e-05,
      "loss": 0.8549,
      "step": 63750
    },
    {
      "epoch": 0.08711431774332955,
      "grad_norm": 2.734375,
      "learning_rate": 9.884730357586014e-05,
      "loss": 0.8208,
      "step": 63800
    },
    {
      "epoch": 0.0871825891522193,
      "grad_norm": 3.65625,
      "learning_rate": 9.884496624431152e-05,
      "loss": 0.8367,
      "step": 63850
    },
    {
      "epoch": 0.08725086056110906,
      "grad_norm": 3.796875,
      "learning_rate": 9.884262657314015e-05,
      "loss": 0.773,
      "step": 63900
    },
    {
      "epoch": 0.08731913196999881,
      "grad_norm": 7.25,
      "learning_rate": 9.884028456245805e-05,
      "loss": 0.7913,
      "step": 63950
    },
    {
      "epoch": 0.08738740337888858,
      "grad_norm": 4.21875,
      "learning_rate": 9.883794021237744e-05,
      "loss": 0.8411,
      "step": 64000
    },
    {
      "epoch": 0.08745567478777833,
      "grad_norm": 2.796875,
      "learning_rate": 9.883559352301062e-05,
      "loss": 0.7655,
      "step": 64050
    },
    {
      "epoch": 0.08752394619666808,
      "grad_norm": 3.171875,
      "learning_rate": 9.883324449446997e-05,
      "loss": 0.6627,
      "step": 64100
    },
    {
      "epoch": 0.08759221760555784,
      "grad_norm": 2.78125,
      "learning_rate": 9.883089312686802e-05,
      "loss": 0.888,
      "step": 64150
    },
    {
      "epoch": 0.08766048901444759,
      "grad_norm": 2.953125,
      "learning_rate": 9.882853942031738e-05,
      "loss": 0.7403,
      "step": 64200
    },
    {
      "epoch": 0.08772876042333735,
      "grad_norm": 2.796875,
      "learning_rate": 9.88261833749308e-05,
      "loss": 0.8955,
      "step": 64250
    },
    {
      "epoch": 0.0877970318322271,
      "grad_norm": 3.03125,
      "learning_rate": 9.882382499082114e-05,
      "loss": 0.7318,
      "step": 64300
    },
    {
      "epoch": 0.08786530324111687,
      "grad_norm": 2.578125,
      "learning_rate": 9.882146426810137e-05,
      "loss": 0.7681,
      "step": 64350
    },
    {
      "epoch": 0.08793357465000662,
      "grad_norm": 2.875,
      "learning_rate": 9.881910120688454e-05,
      "loss": 0.7968,
      "step": 64400
    },
    {
      "epoch": 0.08800184605889638,
      "grad_norm": 3.0625,
      "learning_rate": 9.881673580728386e-05,
      "loss": 0.8098,
      "step": 64450
    },
    {
      "epoch": 0.08807011746778613,
      "grad_norm": 2.484375,
      "learning_rate": 9.881436806941263e-05,
      "loss": 0.8272,
      "step": 64500
    },
    {
      "epoch": 0.0881383888766759,
      "grad_norm": 3.734375,
      "learning_rate": 9.881199799338424e-05,
      "loss": 0.778,
      "step": 64550
    },
    {
      "epoch": 0.08820666028556565,
      "grad_norm": 2.75,
      "learning_rate": 9.880962557931222e-05,
      "loss": 0.7642,
      "step": 64600
    },
    {
      "epoch": 0.08827493169445541,
      "grad_norm": 3.96875,
      "learning_rate": 9.880725082731023e-05,
      "loss": 0.7216,
      "step": 64650
    },
    {
      "epoch": 0.08834320310334516,
      "grad_norm": 7.46875,
      "learning_rate": 9.880487373749201e-05,
      "loss": 0.8581,
      "step": 64700
    },
    {
      "epoch": 0.08841147451223492,
      "grad_norm": 3.96875,
      "learning_rate": 9.880249430997141e-05,
      "loss": 0.8291,
      "step": 64750
    },
    {
      "epoch": 0.08847974592112468,
      "grad_norm": 2.40625,
      "learning_rate": 9.880011254486239e-05,
      "loss": 0.7809,
      "step": 64800
    },
    {
      "epoch": 0.08854801733001444,
      "grad_norm": 3.625,
      "learning_rate": 9.879772844227907e-05,
      "loss": 0.7487,
      "step": 64850
    },
    {
      "epoch": 0.08861628873890419,
      "grad_norm": 6.3125,
      "learning_rate": 9.879534200233562e-05,
      "loss": 0.8268,
      "step": 64900
    },
    {
      "epoch": 0.08868456014779394,
      "grad_norm": 4.8125,
      "learning_rate": 9.879295322514634e-05,
      "loss": 0.9955,
      "step": 64950
    },
    {
      "epoch": 0.0887528315566837,
      "grad_norm": 2.984375,
      "learning_rate": 9.879056211082568e-05,
      "loss": 0.8871,
      "step": 65000
    },
    {
      "epoch": 0.08882110296557345,
      "grad_norm": 8.0625,
      "learning_rate": 9.878816865948814e-05,
      "loss": 0.8241,
      "step": 65050
    },
    {
      "epoch": 0.08888937437446322,
      "grad_norm": 3.53125,
      "learning_rate": 9.878577287124839e-05,
      "loss": 0.7258,
      "step": 65100
    },
    {
      "epoch": 0.08895764578335297,
      "grad_norm": 4.375,
      "learning_rate": 9.878337474622118e-05,
      "loss": 0.7547,
      "step": 65150
    },
    {
      "epoch": 0.08902591719224273,
      "grad_norm": 3.0625,
      "learning_rate": 9.878097428452136e-05,
      "loss": 0.7371,
      "step": 65200
    },
    {
      "epoch": 0.08909418860113248,
      "grad_norm": 2.6875,
      "learning_rate": 9.877857148626393e-05,
      "loss": 0.8428,
      "step": 65250
    },
    {
      "epoch": 0.08916246001002225,
      "grad_norm": 9.375,
      "learning_rate": 9.877616635156397e-05,
      "loss": 0.925,
      "step": 65300
    },
    {
      "epoch": 0.089230731418912,
      "grad_norm": 7.53125,
      "learning_rate": 9.87737588805367e-05,
      "loss": 0.7372,
      "step": 65350
    },
    {
      "epoch": 0.08929900282780176,
      "grad_norm": 3.0625,
      "learning_rate": 9.877134907329741e-05,
      "loss": 0.7521,
      "step": 65400
    },
    {
      "epoch": 0.08936727423669151,
      "grad_norm": 2.984375,
      "learning_rate": 9.876893692996154e-05,
      "loss": 0.7878,
      "step": 65450
    },
    {
      "epoch": 0.08943554564558127,
      "grad_norm": 3.53125,
      "learning_rate": 9.876652245064463e-05,
      "loss": 0.8048,
      "step": 65500
    },
    {
      "epoch": 0.08950381705447102,
      "grad_norm": 3.265625,
      "learning_rate": 9.876410563546232e-05,
      "loss": 0.7157,
      "step": 65550
    },
    {
      "epoch": 0.08957208846336079,
      "grad_norm": 8.8125,
      "learning_rate": 9.87616864845304e-05,
      "loss": 0.8674,
      "step": 65600
    },
    {
      "epoch": 0.08964035987225054,
      "grad_norm": 3.78125,
      "learning_rate": 9.875926499796473e-05,
      "loss": 0.8243,
      "step": 65650
    },
    {
      "epoch": 0.0897086312811403,
      "grad_norm": 3.46875,
      "learning_rate": 9.875684117588128e-05,
      "loss": 0.8491,
      "step": 65700
    },
    {
      "epoch": 0.08977690269003005,
      "grad_norm": 2.796875,
      "learning_rate": 9.875441501839618e-05,
      "loss": 0.8552,
      "step": 65750
    },
    {
      "epoch": 0.08984517409891982,
      "grad_norm": 2.75,
      "learning_rate": 9.875198652562561e-05,
      "loss": 0.7764,
      "step": 65800
    },
    {
      "epoch": 0.08991344550780957,
      "grad_norm": 8.5625,
      "learning_rate": 9.874955569768589e-05,
      "loss": 0.8292,
      "step": 65850
    },
    {
      "epoch": 0.08998171691669932,
      "grad_norm": 7.21875,
      "learning_rate": 9.874712253469349e-05,
      "loss": 0.758,
      "step": 65900
    },
    {
      "epoch": 0.09004998832558908,
      "grad_norm": 4.25,
      "learning_rate": 9.874468703676494e-05,
      "loss": 0.7797,
      "step": 65950
    },
    {
      "epoch": 0.09011825973447883,
      "grad_norm": 2.671875,
      "learning_rate": 9.874224920401689e-05,
      "loss": 0.8408,
      "step": 66000
    },
    {
      "epoch": 0.0901865311433686,
      "grad_norm": 3.078125,
      "learning_rate": 9.87398090365661e-05,
      "loss": 0.8478,
      "step": 66050
    },
    {
      "epoch": 0.09025480255225835,
      "grad_norm": 3.265625,
      "learning_rate": 9.873736653452948e-05,
      "loss": 0.7361,
      "step": 66100
    },
    {
      "epoch": 0.09032307396114811,
      "grad_norm": 3.578125,
      "learning_rate": 9.8734921698024e-05,
      "loss": 0.8188,
      "step": 66150
    },
    {
      "epoch": 0.09039134537003786,
      "grad_norm": 2.421875,
      "learning_rate": 9.873247452716678e-05,
      "loss": 0.7422,
      "step": 66200
    },
    {
      "epoch": 0.09045961677892762,
      "grad_norm": 4.21875,
      "learning_rate": 9.873002502207503e-05,
      "loss": 0.7667,
      "step": 66250
    },
    {
      "epoch": 0.09052788818781737,
      "grad_norm": 3.328125,
      "learning_rate": 9.872757318286606e-05,
      "loss": 0.9277,
      "step": 66300
    },
    {
      "epoch": 0.09059615959670714,
      "grad_norm": 3.703125,
      "learning_rate": 9.872511900965734e-05,
      "loss": 0.7825,
      "step": 66350
    },
    {
      "epoch": 0.09066443100559689,
      "grad_norm": 3.984375,
      "learning_rate": 9.87226625025664e-05,
      "loss": 0.7517,
      "step": 66400
    },
    {
      "epoch": 0.09073270241448665,
      "grad_norm": 4.5625,
      "learning_rate": 9.872020366171094e-05,
      "loss": 0.9227,
      "step": 66450
    },
    {
      "epoch": 0.0908009738233764,
      "grad_norm": 5.125,
      "learning_rate": 9.87177424872087e-05,
      "loss": 0.7796,
      "step": 66500
    },
    {
      "epoch": 0.09086924523226617,
      "grad_norm": 3.421875,
      "learning_rate": 9.871527897917759e-05,
      "loss": 0.8129,
      "step": 66550
    },
    {
      "epoch": 0.09093751664115592,
      "grad_norm": 3.0625,
      "learning_rate": 9.871281313773558e-05,
      "loss": 0.7984,
      "step": 66600
    },
    {
      "epoch": 0.09100578805004568,
      "grad_norm": 3.890625,
      "learning_rate": 9.871034496300081e-05,
      "loss": 0.8187,
      "step": 66650
    },
    {
      "epoch": 0.09107405945893543,
      "grad_norm": 3.9375,
      "learning_rate": 9.870787445509148e-05,
      "loss": 0.8785,
      "step": 66700
    },
    {
      "epoch": 0.09114233086782518,
      "grad_norm": 2.90625,
      "learning_rate": 9.870540161412596e-05,
      "loss": 0.8118,
      "step": 66750
    },
    {
      "epoch": 0.09121060227671494,
      "grad_norm": 3.84375,
      "learning_rate": 9.870292644022266e-05,
      "loss": 0.7947,
      "step": 66800
    },
    {
      "epoch": 0.0912788736856047,
      "grad_norm": 3.3125,
      "learning_rate": 9.870044893350016e-05,
      "loss": 0.7774,
      "step": 66850
    },
    {
      "epoch": 0.09134714509449446,
      "grad_norm": 2.859375,
      "learning_rate": 9.869796909407711e-05,
      "loss": 0.8236,
      "step": 66900
    },
    {
      "epoch": 0.09141541650338421,
      "grad_norm": 8.0625,
      "learning_rate": 9.869548692207231e-05,
      "loss": 0.8579,
      "step": 66950
    },
    {
      "epoch": 0.09148368791227397,
      "grad_norm": 3.0,
      "learning_rate": 9.869300241760466e-05,
      "loss": 0.7824,
      "step": 67000
    },
    {
      "epoch": 0.09155195932116372,
      "grad_norm": 3.765625,
      "learning_rate": 9.869051558079314e-05,
      "loss": 0.8124,
      "step": 67050
    },
    {
      "epoch": 0.09162023073005349,
      "grad_norm": 3.890625,
      "learning_rate": 9.868802641175687e-05,
      "loss": 0.7977,
      "step": 67100
    },
    {
      "epoch": 0.09168850213894324,
      "grad_norm": 2.984375,
      "learning_rate": 9.86855349106151e-05,
      "loss": 0.8065,
      "step": 67150
    },
    {
      "epoch": 0.091756773547833,
      "grad_norm": 3.9375,
      "learning_rate": 9.868304107748716e-05,
      "loss": 0.8742,
      "step": 67200
    },
    {
      "epoch": 0.09182504495672275,
      "grad_norm": 3.421875,
      "learning_rate": 9.86805449124925e-05,
      "loss": 0.808,
      "step": 67250
    },
    {
      "epoch": 0.09189331636561252,
      "grad_norm": 2.765625,
      "learning_rate": 9.867804641575068e-05,
      "loss": 0.8073,
      "step": 67300
    },
    {
      "epoch": 0.09196158777450227,
      "grad_norm": 7.84375,
      "learning_rate": 9.867554558738138e-05,
      "loss": 0.8536,
      "step": 67350
    },
    {
      "epoch": 0.09202985918339203,
      "grad_norm": 4.03125,
      "learning_rate": 9.867304242750439e-05,
      "loss": 0.8988,
      "step": 67400
    },
    {
      "epoch": 0.09209813059228178,
      "grad_norm": 8.25,
      "learning_rate": 9.86705369362396e-05,
      "loss": 0.8283,
      "step": 67450
    },
    {
      "epoch": 0.09216640200117154,
      "grad_norm": 3.25,
      "learning_rate": 9.866802911370703e-05,
      "loss": 0.794,
      "step": 67500
    },
    {
      "epoch": 0.0922346734100613,
      "grad_norm": 9.3125,
      "learning_rate": 9.86655189600268e-05,
      "loss": 0.8602,
      "step": 67550
    },
    {
      "epoch": 0.09230294481895106,
      "grad_norm": 3.8125,
      "learning_rate": 9.866300647531914e-05,
      "loss": 0.7592,
      "step": 67600
    },
    {
      "epoch": 0.09237121622784081,
      "grad_norm": 4.09375,
      "learning_rate": 9.866049165970438e-05,
      "loss": 0.862,
      "step": 67650
    },
    {
      "epoch": 0.09243948763673056,
      "grad_norm": 3.3125,
      "learning_rate": 9.865797451330304e-05,
      "loss": 0.718,
      "step": 67700
    },
    {
      "epoch": 0.09250775904562032,
      "grad_norm": 2.703125,
      "learning_rate": 9.865545503623559e-05,
      "loss": 0.8432,
      "step": 67750
    },
    {
      "epoch": 0.09257603045451007,
      "grad_norm": 2.671875,
      "learning_rate": 9.865293322862279e-05,
      "loss": 0.7673,
      "step": 67800
    },
    {
      "epoch": 0.09264430186339984,
      "grad_norm": 4.03125,
      "learning_rate": 9.865040909058541e-05,
      "loss": 0.9633,
      "step": 67850
    },
    {
      "epoch": 0.09271257327228959,
      "grad_norm": 7.34375,
      "learning_rate": 9.864788262224433e-05,
      "loss": 0.8736,
      "step": 67900
    },
    {
      "epoch": 0.09278084468117935,
      "grad_norm": 3.140625,
      "learning_rate": 9.864535382372058e-05,
      "loss": 0.9436,
      "step": 67950
    },
    {
      "epoch": 0.0928491160900691,
      "grad_norm": 2.65625,
      "learning_rate": 9.86428226951353e-05,
      "loss": 0.8065,
      "step": 68000
    },
    {
      "epoch": 0.09291738749895886,
      "grad_norm": 3.21875,
      "learning_rate": 9.864028923660972e-05,
      "loss": 0.766,
      "step": 68050
    },
    {
      "epoch": 0.09298565890784861,
      "grad_norm": 7.21875,
      "learning_rate": 9.86377534482652e-05,
      "loss": 0.8764,
      "step": 68100
    },
    {
      "epoch": 0.09305393031673838,
      "grad_norm": 3.015625,
      "learning_rate": 9.863521533022317e-05,
      "loss": 0.8101,
      "step": 68150
    },
    {
      "epoch": 0.09312220172562813,
      "grad_norm": 3.0,
      "learning_rate": 9.863267488260523e-05,
      "loss": 0.8351,
      "step": 68200
    },
    {
      "epoch": 0.09319047313451789,
      "grad_norm": 9.25,
      "learning_rate": 9.863013210553307e-05,
      "loss": 0.8887,
      "step": 68250
    },
    {
      "epoch": 0.09325874454340764,
      "grad_norm": 2.5625,
      "learning_rate": 9.862758699912847e-05,
      "loss": 0.7764,
      "step": 68300
    },
    {
      "epoch": 0.0933270159522974,
      "grad_norm": 3.84375,
      "learning_rate": 9.862503956351334e-05,
      "loss": 0.977,
      "step": 68350
    },
    {
      "epoch": 0.09339528736118716,
      "grad_norm": 7.875,
      "learning_rate": 9.86224897988097e-05,
      "loss": 0.9678,
      "step": 68400
    },
    {
      "epoch": 0.09346355877007692,
      "grad_norm": 3.3125,
      "learning_rate": 9.861993770513969e-05,
      "loss": 0.9026,
      "step": 68450
    },
    {
      "epoch": 0.09353183017896667,
      "grad_norm": 8.4375,
      "learning_rate": 9.861738328262554e-05,
      "loss": 0.9895,
      "step": 68500
    },
    {
      "epoch": 0.09360010158785642,
      "grad_norm": 3.0625,
      "learning_rate": 9.861482653138961e-05,
      "loss": 0.7878,
      "step": 68550
    },
    {
      "epoch": 0.09366837299674619,
      "grad_norm": 4.40625,
      "learning_rate": 9.861226745155436e-05,
      "loss": 0.7995,
      "step": 68600
    },
    {
      "epoch": 0.09373664440563594,
      "grad_norm": 7.25,
      "learning_rate": 9.860970604324238e-05,
      "loss": 0.9773,
      "step": 68650
    },
    {
      "epoch": 0.0938049158145257,
      "grad_norm": 6.75,
      "learning_rate": 9.860714230657635e-05,
      "loss": 0.9651,
      "step": 68700
    },
    {
      "epoch": 0.09387318722341545,
      "grad_norm": 4.25,
      "learning_rate": 9.860457624167907e-05,
      "loss": 0.7905,
      "step": 68750
    },
    {
      "epoch": 0.09394145863230521,
      "grad_norm": 3.5,
      "learning_rate": 9.860200784867345e-05,
      "loss": 0.875,
      "step": 68800
    },
    {
      "epoch": 0.09400973004119496,
      "grad_norm": 3.28125,
      "learning_rate": 9.859943712768253e-05,
      "loss": 0.8258,
      "step": 68850
    },
    {
      "epoch": 0.09407800145008473,
      "grad_norm": 2.921875,
      "learning_rate": 9.859686407882943e-05,
      "loss": 0.9053,
      "step": 68900
    },
    {
      "epoch": 0.09414627285897448,
      "grad_norm": 3.359375,
      "learning_rate": 9.85942887022374e-05,
      "loss": 0.7909,
      "step": 68950
    },
    {
      "epoch": 0.09421454426786424,
      "grad_norm": 8.9375,
      "learning_rate": 9.859171099802978e-05,
      "loss": 0.9932,
      "step": 69000
    },
    {
      "epoch": 0.09428281567675399,
      "grad_norm": 3.265625,
      "learning_rate": 9.858913096633007e-05,
      "loss": 0.8746,
      "step": 69050
    },
    {
      "epoch": 0.09435108708564376,
      "grad_norm": 3.359375,
      "learning_rate": 9.858654860726184e-05,
      "loss": 0.9578,
      "step": 69100
    },
    {
      "epoch": 0.0944193584945335,
      "grad_norm": 3.40625,
      "learning_rate": 9.858396392094877e-05,
      "loss": 0.9854,
      "step": 69150
    },
    {
      "epoch": 0.09448762990342327,
      "grad_norm": 3.359375,
      "learning_rate": 9.858137690751468e-05,
      "loss": 0.8034,
      "step": 69200
    },
    {
      "epoch": 0.09455590131231302,
      "grad_norm": 3.609375,
      "learning_rate": 9.857878756708347e-05,
      "loss": 0.8689,
      "step": 69250
    },
    {
      "epoch": 0.09462417272120278,
      "grad_norm": 3.640625,
      "learning_rate": 9.857619589977917e-05,
      "loss": 0.8044,
      "step": 69300
    },
    {
      "epoch": 0.09469244413009253,
      "grad_norm": 3.65625,
      "learning_rate": 9.857360190572594e-05,
      "loss": 0.8498,
      "step": 69350
    },
    {
      "epoch": 0.0947607155389823,
      "grad_norm": 4.5,
      "learning_rate": 9.8571005585048e-05,
      "loss": 0.9462,
      "step": 69400
    },
    {
      "epoch": 0.09482898694787205,
      "grad_norm": 14.5,
      "learning_rate": 9.856840693786971e-05,
      "loss": 1.0241,
      "step": 69450
    },
    {
      "epoch": 0.0948972583567618,
      "grad_norm": 4.59375,
      "learning_rate": 9.856580596431557e-05,
      "loss": 0.7671,
      "step": 69500
    },
    {
      "epoch": 0.09496552976565156,
      "grad_norm": 3.453125,
      "learning_rate": 9.856320266451016e-05,
      "loss": 0.9568,
      "step": 69550
    },
    {
      "epoch": 0.09503380117454131,
      "grad_norm": 8.0625,
      "learning_rate": 9.856059703857815e-05,
      "loss": 0.8827,
      "step": 69600
    },
    {
      "epoch": 0.09510207258343108,
      "grad_norm": 4.40625,
      "learning_rate": 9.855798908664436e-05,
      "loss": 0.7998,
      "step": 69650
    },
    {
      "epoch": 0.09517034399232083,
      "grad_norm": 3.53125,
      "learning_rate": 9.855537880883371e-05,
      "loss": 0.8209,
      "step": 69700
    },
    {
      "epoch": 0.09523861540121059,
      "grad_norm": 3.375,
      "learning_rate": 9.855276620527126e-05,
      "loss": 0.8851,
      "step": 69750
    },
    {
      "epoch": 0.09530688681010034,
      "grad_norm": 4.1875,
      "learning_rate": 9.855015127608208e-05,
      "loss": 0.8184,
      "step": 69800
    },
    {
      "epoch": 0.0953751582189901,
      "grad_norm": 26.5,
      "learning_rate": 9.854753402139147e-05,
      "loss": 0.8554,
      "step": 69850
    },
    {
      "epoch": 0.09544342962787986,
      "grad_norm": 3.703125,
      "learning_rate": 9.854491444132481e-05,
      "loss": 0.7982,
      "step": 69900
    },
    {
      "epoch": 0.09551170103676962,
      "grad_norm": 4.0625,
      "learning_rate": 9.854229253600754e-05,
      "loss": 0.8872,
      "step": 69950
    },
    {
      "epoch": 0.09557997244565937,
      "grad_norm": 4.34375,
      "learning_rate": 9.853966830556525e-05,
      "loss": 0.9533,
      "step": 70000
    },
    {
      "epoch": 0.09564824385454913,
      "grad_norm": 8.0625,
      "learning_rate": 9.853704175012364e-05,
      "loss": 0.8509,
      "step": 70050
    },
    {
      "epoch": 0.09571651526343888,
      "grad_norm": 3.296875,
      "learning_rate": 9.853441286980855e-05,
      "loss": 0.7933,
      "step": 70100
    },
    {
      "epoch": 0.09578478667232865,
      "grad_norm": 3.296875,
      "learning_rate": 9.853178166474587e-05,
      "loss": 0.8459,
      "step": 70150
    },
    {
      "epoch": 0.0958530580812184,
      "grad_norm": 3.53125,
      "learning_rate": 9.852914813506162e-05,
      "loss": 0.9297,
      "step": 70200
    },
    {
      "epoch": 0.09592132949010816,
      "grad_norm": 3.71875,
      "learning_rate": 9.852651228088197e-05,
      "loss": 0.9884,
      "step": 70250
    },
    {
      "epoch": 0.09598960089899791,
      "grad_norm": 3.171875,
      "learning_rate": 9.852387410233316e-05,
      "loss": 0.8986,
      "step": 70300
    },
    {
      "epoch": 0.09605787230788766,
      "grad_norm": 3.34375,
      "learning_rate": 9.852123359954158e-05,
      "loss": 0.79,
      "step": 70350
    },
    {
      "epoch": 0.09612614371677743,
      "grad_norm": 2.890625,
      "learning_rate": 9.851859077263367e-05,
      "loss": 0.856,
      "step": 70400
    },
    {
      "epoch": 0.09619441512566718,
      "grad_norm": 10.25,
      "learning_rate": 9.851594562173605e-05,
      "loss": 0.8412,
      "step": 70450
    },
    {
      "epoch": 0.09626268653455694,
      "grad_norm": 3.5625,
      "learning_rate": 9.851329814697541e-05,
      "loss": 0.9081,
      "step": 70500
    },
    {
      "epoch": 0.09633095794344669,
      "grad_norm": 2.859375,
      "learning_rate": 9.851064834847856e-05,
      "loss": 0.8534,
      "step": 70550
    },
    {
      "epoch": 0.09639922935233645,
      "grad_norm": 3.40625,
      "learning_rate": 9.850799622637242e-05,
      "loss": 0.8185,
      "step": 70600
    },
    {
      "epoch": 0.0964675007612262,
      "grad_norm": 2.796875,
      "learning_rate": 9.8505341780784e-05,
      "loss": 0.8388,
      "step": 70650
    },
    {
      "epoch": 0.09653577217011597,
      "grad_norm": 3.59375,
      "learning_rate": 9.85026850118405e-05,
      "loss": 0.8322,
      "step": 70700
    },
    {
      "epoch": 0.09660404357900572,
      "grad_norm": 3.5625,
      "learning_rate": 9.850002591966913e-05,
      "loss": 0.8614,
      "step": 70750
    },
    {
      "epoch": 0.09667231498789548,
      "grad_norm": 3.859375,
      "learning_rate": 9.84973645043973e-05,
      "loss": 0.9232,
      "step": 70800
    },
    {
      "epoch": 0.09674058639678523,
      "grad_norm": 8.0,
      "learning_rate": 9.849470076615245e-05,
      "loss": 1.024,
      "step": 70850
    },
    {
      "epoch": 0.096808857805675,
      "grad_norm": 3.59375,
      "learning_rate": 9.849203470506218e-05,
      "loss": 0.9352,
      "step": 70900
    },
    {
      "epoch": 0.09687712921456475,
      "grad_norm": 7.625,
      "learning_rate": 9.84893663212542e-05,
      "loss": 1.0061,
      "step": 70950
    },
    {
      "epoch": 0.09694540062345451,
      "grad_norm": 4.15625,
      "learning_rate": 9.84866956148563e-05,
      "loss": 1.0064,
      "step": 71000
    },
    {
      "epoch": 0.09701367203234426,
      "grad_norm": 3.84375,
      "learning_rate": 9.848402258599646e-05,
      "loss": 0.7882,
      "step": 71050
    },
    {
      "epoch": 0.09708194344123403,
      "grad_norm": 3.921875,
      "learning_rate": 9.848134723480265e-05,
      "loss": 0.8998,
      "step": 71100
    },
    {
      "epoch": 0.09715021485012378,
      "grad_norm": 3.46875,
      "learning_rate": 9.847866956140304e-05,
      "loss": 0.8923,
      "step": 71150
    },
    {
      "epoch": 0.09721848625901354,
      "grad_norm": 2.96875,
      "learning_rate": 9.847598956592591e-05,
      "loss": 0.9436,
      "step": 71200
    },
    {
      "epoch": 0.09728675766790329,
      "grad_norm": 3.53125,
      "learning_rate": 9.847330724849961e-05,
      "loss": 0.8212,
      "step": 71250
    },
    {
      "epoch": 0.09735502907679304,
      "grad_norm": 3.34375,
      "learning_rate": 9.847062260925262e-05,
      "loss": 0.8224,
      "step": 71300
    },
    {
      "epoch": 0.0974233004856828,
      "grad_norm": 3.6875,
      "learning_rate": 9.846793564831351e-05,
      "loss": 0.8871,
      "step": 71350
    },
    {
      "epoch": 0.09749157189457255,
      "grad_norm": 3.046875,
      "learning_rate": 9.846524636581103e-05,
      "loss": 0.8523,
      "step": 71400
    },
    {
      "epoch": 0.09755984330346232,
      "grad_norm": 2.53125,
      "learning_rate": 9.846255476187396e-05,
      "loss": 0.871,
      "step": 71450
    },
    {
      "epoch": 0.09762811471235207,
      "grad_norm": 3.21875,
      "learning_rate": 9.845986083663124e-05,
      "loss": 0.8107,
      "step": 71500
    },
    {
      "epoch": 0.09769638612124183,
      "grad_norm": 4.09375,
      "learning_rate": 9.84571645902119e-05,
      "loss": 0.8369,
      "step": 71550
    },
    {
      "epoch": 0.09776465753013158,
      "grad_norm": 3.3125,
      "learning_rate": 9.845446602274508e-05,
      "loss": 0.8449,
      "step": 71600
    },
    {
      "epoch": 0.09783292893902135,
      "grad_norm": 8.3125,
      "learning_rate": 9.845176513436005e-05,
      "loss": 0.8064,
      "step": 71650
    },
    {
      "epoch": 0.0979012003479111,
      "grad_norm": 3.546875,
      "learning_rate": 9.844906192518619e-05,
      "loss": 0.9495,
      "step": 71700
    },
    {
      "epoch": 0.09796947175680086,
      "grad_norm": 4.125,
      "learning_rate": 9.844635639535295e-05,
      "loss": 0.843,
      "step": 71750
    },
    {
      "epoch": 0.09803774316569061,
      "grad_norm": 3.0625,
      "learning_rate": 9.844364854498995e-05,
      "loss": 0.8815,
      "step": 71800
    },
    {
      "epoch": 0.09810601457458037,
      "grad_norm": 2.734375,
      "learning_rate": 9.844093837422687e-05,
      "loss": 0.7122,
      "step": 71850
    },
    {
      "epoch": 0.09817428598347012,
      "grad_norm": 4.59375,
      "learning_rate": 9.843822588319353e-05,
      "loss": 0.9043,
      "step": 71900
    },
    {
      "epoch": 0.09824255739235989,
      "grad_norm": 8.0,
      "learning_rate": 9.843551107201988e-05,
      "loss": 0.8791,
      "step": 71950
    },
    {
      "epoch": 0.09831082880124964,
      "grad_norm": 3.71875,
      "learning_rate": 9.843279394083594e-05,
      "loss": 0.7931,
      "step": 72000
    },
    {
      "epoch": 0.0983791002101394,
      "grad_norm": 4.40625,
      "learning_rate": 9.843007448977185e-05,
      "loss": 0.8104,
      "step": 72050
    },
    {
      "epoch": 0.09844737161902915,
      "grad_norm": 3.109375,
      "learning_rate": 9.842735271895787e-05,
      "loss": 0.862,
      "step": 72100
    },
    {
      "epoch": 0.0985156430279189,
      "grad_norm": 4.0625,
      "learning_rate": 9.842462862852438e-05,
      "loss": 0.8575,
      "step": 72150
    },
    {
      "epoch": 0.09858391443680867,
      "grad_norm": 3.125,
      "learning_rate": 9.842190221860186e-05,
      "loss": 0.9495,
      "step": 72200
    },
    {
      "epoch": 0.09865218584569842,
      "grad_norm": 7.875,
      "learning_rate": 9.841917348932089e-05,
      "loss": 0.8552,
      "step": 72250
    },
    {
      "epoch": 0.09872045725458818,
      "grad_norm": 4.28125,
      "learning_rate": 9.841644244081218e-05,
      "loss": 0.9283,
      "step": 72300
    },
    {
      "epoch": 0.09878872866347793,
      "grad_norm": 4.5,
      "learning_rate": 9.841370907320654e-05,
      "loss": 0.8295,
      "step": 72350
    },
    {
      "epoch": 0.0988570000723677,
      "grad_norm": 3.3125,
      "learning_rate": 9.841097338663493e-05,
      "loss": 0.8148,
      "step": 72400
    },
    {
      "epoch": 0.09892527148125745,
      "grad_norm": 3.796875,
      "learning_rate": 9.840823538122834e-05,
      "loss": 0.8575,
      "step": 72450
    },
    {
      "epoch": 0.09899354289014721,
      "grad_norm": 3.359375,
      "learning_rate": 9.840549505711793e-05,
      "loss": 0.8345,
      "step": 72500
    },
    {
      "epoch": 0.09906181429903696,
      "grad_norm": 3.328125,
      "learning_rate": 9.840275241443497e-05,
      "loss": 0.7823,
      "step": 72550
    },
    {
      "epoch": 0.09913008570792672,
      "grad_norm": 3.40625,
      "learning_rate": 9.840000745331084e-05,
      "loss": 0.9954,
      "step": 72600
    },
    {
      "epoch": 0.09919835711681647,
      "grad_norm": 4.1875,
      "learning_rate": 9.839726017387698e-05,
      "loss": 0.8203,
      "step": 72650
    },
    {
      "epoch": 0.09926662852570624,
      "grad_norm": 3.765625,
      "learning_rate": 9.839451057626502e-05,
      "loss": 0.8782,
      "step": 72700
    },
    {
      "epoch": 0.09933489993459599,
      "grad_norm": 4.59375,
      "learning_rate": 9.839175866060665e-05,
      "loss": 0.8926,
      "step": 72750
    },
    {
      "epoch": 0.09940317134348575,
      "grad_norm": 7.84375,
      "learning_rate": 9.838900442703367e-05,
      "loss": 0.9117,
      "step": 72800
    },
    {
      "epoch": 0.0994714427523755,
      "grad_norm": 3.3125,
      "learning_rate": 9.838624787567803e-05,
      "loss": 0.8438,
      "step": 72850
    },
    {
      "epoch": 0.09953971416126527,
      "grad_norm": 2.765625,
      "learning_rate": 9.838348900667175e-05,
      "loss": 0.812,
      "step": 72900
    },
    {
      "epoch": 0.09960798557015502,
      "grad_norm": 7.25,
      "learning_rate": 9.8380727820147e-05,
      "loss": 0.8687,
      "step": 72950
    },
    {
      "epoch": 0.09967625697904478,
      "grad_norm": 3.5,
      "learning_rate": 9.837796431623598e-05,
      "loss": 0.9105,
      "step": 73000
    },
    {
      "epoch": 0.09974452838793453,
      "grad_norm": 3.140625,
      "learning_rate": 9.837519849507113e-05,
      "loss": 0.7589,
      "step": 73050
    },
    {
      "epoch": 0.09981279979682428,
      "grad_norm": 2.859375,
      "learning_rate": 9.837243035678489e-05,
      "loss": 0.9452,
      "step": 73100
    },
    {
      "epoch": 0.09988107120571404,
      "grad_norm": 3.015625,
      "learning_rate": 9.836965990150985e-05,
      "loss": 0.8387,
      "step": 73150
    },
    {
      "epoch": 0.0999493426146038,
      "grad_norm": 8.625,
      "learning_rate": 9.836688712937873e-05,
      "loss": 0.8313,
      "step": 73200
    },
    {
      "epoch": 0.10001761402349356,
      "grad_norm": 3.859375,
      "learning_rate": 9.836411204052434e-05,
      "loss": 0.9444,
      "step": 73250
    },
    {
      "epoch": 0.10008588543238331,
      "grad_norm": 3.09375,
      "learning_rate": 9.836133463507958e-05,
      "loss": 0.7538,
      "step": 73300
    },
    {
      "epoch": 0.10015415684127307,
      "grad_norm": 4.25,
      "learning_rate": 9.835855491317751e-05,
      "loss": 0.9438,
      "step": 73350
    },
    {
      "epoch": 0.10022242825016282,
      "grad_norm": 2.984375,
      "learning_rate": 9.835577287495127e-05,
      "loss": 0.8252,
      "step": 73400
    },
    {
      "epoch": 0.10029069965905259,
      "grad_norm": 7.875,
      "learning_rate": 9.835298852053412e-05,
      "loss": 0.8576,
      "step": 73450
    },
    {
      "epoch": 0.10035897106794234,
      "grad_norm": 3.96875,
      "learning_rate": 9.83502018500594e-05,
      "loss": 0.9509,
      "step": 73500
    },
    {
      "epoch": 0.1004272424768321,
      "grad_norm": 2.984375,
      "learning_rate": 9.834741286366064e-05,
      "loss": 0.8956,
      "step": 73550
    },
    {
      "epoch": 0.10049551388572185,
      "grad_norm": 3.1875,
      "learning_rate": 9.834462156147138e-05,
      "loss": 0.8011,
      "step": 73600
    },
    {
      "epoch": 0.10056378529461162,
      "grad_norm": 3.28125,
      "learning_rate": 9.834182794362535e-05,
      "loss": 0.7667,
      "step": 73650
    },
    {
      "epoch": 0.10063205670350137,
      "grad_norm": 3.78125,
      "learning_rate": 9.833903201025637e-05,
      "loss": 0.7915,
      "step": 73700
    },
    {
      "epoch": 0.10070032811239113,
      "grad_norm": 4.34375,
      "learning_rate": 9.83362337614983e-05,
      "loss": 0.9114,
      "step": 73750
    },
    {
      "epoch": 0.10076859952128088,
      "grad_norm": 11.5625,
      "learning_rate": 9.833343319748524e-05,
      "loss": 1.0618,
      "step": 73800
    },
    {
      "epoch": 0.10083687093017064,
      "grad_norm": 27.25,
      "learning_rate": 9.833063031835132e-05,
      "loss": 0.9642,
      "step": 73850
    },
    {
      "epoch": 0.1009051423390604,
      "grad_norm": 4.25,
      "learning_rate": 9.83278251242308e-05,
      "loss": 0.8475,
      "step": 73900
    },
    {
      "epoch": 0.10097341374795014,
      "grad_norm": 3.859375,
      "learning_rate": 9.832501761525801e-05,
      "loss": 0.8741,
      "step": 73950
    },
    {
      "epoch": 0.10104168515683991,
      "grad_norm": 2.703125,
      "learning_rate": 9.832220779156745e-05,
      "loss": 0.8211,
      "step": 74000
    },
    {
      "epoch": 0.10110995656572966,
      "grad_norm": 4.09375,
      "learning_rate": 9.831939565329372e-05,
      "loss": 0.9076,
      "step": 74050
    },
    {
      "epoch": 0.10117822797461942,
      "grad_norm": 2.78125,
      "learning_rate": 9.83165812005715e-05,
      "loss": 0.7799,
      "step": 74100
    },
    {
      "epoch": 0.10124649938350917,
      "grad_norm": 3.5,
      "learning_rate": 9.831376443353559e-05,
      "loss": 0.8078,
      "step": 74150
    },
    {
      "epoch": 0.10131477079239894,
      "grad_norm": 2.71875,
      "learning_rate": 9.831094535232095e-05,
      "loss": 0.833,
      "step": 74200
    },
    {
      "epoch": 0.10138304220128869,
      "grad_norm": 7.71875,
      "learning_rate": 9.830812395706257e-05,
      "loss": 0.8759,
      "step": 74250
    },
    {
      "epoch": 0.10145131361017845,
      "grad_norm": 7.375,
      "learning_rate": 9.830530024789561e-05,
      "loss": 0.9059,
      "step": 74300
    },
    {
      "epoch": 0.1015195850190682,
      "grad_norm": 4.46875,
      "learning_rate": 9.830247422495532e-05,
      "loss": 0.8991,
      "step": 74350
    },
    {
      "epoch": 0.10158785642795796,
      "grad_norm": 2.859375,
      "learning_rate": 9.829964588837707e-05,
      "loss": 0.8458,
      "step": 74400
    },
    {
      "epoch": 0.10165612783684772,
      "grad_norm": 3.0625,
      "learning_rate": 9.829681523829633e-05,
      "loss": 0.8711,
      "step": 74450
    },
    {
      "epoch": 0.10172439924573748,
      "grad_norm": 4.4375,
      "learning_rate": 9.829398227484867e-05,
      "loss": 0.9264,
      "step": 74500
    },
    {
      "epoch": 0.10179267065462723,
      "grad_norm": 3.703125,
      "learning_rate": 9.829114699816982e-05,
      "loss": 0.8953,
      "step": 74550
    },
    {
      "epoch": 0.101860942063517,
      "grad_norm": 3.046875,
      "learning_rate": 9.828830940839556e-05,
      "loss": 0.8851,
      "step": 74600
    },
    {
      "epoch": 0.10192921347240674,
      "grad_norm": 8.25,
      "learning_rate": 9.82854695056618e-05,
      "loss": 0.8381,
      "step": 74650
    },
    {
      "epoch": 0.10199748488129651,
      "grad_norm": 4.0,
      "learning_rate": 9.82826272901046e-05,
      "loss": 0.8293,
      "step": 74700
    },
    {
      "epoch": 0.10206575629018626,
      "grad_norm": 3.546875,
      "learning_rate": 9.827978276186008e-05,
      "loss": 0.9047,
      "step": 74750
    },
    {
      "epoch": 0.10213402769907602,
      "grad_norm": 3.5625,
      "learning_rate": 9.827693592106448e-05,
      "loss": 0.8592,
      "step": 74800
    },
    {
      "epoch": 0.10220229910796577,
      "grad_norm": 3.75,
      "learning_rate": 9.827408676785417e-05,
      "loss": 0.8056,
      "step": 74850
    },
    {
      "epoch": 0.10227057051685552,
      "grad_norm": 3.796875,
      "learning_rate": 9.827123530236564e-05,
      "loss": 0.9648,
      "step": 74900
    },
    {
      "epoch": 0.10233884192574529,
      "grad_norm": 8.0625,
      "learning_rate": 9.826838152473546e-05,
      "loss": 0.9138,
      "step": 74950
    },
    {
      "epoch": 0.10240711333463504,
      "grad_norm": 3.984375,
      "learning_rate": 9.82655254351003e-05,
      "loss": 0.8068,
      "step": 75000
    },
    {
      "epoch": 0.1024753847435248,
      "grad_norm": 7.28125,
      "learning_rate": 9.826266703359699e-05,
      "loss": 0.876,
      "step": 75050
    },
    {
      "epoch": 0.10254365615241455,
      "grad_norm": 4.0,
      "learning_rate": 9.825980632036243e-05,
      "loss": 0.8576,
      "step": 75100
    },
    {
      "epoch": 0.10261192756130431,
      "grad_norm": 5.5,
      "learning_rate": 9.825694329553366e-05,
      "loss": 0.8529,
      "step": 75150
    },
    {
      "epoch": 0.10268019897019406,
      "grad_norm": 2.546875,
      "learning_rate": 9.825407795924782e-05,
      "loss": 0.7913,
      "step": 75200
    },
    {
      "epoch": 0.10274847037908383,
      "grad_norm": 2.296875,
      "learning_rate": 9.825121031164213e-05,
      "loss": 0.8095,
      "step": 75250
    },
    {
      "epoch": 0.10281674178797358,
      "grad_norm": 3.359375,
      "learning_rate": 9.824834035285396e-05,
      "loss": 0.7944,
      "step": 75300
    },
    {
      "epoch": 0.10288501319686334,
      "grad_norm": 4.25,
      "learning_rate": 9.824546808302078e-05,
      "loss": 0.8416,
      "step": 75350
    },
    {
      "epoch": 0.10295328460575309,
      "grad_norm": 4.125,
      "learning_rate": 9.824259350228018e-05,
      "loss": 0.7492,
      "step": 75400
    },
    {
      "epoch": 0.10302155601464286,
      "grad_norm": 3.03125,
      "learning_rate": 9.823971661076982e-05,
      "loss": 0.7743,
      "step": 75450
    },
    {
      "epoch": 0.1030898274235326,
      "grad_norm": 3.828125,
      "learning_rate": 9.823683740862755e-05,
      "loss": 0.8547,
      "step": 75500
    },
    {
      "epoch": 0.10315809883242237,
      "grad_norm": 4.125,
      "learning_rate": 9.823395589599122e-05,
      "loss": 0.7793,
      "step": 75550
    },
    {
      "epoch": 0.10322637024131212,
      "grad_norm": 2.671875,
      "learning_rate": 9.82310720729989e-05,
      "loss": 0.8422,
      "step": 75600
    },
    {
      "epoch": 0.10329464165020188,
      "grad_norm": 4.0625,
      "learning_rate": 9.822818593978868e-05,
      "loss": 0.7211,
      "step": 75650
    },
    {
      "epoch": 0.10336291305909164,
      "grad_norm": 3.15625,
      "learning_rate": 9.822529749649885e-05,
      "loss": 0.7895,
      "step": 75700
    },
    {
      "epoch": 0.10343118446798139,
      "grad_norm": 3.984375,
      "learning_rate": 9.822240674326772e-05,
      "loss": 0.939,
      "step": 75750
    },
    {
      "epoch": 0.10349945587687115,
      "grad_norm": 2.890625,
      "learning_rate": 9.821951368023378e-05,
      "loss": 0.8648,
      "step": 75800
    },
    {
      "epoch": 0.1035677272857609,
      "grad_norm": 4.15625,
      "learning_rate": 9.82166183075356e-05,
      "loss": 0.8815,
      "step": 75850
    },
    {
      "epoch": 0.10363599869465066,
      "grad_norm": 3.515625,
      "learning_rate": 9.821372062531187e-05,
      "loss": 0.8228,
      "step": 75900
    },
    {
      "epoch": 0.10370427010354041,
      "grad_norm": 2.859375,
      "learning_rate": 9.821082063370137e-05,
      "loss": 0.7672,
      "step": 75950
    },
    {
      "epoch": 0.10377254151243018,
      "grad_norm": 3.953125,
      "learning_rate": 9.820791833284301e-05,
      "loss": 0.915,
      "step": 76000
    },
    {
      "epoch": 0.10384081292131993,
      "grad_norm": 3.703125,
      "learning_rate": 9.820501372287582e-05,
      "loss": 0.8247,
      "step": 76050
    },
    {
      "epoch": 0.10390908433020969,
      "grad_norm": 3.828125,
      "learning_rate": 9.820210680393892e-05,
      "loss": 0.9183,
      "step": 76100
    },
    {
      "epoch": 0.10397735573909944,
      "grad_norm": 7.59375,
      "learning_rate": 9.819919757617156e-05,
      "loss": 0.9511,
      "step": 76150
    },
    {
      "epoch": 0.1040456271479892,
      "grad_norm": 3.046875,
      "learning_rate": 9.819628603971305e-05,
      "loss": 0.7734,
      "step": 76200
    },
    {
      "epoch": 0.10411389855687896,
      "grad_norm": 3.625,
      "learning_rate": 9.81933721947029e-05,
      "loss": 0.815,
      "step": 76250
    },
    {
      "epoch": 0.10418216996576872,
      "grad_norm": 3.34375,
      "learning_rate": 9.819045604128066e-05,
      "loss": 0.8593,
      "step": 76300
    },
    {
      "epoch": 0.10425044137465847,
      "grad_norm": 3.875,
      "learning_rate": 9.818753757958599e-05,
      "loss": 0.8476,
      "step": 76350
    },
    {
      "epoch": 0.10431871278354823,
      "grad_norm": 4.15625,
      "learning_rate": 9.81846168097587e-05,
      "loss": 0.8417,
      "step": 76400
    },
    {
      "epoch": 0.10438698419243798,
      "grad_norm": 3.453125,
      "learning_rate": 9.81816937319387e-05,
      "loss": 0.8328,
      "step": 76450
    },
    {
      "epoch": 0.10445525560132775,
      "grad_norm": 7.59375,
      "learning_rate": 9.817876834626599e-05,
      "loss": 0.9724,
      "step": 76500
    },
    {
      "epoch": 0.1045235270102175,
      "grad_norm": 8.1875,
      "learning_rate": 9.81758406528807e-05,
      "loss": 0.899,
      "step": 76550
    },
    {
      "epoch": 0.10459179841910726,
      "grad_norm": 3.234375,
      "learning_rate": 9.817291065192307e-05,
      "loss": 0.7912,
      "step": 76600
    },
    {
      "epoch": 0.10466006982799701,
      "grad_norm": 3.125,
      "learning_rate": 9.816997834353341e-05,
      "loss": 0.8543,
      "step": 76650
    },
    {
      "epoch": 0.10472834123688676,
      "grad_norm": 3.46875,
      "learning_rate": 9.816704372785221e-05,
      "loss": 0.8614,
      "step": 76700
    },
    {
      "epoch": 0.10479661264577653,
      "grad_norm": 3.359375,
      "learning_rate": 9.816410680502003e-05,
      "loss": 0.8779,
      "step": 76750
    },
    {
      "epoch": 0.10486488405466628,
      "grad_norm": 3.140625,
      "learning_rate": 9.816116757517753e-05,
      "loss": 0.8658,
      "step": 76800
    },
    {
      "epoch": 0.10493315546355604,
      "grad_norm": 3.1875,
      "learning_rate": 9.815822603846552e-05,
      "loss": 0.9172,
      "step": 76850
    },
    {
      "epoch": 0.10500142687244579,
      "grad_norm": 4.40625,
      "learning_rate": 9.815528219502486e-05,
      "loss": 0.9441,
      "step": 76900
    },
    {
      "epoch": 0.10506969828133556,
      "grad_norm": 3.796875,
      "learning_rate": 9.815233604499659e-05,
      "loss": 0.8869,
      "step": 76950
    },
    {
      "epoch": 0.1051379696902253,
      "grad_norm": 2.96875,
      "learning_rate": 9.814938758852181e-05,
      "loss": 0.8691,
      "step": 77000
    },
    {
      "epoch": 0.10520624109911507,
      "grad_norm": 3.703125,
      "learning_rate": 9.814643682574176e-05,
      "loss": 0.9467,
      "step": 77050
    },
    {
      "epoch": 0.10527451250800482,
      "grad_norm": 9.375,
      "learning_rate": 9.814348375679778e-05,
      "loss": 0.836,
      "step": 77100
    },
    {
      "epoch": 0.10534278391689458,
      "grad_norm": 3.9375,
      "learning_rate": 9.81405283818313e-05,
      "loss": 0.9084,
      "step": 77150
    },
    {
      "epoch": 0.10541105532578433,
      "grad_norm": 2.734375,
      "learning_rate": 9.813757070098388e-05,
      "loss": 0.9374,
      "step": 77200
    },
    {
      "epoch": 0.1054793267346741,
      "grad_norm": 3.890625,
      "learning_rate": 9.813461071439722e-05,
      "loss": 0.7991,
      "step": 77250
    },
    {
      "epoch": 0.10554759814356385,
      "grad_norm": 7.90625,
      "learning_rate": 9.813164842221307e-05,
      "loss": 0.9055,
      "step": 77300
    },
    {
      "epoch": 0.10561586955245361,
      "grad_norm": 2.546875,
      "learning_rate": 9.812868382457335e-05,
      "loss": 0.8648,
      "step": 77350
    },
    {
      "epoch": 0.10568414096134336,
      "grad_norm": 3.96875,
      "learning_rate": 9.812571692162002e-05,
      "loss": 0.9312,
      "step": 77400
    },
    {
      "epoch": 0.10575241237023313,
      "grad_norm": 8.3125,
      "learning_rate": 9.812274771349523e-05,
      "loss": 0.9742,
      "step": 77450
    },
    {
      "epoch": 0.10582068377912288,
      "grad_norm": 3.796875,
      "learning_rate": 9.811977620034117e-05,
      "loss": 0.9552,
      "step": 77500
    },
    {
      "epoch": 0.10588895518801263,
      "grad_norm": 3.1875,
      "learning_rate": 9.81168023823002e-05,
      "loss": 0.9404,
      "step": 77550
    },
    {
      "epoch": 0.10595722659690239,
      "grad_norm": 3.59375,
      "learning_rate": 9.811382625951475e-05,
      "loss": 0.8374,
      "step": 77600
    },
    {
      "epoch": 0.10602549800579214,
      "grad_norm": 4.0625,
      "learning_rate": 9.811084783212737e-05,
      "loss": 0.819,
      "step": 77650
    },
    {
      "epoch": 0.1060937694146819,
      "grad_norm": 8.4375,
      "learning_rate": 9.810786710028072e-05,
      "loss": 0.9389,
      "step": 77700
    },
    {
      "epoch": 0.10616204082357165,
      "grad_norm": 3.296875,
      "learning_rate": 9.81048840641176e-05,
      "loss": 0.8482,
      "step": 77750
    },
    {
      "epoch": 0.10623031223246142,
      "grad_norm": 4.09375,
      "learning_rate": 9.810189872378089e-05,
      "loss": 0.8939,
      "step": 77800
    },
    {
      "epoch": 0.10629858364135117,
      "grad_norm": 3.59375,
      "learning_rate": 9.809891107941354e-05,
      "loss": 0.875,
      "step": 77850
    },
    {
      "epoch": 0.10636685505024093,
      "grad_norm": 4.03125,
      "learning_rate": 9.809592113115868e-05,
      "loss": 0.837,
      "step": 77900
    },
    {
      "epoch": 0.10643512645913068,
      "grad_norm": 3.5625,
      "learning_rate": 9.809292887915957e-05,
      "loss": 0.9017,
      "step": 77950
    },
    {
      "epoch": 0.10650339786802045,
      "grad_norm": 3.15625,
      "learning_rate": 9.808993432355947e-05,
      "loss": 0.9216,
      "step": 78000
    },
    {
      "epoch": 0.1065716692769102,
      "grad_norm": 7.5,
      "learning_rate": 9.808693746450184e-05,
      "loss": 0.9673,
      "step": 78050
    },
    {
      "epoch": 0.10663994068579996,
      "grad_norm": 4.0625,
      "learning_rate": 9.808393830213024e-05,
      "loss": 0.9376,
      "step": 78100
    },
    {
      "epoch": 0.10670821209468971,
      "grad_norm": 4.53125,
      "learning_rate": 9.808093683658832e-05,
      "loss": 0.8389,
      "step": 78150
    },
    {
      "epoch": 0.10677648350357948,
      "grad_norm": 4.09375,
      "learning_rate": 9.807793306801984e-05,
      "loss": 0.8535,
      "step": 78200
    },
    {
      "epoch": 0.10684475491246923,
      "grad_norm": 5.21875,
      "learning_rate": 9.807492699656867e-05,
      "loss": 0.9007,
      "step": 78250
    },
    {
      "epoch": 0.10691302632135899,
      "grad_norm": 3.4375,
      "learning_rate": 9.807191862237881e-05,
      "loss": 0.833,
      "step": 78300
    },
    {
      "epoch": 0.10698129773024874,
      "grad_norm": 4.03125,
      "learning_rate": 9.806890794559437e-05,
      "loss": 0.8925,
      "step": 78350
    },
    {
      "epoch": 0.1070495691391385,
      "grad_norm": 2.734375,
      "learning_rate": 9.806589496635954e-05,
      "loss": 0.7054,
      "step": 78400
    },
    {
      "epoch": 0.10711784054802825,
      "grad_norm": 3.90625,
      "learning_rate": 9.806287968481864e-05,
      "loss": 0.8836,
      "step": 78450
    },
    {
      "epoch": 0.107186111956918,
      "grad_norm": 3.328125,
      "learning_rate": 9.805986210111611e-05,
      "loss": 0.8925,
      "step": 78500
    },
    {
      "epoch": 0.10725438336580777,
      "grad_norm": 4.6875,
      "learning_rate": 9.805684221539646e-05,
      "loss": 0.8451,
      "step": 78550
    },
    {
      "epoch": 0.10732265477469752,
      "grad_norm": 2.875,
      "learning_rate": 9.805382002780439e-05,
      "loss": 0.8067,
      "step": 78600
    },
    {
      "epoch": 0.10739092618358728,
      "grad_norm": 3.953125,
      "learning_rate": 9.805079553848461e-05,
      "loss": 0.8468,
      "step": 78650
    },
    {
      "epoch": 0.10745919759247703,
      "grad_norm": 3.53125,
      "learning_rate": 9.804776874758201e-05,
      "loss": 0.8196,
      "step": 78700
    },
    {
      "epoch": 0.1075274690013668,
      "grad_norm": 7.6875,
      "learning_rate": 9.804473965524157e-05,
      "loss": 1.0767,
      "step": 78750
    },
    {
      "epoch": 0.10759574041025655,
      "grad_norm": 7.1875,
      "learning_rate": 9.804170826160838e-05,
      "loss": 0.8994,
      "step": 78800
    },
    {
      "epoch": 0.10766401181914631,
      "grad_norm": 4.03125,
      "learning_rate": 9.803867456682766e-05,
      "loss": 0.8414,
      "step": 78850
    },
    {
      "epoch": 0.10773228322803606,
      "grad_norm": 3.203125,
      "learning_rate": 9.803563857104468e-05,
      "loss": 0.8728,
      "step": 78900
    },
    {
      "epoch": 0.10780055463692582,
      "grad_norm": 3.046875,
      "learning_rate": 9.80326002744049e-05,
      "loss": 0.9319,
      "step": 78950
    },
    {
      "epoch": 0.10786882604581557,
      "grad_norm": 7.84375,
      "learning_rate": 9.802955967705383e-05,
      "loss": 1.0243,
      "step": 79000
    },
    {
      "epoch": 0.10793709745470534,
      "grad_norm": 3.703125,
      "learning_rate": 9.80265167791371e-05,
      "loss": 0.9149,
      "step": 79050
    },
    {
      "epoch": 0.10800536886359509,
      "grad_norm": 3.203125,
      "learning_rate": 9.80234715808005e-05,
      "loss": 0.836,
      "step": 79100
    },
    {
      "epoch": 0.10807364027248485,
      "grad_norm": 4.4375,
      "learning_rate": 9.802042408218986e-05,
      "loss": 0.8816,
      "step": 79150
    },
    {
      "epoch": 0.1081419116813746,
      "grad_norm": 4.0625,
      "learning_rate": 9.801737428345115e-05,
      "loss": 0.8838,
      "step": 79200
    },
    {
      "epoch": 0.10821018309026437,
      "grad_norm": 4.65625,
      "learning_rate": 9.801432218473047e-05,
      "loss": 0.7983,
      "step": 79250
    },
    {
      "epoch": 0.10827845449915412,
      "grad_norm": 4.5625,
      "learning_rate": 9.801126778617401e-05,
      "loss": 0.9161,
      "step": 79300
    },
    {
      "epoch": 0.10834672590804387,
      "grad_norm": 4.15625,
      "learning_rate": 9.800821108792806e-05,
      "loss": 0.8181,
      "step": 79350
    },
    {
      "epoch": 0.10841499731693363,
      "grad_norm": 7.09375,
      "learning_rate": 9.800515209013905e-05,
      "loss": 0.8431,
      "step": 79400
    },
    {
      "epoch": 0.10848326872582338,
      "grad_norm": 4.375,
      "learning_rate": 9.800209079295349e-05,
      "loss": 0.8418,
      "step": 79450
    },
    {
      "epoch": 0.10855154013471315,
      "grad_norm": 3.828125,
      "learning_rate": 9.799902719651801e-05,
      "loss": 0.8483,
      "step": 79500
    },
    {
      "epoch": 0.1086198115436029,
      "grad_norm": 8.9375,
      "learning_rate": 9.799596130097937e-05,
      "loss": 0.9515,
      "step": 79550
    },
    {
      "epoch": 0.10868808295249266,
      "grad_norm": 3.46875,
      "learning_rate": 9.79928931064844e-05,
      "loss": 0.846,
      "step": 79600
    },
    {
      "epoch": 0.10875635436138241,
      "grad_norm": 4.0625,
      "learning_rate": 9.798982261318009e-05,
      "loss": 0.8972,
      "step": 79650
    },
    {
      "epoch": 0.10882462577027217,
      "grad_norm": 8.0,
      "learning_rate": 9.79867498212135e-05,
      "loss": 0.8693,
      "step": 79700
    },
    {
      "epoch": 0.10889289717916192,
      "grad_norm": 3.765625,
      "learning_rate": 9.79836747307318e-05,
      "loss": 0.8735,
      "step": 79750
    },
    {
      "epoch": 0.10896116858805169,
      "grad_norm": 3.421875,
      "learning_rate": 9.79805973418823e-05,
      "loss": 1.0088,
      "step": 79800
    },
    {
      "epoch": 0.10902943999694144,
      "grad_norm": 4.3125,
      "learning_rate": 9.79775176548124e-05,
      "loss": 0.9363,
      "step": 79850
    },
    {
      "epoch": 0.1090977114058312,
      "grad_norm": 3.0625,
      "learning_rate": 9.797443566966962e-05,
      "loss": 0.8871,
      "step": 79900
    },
    {
      "epoch": 0.10916598281472095,
      "grad_norm": 3.140625,
      "learning_rate": 9.797135138660158e-05,
      "loss": 0.8491,
      "step": 79950
    },
    {
      "epoch": 0.10923425422361072,
      "grad_norm": 4.375,
      "learning_rate": 9.7968264805756e-05,
      "loss": 0.888,
      "step": 80000
    },
    {
      "epoch": 0.10930252563250047,
      "grad_norm": 3.59375,
      "learning_rate": 9.796517592728073e-05,
      "loss": 0.9814,
      "step": 80050
    },
    {
      "epoch": 0.10937079704139023,
      "grad_norm": 2.75,
      "learning_rate": 9.796208475132375e-05,
      "loss": 0.9182,
      "step": 80100
    },
    {
      "epoch": 0.10943906845027998,
      "grad_norm": 2.96875,
      "learning_rate": 9.795899127803311e-05,
      "loss": 0.8838,
      "step": 80150
    },
    {
      "epoch": 0.10950733985916974,
      "grad_norm": 3.109375,
      "learning_rate": 9.795589550755696e-05,
      "loss": 0.9573,
      "step": 80200
    },
    {
      "epoch": 0.1095756112680595,
      "grad_norm": 3.359375,
      "learning_rate": 9.795279744004359e-05,
      "loss": 0.884,
      "step": 80250
    },
    {
      "epoch": 0.10964388267694924,
      "grad_norm": 4.28125,
      "learning_rate": 9.794969707564144e-05,
      "loss": 0.7925,
      "step": 80300
    },
    {
      "epoch": 0.10971215408583901,
      "grad_norm": 3.84375,
      "learning_rate": 9.794659441449896e-05,
      "loss": 0.9187,
      "step": 80350
    },
    {
      "epoch": 0.10978042549472876,
      "grad_norm": 3.828125,
      "learning_rate": 9.79434894567648e-05,
      "loss": 0.8499,
      "step": 80400
    },
    {
      "epoch": 0.10984869690361852,
      "grad_norm": 3.75,
      "learning_rate": 9.794038220258764e-05,
      "loss": 1.0014,
      "step": 80450
    },
    {
      "epoch": 0.10991696831250827,
      "grad_norm": 2.9375,
      "learning_rate": 9.793727265211636e-05,
      "loss": 0.8781,
      "step": 80500
    },
    {
      "epoch": 0.10998523972139804,
      "grad_norm": 7.8125,
      "learning_rate": 9.793416080549988e-05,
      "loss": 0.909,
      "step": 80550
    },
    {
      "epoch": 0.11005351113028779,
      "grad_norm": 2.578125,
      "learning_rate": 9.793104666288728e-05,
      "loss": 0.9341,
      "step": 80600
    },
    {
      "epoch": 0.11012178253917755,
      "grad_norm": 3.890625,
      "learning_rate": 9.79279302244277e-05,
      "loss": 0.8926,
      "step": 80650
    },
    {
      "epoch": 0.1101900539480673,
      "grad_norm": 3.671875,
      "learning_rate": 9.792481149027041e-05,
      "loss": 0.9276,
      "step": 80700
    },
    {
      "epoch": 0.11025832535695707,
      "grad_norm": 4.15625,
      "learning_rate": 9.792169046056481e-05,
      "loss": 0.8241,
      "step": 80750
    },
    {
      "epoch": 0.11032659676584682,
      "grad_norm": 3.984375,
      "learning_rate": 9.791856713546039e-05,
      "loss": 0.9958,
      "step": 80800
    },
    {
      "epoch": 0.11039486817473658,
      "grad_norm": 4.21875,
      "learning_rate": 9.791544151510674e-05,
      "loss": 0.8808,
      "step": 80850
    },
    {
      "epoch": 0.11046313958362633,
      "grad_norm": 3.28125,
      "learning_rate": 9.79123135996536e-05,
      "loss": 0.9281,
      "step": 80900
    },
    {
      "epoch": 0.1105314109925161,
      "grad_norm": 7.15625,
      "learning_rate": 9.790918338925078e-05,
      "loss": 0.8575,
      "step": 80950
    },
    {
      "epoch": 0.11059968240140584,
      "grad_norm": 4.03125,
      "learning_rate": 9.79060508840482e-05,
      "loss": 0.826,
      "step": 81000
    },
    {
      "epoch": 0.11066795381029561,
      "grad_norm": 3.828125,
      "learning_rate": 9.790291608419594e-05,
      "loss": 0.889,
      "step": 81050
    },
    {
      "epoch": 0.11073622521918536,
      "grad_norm": 6.59375,
      "learning_rate": 9.789977898984411e-05,
      "loss": 0.8837,
      "step": 81100
    },
    {
      "epoch": 0.11080449662807511,
      "grad_norm": 3.515625,
      "learning_rate": 9.789663960114302e-05,
      "loss": 0.8481,
      "step": 81150
    },
    {
      "epoch": 0.11087276803696487,
      "grad_norm": 3.421875,
      "learning_rate": 9.789349791824298e-05,
      "loss": 0.8364,
      "step": 81200
    },
    {
      "epoch": 0.11094103944585462,
      "grad_norm": 2.5,
      "learning_rate": 9.789035394129454e-05,
      "loss": 0.8973,
      "step": 81250
    },
    {
      "epoch": 0.11100931085474439,
      "grad_norm": 4.53125,
      "learning_rate": 9.788720767044825e-05,
      "loss": 0.8957,
      "step": 81300
    },
    {
      "epoch": 0.11107758226363414,
      "grad_norm": 4.46875,
      "learning_rate": 9.788405910585484e-05,
      "loss": 0.8697,
      "step": 81350
    },
    {
      "epoch": 0.1111458536725239,
      "grad_norm": 3.453125,
      "learning_rate": 9.788090824766511e-05,
      "loss": 0.912,
      "step": 81400
    },
    {
      "epoch": 0.11121412508141365,
      "grad_norm": 4.5,
      "learning_rate": 9.787775509602997e-05,
      "loss": 0.8899,
      "step": 81450
    },
    {
      "epoch": 0.11128239649030341,
      "grad_norm": 2.59375,
      "learning_rate": 9.787459965110048e-05,
      "loss": 0.8358,
      "step": 81500
    },
    {
      "epoch": 0.11135066789919316,
      "grad_norm": 4.21875,
      "learning_rate": 9.787144191302778e-05,
      "loss": 0.7435,
      "step": 81550
    },
    {
      "epoch": 0.11141893930808293,
      "grad_norm": 3.359375,
      "learning_rate": 9.786828188196309e-05,
      "loss": 1.0073,
      "step": 81600
    },
    {
      "epoch": 0.11148721071697268,
      "grad_norm": 7.28125,
      "learning_rate": 9.786511955805779e-05,
      "loss": 0.9895,
      "step": 81650
    },
    {
      "epoch": 0.11155548212586244,
      "grad_norm": 3.390625,
      "learning_rate": 9.786195494146337e-05,
      "loss": 0.9084,
      "step": 81700
    },
    {
      "epoch": 0.1116237535347522,
      "grad_norm": 4.4375,
      "learning_rate": 9.785878803233139e-05,
      "loss": 0.8834,
      "step": 81750
    },
    {
      "epoch": 0.11169202494364196,
      "grad_norm": 7.75,
      "learning_rate": 9.785561883081353e-05,
      "loss": 0.9888,
      "step": 81800
    },
    {
      "epoch": 0.11176029635253171,
      "grad_norm": 7.53125,
      "learning_rate": 9.785244733706165e-05,
      "loss": 0.8647,
      "step": 81850
    },
    {
      "epoch": 0.11182856776142147,
      "grad_norm": 4.0625,
      "learning_rate": 9.78492735512276e-05,
      "loss": 0.9421,
      "step": 81900
    },
    {
      "epoch": 0.11189683917031122,
      "grad_norm": 3.53125,
      "learning_rate": 9.784609747346342e-05,
      "loss": 0.8729,
      "step": 81950
    },
    {
      "epoch": 0.11196511057920099,
      "grad_norm": 3.359375,
      "learning_rate": 9.784291910392124e-05,
      "loss": 0.9176,
      "step": 82000
    },
    {
      "epoch": 0.11203338198809074,
      "grad_norm": 3.875,
      "learning_rate": 9.783973844275331e-05,
      "loss": 0.8462,
      "step": 82050
    },
    {
      "epoch": 0.11210165339698049,
      "grad_norm": 4.125,
      "learning_rate": 9.783655549011197e-05,
      "loss": 0.9116,
      "step": 82100
    },
    {
      "epoch": 0.11216992480587025,
      "grad_norm": 3.609375,
      "learning_rate": 9.78333702461497e-05,
      "loss": 0.8096,
      "step": 82150
    },
    {
      "epoch": 0.11223819621476,
      "grad_norm": 3.25,
      "learning_rate": 9.783018271101902e-05,
      "loss": 0.8247,
      "step": 82200
    },
    {
      "epoch": 0.11230646762364976,
      "grad_norm": 4.375,
      "learning_rate": 9.782699288487268e-05,
      "loss": 0.7589,
      "step": 82250
    },
    {
      "epoch": 0.11237473903253951,
      "grad_norm": 4.1875,
      "learning_rate": 9.782380076786341e-05,
      "loss": 0.9593,
      "step": 82300
    },
    {
      "epoch": 0.11244301044142928,
      "grad_norm": 3.96875,
      "learning_rate": 9.782060636014414e-05,
      "loss": 0.8209,
      "step": 82350
    },
    {
      "epoch": 0.11251128185031903,
      "grad_norm": 6.75,
      "learning_rate": 9.781740966186788e-05,
      "loss": 0.8863,
      "step": 82400
    },
    {
      "epoch": 0.11257955325920879,
      "grad_norm": 2.796875,
      "learning_rate": 9.781421067318773e-05,
      "loss": 0.7959,
      "step": 82450
    },
    {
      "epoch": 0.11264782466809854,
      "grad_norm": 3.5,
      "learning_rate": 9.781100939425693e-05,
      "loss": 0.8167,
      "step": 82500
    },
    {
      "epoch": 0.1127160960769883,
      "grad_norm": 2.96875,
      "learning_rate": 9.78078058252288e-05,
      "loss": 0.859,
      "step": 82550
    },
    {
      "epoch": 0.11278436748587806,
      "grad_norm": 3.84375,
      "learning_rate": 9.780459996625681e-05,
      "loss": 0.8888,
      "step": 82600
    },
    {
      "epoch": 0.11285263889476782,
      "grad_norm": 3.0,
      "learning_rate": 9.780139181749453e-05,
      "loss": 0.9053,
      "step": 82650
    },
    {
      "epoch": 0.11292091030365757,
      "grad_norm": 7.0,
      "learning_rate": 9.77981813790956e-05,
      "loss": 0.9439,
      "step": 82700
    },
    {
      "epoch": 0.11298918171254733,
      "grad_norm": 2.984375,
      "learning_rate": 9.779496865121378e-05,
      "loss": 0.8022,
      "step": 82750
    },
    {
      "epoch": 0.11305745312143708,
      "grad_norm": 2.96875,
      "learning_rate": 9.779175363400301e-05,
      "loss": 0.8784,
      "step": 82800
    },
    {
      "epoch": 0.11312572453032685,
      "grad_norm": 4.78125,
      "learning_rate": 9.778853632761724e-05,
      "loss": 0.8842,
      "step": 82850
    },
    {
      "epoch": 0.1131939959392166,
      "grad_norm": 2.90625,
      "learning_rate": 9.77853167322106e-05,
      "loss": 0.7797,
      "step": 82900
    },
    {
      "epoch": 0.11326226734810635,
      "grad_norm": 7.15625,
      "learning_rate": 9.778209484793729e-05,
      "loss": 0.8524,
      "step": 82950
    },
    {
      "epoch": 0.11333053875699611,
      "grad_norm": 8.375,
      "learning_rate": 9.777887067495164e-05,
      "loss": 0.8987,
      "step": 83000
    },
    {
      "epoch": 0.11339881016588586,
      "grad_norm": 7.9375,
      "learning_rate": 9.77756442134081e-05,
      "loss": 0.9455,
      "step": 83050
    },
    {
      "epoch": 0.11346708157477563,
      "grad_norm": 2.75,
      "learning_rate": 9.777241546346119e-05,
      "loss": 0.9048,
      "step": 83100
    },
    {
      "epoch": 0.11353535298366538,
      "grad_norm": 2.265625,
      "learning_rate": 9.776918442526556e-05,
      "loss": 0.8953,
      "step": 83150
    },
    {
      "epoch": 0.11360362439255514,
      "grad_norm": 3.15625,
      "learning_rate": 9.776595109897602e-05,
      "loss": 0.9068,
      "step": 83200
    },
    {
      "epoch": 0.11367189580144489,
      "grad_norm": 2.96875,
      "learning_rate": 9.77627154847474e-05,
      "loss": 0.7786,
      "step": 83250
    },
    {
      "epoch": 0.11374016721033466,
      "grad_norm": 3.015625,
      "learning_rate": 9.775947758273467e-05,
      "loss": 0.8996,
      "step": 83300
    },
    {
      "epoch": 0.1138084386192244,
      "grad_norm": 3.21875,
      "learning_rate": 9.775623739309297e-05,
      "loss": 0.881,
      "step": 83350
    },
    {
      "epoch": 0.11387671002811417,
      "grad_norm": 8.625,
      "learning_rate": 9.775299491597747e-05,
      "loss": 0.937,
      "step": 83400
    },
    {
      "epoch": 0.11394498143700392,
      "grad_norm": 2.96875,
      "learning_rate": 9.774975015154348e-05,
      "loss": 0.8717,
      "step": 83450
    },
    {
      "epoch": 0.11401325284589368,
      "grad_norm": 3.140625,
      "learning_rate": 9.774650309994644e-05,
      "loss": 0.9394,
      "step": 83500
    },
    {
      "epoch": 0.11408152425478343,
      "grad_norm": 2.703125,
      "learning_rate": 9.774325376134187e-05,
      "loss": 0.9434,
      "step": 83550
    },
    {
      "epoch": 0.1141497956636732,
      "grad_norm": 2.734375,
      "learning_rate": 9.774000213588542e-05,
      "loss": 0.8412,
      "step": 83600
    },
    {
      "epoch": 0.11421806707256295,
      "grad_norm": 3.03125,
      "learning_rate": 9.77367482237328e-05,
      "loss": 0.8835,
      "step": 83650
    },
    {
      "epoch": 0.11428633848145271,
      "grad_norm": 3.578125,
      "learning_rate": 9.773349202503991e-05,
      "loss": 0.8432,
      "step": 83700
    },
    {
      "epoch": 0.11435460989034246,
      "grad_norm": 7.46875,
      "learning_rate": 9.77302335399627e-05,
      "loss": 0.8597,
      "step": 83750
    },
    {
      "epoch": 0.11442288129923223,
      "grad_norm": 3.921875,
      "learning_rate": 9.772697276865727e-05,
      "loss": 1.0084,
      "step": 83800
    },
    {
      "epoch": 0.11449115270812198,
      "grad_norm": 2.640625,
      "learning_rate": 9.772370971127979e-05,
      "loss": 0.7992,
      "step": 83850
    },
    {
      "epoch": 0.11455942411701173,
      "grad_norm": 2.65625,
      "learning_rate": 9.772044436798655e-05,
      "loss": 0.9531,
      "step": 83900
    },
    {
      "epoch": 0.11462769552590149,
      "grad_norm": 3.78125,
      "learning_rate": 9.771717673893397e-05,
      "loss": 0.9065,
      "step": 83950
    },
    {
      "epoch": 0.11469596693479124,
      "grad_norm": 2.90625,
      "learning_rate": 9.771390682427856e-05,
      "loss": 0.7226,
      "step": 84000
    },
    {
      "epoch": 0.114764238343681,
      "grad_norm": 4.15625,
      "learning_rate": 9.771063462417694e-05,
      "loss": 0.9381,
      "step": 84050
    },
    {
      "epoch": 0.11483250975257075,
      "grad_norm": 2.8125,
      "learning_rate": 9.770736013878586e-05,
      "loss": 0.8308,
      "step": 84100
    },
    {
      "epoch": 0.11490078116146052,
      "grad_norm": 8.4375,
      "learning_rate": 9.770408336826216e-05,
      "loss": 1.0747,
      "step": 84150
    },
    {
      "epoch": 0.11496905257035027,
      "grad_norm": 7.34375,
      "learning_rate": 9.770080431276278e-05,
      "loss": 1.0186,
      "step": 84200
    },
    {
      "epoch": 0.11503732397924003,
      "grad_norm": 4.125,
      "learning_rate": 9.76975229724448e-05,
      "loss": 0.9782,
      "step": 84250
    },
    {
      "epoch": 0.11510559538812978,
      "grad_norm": 3.65625,
      "learning_rate": 9.76942393474654e-05,
      "loss": 0.9544,
      "step": 84300
    },
    {
      "epoch": 0.11517386679701955,
      "grad_norm": 3.953125,
      "learning_rate": 9.769095343798183e-05,
      "loss": 0.7186,
      "step": 84350
    },
    {
      "epoch": 0.1152421382059093,
      "grad_norm": 2.5,
      "learning_rate": 9.768766524415149e-05,
      "loss": 0.945,
      "step": 84400
    },
    {
      "epoch": 0.11531040961479906,
      "grad_norm": 4.0625,
      "learning_rate": 9.76843747661319e-05,
      "loss": 0.8346,
      "step": 84450
    },
    {
      "epoch": 0.11537868102368881,
      "grad_norm": 4.65625,
      "learning_rate": 9.768108200408068e-05,
      "loss": 0.9462,
      "step": 84500
    },
    {
      "epoch": 0.11544695243257858,
      "grad_norm": 3.171875,
      "learning_rate": 9.767778695815551e-05,
      "loss": 0.9574,
      "step": 84550
    },
    {
      "epoch": 0.11551522384146833,
      "grad_norm": 2.75,
      "learning_rate": 9.767448962851425e-05,
      "loss": 0.9031,
      "step": 84600
    },
    {
      "epoch": 0.11558349525035809,
      "grad_norm": 3.453125,
      "learning_rate": 9.767119001531482e-05,
      "loss": 0.9095,
      "step": 84650
    },
    {
      "epoch": 0.11565176665924784,
      "grad_norm": 8.3125,
      "learning_rate": 9.766788811871529e-05,
      "loss": 1.0512,
      "step": 84700
    },
    {
      "epoch": 0.11572003806813759,
      "grad_norm": 2.921875,
      "learning_rate": 9.76645839388738e-05,
      "loss": 0.8257,
      "step": 84750
    },
    {
      "epoch": 0.11578830947702735,
      "grad_norm": 7.84375,
      "learning_rate": 9.766127747594862e-05,
      "loss": 0.973,
      "step": 84800
    },
    {
      "epoch": 0.1158565808859171,
      "grad_norm": 2.484375,
      "learning_rate": 9.765796873009814e-05,
      "loss": 0.9201,
      "step": 84850
    },
    {
      "epoch": 0.11592485229480687,
      "grad_norm": 3.53125,
      "learning_rate": 9.765465770148081e-05,
      "loss": 0.9114,
      "step": 84900
    },
    {
      "epoch": 0.11599312370369662,
      "grad_norm": 2.90625,
      "learning_rate": 9.765134439025526e-05,
      "loss": 0.7313,
      "step": 84950
    },
    {
      "epoch": 0.11606139511258638,
      "grad_norm": 3.0,
      "learning_rate": 9.764802879658018e-05,
      "loss": 0.87,
      "step": 85000
    },
    {
      "epoch": 0.11612966652147613,
      "grad_norm": 3.375,
      "learning_rate": 9.764471092061439e-05,
      "loss": 0.9045,
      "step": 85050
    },
    {
      "epoch": 0.1161979379303659,
      "grad_norm": 2.828125,
      "learning_rate": 9.764139076251681e-05,
      "loss": 0.9954,
      "step": 85100
    },
    {
      "epoch": 0.11626620933925565,
      "grad_norm": 2.796875,
      "learning_rate": 9.763806832244646e-05,
      "loss": 0.859,
      "step": 85150
    },
    {
      "epoch": 0.11633448074814541,
      "grad_norm": 8.5,
      "learning_rate": 9.763474360056251e-05,
      "loss": 0.9422,
      "step": 85200
    },
    {
      "epoch": 0.11640275215703516,
      "grad_norm": 4.0625,
      "learning_rate": 9.763141659702417e-05,
      "loss": 0.887,
      "step": 85250
    },
    {
      "epoch": 0.11647102356592492,
      "grad_norm": 3.640625,
      "learning_rate": 9.762808731199083e-05,
      "loss": 0.9391,
      "step": 85300
    },
    {
      "epoch": 0.11653929497481468,
      "grad_norm": 3.53125,
      "learning_rate": 9.762475574562195e-05,
      "loss": 0.7676,
      "step": 85350
    },
    {
      "epoch": 0.11660756638370444,
      "grad_norm": 2.9375,
      "learning_rate": 9.762142189807712e-05,
      "loss": 0.8218,
      "step": 85400
    },
    {
      "epoch": 0.11667583779259419,
      "grad_norm": 2.71875,
      "learning_rate": 9.761808576951601e-05,
      "loss": 0.9923,
      "step": 85450
    },
    {
      "epoch": 0.11674410920148395,
      "grad_norm": 3.15625,
      "learning_rate": 9.761474736009844e-05,
      "loss": 1.037,
      "step": 85500
    },
    {
      "epoch": 0.1168123806103737,
      "grad_norm": 3.421875,
      "learning_rate": 9.761140666998428e-05,
      "loss": 0.8956,
      "step": 85550
    },
    {
      "epoch": 0.11688065201926347,
      "grad_norm": 3.75,
      "learning_rate": 9.760806369933357e-05,
      "loss": 0.8892,
      "step": 85600
    },
    {
      "epoch": 0.11694892342815322,
      "grad_norm": 8.25,
      "learning_rate": 9.760471844830644e-05,
      "loss": 0.868,
      "step": 85650
    },
    {
      "epoch": 0.11701719483704297,
      "grad_norm": 3.578125,
      "learning_rate": 9.760137091706311e-05,
      "loss": 0.9083,
      "step": 85700
    },
    {
      "epoch": 0.11708546624593273,
      "grad_norm": 4.4375,
      "learning_rate": 9.759802110576394e-05,
      "loss": 0.7416,
      "step": 85750
    },
    {
      "epoch": 0.11715373765482248,
      "grad_norm": 3.671875,
      "learning_rate": 9.759466901456936e-05,
      "loss": 0.7838,
      "step": 85800
    },
    {
      "epoch": 0.11722200906371225,
      "grad_norm": 4.375,
      "learning_rate": 9.759131464363995e-05,
      "loss": 0.8975,
      "step": 85850
    },
    {
      "epoch": 0.117290280472602,
      "grad_norm": 4.15625,
      "learning_rate": 9.758795799313637e-05,
      "loss": 0.9004,
      "step": 85900
    },
    {
      "epoch": 0.11735855188149176,
      "grad_norm": 2.765625,
      "learning_rate": 9.75845990632194e-05,
      "loss": 0.8913,
      "step": 85950
    },
    {
      "epoch": 0.11742682329038151,
      "grad_norm": 3.265625,
      "learning_rate": 9.758123785404995e-05,
      "loss": 0.9251,
      "step": 86000
    },
    {
      "epoch": 0.11749509469927127,
      "grad_norm": 2.75,
      "learning_rate": 9.757787436578898e-05,
      "loss": 0.8346,
      "step": 86050
    },
    {
      "epoch": 0.11756336610816102,
      "grad_norm": 4.5625,
      "learning_rate": 9.757450859859764e-05,
      "loss": 0.9856,
      "step": 86100
    },
    {
      "epoch": 0.11763163751705079,
      "grad_norm": 3.984375,
      "learning_rate": 9.757114055263712e-05,
      "loss": 0.8188,
      "step": 86150
    },
    {
      "epoch": 0.11769990892594054,
      "grad_norm": 2.953125,
      "learning_rate": 9.756777022806874e-05,
      "loss": 0.7918,
      "step": 86200
    },
    {
      "epoch": 0.1177681803348303,
      "grad_norm": 2.328125,
      "learning_rate": 9.756439762505397e-05,
      "loss": 0.7789,
      "step": 86250
    },
    {
      "epoch": 0.11783645174372005,
      "grad_norm": 2.296875,
      "learning_rate": 9.756102274375429e-05,
      "loss": 0.762,
      "step": 86300
    },
    {
      "epoch": 0.11790472315260982,
      "grad_norm": 2.8125,
      "learning_rate": 9.755764558433142e-05,
      "loss": 0.7652,
      "step": 86350
    },
    {
      "epoch": 0.11797299456149957,
      "grad_norm": 4.09375,
      "learning_rate": 9.75542661469471e-05,
      "loss": 0.8957,
      "step": 86400
    },
    {
      "epoch": 0.11804126597038933,
      "grad_norm": 3.578125,
      "learning_rate": 9.75508844317632e-05,
      "loss": 0.9155,
      "step": 86450
    },
    {
      "epoch": 0.11810953737927908,
      "grad_norm": 10.5625,
      "learning_rate": 9.75475004389417e-05,
      "loss": 0.9191,
      "step": 86500
    },
    {
      "epoch": 0.11817780878816883,
      "grad_norm": 8.8125,
      "learning_rate": 9.754411416864469e-05,
      "loss": 0.8403,
      "step": 86550
    },
    {
      "epoch": 0.1182460801970586,
      "grad_norm": 4.40625,
      "learning_rate": 9.754072562103435e-05,
      "loss": 0.9525,
      "step": 86600
    },
    {
      "epoch": 0.11831435160594835,
      "grad_norm": 5.34375,
      "learning_rate": 9.7537334796273e-05,
      "loss": 0.817,
      "step": 86650
    },
    {
      "epoch": 0.11838262301483811,
      "grad_norm": 3.0625,
      "learning_rate": 9.753394169452309e-05,
      "loss": 0.9366,
      "step": 86700
    },
    {
      "epoch": 0.11845089442372786,
      "grad_norm": 4.59375,
      "learning_rate": 9.753054631594711e-05,
      "loss": 0.9301,
      "step": 86750
    },
    {
      "epoch": 0.11851916583261762,
      "grad_norm": 2.921875,
      "learning_rate": 9.752714866070769e-05,
      "loss": 0.9937,
      "step": 86800
    },
    {
      "epoch": 0.11858743724150737,
      "grad_norm": 3.890625,
      "learning_rate": 9.75237487289676e-05,
      "loss": 0.887,
      "step": 86850
    },
    {
      "epoch": 0.11865570865039714,
      "grad_norm": 2.921875,
      "learning_rate": 9.752034652088969e-05,
      "loss": 0.8946,
      "step": 86900
    },
    {
      "epoch": 0.11872398005928689,
      "grad_norm": 3.03125,
      "learning_rate": 9.751694203663688e-05,
      "loss": 0.7697,
      "step": 86950
    },
    {
      "epoch": 0.11879225146817665,
      "grad_norm": 3.125,
      "learning_rate": 9.75135352763723e-05,
      "loss": 0.9197,
      "step": 87000
    },
    {
      "epoch": 0.1188605228770664,
      "grad_norm": 5.9375,
      "learning_rate": 9.75101262402591e-05,
      "loss": 0.7975,
      "step": 87050
    },
    {
      "epoch": 0.11892879428595617,
      "grad_norm": 3.84375,
      "learning_rate": 9.750671492846057e-05,
      "loss": 1.0136,
      "step": 87100
    },
    {
      "epoch": 0.11899706569484592,
      "grad_norm": 3.0625,
      "learning_rate": 9.750330134114012e-05,
      "loss": 0.9126,
      "step": 87150
    },
    {
      "epoch": 0.11906533710373568,
      "grad_norm": 3.3125,
      "learning_rate": 9.749988547846123e-05,
      "loss": 0.8582,
      "step": 87200
    },
    {
      "epoch": 0.11913360851262543,
      "grad_norm": 2.875,
      "learning_rate": 9.749646734058756e-05,
      "loss": 0.9777,
      "step": 87250
    },
    {
      "epoch": 0.1192018799215152,
      "grad_norm": 3.84375,
      "learning_rate": 9.749304692768279e-05,
      "loss": 0.9907,
      "step": 87300
    },
    {
      "epoch": 0.11927015133040494,
      "grad_norm": 4.0,
      "learning_rate": 9.74896242399108e-05,
      "loss": 0.8117,
      "step": 87350
    },
    {
      "epoch": 0.11933842273929471,
      "grad_norm": 2.921875,
      "learning_rate": 9.748619927743548e-05,
      "loss": 0.874,
      "step": 87400
    },
    {
      "epoch": 0.11940669414818446,
      "grad_norm": 4.0625,
      "learning_rate": 9.748277204042092e-05,
      "loss": 0.8126,
      "step": 87450
    },
    {
      "epoch": 0.11947496555707421,
      "grad_norm": 3.015625,
      "learning_rate": 9.747934252903128e-05,
      "loss": 0.9066,
      "step": 87500
    },
    {
      "epoch": 0.11954323696596397,
      "grad_norm": 2.921875,
      "learning_rate": 9.747591074343081e-05,
      "loss": 0.9188,
      "step": 87550
    },
    {
      "epoch": 0.11961150837485372,
      "grad_norm": 3.046875,
      "learning_rate": 9.74724766837839e-05,
      "loss": 0.7812,
      "step": 87600
    },
    {
      "epoch": 0.11967977978374349,
      "grad_norm": 3.046875,
      "learning_rate": 9.746904035025505e-05,
      "loss": 0.9094,
      "step": 87650
    },
    {
      "epoch": 0.11974805119263324,
      "grad_norm": 3.515625,
      "learning_rate": 9.746560174300883e-05,
      "loss": 1.0081,
      "step": 87700
    },
    {
      "epoch": 0.119816322601523,
      "grad_norm": 3.875,
      "learning_rate": 9.746216086220997e-05,
      "loss": 0.8695,
      "step": 87750
    },
    {
      "epoch": 0.11988459401041275,
      "grad_norm": 3.765625,
      "learning_rate": 9.745871770802329e-05,
      "loss": 0.8436,
      "step": 87800
    },
    {
      "epoch": 0.11995286541930252,
      "grad_norm": 3.328125,
      "learning_rate": 9.745527228061366e-05,
      "loss": 0.8269,
      "step": 87850
    },
    {
      "epoch": 0.12002113682819227,
      "grad_norm": 3.703125,
      "learning_rate": 9.745182458014617e-05,
      "loss": 0.9265,
      "step": 87900
    },
    {
      "epoch": 0.12008940823708203,
      "grad_norm": 2.78125,
      "learning_rate": 9.744837460678596e-05,
      "loss": 0.8162,
      "step": 87950
    },
    {
      "epoch": 0.12015767964597178,
      "grad_norm": 3.046875,
      "learning_rate": 9.744492236069825e-05,
      "loss": 0.7436,
      "step": 88000
    },
    {
      "epoch": 0.12022595105486154,
      "grad_norm": 2.75,
      "learning_rate": 9.744146784204839e-05,
      "loss": 0.7817,
      "step": 88050
    },
    {
      "epoch": 0.1202942224637513,
      "grad_norm": 4.09375,
      "learning_rate": 9.74380110510019e-05,
      "loss": 0.9771,
      "step": 88100
    },
    {
      "epoch": 0.12036249387264106,
      "grad_norm": 2.84375,
      "learning_rate": 9.74345519877243e-05,
      "loss": 1.0632,
      "step": 88150
    },
    {
      "epoch": 0.12043076528153081,
      "grad_norm": 4.25,
      "learning_rate": 9.743109065238132e-05,
      "loss": 0.9184,
      "step": 88200
    },
    {
      "epoch": 0.12049903669042057,
      "grad_norm": 2.875,
      "learning_rate": 9.742762704513873e-05,
      "loss": 0.788,
      "step": 88250
    },
    {
      "epoch": 0.12056730809931032,
      "grad_norm": 3.234375,
      "learning_rate": 9.742416116616243e-05,
      "loss": 0.9357,
      "step": 88300
    },
    {
      "epoch": 0.12063557950820007,
      "grad_norm": 7.5625,
      "learning_rate": 9.742069301561844e-05,
      "loss": 0.8963,
      "step": 88350
    },
    {
      "epoch": 0.12070385091708984,
      "grad_norm": 3.875,
      "learning_rate": 9.74172225936729e-05,
      "loss": 0.8602,
      "step": 88400
    },
    {
      "epoch": 0.12077212232597959,
      "grad_norm": 4.0625,
      "learning_rate": 9.741374990049201e-05,
      "loss": 0.9328,
      "step": 88450
    },
    {
      "epoch": 0.12084039373486935,
      "grad_norm": 2.75,
      "learning_rate": 9.741027493624213e-05,
      "loss": 0.8286,
      "step": 88500
    },
    {
      "epoch": 0.1209086651437591,
      "grad_norm": 3.25,
      "learning_rate": 9.740679770108968e-05,
      "loss": 0.8596,
      "step": 88550
    },
    {
      "epoch": 0.12097693655264886,
      "grad_norm": 3.765625,
      "learning_rate": 9.740331819520123e-05,
      "loss": 0.9259,
      "step": 88600
    },
    {
      "epoch": 0.12104520796153861,
      "grad_norm": 3.609375,
      "learning_rate": 9.739983641874346e-05,
      "loss": 0.8982,
      "step": 88650
    },
    {
      "epoch": 0.12111347937042838,
      "grad_norm": 3.796875,
      "learning_rate": 9.739635237188314e-05,
      "loss": 0.8301,
      "step": 88700
    },
    {
      "epoch": 0.12118175077931813,
      "grad_norm": 2.8125,
      "learning_rate": 9.739286605478712e-05,
      "loss": 0.8843,
      "step": 88750
    },
    {
      "epoch": 0.12125002218820789,
      "grad_norm": 3.296875,
      "learning_rate": 9.738937746762242e-05,
      "loss": 0.8727,
      "step": 88800
    },
    {
      "epoch": 0.12131829359709764,
      "grad_norm": 7.625,
      "learning_rate": 9.738588661055615e-05,
      "loss": 0.9063,
      "step": 88850
    },
    {
      "epoch": 0.1213865650059874,
      "grad_norm": 3.859375,
      "learning_rate": 9.738239348375549e-05,
      "loss": 0.9925,
      "step": 88900
    },
    {
      "epoch": 0.12145483641487716,
      "grad_norm": 4.28125,
      "learning_rate": 9.737889808738776e-05,
      "loss": 0.7717,
      "step": 88950
    },
    {
      "epoch": 0.12152310782376692,
      "grad_norm": 7.84375,
      "learning_rate": 9.73754004216204e-05,
      "loss": 0.8906,
      "step": 89000
    },
    {
      "epoch": 0.12159137923265667,
      "grad_norm": 8.0625,
      "learning_rate": 9.737190048662095e-05,
      "loss": 0.9024,
      "step": 89050
    },
    {
      "epoch": 0.12165965064154644,
      "grad_norm": 3.984375,
      "learning_rate": 9.736839828255703e-05,
      "loss": 0.9224,
      "step": 89100
    },
    {
      "epoch": 0.12172792205043619,
      "grad_norm": 4.09375,
      "learning_rate": 9.736489380959642e-05,
      "loss": 0.9701,
      "step": 89150
    },
    {
      "epoch": 0.12179619345932595,
      "grad_norm": 7.6875,
      "learning_rate": 9.736138706790693e-05,
      "loss": 1.0273,
      "step": 89200
    },
    {
      "epoch": 0.1218644648682157,
      "grad_norm": 2.96875,
      "learning_rate": 9.73578780576566e-05,
      "loss": 1.0631,
      "step": 89250
    },
    {
      "epoch": 0.12193273627710545,
      "grad_norm": 3.078125,
      "learning_rate": 9.735436677901345e-05,
      "loss": 0.8887,
      "step": 89300
    },
    {
      "epoch": 0.12200100768599521,
      "grad_norm": 3.515625,
      "learning_rate": 9.73508532321457e-05,
      "loss": 1.0413,
      "step": 89350
    },
    {
      "epoch": 0.12206927909488496,
      "grad_norm": 2.953125,
      "learning_rate": 9.734733741722165e-05,
      "loss": 0.8763,
      "step": 89400
    },
    {
      "epoch": 0.12213755050377473,
      "grad_norm": 3.203125,
      "learning_rate": 9.734381933440966e-05,
      "loss": 0.9468,
      "step": 89450
    },
    {
      "epoch": 0.12220582191266448,
      "grad_norm": 2.625,
      "learning_rate": 9.734029898387829e-05,
      "loss": 1.0671,
      "step": 89500
    },
    {
      "epoch": 0.12227409332155424,
      "grad_norm": 3.453125,
      "learning_rate": 9.733677636579612e-05,
      "loss": 1.055,
      "step": 89550
    },
    {
      "epoch": 0.12234236473044399,
      "grad_norm": 4.53125,
      "learning_rate": 9.733325148033192e-05,
      "loss": 0.9248,
      "step": 89600
    },
    {
      "epoch": 0.12241063613933376,
      "grad_norm": 3.328125,
      "learning_rate": 9.73297243276545e-05,
      "loss": 0.8295,
      "step": 89650
    },
    {
      "epoch": 0.1224789075482235,
      "grad_norm": 4.21875,
      "learning_rate": 9.732619490793282e-05,
      "loss": 0.7751,
      "step": 89700
    },
    {
      "epoch": 0.12254717895711327,
      "grad_norm": 4.65625,
      "learning_rate": 9.732266322133594e-05,
      "loss": 0.855,
      "step": 89750
    },
    {
      "epoch": 0.12261545036600302,
      "grad_norm": 3.40625,
      "learning_rate": 9.7319129268033e-05,
      "loss": 0.7851,
      "step": 89800
    },
    {
      "epoch": 0.12268372177489278,
      "grad_norm": 2.765625,
      "learning_rate": 9.73155930481933e-05,
      "loss": 0.7589,
      "step": 89850
    },
    {
      "epoch": 0.12275199318378253,
      "grad_norm": 4.0,
      "learning_rate": 9.73120545619862e-05,
      "loss": 0.8053,
      "step": 89900
    },
    {
      "epoch": 0.1228202645926723,
      "grad_norm": 4.3125,
      "learning_rate": 9.730851380958121e-05,
      "loss": 0.9214,
      "step": 89950
    },
    {
      "epoch": 0.12288853600156205,
      "grad_norm": 2.90625,
      "learning_rate": 9.730497079114791e-05,
      "loss": 0.8498,
      "step": 90000
    },
    {
      "epoch": 0.12295680741045181,
      "grad_norm": 2.9375,
      "learning_rate": 9.730142550685602e-05,
      "loss": 0.9529,
      "step": 90050
    },
    {
      "epoch": 0.12302507881934156,
      "grad_norm": 2.90625,
      "learning_rate": 9.729787795687535e-05,
      "loss": 0.9744,
      "step": 90100
    },
    {
      "epoch": 0.12309335022823131,
      "grad_norm": 3.40625,
      "learning_rate": 9.729432814137583e-05,
      "loss": 0.8579,
      "step": 90150
    },
    {
      "epoch": 0.12316162163712108,
      "grad_norm": 2.765625,
      "learning_rate": 9.729077606052747e-05,
      "loss": 0.7704,
      "step": 90200
    },
    {
      "epoch": 0.12322989304601083,
      "grad_norm": 2.921875,
      "learning_rate": 9.728722171450044e-05,
      "loss": 0.8955,
      "step": 90250
    },
    {
      "epoch": 0.12329816445490059,
      "grad_norm": 4.0,
      "learning_rate": 9.728366510346499e-05,
      "loss": 0.7769,
      "step": 90300
    },
    {
      "epoch": 0.12336643586379034,
      "grad_norm": 4.25,
      "learning_rate": 9.728010622759145e-05,
      "loss": 0.8908,
      "step": 90350
    },
    {
      "epoch": 0.1234347072726801,
      "grad_norm": 2.8125,
      "learning_rate": 9.72765450870503e-05,
      "loss": 0.8145,
      "step": 90400
    },
    {
      "epoch": 0.12350297868156986,
      "grad_norm": 8.25,
      "learning_rate": 9.727298168201211e-05,
      "loss": 0.9894,
      "step": 90450
    },
    {
      "epoch": 0.12357125009045962,
      "grad_norm": 4.34375,
      "learning_rate": 9.726941601264758e-05,
      "loss": 0.9293,
      "step": 90500
    },
    {
      "epoch": 0.12363952149934937,
      "grad_norm": 6.1875,
      "learning_rate": 9.726584807912748e-05,
      "loss": 0.7793,
      "step": 90550
    },
    {
      "epoch": 0.12370779290823913,
      "grad_norm": 8.5,
      "learning_rate": 9.726227788162275e-05,
      "loss": 1.0017,
      "step": 90600
    },
    {
      "epoch": 0.12377606431712888,
      "grad_norm": 3.5625,
      "learning_rate": 9.725870542030435e-05,
      "loss": 0.9575,
      "step": 90650
    },
    {
      "epoch": 0.12384433572601865,
      "grad_norm": 2.703125,
      "learning_rate": 9.725513069534343e-05,
      "loss": 0.9673,
      "step": 90700
    },
    {
      "epoch": 0.1239126071349084,
      "grad_norm": 3.296875,
      "learning_rate": 9.725155370691118e-05,
      "loss": 1.0621,
      "step": 90750
    },
    {
      "epoch": 0.12398087854379816,
      "grad_norm": 9.125,
      "learning_rate": 9.724797445517897e-05,
      "loss": 0.818,
      "step": 90800
    },
    {
      "epoch": 0.12404914995268791,
      "grad_norm": 7.6875,
      "learning_rate": 9.724439294031823e-05,
      "loss": 0.9205,
      "step": 90850
    },
    {
      "epoch": 0.12411742136157768,
      "grad_norm": 3.859375,
      "learning_rate": 9.724080916250051e-05,
      "loss": 0.873,
      "step": 90900
    },
    {
      "epoch": 0.12418569277046743,
      "grad_norm": 3.1875,
      "learning_rate": 9.723722312189747e-05,
      "loss": 0.9423,
      "step": 90950
    },
    {
      "epoch": 0.12425396417935719,
      "grad_norm": 3.890625,
      "learning_rate": 9.723363481868088e-05,
      "loss": 0.8782,
      "step": 91000
    },
    {
      "epoch": 0.12432223558824694,
      "grad_norm": 7.9375,
      "learning_rate": 9.723004425302261e-05,
      "loss": 0.857,
      "step": 91050
    },
    {
      "epoch": 0.12439050699713669,
      "grad_norm": 2.96875,
      "learning_rate": 9.722645142509466e-05,
      "loss": 0.8308,
      "step": 91100
    },
    {
      "epoch": 0.12445877840602645,
      "grad_norm": 3.96875,
      "learning_rate": 9.72228563350691e-05,
      "loss": 0.8491,
      "step": 91150
    },
    {
      "epoch": 0.1245270498149162,
      "grad_norm": 2.75,
      "learning_rate": 9.721925898311812e-05,
      "loss": 0.8607,
      "step": 91200
    },
    {
      "epoch": 0.12459532122380597,
      "grad_norm": 3.203125,
      "learning_rate": 9.721565936941409e-05,
      "loss": 0.9646,
      "step": 91250
    },
    {
      "epoch": 0.12466359263269572,
      "grad_norm": 8.0625,
      "learning_rate": 9.721205749412936e-05,
      "loss": 0.8663,
      "step": 91300
    },
    {
      "epoch": 0.12473186404158548,
      "grad_norm": 4.59375,
      "learning_rate": 9.72084533574365e-05,
      "loss": 0.877,
      "step": 91350
    },
    {
      "epoch": 0.12480013545047523,
      "grad_norm": 2.4375,
      "learning_rate": 9.720484695950812e-05,
      "loss": 0.8284,
      "step": 91400
    },
    {
      "epoch": 0.124868406859365,
      "grad_norm": 2.921875,
      "learning_rate": 9.720123830051697e-05,
      "loss": 0.8821,
      "step": 91450
    },
    {
      "epoch": 0.12493667826825475,
      "grad_norm": 7.65625,
      "learning_rate": 9.719762738063591e-05,
      "loss": 0.8567,
      "step": 91500
    },
    {
      "epoch": 0.1250049496771445,
      "grad_norm": 3.8125,
      "learning_rate": 9.719401420003789e-05,
      "loss": 0.9613,
      "step": 91550
    },
    {
      "epoch": 0.12507322108603428,
      "grad_norm": 3.5,
      "learning_rate": 9.719039875889599e-05,
      "loss": 0.8612,
      "step": 91600
    },
    {
      "epoch": 0.125141492494924,
      "grad_norm": 2.625,
      "learning_rate": 9.718678105738336e-05,
      "loss": 0.7826,
      "step": 91650
    },
    {
      "epoch": 0.12520976390381378,
      "grad_norm": 8.25,
      "learning_rate": 9.718316109567331e-05,
      "loss": 0.8211,
      "step": 91700
    },
    {
      "epoch": 0.12527803531270354,
      "grad_norm": 3.484375,
      "learning_rate": 9.71795388739392e-05,
      "loss": 0.9279,
      "step": 91750
    },
    {
      "epoch": 0.1253463067215933,
      "grad_norm": 3.15625,
      "learning_rate": 9.717591439235459e-05,
      "loss": 0.9084,
      "step": 91800
    },
    {
      "epoch": 0.12541457813048304,
      "grad_norm": 3.84375,
      "learning_rate": 9.7172287651093e-05,
      "loss": 0.9183,
      "step": 91850
    },
    {
      "epoch": 0.1254828495393728,
      "grad_norm": 5.40625,
      "learning_rate": 9.716865865032825e-05,
      "loss": 1.0388,
      "step": 91900
    },
    {
      "epoch": 0.12555112094826257,
      "grad_norm": 3.21875,
      "learning_rate": 9.716502739023409e-05,
      "loss": 0.8731,
      "step": 91950
    },
    {
      "epoch": 0.1256193923571523,
      "grad_norm": 3.421875,
      "learning_rate": 9.716139387098448e-05,
      "loss": 0.9706,
      "step": 92000
    },
    {
      "epoch": 0.12568766376604207,
      "grad_norm": 8.125,
      "learning_rate": 9.715775809275345e-05,
      "loss": 0.9002,
      "step": 92050
    },
    {
      "epoch": 0.12575593517493183,
      "grad_norm": 2.734375,
      "learning_rate": 9.715412005571518e-05,
      "loss": 0.8794,
      "step": 92100
    },
    {
      "epoch": 0.1258242065838216,
      "grad_norm": 3.140625,
      "learning_rate": 9.715047976004388e-05,
      "loss": 0.9688,
      "step": 92150
    },
    {
      "epoch": 0.12589247799271133,
      "grad_norm": 2.390625,
      "learning_rate": 9.714683720591396e-05,
      "loss": 0.8678,
      "step": 92200
    },
    {
      "epoch": 0.1259607494016011,
      "grad_norm": 4.8125,
      "learning_rate": 9.714319239349988e-05,
      "loss": 0.9541,
      "step": 92250
    },
    {
      "epoch": 0.12602902081049086,
      "grad_norm": 3.65625,
      "learning_rate": 9.713954532297622e-05,
      "loss": 0.7879,
      "step": 92300
    },
    {
      "epoch": 0.12609729221938062,
      "grad_norm": 2.640625,
      "learning_rate": 9.713589599451767e-05,
      "loss": 0.8715,
      "step": 92350
    },
    {
      "epoch": 0.12616556362827036,
      "grad_norm": 2.9375,
      "learning_rate": 9.713224440829904e-05,
      "loss": 0.7792,
      "step": 92400
    },
    {
      "epoch": 0.12623383503716012,
      "grad_norm": 4.96875,
      "learning_rate": 9.712859056449521e-05,
      "loss": 0.958,
      "step": 92450
    },
    {
      "epoch": 0.1263021064460499,
      "grad_norm": 2.859375,
      "learning_rate": 9.712493446328121e-05,
      "loss": 1.0594,
      "step": 92500
    },
    {
      "epoch": 0.12637037785493965,
      "grad_norm": 4.25,
      "learning_rate": 9.712127610483219e-05,
      "loss": 0.958,
      "step": 92550
    },
    {
      "epoch": 0.1264386492638294,
      "grad_norm": 3.1875,
      "learning_rate": 9.711761548932334e-05,
      "loss": 0.9806,
      "step": 92600
    },
    {
      "epoch": 0.12650692067271915,
      "grad_norm": 3.15625,
      "learning_rate": 9.711395261693003e-05,
      "loss": 0.8369,
      "step": 92650
    },
    {
      "epoch": 0.12657519208160892,
      "grad_norm": 4.5625,
      "learning_rate": 9.711028748782769e-05,
      "loss": 0.8202,
      "step": 92700
    },
    {
      "epoch": 0.12664346349049868,
      "grad_norm": 2.828125,
      "learning_rate": 9.710662010219189e-05,
      "loss": 0.9166,
      "step": 92750
    },
    {
      "epoch": 0.12671173489938842,
      "grad_norm": 4.09375,
      "learning_rate": 9.710295046019826e-05,
      "loss": 0.7717,
      "step": 92800
    },
    {
      "epoch": 0.12678000630827818,
      "grad_norm": 2.40625,
      "learning_rate": 9.709927856202262e-05,
      "loss": 0.7813,
      "step": 92850
    },
    {
      "epoch": 0.12684827771716795,
      "grad_norm": 3.515625,
      "learning_rate": 9.709560440784082e-05,
      "loss": 0.9009,
      "step": 92900
    },
    {
      "epoch": 0.12691654912605768,
      "grad_norm": 3.109375,
      "learning_rate": 9.709192799782886e-05,
      "loss": 0.9216,
      "step": 92950
    },
    {
      "epoch": 0.12698482053494745,
      "grad_norm": 3.21875,
      "learning_rate": 9.708824933216283e-05,
      "loss": 0.7682,
      "step": 93000
    },
    {
      "epoch": 0.1270530919438372,
      "grad_norm": 4.15625,
      "learning_rate": 9.708456841101893e-05,
      "loss": 0.8352,
      "step": 93050
    },
    {
      "epoch": 0.12712136335272697,
      "grad_norm": 3.859375,
      "learning_rate": 9.708088523457348e-05,
      "loss": 0.8379,
      "step": 93100
    },
    {
      "epoch": 0.1271896347616167,
      "grad_norm": 2.625,
      "learning_rate": 9.707719980300291e-05,
      "loss": 0.9049,
      "step": 93150
    },
    {
      "epoch": 0.12725790617050647,
      "grad_norm": 7.65625,
      "learning_rate": 9.707351211648372e-05,
      "loss": 0.9164,
      "step": 93200
    },
    {
      "epoch": 0.12732617757939624,
      "grad_norm": 4.21875,
      "learning_rate": 9.706982217519257e-05,
      "loss": 0.8343,
      "step": 93250
    },
    {
      "epoch": 0.127394448988286,
      "grad_norm": 3.140625,
      "learning_rate": 9.70661299793062e-05,
      "loss": 0.871,
      "step": 93300
    },
    {
      "epoch": 0.12746272039717574,
      "grad_norm": 4.34375,
      "learning_rate": 9.706243552900147e-05,
      "loss": 0.7431,
      "step": 93350
    },
    {
      "epoch": 0.1275309918060655,
      "grad_norm": 2.875,
      "learning_rate": 9.705873882445531e-05,
      "loss": 0.9534,
      "step": 93400
    },
    {
      "epoch": 0.12759926321495527,
      "grad_norm": 5.0625,
      "learning_rate": 9.705503986584481e-05,
      "loss": 0.902,
      "step": 93450
    },
    {
      "epoch": 0.12766753462384503,
      "grad_norm": 4.09375,
      "learning_rate": 9.705133865334716e-05,
      "loss": 0.9637,
      "step": 93500
    },
    {
      "epoch": 0.12773580603273477,
      "grad_norm": 2.5625,
      "learning_rate": 9.704763518713962e-05,
      "loss": 0.9382,
      "step": 93550
    },
    {
      "epoch": 0.12780407744162453,
      "grad_norm": 7.40625,
      "learning_rate": 9.70439294673996e-05,
      "loss": 0.9712,
      "step": 93600
    },
    {
      "epoch": 0.1278723488505143,
      "grad_norm": 3.296875,
      "learning_rate": 9.704022149430458e-05,
      "loss": 0.7904,
      "step": 93650
    },
    {
      "epoch": 0.12794062025940406,
      "grad_norm": 3.21875,
      "learning_rate": 9.703651126803217e-05,
      "loss": 0.825,
      "step": 93700
    },
    {
      "epoch": 0.1280088916682938,
      "grad_norm": 2.734375,
      "learning_rate": 9.70327987887601e-05,
      "loss": 0.8337,
      "step": 93750
    },
    {
      "epoch": 0.12807716307718356,
      "grad_norm": 7.09375,
      "learning_rate": 9.70290840566662e-05,
      "loss": 0.9037,
      "step": 93800
    },
    {
      "epoch": 0.12814543448607332,
      "grad_norm": 3.640625,
      "learning_rate": 9.70253670719284e-05,
      "loss": 0.8318,
      "step": 93850
    },
    {
      "epoch": 0.12821370589496306,
      "grad_norm": 8.125,
      "learning_rate": 9.702164783472471e-05,
      "loss": 0.874,
      "step": 93900
    },
    {
      "epoch": 0.12828197730385282,
      "grad_norm": 4.0625,
      "learning_rate": 9.70179263452333e-05,
      "loss": 0.8893,
      "step": 93950
    },
    {
      "epoch": 0.1283502487127426,
      "grad_norm": 2.640625,
      "learning_rate": 9.701420260363243e-05,
      "loss": 0.6811,
      "step": 94000
    },
    {
      "epoch": 0.12841852012163235,
      "grad_norm": 3.0625,
      "learning_rate": 9.701047661010045e-05,
      "loss": 0.9046,
      "step": 94050
    },
    {
      "epoch": 0.1284867915305221,
      "grad_norm": 3.625,
      "learning_rate": 9.700674836481585e-05,
      "loss": 0.9329,
      "step": 94100
    },
    {
      "epoch": 0.12855506293941185,
      "grad_norm": 2.265625,
      "learning_rate": 9.70030178679572e-05,
      "loss": 0.6564,
      "step": 94150
    },
    {
      "epoch": 0.12862333434830162,
      "grad_norm": 2.8125,
      "learning_rate": 9.699928511970318e-05,
      "loss": 0.6995,
      "step": 94200
    },
    {
      "epoch": 0.12869160575719138,
      "grad_norm": 3.28125,
      "learning_rate": 9.699555012023259e-05,
      "loss": 0.8634,
      "step": 94250
    },
    {
      "epoch": 0.12875987716608112,
      "grad_norm": 2.671875,
      "learning_rate": 9.699181286972431e-05,
      "loss": 0.8295,
      "step": 94300
    },
    {
      "epoch": 0.12882814857497088,
      "grad_norm": 4.625,
      "learning_rate": 9.698807336835738e-05,
      "loss": 1.0125,
      "step": 94350
    },
    {
      "epoch": 0.12889641998386064,
      "grad_norm": 3.53125,
      "learning_rate": 9.698433161631091e-05,
      "loss": 0.6936,
      "step": 94400
    },
    {
      "epoch": 0.1289646913927504,
      "grad_norm": 4.09375,
      "learning_rate": 9.698058761376413e-05,
      "loss": 0.8725,
      "step": 94450
    },
    {
      "epoch": 0.12903296280164014,
      "grad_norm": 3.921875,
      "learning_rate": 9.697684136089637e-05,
      "loss": 0.8266,
      "step": 94500
    },
    {
      "epoch": 0.1291012342105299,
      "grad_norm": 8.5,
      "learning_rate": 9.697309285788709e-05,
      "loss": 0.9262,
      "step": 94550
    },
    {
      "epoch": 0.12916950561941967,
      "grad_norm": 3.78125,
      "learning_rate": 9.696934210491579e-05,
      "loss": 0.8924,
      "step": 94600
    },
    {
      "epoch": 0.12923777702830944,
      "grad_norm": 4.15625,
      "learning_rate": 9.696558910216218e-05,
      "loss": 0.8063,
      "step": 94650
    },
    {
      "epoch": 0.12930604843719917,
      "grad_norm": 7.25,
      "learning_rate": 9.6961833849806e-05,
      "loss": 0.9211,
      "step": 94700
    },
    {
      "epoch": 0.12937431984608894,
      "grad_norm": 3.984375,
      "learning_rate": 9.695807634802712e-05,
      "loss": 0.9278,
      "step": 94750
    },
    {
      "epoch": 0.1294425912549787,
      "grad_norm": 2.625,
      "learning_rate": 9.695431659700551e-05,
      "loss": 0.7355,
      "step": 94800
    },
    {
      "epoch": 0.12951086266386844,
      "grad_norm": 3.546875,
      "learning_rate": 9.69505545969213e-05,
      "loss": 0.9124,
      "step": 94850
    },
    {
      "epoch": 0.1295791340727582,
      "grad_norm": 2.9375,
      "learning_rate": 9.694679034795465e-05,
      "loss": 0.8575,
      "step": 94900
    },
    {
      "epoch": 0.12964740548164796,
      "grad_norm": 3.859375,
      "learning_rate": 9.694302385028587e-05,
      "loss": 0.8147,
      "step": 94950
    },
    {
      "epoch": 0.12971567689053773,
      "grad_norm": 3.53125,
      "learning_rate": 9.693925510409537e-05,
      "loss": 0.8988,
      "step": 95000
    },
    {
      "epoch": 0.12978394829942747,
      "grad_norm": 2.875,
      "learning_rate": 9.693548410956368e-05,
      "loss": 0.8166,
      "step": 95050
    },
    {
      "epoch": 0.12985221970831723,
      "grad_norm": 2.796875,
      "learning_rate": 9.693171086687143e-05,
      "loss": 0.8576,
      "step": 95100
    },
    {
      "epoch": 0.129920491117207,
      "grad_norm": 2.90625,
      "learning_rate": 9.692793537619934e-05,
      "loss": 0.9089,
      "step": 95150
    },
    {
      "epoch": 0.12998876252609676,
      "grad_norm": 2.640625,
      "learning_rate": 9.692415763772824e-05,
      "loss": 0.7837,
      "step": 95200
    },
    {
      "epoch": 0.1300570339349865,
      "grad_norm": 3.859375,
      "learning_rate": 9.69203776516391e-05,
      "loss": 0.8462,
      "step": 95250
    },
    {
      "epoch": 0.13012530534387626,
      "grad_norm": 3.78125,
      "learning_rate": 9.691659541811299e-05,
      "loss": 0.8604,
      "step": 95300
    },
    {
      "epoch": 0.13019357675276602,
      "grad_norm": 7.8125,
      "learning_rate": 9.691281093733105e-05,
      "loss": 0.9648,
      "step": 95350
    },
    {
      "epoch": 0.13026184816165579,
      "grad_norm": 4.3125,
      "learning_rate": 9.690902420947456e-05,
      "loss": 0.9092,
      "step": 95400
    },
    {
      "epoch": 0.13033011957054552,
      "grad_norm": 2.75,
      "learning_rate": 9.69052352347249e-05,
      "loss": 1.0609,
      "step": 95450
    },
    {
      "epoch": 0.13039839097943529,
      "grad_norm": 3.0625,
      "learning_rate": 9.690144401326356e-05,
      "loss": 0.8206,
      "step": 95500
    },
    {
      "epoch": 0.13046666238832505,
      "grad_norm": 2.609375,
      "learning_rate": 9.689765054527214e-05,
      "loss": 0.9895,
      "step": 95550
    },
    {
      "epoch": 0.13053493379721479,
      "grad_norm": 4.0,
      "learning_rate": 9.689385483093234e-05,
      "loss": 0.7129,
      "step": 95600
    },
    {
      "epoch": 0.13060320520610455,
      "grad_norm": 4.65625,
      "learning_rate": 9.689005687042597e-05,
      "loss": 0.8432,
      "step": 95650
    },
    {
      "epoch": 0.13067147661499431,
      "grad_norm": 3.28125,
      "learning_rate": 9.688625666393493e-05,
      "loss": 0.9176,
      "step": 95700
    },
    {
      "epoch": 0.13073974802388408,
      "grad_norm": 2.890625,
      "learning_rate": 9.688245421164128e-05,
      "loss": 0.9155,
      "step": 95750
    },
    {
      "epoch": 0.13080801943277381,
      "grad_norm": 3.96875,
      "learning_rate": 9.687864951372713e-05,
      "loss": 0.871,
      "step": 95800
    },
    {
      "epoch": 0.13087629084166358,
      "grad_norm": 4.03125,
      "learning_rate": 9.687484257037475e-05,
      "loss": 0.7839,
      "step": 95850
    },
    {
      "epoch": 0.13094456225055334,
      "grad_norm": 8.25,
      "learning_rate": 9.687103338176644e-05,
      "loss": 0.959,
      "step": 95900
    },
    {
      "epoch": 0.1310128336594431,
      "grad_norm": 4.28125,
      "learning_rate": 9.68672219480847e-05,
      "loss": 0.7814,
      "step": 95950
    },
    {
      "epoch": 0.13108110506833284,
      "grad_norm": 7.65625,
      "learning_rate": 9.686340826951205e-05,
      "loss": 0.9044,
      "step": 96000
    },
    {
      "epoch": 0.1311493764772226,
      "grad_norm": 3.984375,
      "learning_rate": 9.685959234623122e-05,
      "loss": 0.9827,
      "step": 96050
    },
    {
      "epoch": 0.13121764788611237,
      "grad_norm": 8.1875,
      "learning_rate": 9.685577417842495e-05,
      "loss": 0.8943,
      "step": 96100
    },
    {
      "epoch": 0.13128591929500213,
      "grad_norm": 2.984375,
      "learning_rate": 9.685195376627612e-05,
      "loss": 0.8046,
      "step": 96150
    },
    {
      "epoch": 0.13135419070389187,
      "grad_norm": 3.65625,
      "learning_rate": 9.684813110996774e-05,
      "loss": 0.95,
      "step": 96200
    },
    {
      "epoch": 0.13142246211278164,
      "grad_norm": 2.921875,
      "learning_rate": 9.68443062096829e-05,
      "loss": 0.7938,
      "step": 96250
    },
    {
      "epoch": 0.1314907335216714,
      "grad_norm": 7.21875,
      "learning_rate": 9.684047906560483e-05,
      "loss": 1.0306,
      "step": 96300
    },
    {
      "epoch": 0.13155900493056116,
      "grad_norm": 8.875,
      "learning_rate": 9.683664967791683e-05,
      "loss": 0.9224,
      "step": 96350
    },
    {
      "epoch": 0.1316272763394509,
      "grad_norm": 4.1875,
      "learning_rate": 9.683281804680232e-05,
      "loss": 0.8869,
      "step": 96400
    },
    {
      "epoch": 0.13169554774834066,
      "grad_norm": 3.796875,
      "learning_rate": 9.682898417244484e-05,
      "loss": 0.8542,
      "step": 96450
    },
    {
      "epoch": 0.13176381915723043,
      "grad_norm": 4.0,
      "learning_rate": 9.682514805502803e-05,
      "loss": 0.7882,
      "step": 96500
    },
    {
      "epoch": 0.13183209056612016,
      "grad_norm": 4.75,
      "learning_rate": 9.682130969473562e-05,
      "loss": 0.8357,
      "step": 96550
    },
    {
      "epoch": 0.13190036197500993,
      "grad_norm": 7.34375,
      "learning_rate": 9.681746909175149e-05,
      "loss": 0.8897,
      "step": 96600
    },
    {
      "epoch": 0.1319686333838997,
      "grad_norm": 2.875,
      "learning_rate": 9.681362624625958e-05,
      "loss": 0.8414,
      "step": 96650
    },
    {
      "epoch": 0.13203690479278946,
      "grad_norm": 7.59375,
      "learning_rate": 9.680978115844396e-05,
      "loss": 0.9163,
      "step": 96700
    },
    {
      "epoch": 0.1321051762016792,
      "grad_norm": 4.21875,
      "learning_rate": 9.680593382848881e-05,
      "loss": 0.9481,
      "step": 96750
    },
    {
      "epoch": 0.13217344761056896,
      "grad_norm": 7.78125,
      "learning_rate": 9.680208425657841e-05,
      "loss": 0.9331,
      "step": 96800
    },
    {
      "epoch": 0.13224171901945872,
      "grad_norm": 3.765625,
      "learning_rate": 9.679823244289717e-05,
      "loss": 0.8936,
      "step": 96850
    },
    {
      "epoch": 0.13230999042834848,
      "grad_norm": 4.21875,
      "learning_rate": 9.679437838762957e-05,
      "loss": 0.8728,
      "step": 96900
    },
    {
      "epoch": 0.13237826183723822,
      "grad_norm": 2.9375,
      "learning_rate": 9.67905220909602e-05,
      "loss": 0.8092,
      "step": 96950
    },
    {
      "epoch": 0.13244653324612798,
      "grad_norm": 4.09375,
      "learning_rate": 9.67866635530738e-05,
      "loss": 0.9412,
      "step": 97000
    },
    {
      "epoch": 0.13251480465501775,
      "grad_norm": 4.0,
      "learning_rate": 9.678280277415517e-05,
      "loss": 1.0938,
      "step": 97050
    },
    {
      "epoch": 0.1325830760639075,
      "grad_norm": 3.78125,
      "learning_rate": 9.677893975438926e-05,
      "loss": 0.8774,
      "step": 97100
    },
    {
      "epoch": 0.13265134747279725,
      "grad_norm": 4.25,
      "learning_rate": 9.677507449396108e-05,
      "loss": 0.816,
      "step": 97150
    },
    {
      "epoch": 0.132719618881687,
      "grad_norm": 2.796875,
      "learning_rate": 9.677120699305579e-05,
      "loss": 0.878,
      "step": 97200
    },
    {
      "epoch": 0.13278789029057678,
      "grad_norm": 2.953125,
      "learning_rate": 9.676733725185862e-05,
      "loss": 0.8512,
      "step": 97250
    },
    {
      "epoch": 0.13285616169946654,
      "grad_norm": 2.328125,
      "learning_rate": 9.676346527055495e-05,
      "loss": 0.7428,
      "step": 97300
    },
    {
      "epoch": 0.13292443310835628,
      "grad_norm": 2.515625,
      "learning_rate": 9.675959104933023e-05,
      "loss": 0.8117,
      "step": 97350
    },
    {
      "epoch": 0.13299270451724604,
      "grad_norm": 3.15625,
      "learning_rate": 9.675571458837005e-05,
      "loss": 0.9129,
      "step": 97400
    },
    {
      "epoch": 0.1330609759261358,
      "grad_norm": 2.96875,
      "learning_rate": 9.675183588786005e-05,
      "loss": 0.9248,
      "step": 97450
    },
    {
      "epoch": 0.13312924733502554,
      "grad_norm": 2.703125,
      "learning_rate": 9.674795494798606e-05,
      "loss": 0.8889,
      "step": 97500
    },
    {
      "epoch": 0.1331975187439153,
      "grad_norm": 4.25,
      "learning_rate": 9.674407176893392e-05,
      "loss": 0.8811,
      "step": 97550
    },
    {
      "epoch": 0.13326579015280507,
      "grad_norm": 2.421875,
      "learning_rate": 9.674018635088969e-05,
      "loss": 0.8211,
      "step": 97600
    },
    {
      "epoch": 0.13333406156169483,
      "grad_norm": 2.9375,
      "learning_rate": 9.673629869403942e-05,
      "loss": 0.7861,
      "step": 97650
    },
    {
      "epoch": 0.13340233297058457,
      "grad_norm": 2.9375,
      "learning_rate": 9.673240879856937e-05,
      "loss": 0.9138,
      "step": 97700
    },
    {
      "epoch": 0.13347060437947433,
      "grad_norm": 10.3125,
      "learning_rate": 9.672851666466584e-05,
      "loss": 0.9355,
      "step": 97750
    },
    {
      "epoch": 0.1335388757883641,
      "grad_norm": 5.125,
      "learning_rate": 9.672462229251529e-05,
      "loss": 0.7971,
      "step": 97800
    },
    {
      "epoch": 0.13360714719725386,
      "grad_norm": 4.21875,
      "learning_rate": 9.672072568230419e-05,
      "loss": 0.9193,
      "step": 97850
    },
    {
      "epoch": 0.1336754186061436,
      "grad_norm": 7.96875,
      "learning_rate": 9.671682683421926e-05,
      "loss": 0.8516,
      "step": 97900
    },
    {
      "epoch": 0.13374369001503336,
      "grad_norm": 4.4375,
      "learning_rate": 9.67129257484472e-05,
      "loss": 0.7688,
      "step": 97950
    },
    {
      "epoch": 0.13381196142392313,
      "grad_norm": 7.40625,
      "learning_rate": 9.670902242517487e-05,
      "loss": 0.9289,
      "step": 98000
    },
    {
      "epoch": 0.1338802328328129,
      "grad_norm": 7.21875,
      "learning_rate": 9.670511686458926e-05,
      "loss": 0.8496,
      "step": 98050
    },
    {
      "epoch": 0.13394850424170263,
      "grad_norm": 3.65625,
      "learning_rate": 9.670120906687743e-05,
      "loss": 0.8878,
      "step": 98100
    },
    {
      "epoch": 0.1340167756505924,
      "grad_norm": 7.25,
      "learning_rate": 9.669729903222657e-05,
      "loss": 0.7783,
      "step": 98150
    },
    {
      "epoch": 0.13408504705948215,
      "grad_norm": 2.265625,
      "learning_rate": 9.669338676082393e-05,
      "loss": 0.7963,
      "step": 98200
    },
    {
      "epoch": 0.13415331846837192,
      "grad_norm": 2.828125,
      "learning_rate": 9.668947225285695e-05,
      "loss": 0.8457,
      "step": 98250
    },
    {
      "epoch": 0.13422158987726165,
      "grad_norm": 2.3125,
      "learning_rate": 9.66855555085131e-05,
      "loss": 0.7671,
      "step": 98300
    },
    {
      "epoch": 0.13428986128615142,
      "grad_norm": 7.75,
      "learning_rate": 9.668163652798001e-05,
      "loss": 0.8338,
      "step": 98350
    },
    {
      "epoch": 0.13435813269504118,
      "grad_norm": 2.96875,
      "learning_rate": 9.667771531144538e-05,
      "loss": 0.7272,
      "step": 98400
    },
    {
      "epoch": 0.13442640410393092,
      "grad_norm": 2.9375,
      "learning_rate": 9.667379185909704e-05,
      "loss": 0.7732,
      "step": 98450
    },
    {
      "epoch": 0.13449467551282068,
      "grad_norm": 2.671875,
      "learning_rate": 9.66698661711229e-05,
      "loss": 0.8061,
      "step": 98500
    },
    {
      "epoch": 0.13456294692171045,
      "grad_norm": 3.640625,
      "learning_rate": 9.666593824771102e-05,
      "loss": 0.7704,
      "step": 98550
    },
    {
      "epoch": 0.1346312183306002,
      "grad_norm": 2.484375,
      "learning_rate": 9.666200808904953e-05,
      "loss": 0.8047,
      "step": 98600
    },
    {
      "epoch": 0.13469948973948995,
      "grad_norm": 2.453125,
      "learning_rate": 9.66580756953267e-05,
      "loss": 0.8187,
      "step": 98650
    },
    {
      "epoch": 0.1347677611483797,
      "grad_norm": 2.65625,
      "learning_rate": 9.665414106673087e-05,
      "loss": 0.7803,
      "step": 98700
    },
    {
      "epoch": 0.13483603255726948,
      "grad_norm": 2.96875,
      "learning_rate": 9.66502042034505e-05,
      "loss": 0.8099,
      "step": 98750
    },
    {
      "epoch": 0.13490430396615924,
      "grad_norm": 3.15625,
      "learning_rate": 9.664626510567417e-05,
      "loss": 0.8441,
      "step": 98800
    },
    {
      "epoch": 0.13497257537504898,
      "grad_norm": 3.125,
      "learning_rate": 9.664232377359055e-05,
      "loss": 0.8036,
      "step": 98850
    },
    {
      "epoch": 0.13504084678393874,
      "grad_norm": 2.90625,
      "learning_rate": 9.663838020738845e-05,
      "loss": 0.7566,
      "step": 98900
    },
    {
      "epoch": 0.1351091181928285,
      "grad_norm": 3.40625,
      "learning_rate": 9.663443440725675e-05,
      "loss": 0.7922,
      "step": 98950
    },
    {
      "epoch": 0.13517738960171827,
      "grad_norm": 7.375,
      "learning_rate": 9.663048637338443e-05,
      "loss": 0.788,
      "step": 99000
    },
    {
      "epoch": 0.135245661010608,
      "grad_norm": 3.671875,
      "learning_rate": 9.662653610596062e-05,
      "loss": 0.757,
      "step": 99050
    },
    {
      "epoch": 0.13531393241949777,
      "grad_norm": 4.0625,
      "learning_rate": 9.662258360517452e-05,
      "loss": 0.6641,
      "step": 99100
    },
    {
      "epoch": 0.13538220382838753,
      "grad_norm": 4.3125,
      "learning_rate": 9.661862887121547e-05,
      "loss": 0.8983,
      "step": 99150
    },
    {
      "epoch": 0.13545047523727727,
      "grad_norm": 3.953125,
      "learning_rate": 9.661467190427287e-05,
      "loss": 0.7367,
      "step": 99200
    },
    {
      "epoch": 0.13551874664616703,
      "grad_norm": 9.4375,
      "learning_rate": 9.661071270453628e-05,
      "loss": 0.7743,
      "step": 99250
    },
    {
      "epoch": 0.1355870180550568,
      "grad_norm": 3.234375,
      "learning_rate": 9.660675127219532e-05,
      "loss": 0.7791,
      "step": 99300
    },
    {
      "epoch": 0.13565528946394656,
      "grad_norm": 3.03125,
      "learning_rate": 9.660278760743975e-05,
      "loss": 0.9167,
      "step": 99350
    },
    {
      "epoch": 0.1357235608728363,
      "grad_norm": 2.796875,
      "learning_rate": 9.659882171045943e-05,
      "loss": 0.7723,
      "step": 99400
    },
    {
      "epoch": 0.13579183228172606,
      "grad_norm": 3.21875,
      "learning_rate": 9.659485358144431e-05,
      "loss": 0.8122,
      "step": 99450
    },
    {
      "epoch": 0.13586010369061582,
      "grad_norm": 3.3125,
      "learning_rate": 9.659088322058449e-05,
      "loss": 0.8823,
      "step": 99500
    },
    {
      "epoch": 0.1359283750995056,
      "grad_norm": 3.40625,
      "learning_rate": 9.658691062807009e-05,
      "loss": 0.7226,
      "step": 99550
    },
    {
      "epoch": 0.13599664650839532,
      "grad_norm": 2.65625,
      "learning_rate": 9.658293580409145e-05,
      "loss": 0.9027,
      "step": 99600
    },
    {
      "epoch": 0.1360649179172851,
      "grad_norm": 2.96875,
      "learning_rate": 9.657895874883891e-05,
      "loss": 0.7589,
      "step": 99650
    },
    {
      "epoch": 0.13613318932617485,
      "grad_norm": 2.890625,
      "learning_rate": 9.657497946250302e-05,
      "loss": 0.8998,
      "step": 99700
    },
    {
      "epoch": 0.13620146073506462,
      "grad_norm": 2.75,
      "learning_rate": 9.657099794527433e-05,
      "loss": 0.7698,
      "step": 99750
    },
    {
      "epoch": 0.13626973214395435,
      "grad_norm": 6.5,
      "learning_rate": 9.65670141973436e-05,
      "loss": 0.7456,
      "step": 99800
    },
    {
      "epoch": 0.13633800355284412,
      "grad_norm": 3.484375,
      "learning_rate": 9.656302821890162e-05,
      "loss": 0.8199,
      "step": 99850
    },
    {
      "epoch": 0.13640627496173388,
      "grad_norm": 4.59375,
      "learning_rate": 9.655904001013931e-05,
      "loss": 0.7895,
      "step": 99900
    },
    {
      "epoch": 0.13647454637062365,
      "grad_norm": 3.09375,
      "learning_rate": 9.65550495712477e-05,
      "loss": 0.8406,
      "step": 99950
    },
    {
      "epoch": 0.13654281777951338,
      "grad_norm": 2.640625,
      "learning_rate": 9.655105690241795e-05,
      "loss": 0.8069,
      "step": 100000
    },
    {
      "epoch": 0.13661108918840315,
      "grad_norm": 3.1875,
      "learning_rate": 9.654706200384128e-05,
      "loss": 0.8404,
      "step": 100050
    },
    {
      "epoch": 0.1366793605972929,
      "grad_norm": 2.90625,
      "learning_rate": 9.654306487570905e-05,
      "loss": 0.7989,
      "step": 100100
    },
    {
      "epoch": 0.13674763200618265,
      "grad_norm": 2.765625,
      "learning_rate": 9.653906551821274e-05,
      "loss": 0.8908,
      "step": 100150
    },
    {
      "epoch": 0.1368159034150724,
      "grad_norm": 3.484375,
      "learning_rate": 9.653506393154388e-05,
      "loss": 0.8801,
      "step": 100200
    },
    {
      "epoch": 0.13688417482396217,
      "grad_norm": 3.765625,
      "learning_rate": 9.653106011589417e-05,
      "loss": 0.8102,
      "step": 100250
    },
    {
      "epoch": 0.13695244623285194,
      "grad_norm": 2.75,
      "learning_rate": 9.652705407145537e-05,
      "loss": 0.9336,
      "step": 100300
    },
    {
      "epoch": 0.13702071764174167,
      "grad_norm": 11.0625,
      "learning_rate": 9.652304579841938e-05,
      "loss": 0.8862,
      "step": 100350
    },
    {
      "epoch": 0.13708898905063144,
      "grad_norm": 4.03125,
      "learning_rate": 9.651903529697817e-05,
      "loss": 0.9522,
      "step": 100400
    },
    {
      "epoch": 0.1371572604595212,
      "grad_norm": 4.53125,
      "learning_rate": 9.651502256732386e-05,
      "loss": 0.8131,
      "step": 100450
    },
    {
      "epoch": 0.13722553186841097,
      "grad_norm": 4.0625,
      "learning_rate": 9.651100760964864e-05,
      "loss": 0.8323,
      "step": 100500
    },
    {
      "epoch": 0.1372938032773007,
      "grad_norm": 16.375,
      "learning_rate": 9.650699042414484e-05,
      "loss": 0.887,
      "step": 100550
    },
    {
      "epoch": 0.13736207468619047,
      "grad_norm": 3.953125,
      "learning_rate": 9.650297101100486e-05,
      "loss": 0.8589,
      "step": 100600
    },
    {
      "epoch": 0.13743034609508023,
      "grad_norm": 6.78125,
      "learning_rate": 9.649894937042125e-05,
      "loss": 0.8883,
      "step": 100650
    },
    {
      "epoch": 0.13749861750397,
      "grad_norm": 3.34375,
      "learning_rate": 9.649492550258661e-05,
      "loss": 0.8262,
      "step": 100700
    },
    {
      "epoch": 0.13756688891285973,
      "grad_norm": 3.921875,
      "learning_rate": 9.649089940769371e-05,
      "loss": 0.9385,
      "step": 100750
    },
    {
      "epoch": 0.1376351603217495,
      "grad_norm": 2.671875,
      "learning_rate": 9.648687108593537e-05,
      "loss": 0.8845,
      "step": 100800
    },
    {
      "epoch": 0.13770343173063926,
      "grad_norm": 3.109375,
      "learning_rate": 9.648284053750456e-05,
      "loss": 0.889,
      "step": 100850
    },
    {
      "epoch": 0.13777170313952902,
      "grad_norm": 7.5625,
      "learning_rate": 9.647880776259434e-05,
      "loss": 0.9555,
      "step": 100900
    },
    {
      "epoch": 0.13783997454841876,
      "grad_norm": 3.046875,
      "learning_rate": 9.647477276139787e-05,
      "loss": 0.7873,
      "step": 100950
    },
    {
      "epoch": 0.13790824595730852,
      "grad_norm": 2.96875,
      "learning_rate": 9.647073553410841e-05,
      "loss": 0.7659,
      "step": 101000
    },
    {
      "epoch": 0.1379765173661983,
      "grad_norm": 2.765625,
      "learning_rate": 9.646669608091937e-05,
      "loss": 0.8958,
      "step": 101050
    },
    {
      "epoch": 0.13804478877508802,
      "grad_norm": 2.671875,
      "learning_rate": 9.646265440202419e-05,
      "loss": 0.9134,
      "step": 101100
    },
    {
      "epoch": 0.1381130601839778,
      "grad_norm": 3.4375,
      "learning_rate": 9.645861049761651e-05,
      "loss": 0.7758,
      "step": 101150
    },
    {
      "epoch": 0.13818133159286755,
      "grad_norm": 2.703125,
      "learning_rate": 9.645456436789e-05,
      "loss": 0.8692,
      "step": 101200
    },
    {
      "epoch": 0.13824960300175732,
      "grad_norm": 4.09375,
      "learning_rate": 9.645051601303848e-05,
      "loss": 0.8348,
      "step": 101250
    },
    {
      "epoch": 0.13831787441064705,
      "grad_norm": 7.75,
      "learning_rate": 9.644646543325582e-05,
      "loss": 0.8955,
      "step": 101300
    },
    {
      "epoch": 0.13838614581953682,
      "grad_norm": 2.96875,
      "learning_rate": 9.644241262873611e-05,
      "loss": 0.8791,
      "step": 101350
    },
    {
      "epoch": 0.13845441722842658,
      "grad_norm": 3.109375,
      "learning_rate": 9.643835759967344e-05,
      "loss": 0.6832,
      "step": 101400
    },
    {
      "epoch": 0.13852268863731634,
      "grad_norm": 3.28125,
      "learning_rate": 9.643430034626201e-05,
      "loss": 0.7896,
      "step": 101450
    },
    {
      "epoch": 0.13859096004620608,
      "grad_norm": 3.25,
      "learning_rate": 9.643024086869621e-05,
      "loss": 0.7488,
      "step": 101500
    },
    {
      "epoch": 0.13865923145509584,
      "grad_norm": 3.15625,
      "learning_rate": 9.642617916717045e-05,
      "loss": 0.9832,
      "step": 101550
    },
    {
      "epoch": 0.1387275028639856,
      "grad_norm": 3.296875,
      "learning_rate": 9.642211524187932e-05,
      "loss": 0.7642,
      "step": 101600
    },
    {
      "epoch": 0.13879577427287537,
      "grad_norm": 4.1875,
      "learning_rate": 9.641804909301742e-05,
      "loss": 0.7013,
      "step": 101650
    },
    {
      "epoch": 0.1388640456817651,
      "grad_norm": 8.375,
      "learning_rate": 9.641398072077956e-05,
      "loss": 0.7889,
      "step": 101700
    },
    {
      "epoch": 0.13893231709065487,
      "grad_norm": 2.671875,
      "learning_rate": 9.64099101253606e-05,
      "loss": 0.8058,
      "step": 101750
    },
    {
      "epoch": 0.13900058849954464,
      "grad_norm": 3.28125,
      "learning_rate": 9.640583730695551e-05,
      "loss": 0.7205,
      "step": 101800
    },
    {
      "epoch": 0.1390688599084344,
      "grad_norm": 2.734375,
      "learning_rate": 9.640176226575938e-05,
      "loss": 0.8655,
      "step": 101850
    },
    {
      "epoch": 0.13913713131732414,
      "grad_norm": 2.375,
      "learning_rate": 9.63976850019674e-05,
      "loss": 0.7491,
      "step": 101900
    },
    {
      "epoch": 0.1392054027262139,
      "grad_norm": 4.125,
      "learning_rate": 9.639360551577486e-05,
      "loss": 0.8253,
      "step": 101950
    },
    {
      "epoch": 0.13927367413510366,
      "grad_norm": 3.90625,
      "learning_rate": 9.638952380737717e-05,
      "loss": 0.8493,
      "step": 102000
    },
    {
      "epoch": 0.1393419455439934,
      "grad_norm": 3.109375,
      "learning_rate": 9.638543987696984e-05,
      "loss": 0.8431,
      "step": 102050
    },
    {
      "epoch": 0.13941021695288316,
      "grad_norm": 2.875,
      "learning_rate": 9.638135372474848e-05,
      "loss": 0.8166,
      "step": 102100
    },
    {
      "epoch": 0.13947848836177293,
      "grad_norm": 4.40625,
      "learning_rate": 9.637726535090881e-05,
      "loss": 0.8532,
      "step": 102150
    },
    {
      "epoch": 0.1395467597706627,
      "grad_norm": 6.8125,
      "learning_rate": 9.637317475564666e-05,
      "loss": 0.8183,
      "step": 102200
    },
    {
      "epoch": 0.13961503117955243,
      "grad_norm": 3.0625,
      "learning_rate": 9.636908193915799e-05,
      "loss": 0.8662,
      "step": 102250
    },
    {
      "epoch": 0.1396833025884422,
      "grad_norm": 2.859375,
      "learning_rate": 9.636498690163882e-05,
      "loss": 0.8424,
      "step": 102300
    },
    {
      "epoch": 0.13975157399733196,
      "grad_norm": 4.25,
      "learning_rate": 9.636088964328529e-05,
      "loss": 0.7854,
      "step": 102350
    },
    {
      "epoch": 0.13981984540622172,
      "grad_norm": 7.9375,
      "learning_rate": 9.635679016429367e-05,
      "loss": 0.7607,
      "step": 102400
    },
    {
      "epoch": 0.13988811681511146,
      "grad_norm": 3.078125,
      "learning_rate": 9.635268846486029e-05,
      "loss": 0.6875,
      "step": 102450
    },
    {
      "epoch": 0.13995638822400122,
      "grad_norm": 2.640625,
      "learning_rate": 9.634858454518167e-05,
      "loss": 0.8254,
      "step": 102500
    },
    {
      "epoch": 0.14002465963289099,
      "grad_norm": 8.5,
      "learning_rate": 9.634447840545436e-05,
      "loss": 0.7541,
      "step": 102550
    },
    {
      "epoch": 0.14009293104178075,
      "grad_norm": 3.34375,
      "learning_rate": 9.634037004587502e-05,
      "loss": 0.7755,
      "step": 102600
    },
    {
      "epoch": 0.14016120245067049,
      "grad_norm": 4.40625,
      "learning_rate": 9.633625946664044e-05,
      "loss": 0.7377,
      "step": 102650
    },
    {
      "epoch": 0.14022947385956025,
      "grad_norm": 2.421875,
      "learning_rate": 9.633214666794755e-05,
      "loss": 0.7164,
      "step": 102700
    },
    {
      "epoch": 0.14029774526845,
      "grad_norm": 2.90625,
      "learning_rate": 9.632803164999331e-05,
      "loss": 0.8238,
      "step": 102750
    },
    {
      "epoch": 0.14036601667733975,
      "grad_norm": 2.921875,
      "learning_rate": 9.632391441297483e-05,
      "loss": 0.7346,
      "step": 102800
    },
    {
      "epoch": 0.14043428808622951,
      "grad_norm": 3.375,
      "learning_rate": 9.631979495708934e-05,
      "loss": 0.7662,
      "step": 102850
    },
    {
      "epoch": 0.14050255949511928,
      "grad_norm": 2.96875,
      "learning_rate": 9.631567328253415e-05,
      "loss": 0.8232,
      "step": 102900
    },
    {
      "epoch": 0.14057083090400904,
      "grad_norm": 8.5625,
      "learning_rate": 9.631154938950666e-05,
      "loss": 0.754,
      "step": 102950
    },
    {
      "epoch": 0.14063910231289878,
      "grad_norm": 2.9375,
      "learning_rate": 9.630742327820444e-05,
      "loss": 0.8055,
      "step": 103000
    },
    {
      "epoch": 0.14070737372178854,
      "grad_norm": 3.125,
      "learning_rate": 9.630329494882509e-05,
      "loss": 0.7315,
      "step": 103050
    },
    {
      "epoch": 0.1407756451306783,
      "grad_norm": 14.3125,
      "learning_rate": 9.629916440156638e-05,
      "loss": 0.7934,
      "step": 103100
    },
    {
      "epoch": 0.14084391653956807,
      "grad_norm": 2.8125,
      "learning_rate": 9.629503163662614e-05,
      "loss": 0.8928,
      "step": 103150
    },
    {
      "epoch": 0.1409121879484578,
      "grad_norm": 3.546875,
      "learning_rate": 9.629089665420235e-05,
      "loss": 0.902,
      "step": 103200
    },
    {
      "epoch": 0.14098045935734757,
      "grad_norm": 3.171875,
      "learning_rate": 9.628675945449305e-05,
      "loss": 0.6987,
      "step": 103250
    },
    {
      "epoch": 0.14104873076623733,
      "grad_norm": 2.984375,
      "learning_rate": 9.628262003769641e-05,
      "loss": 0.8284,
      "step": 103300
    },
    {
      "epoch": 0.1411170021751271,
      "grad_norm": 3.171875,
      "learning_rate": 9.627847840401069e-05,
      "loss": 0.7825,
      "step": 103350
    },
    {
      "epoch": 0.14118527358401683,
      "grad_norm": 3.171875,
      "learning_rate": 9.62743345536343e-05,
      "loss": 0.8416,
      "step": 103400
    },
    {
      "epoch": 0.1412535449929066,
      "grad_norm": 4.21875,
      "learning_rate": 9.627018848676572e-05,
      "loss": 0.7178,
      "step": 103450
    },
    {
      "epoch": 0.14132181640179636,
      "grad_norm": 4.21875,
      "learning_rate": 9.626604020360352e-05,
      "loss": 0.8083,
      "step": 103500
    },
    {
      "epoch": 0.14139008781068613,
      "grad_norm": 3.0625,
      "learning_rate": 9.626188970434642e-05,
      "loss": 0.7804,
      "step": 103550
    },
    {
      "epoch": 0.14145835921957586,
      "grad_norm": 3.25,
      "learning_rate": 9.625773698919322e-05,
      "loss": 0.8096,
      "step": 103600
    },
    {
      "epoch": 0.14152663062846563,
      "grad_norm": 3.515625,
      "learning_rate": 9.625358205834282e-05,
      "loss": 0.8878,
      "step": 103650
    },
    {
      "epoch": 0.1415949020373554,
      "grad_norm": 3.015625,
      "learning_rate": 9.624942491199424e-05,
      "loss": 0.8887,
      "step": 103700
    },
    {
      "epoch": 0.14166317344624513,
      "grad_norm": 3.171875,
      "learning_rate": 9.624526555034663e-05,
      "loss": 0.8622,
      "step": 103750
    },
    {
      "epoch": 0.1417314448551349,
      "grad_norm": 2.78125,
      "learning_rate": 9.624110397359918e-05,
      "loss": 0.9994,
      "step": 103800
    },
    {
      "epoch": 0.14179971626402466,
      "grad_norm": 8.3125,
      "learning_rate": 9.623694018195125e-05,
      "loss": 0.9197,
      "step": 103850
    },
    {
      "epoch": 0.14186798767291442,
      "grad_norm": 4.15625,
      "learning_rate": 9.623277417560227e-05,
      "loss": 0.7922,
      "step": 103900
    },
    {
      "epoch": 0.14193625908180416,
      "grad_norm": 2.78125,
      "learning_rate": 9.622860595475179e-05,
      "loss": 0.8466,
      "step": 103950
    },
    {
      "epoch": 0.14200453049069392,
      "grad_norm": 2.640625,
      "learning_rate": 9.622443551959946e-05,
      "loss": 0.7798,
      "step": 104000
    },
    {
      "epoch": 0.14207280189958368,
      "grad_norm": 3.171875,
      "learning_rate": 9.622026287034506e-05,
      "loss": 0.8087,
      "step": 104050
    },
    {
      "epoch": 0.14214107330847345,
      "grad_norm": 7.5,
      "learning_rate": 9.621608800718843e-05,
      "loss": 0.8401,
      "step": 104100
    },
    {
      "epoch": 0.14220934471736318,
      "grad_norm": 2.9375,
      "learning_rate": 9.621191093032954e-05,
      "loss": 0.8449,
      "step": 104150
    },
    {
      "epoch": 0.14227761612625295,
      "grad_norm": 3.03125,
      "learning_rate": 9.620773163996848e-05,
      "loss": 0.8152,
      "step": 104200
    },
    {
      "epoch": 0.1423458875351427,
      "grad_norm": 5.5625,
      "learning_rate": 9.620355013630545e-05,
      "loss": 0.8568,
      "step": 104250
    },
    {
      "epoch": 0.14241415894403248,
      "grad_norm": 4.40625,
      "learning_rate": 9.619936641954071e-05,
      "loss": 0.9852,
      "step": 104300
    },
    {
      "epoch": 0.1424824303529222,
      "grad_norm": 3.953125,
      "learning_rate": 9.619518048987466e-05,
      "loss": 0.7882,
      "step": 104350
    },
    {
      "epoch": 0.14255070176181198,
      "grad_norm": 3.140625,
      "learning_rate": 9.619099234750781e-05,
      "loss": 0.9563,
      "step": 104400
    },
    {
      "epoch": 0.14261897317070174,
      "grad_norm": 2.84375,
      "learning_rate": 9.618680199264079e-05,
      "loss": 0.836,
      "step": 104450
    },
    {
      "epoch": 0.1426872445795915,
      "grad_norm": 2.765625,
      "learning_rate": 9.618260942547426e-05,
      "loss": 0.7297,
      "step": 104500
    },
    {
      "epoch": 0.14275551598848124,
      "grad_norm": 3.34375,
      "learning_rate": 9.617841464620909e-05,
      "loss": 0.6535,
      "step": 104550
    },
    {
      "epoch": 0.142823787397371,
      "grad_norm": 3.796875,
      "learning_rate": 9.617421765504617e-05,
      "loss": 0.8311,
      "step": 104600
    },
    {
      "epoch": 0.14289205880626077,
      "grad_norm": 3.015625,
      "learning_rate": 9.617001845218657e-05,
      "loss": 0.6938,
      "step": 104650
    },
    {
      "epoch": 0.1429603302151505,
      "grad_norm": 3.671875,
      "learning_rate": 9.616581703783139e-05,
      "loss": 0.9004,
      "step": 104700
    },
    {
      "epoch": 0.14302860162404027,
      "grad_norm": 3.859375,
      "learning_rate": 9.616161341218188e-05,
      "loss": 0.6897,
      "step": 104750
    },
    {
      "epoch": 0.14309687303293003,
      "grad_norm": 2.390625,
      "learning_rate": 9.615740757543939e-05,
      "loss": 0.6445,
      "step": 104800
    },
    {
      "epoch": 0.1431651444418198,
      "grad_norm": 2.578125,
      "learning_rate": 9.615319952780541e-05,
      "loss": 0.8501,
      "step": 104850
    },
    {
      "epoch": 0.14323341585070953,
      "grad_norm": 3.328125,
      "learning_rate": 9.614898926948145e-05,
      "loss": 0.7241,
      "step": 104900
    },
    {
      "epoch": 0.1433016872595993,
      "grad_norm": 2.609375,
      "learning_rate": 9.61447768006692e-05,
      "loss": 0.7742,
      "step": 104950
    },
    {
      "epoch": 0.14336995866848906,
      "grad_norm": 4.0,
      "learning_rate": 9.614056212157045e-05,
      "loss": 0.8259,
      "step": 105000
    },
    {
      "epoch": 0.14343823007737883,
      "grad_norm": 2.75,
      "learning_rate": 9.613634523238706e-05,
      "loss": 0.7952,
      "step": 105050
    },
    {
      "epoch": 0.14350650148626856,
      "grad_norm": 2.875,
      "learning_rate": 9.613212613332101e-05,
      "loss": 0.8544,
      "step": 105100
    },
    {
      "epoch": 0.14357477289515833,
      "grad_norm": 3.921875,
      "learning_rate": 9.612790482457439e-05,
      "loss": 0.7646,
      "step": 105150
    },
    {
      "epoch": 0.1436430443040481,
      "grad_norm": 3.0625,
      "learning_rate": 9.61236813063494e-05,
      "loss": 0.8361,
      "step": 105200
    },
    {
      "epoch": 0.14371131571293785,
      "grad_norm": 3.21875,
      "learning_rate": 9.611945557884836e-05,
      "loss": 0.7305,
      "step": 105250
    },
    {
      "epoch": 0.1437795871218276,
      "grad_norm": 3.171875,
      "learning_rate": 9.611522764227365e-05,
      "loss": 0.9458,
      "step": 105300
    },
    {
      "epoch": 0.14384785853071735,
      "grad_norm": 2.328125,
      "learning_rate": 9.611099749682781e-05,
      "loss": 0.8093,
      "step": 105350
    },
    {
      "epoch": 0.14391612993960712,
      "grad_norm": 3.875,
      "learning_rate": 9.610676514271343e-05,
      "loss": 0.7016,
      "step": 105400
    },
    {
      "epoch": 0.14398440134849688,
      "grad_norm": 8.0625,
      "learning_rate": 9.610253058013328e-05,
      "loss": 0.9342,
      "step": 105450
    },
    {
      "epoch": 0.14405267275738662,
      "grad_norm": 4.34375,
      "learning_rate": 9.609829380929013e-05,
      "loss": 0.9528,
      "step": 105500
    },
    {
      "epoch": 0.14412094416627638,
      "grad_norm": 3.25,
      "learning_rate": 9.609405483038695e-05,
      "loss": 0.6696,
      "step": 105550
    },
    {
      "epoch": 0.14418921557516615,
      "grad_norm": 4.625,
      "learning_rate": 9.608981364362682e-05,
      "loss": 0.9381,
      "step": 105600
    },
    {
      "epoch": 0.14425748698405588,
      "grad_norm": 4.5625,
      "learning_rate": 9.608557024921281e-05,
      "loss": 0.7696,
      "step": 105650
    },
    {
      "epoch": 0.14432575839294565,
      "grad_norm": 4.21875,
      "learning_rate": 9.608132464734823e-05,
      "loss": 0.8253,
      "step": 105700
    },
    {
      "epoch": 0.1443940298018354,
      "grad_norm": 2.96875,
      "learning_rate": 9.607707683823644e-05,
      "loss": 0.7734,
      "step": 105750
    },
    {
      "epoch": 0.14446230121072517,
      "grad_norm": 3.125,
      "learning_rate": 9.607282682208088e-05,
      "loss": 0.7707,
      "step": 105800
    },
    {
      "epoch": 0.1445305726196149,
      "grad_norm": 3.515625,
      "learning_rate": 9.606857459908511e-05,
      "loss": 0.7859,
      "step": 105850
    },
    {
      "epoch": 0.14459884402850467,
      "grad_norm": 4.03125,
      "learning_rate": 9.606432016945285e-05,
      "loss": 0.7692,
      "step": 105900
    },
    {
      "epoch": 0.14466711543739444,
      "grad_norm": 2.796875,
      "learning_rate": 9.606006353338786e-05,
      "loss": 0.7846,
      "step": 105950
    },
    {
      "epoch": 0.1447353868462842,
      "grad_norm": 2.84375,
      "learning_rate": 9.605580469109403e-05,
      "loss": 0.7799,
      "step": 106000
    },
    {
      "epoch": 0.14480365825517394,
      "grad_norm": 3.296875,
      "learning_rate": 9.605154364277535e-05,
      "loss": 0.6744,
      "step": 106050
    },
    {
      "epoch": 0.1448719296640637,
      "grad_norm": 7.84375,
      "learning_rate": 9.604728038863592e-05,
      "loss": 0.7863,
      "step": 106100
    },
    {
      "epoch": 0.14494020107295347,
      "grad_norm": 8.0625,
      "learning_rate": 9.604301492887995e-05,
      "loss": 0.86,
      "step": 106150
    },
    {
      "epoch": 0.14500847248184323,
      "grad_norm": 3.40625,
      "learning_rate": 9.603874726371176e-05,
      "loss": 0.7709,
      "step": 106200
    },
    {
      "epoch": 0.14507674389073297,
      "grad_norm": 2.734375,
      "learning_rate": 9.603447739333574e-05,
      "loss": 0.7863,
      "step": 106250
    },
    {
      "epoch": 0.14514501529962273,
      "grad_norm": 2.640625,
      "learning_rate": 9.603020531795643e-05,
      "loss": 0.6871,
      "step": 106300
    },
    {
      "epoch": 0.1452132867085125,
      "grad_norm": 7.9375,
      "learning_rate": 9.602593103777848e-05,
      "loss": 0.7027,
      "step": 106350
    },
    {
      "epoch": 0.14528155811740223,
      "grad_norm": 2.265625,
      "learning_rate": 9.602165455300658e-05,
      "loss": 0.8165,
      "step": 106400
    },
    {
      "epoch": 0.145349829526292,
      "grad_norm": 3.4375,
      "learning_rate": 9.601737586384561e-05,
      "loss": 0.642,
      "step": 106450
    },
    {
      "epoch": 0.14541810093518176,
      "grad_norm": 3.3125,
      "learning_rate": 9.601309497050048e-05,
      "loss": 0.8886,
      "step": 106500
    },
    {
      "epoch": 0.14548637234407152,
      "grad_norm": 2.578125,
      "learning_rate": 9.600881187317625e-05,
      "loss": 0.5792,
      "step": 106550
    },
    {
      "epoch": 0.14555464375296126,
      "grad_norm": 7.78125,
      "learning_rate": 9.600452657207808e-05,
      "loss": 0.7517,
      "step": 106600
    },
    {
      "epoch": 0.14562291516185102,
      "grad_norm": 3.328125,
      "learning_rate": 9.600023906741124e-05,
      "loss": 0.7952,
      "step": 106650
    },
    {
      "epoch": 0.1456911865707408,
      "grad_norm": 8.3125,
      "learning_rate": 9.599594935938108e-05,
      "loss": 0.8241,
      "step": 106700
    },
    {
      "epoch": 0.14575945797963055,
      "grad_norm": 3.140625,
      "learning_rate": 9.599165744819309e-05,
      "loss": 0.8504,
      "step": 106750
    },
    {
      "epoch": 0.1458277293885203,
      "grad_norm": 3.375,
      "learning_rate": 9.598736333405285e-05,
      "loss": 0.7866,
      "step": 106800
    },
    {
      "epoch": 0.14589600079741005,
      "grad_norm": 3.03125,
      "learning_rate": 9.598306701716602e-05,
      "loss": 0.804,
      "step": 106850
    },
    {
      "epoch": 0.14596427220629982,
      "grad_norm": 9.1875,
      "learning_rate": 9.59787684977384e-05,
      "loss": 0.7499,
      "step": 106900
    },
    {
      "epoch": 0.14603254361518958,
      "grad_norm": 3.234375,
      "learning_rate": 9.59744677759759e-05,
      "loss": 0.7383,
      "step": 106950
    },
    {
      "epoch": 0.14610081502407932,
      "grad_norm": 8.25,
      "learning_rate": 9.597016485208449e-05,
      "loss": 0.8936,
      "step": 107000
    },
    {
      "epoch": 0.14616908643296908,
      "grad_norm": 2.75,
      "learning_rate": 9.59658597262703e-05,
      "loss": 0.6587,
      "step": 107050
    },
    {
      "epoch": 0.14623735784185884,
      "grad_norm": 2.328125,
      "learning_rate": 9.596155239873953e-05,
      "loss": 0.8273,
      "step": 107100
    },
    {
      "epoch": 0.1463056292507486,
      "grad_norm": 3.0,
      "learning_rate": 9.59572428696985e-05,
      "loss": 0.8626,
      "step": 107150
    },
    {
      "epoch": 0.14637390065963835,
      "grad_norm": 3.15625,
      "learning_rate": 9.595293113935364e-05,
      "loss": 0.7041,
      "step": 107200
    },
    {
      "epoch": 0.1464421720685281,
      "grad_norm": 2.59375,
      "learning_rate": 9.594861720791146e-05,
      "loss": 0.831,
      "step": 107250
    },
    {
      "epoch": 0.14651044347741787,
      "grad_norm": 7.3125,
      "learning_rate": 9.594430107557861e-05,
      "loss": 0.8115,
      "step": 107300
    },
    {
      "epoch": 0.1465787148863076,
      "grad_norm": 3.921875,
      "learning_rate": 9.593998274256181e-05,
      "loss": 0.7594,
      "step": 107350
    },
    {
      "epoch": 0.14664698629519737,
      "grad_norm": 2.9375,
      "learning_rate": 9.593566220906793e-05,
      "loss": 0.6762,
      "step": 107400
    },
    {
      "epoch": 0.14671525770408714,
      "grad_norm": 8.3125,
      "learning_rate": 9.593133947530388e-05,
      "loss": 0.8831,
      "step": 107450
    },
    {
      "epoch": 0.1467835291129769,
      "grad_norm": 3.109375,
      "learning_rate": 9.592701454147677e-05,
      "loss": 0.8062,
      "step": 107500
    },
    {
      "epoch": 0.14685180052186664,
      "grad_norm": 2.78125,
      "learning_rate": 9.59226874077937e-05,
      "loss": 0.7899,
      "step": 107550
    },
    {
      "epoch": 0.1469200719307564,
      "grad_norm": 2.5625,
      "learning_rate": 9.591835807446197e-05,
      "loss": 0.8171,
      "step": 107600
    },
    {
      "epoch": 0.14698834333964617,
      "grad_norm": 3.71875,
      "learning_rate": 9.591402654168895e-05,
      "loss": 0.7254,
      "step": 107650
    },
    {
      "epoch": 0.14705661474853593,
      "grad_norm": 2.8125,
      "learning_rate": 9.59096928096821e-05,
      "loss": 0.8806,
      "step": 107700
    },
    {
      "epoch": 0.14712488615742567,
      "grad_norm": 2.875,
      "learning_rate": 9.590535687864901e-05,
      "loss": 0.6452,
      "step": 107750
    },
    {
      "epoch": 0.14719315756631543,
      "grad_norm": 3.0625,
      "learning_rate": 9.590101874879738e-05,
      "loss": 0.8479,
      "step": 107800
    },
    {
      "epoch": 0.1472614289752052,
      "grad_norm": 2.515625,
      "learning_rate": 9.589667842033496e-05,
      "loss": 0.7974,
      "step": 107850
    },
    {
      "epoch": 0.14732970038409496,
      "grad_norm": 3.9375,
      "learning_rate": 9.58923358934697e-05,
      "loss": 0.9673,
      "step": 107900
    },
    {
      "epoch": 0.1473979717929847,
      "grad_norm": 8.0625,
      "learning_rate": 9.588799116840958e-05,
      "loss": 0.786,
      "step": 107950
    },
    {
      "epoch": 0.14746624320187446,
      "grad_norm": 3.53125,
      "learning_rate": 9.58836442453627e-05,
      "loss": 0.712,
      "step": 108000
    },
    {
      "epoch": 0.14753451461076422,
      "grad_norm": 7.875,
      "learning_rate": 9.587929512453726e-05,
      "loss": 0.7923,
      "step": 108050
    },
    {
      "epoch": 0.147602786019654,
      "grad_norm": 2.984375,
      "learning_rate": 9.587494380614161e-05,
      "loss": 0.7847,
      "step": 108100
    },
    {
      "epoch": 0.14767105742854372,
      "grad_norm": 2.859375,
      "learning_rate": 9.587059029038417e-05,
      "loss": 0.6131,
      "step": 108150
    },
    {
      "epoch": 0.1477393288374335,
      "grad_norm": 3.09375,
      "learning_rate": 9.586623457747346e-05,
      "loss": 0.8304,
      "step": 108200
    },
    {
      "epoch": 0.14780760024632325,
      "grad_norm": 2.765625,
      "learning_rate": 9.58618766676181e-05,
      "loss": 0.7608,
      "step": 108250
    },
    {
      "epoch": 0.147875871655213,
      "grad_norm": 3.59375,
      "learning_rate": 9.585751656102686e-05,
      "loss": 0.8239,
      "step": 108300
    },
    {
      "epoch": 0.14794414306410275,
      "grad_norm": 3.046875,
      "learning_rate": 9.585315425790856e-05,
      "loss": 0.8146,
      "step": 108350
    },
    {
      "epoch": 0.14801241447299252,
      "grad_norm": 4.0625,
      "learning_rate": 9.584878975847216e-05,
      "loss": 0.6435,
      "step": 108400
    },
    {
      "epoch": 0.14808068588188228,
      "grad_norm": 9.9375,
      "learning_rate": 9.584442306292672e-05,
      "loss": 0.8093,
      "step": 108450
    },
    {
      "epoch": 0.14814895729077202,
      "grad_norm": 3.390625,
      "learning_rate": 9.584005417148136e-05,
      "loss": 0.8532,
      "step": 108500
    },
    {
      "epoch": 0.14821722869966178,
      "grad_norm": 7.6875,
      "learning_rate": 9.58356830843454e-05,
      "loss": 0.8229,
      "step": 108550
    },
    {
      "epoch": 0.14828550010855154,
      "grad_norm": 8.4375,
      "learning_rate": 9.58313098017282e-05,
      "loss": 0.7437,
      "step": 108600
    },
    {
      "epoch": 0.1483537715174413,
      "grad_norm": 3.5,
      "learning_rate": 9.58269343238392e-05,
      "loss": 0.8194,
      "step": 108650
    },
    {
      "epoch": 0.14842204292633104,
      "grad_norm": 2.265625,
      "learning_rate": 9.582255665088801e-05,
      "loss": 0.8054,
      "step": 108700
    },
    {
      "epoch": 0.1484903143352208,
      "grad_norm": 2.71875,
      "learning_rate": 9.581817678308433e-05,
      "loss": 0.7185,
      "step": 108750
    },
    {
      "epoch": 0.14855858574411057,
      "grad_norm": 3.125,
      "learning_rate": 9.581379472063792e-05,
      "loss": 0.6206,
      "step": 108800
    },
    {
      "epoch": 0.14862685715300034,
      "grad_norm": 3.75,
      "learning_rate": 9.580941046375869e-05,
      "loss": 0.7605,
      "step": 108850
    },
    {
      "epoch": 0.14869512856189007,
      "grad_norm": 2.703125,
      "learning_rate": 9.580502401265664e-05,
      "loss": 0.6854,
      "step": 108900
    },
    {
      "epoch": 0.14876339997077984,
      "grad_norm": 3.59375,
      "learning_rate": 9.580063536754187e-05,
      "loss": 0.7374,
      "step": 108950
    },
    {
      "epoch": 0.1488316713796696,
      "grad_norm": 7.9375,
      "learning_rate": 9.57962445286246e-05,
      "loss": 0.7537,
      "step": 109000
    },
    {
      "epoch": 0.14889994278855936,
      "grad_norm": 4.5,
      "learning_rate": 9.579185149611515e-05,
      "loss": 0.8252,
      "step": 109050
    },
    {
      "epoch": 0.1489682141974491,
      "grad_norm": 2.203125,
      "learning_rate": 9.578745627022392e-05,
      "loss": 0.8074,
      "step": 109100
    },
    {
      "epoch": 0.14903648560633886,
      "grad_norm": 3.125,
      "learning_rate": 9.578305885116148e-05,
      "loss": 0.7192,
      "step": 109150
    },
    {
      "epoch": 0.14910475701522863,
      "grad_norm": 7.84375,
      "learning_rate": 9.577865923913841e-05,
      "loss": 0.7947,
      "step": 109200
    },
    {
      "epoch": 0.14917302842411836,
      "grad_norm": 7.21875,
      "learning_rate": 9.577425743436547e-05,
      "loss": 0.9793,
      "step": 109250
    },
    {
      "epoch": 0.14924129983300813,
      "grad_norm": 3.03125,
      "learning_rate": 9.576985343705351e-05,
      "loss": 0.8371,
      "step": 109300
    },
    {
      "epoch": 0.1493095712418979,
      "grad_norm": 2.890625,
      "learning_rate": 9.576544724741348e-05,
      "loss": 0.7263,
      "step": 109350
    },
    {
      "epoch": 0.14937784265078766,
      "grad_norm": 2.6875,
      "learning_rate": 9.576103886565641e-05,
      "loss": 0.7328,
      "step": 109400
    },
    {
      "epoch": 0.1494461140596774,
      "grad_norm": 3.140625,
      "learning_rate": 9.575662829199347e-05,
      "loss": 0.9192,
      "step": 109450
    },
    {
      "epoch": 0.14951438546856716,
      "grad_norm": 3.1875,
      "learning_rate": 9.575221552663591e-05,
      "loss": 0.8123,
      "step": 109500
    },
    {
      "epoch": 0.14958265687745692,
      "grad_norm": 3.765625,
      "learning_rate": 9.574780056979514e-05,
      "loss": 0.8273,
      "step": 109550
    },
    {
      "epoch": 0.14965092828634668,
      "grad_norm": 2.609375,
      "learning_rate": 9.574338342168257e-05,
      "loss": 0.7215,
      "step": 109600
    },
    {
      "epoch": 0.14971919969523642,
      "grad_norm": 3.515625,
      "learning_rate": 9.573896408250981e-05,
      "loss": 0.681,
      "step": 109650
    },
    {
      "epoch": 0.14978747110412619,
      "grad_norm": 4.8125,
      "learning_rate": 9.573454255248853e-05,
      "loss": 0.7247,
      "step": 109700
    },
    {
      "epoch": 0.14985574251301595,
      "grad_norm": 2.5,
      "learning_rate": 9.573011883183054e-05,
      "loss": 0.8187,
      "step": 109750
    },
    {
      "epoch": 0.1499240139219057,
      "grad_norm": 8.3125,
      "learning_rate": 9.572569292074771e-05,
      "loss": 0.7684,
      "step": 109800
    },
    {
      "epoch": 0.14999228533079545,
      "grad_norm": 3.8125,
      "learning_rate": 9.572126481945204e-05,
      "loss": 0.8025,
      "step": 109850
    },
    {
      "epoch": 0.1500605567396852,
      "grad_norm": 3.0,
      "learning_rate": 9.571683452815564e-05,
      "loss": 0.7204,
      "step": 109900
    },
    {
      "epoch": 0.15012882814857498,
      "grad_norm": 7.71875,
      "learning_rate": 9.57124020470707e-05,
      "loss": 0.7625,
      "step": 109950
    },
    {
      "epoch": 0.1501970995574647,
      "grad_norm": 7.28125,
      "learning_rate": 9.570796737640955e-05,
      "loss": 0.762,
      "step": 110000
    },
    {
      "epoch": 0.15026537096635448,
      "grad_norm": 2.421875,
      "learning_rate": 9.570353051638458e-05,
      "loss": 0.7319,
      "step": 110050
    },
    {
      "epoch": 0.15033364237524424,
      "grad_norm": 3.984375,
      "learning_rate": 9.569909146720835e-05,
      "loss": 0.8117,
      "step": 110100
    },
    {
      "epoch": 0.150401913784134,
      "grad_norm": 2.84375,
      "learning_rate": 9.569465022909345e-05,
      "loss": 0.713,
      "step": 110150
    },
    {
      "epoch": 0.15047018519302374,
      "grad_norm": 3.09375,
      "learning_rate": 9.569020680225264e-05,
      "loss": 0.7938,
      "step": 110200
    },
    {
      "epoch": 0.1505384566019135,
      "grad_norm": 3.53125,
      "learning_rate": 9.568576118689873e-05,
      "loss": 0.8786,
      "step": 110250
    },
    {
      "epoch": 0.15060672801080327,
      "grad_norm": 4.28125,
      "learning_rate": 9.568131338324467e-05,
      "loss": 0.8898,
      "step": 110300
    },
    {
      "epoch": 0.15067499941969303,
      "grad_norm": 7.84375,
      "learning_rate": 9.56768633915035e-05,
      "loss": 0.8072,
      "step": 110350
    },
    {
      "epoch": 0.15074327082858277,
      "grad_norm": 3.3125,
      "learning_rate": 9.56724112118884e-05,
      "loss": 0.7531,
      "step": 110400
    },
    {
      "epoch": 0.15081154223747253,
      "grad_norm": 4.0625,
      "learning_rate": 9.566795684461257e-05,
      "loss": 0.6631,
      "step": 110450
    },
    {
      "epoch": 0.1508798136463623,
      "grad_norm": 7.6875,
      "learning_rate": 9.566350028988941e-05,
      "loss": 0.902,
      "step": 110500
    },
    {
      "epoch": 0.15094808505525206,
      "grad_norm": 7.5,
      "learning_rate": 9.565904154793237e-05,
      "loss": 0.8122,
      "step": 110550
    },
    {
      "epoch": 0.1510163564641418,
      "grad_norm": 3.65625,
      "learning_rate": 9.565458061895503e-05,
      "loss": 0.8363,
      "step": 110600
    },
    {
      "epoch": 0.15108462787303156,
      "grad_norm": 3.28125,
      "learning_rate": 9.565011750317106e-05,
      "loss": 0.6858,
      "step": 110650
    },
    {
      "epoch": 0.15115289928192133,
      "grad_norm": 3.8125,
      "learning_rate": 9.564565220079422e-05,
      "loss": 0.7599,
      "step": 110700
    },
    {
      "epoch": 0.1512211706908111,
      "grad_norm": 7.6875,
      "learning_rate": 9.564118471203842e-05,
      "loss": 0.8575,
      "step": 110750
    },
    {
      "epoch": 0.15128944209970083,
      "grad_norm": 3.484375,
      "learning_rate": 9.563671503711764e-05,
      "loss": 0.7074,
      "step": 110800
    },
    {
      "epoch": 0.1513577135085906,
      "grad_norm": 3.359375,
      "learning_rate": 9.563224317624597e-05,
      "loss": 0.6044,
      "step": 110850
    },
    {
      "epoch": 0.15142598491748036,
      "grad_norm": 3.140625,
      "learning_rate": 9.56277691296376e-05,
      "loss": 0.6813,
      "step": 110900
    },
    {
      "epoch": 0.1514942563263701,
      "grad_norm": 4.25,
      "learning_rate": 9.562329289750684e-05,
      "loss": 0.8361,
      "step": 110950
    },
    {
      "epoch": 0.15156252773525986,
      "grad_norm": 2.6875,
      "learning_rate": 9.561881448006811e-05,
      "loss": 0.7369,
      "step": 111000
    },
    {
      "epoch": 0.15163079914414962,
      "grad_norm": 2.953125,
      "learning_rate": 9.561433387753589e-05,
      "loss": 0.7993,
      "step": 111050
    },
    {
      "epoch": 0.15169907055303938,
      "grad_norm": 6.8125,
      "learning_rate": 9.560985109012482e-05,
      "loss": 0.8825,
      "step": 111100
    },
    {
      "epoch": 0.15176734196192912,
      "grad_norm": 3.359375,
      "learning_rate": 9.560536611804962e-05,
      "loss": 0.7698,
      "step": 111150
    },
    {
      "epoch": 0.15183561337081888,
      "grad_norm": 8.4375,
      "learning_rate": 9.56008789615251e-05,
      "loss": 0.802,
      "step": 111200
    },
    {
      "epoch": 0.15190388477970865,
      "grad_norm": 2.5625,
      "learning_rate": 9.55963896207662e-05,
      "loss": 0.7004,
      "step": 111250
    },
    {
      "epoch": 0.1519721561885984,
      "grad_norm": 3.875,
      "learning_rate": 9.559189809598796e-05,
      "loss": 0.7482,
      "step": 111300
    },
    {
      "epoch": 0.15204042759748815,
      "grad_norm": 2.96875,
      "learning_rate": 9.558740438740552e-05,
      "loss": 0.747,
      "step": 111350
    },
    {
      "epoch": 0.1521086990063779,
      "grad_norm": 3.640625,
      "learning_rate": 9.558290849523411e-05,
      "loss": 0.7007,
      "step": 111400
    },
    {
      "epoch": 0.15217697041526768,
      "grad_norm": 3.5625,
      "learning_rate": 9.557841041968909e-05,
      "loss": 0.676,
      "step": 111450
    },
    {
      "epoch": 0.15224524182415744,
      "grad_norm": 2.9375,
      "learning_rate": 9.557391016098591e-05,
      "loss": 0.7944,
      "step": 111500
    },
    {
      "epoch": 0.15231351323304718,
      "grad_norm": 2.34375,
      "learning_rate": 9.556940771934013e-05,
      "loss": 0.8092,
      "step": 111550
    },
    {
      "epoch": 0.15238178464193694,
      "grad_norm": 3.46875,
      "learning_rate": 9.55649030949674e-05,
      "loss": 0.6671,
      "step": 111600
    },
    {
      "epoch": 0.1524500560508267,
      "grad_norm": 4.0625,
      "learning_rate": 9.556039628808351e-05,
      "loss": 0.8347,
      "step": 111650
    },
    {
      "epoch": 0.15251832745971647,
      "grad_norm": 7.8125,
      "learning_rate": 9.555588729890432e-05,
      "loss": 0.8057,
      "step": 111700
    },
    {
      "epoch": 0.1525865988686062,
      "grad_norm": 3.96875,
      "learning_rate": 9.555137612764579e-05,
      "loss": 0.722,
      "step": 111750
    },
    {
      "epoch": 0.15265487027749597,
      "grad_norm": 4.03125,
      "learning_rate": 9.554686277452402e-05,
      "loss": 0.711,
      "step": 111800
    },
    {
      "epoch": 0.15272314168638573,
      "grad_norm": 3.65625,
      "learning_rate": 9.554234723975518e-05,
      "loss": 0.692,
      "step": 111850
    },
    {
      "epoch": 0.15279141309527547,
      "grad_norm": 3.296875,
      "learning_rate": 9.553782952355558e-05,
      "loss": 0.717,
      "step": 111900
    },
    {
      "epoch": 0.15285968450416523,
      "grad_norm": 3.578125,
      "learning_rate": 9.55333096261416e-05,
      "loss": 0.7159,
      "step": 111950
    },
    {
      "epoch": 0.152927955913055,
      "grad_norm": 2.8125,
      "learning_rate": 9.552878754772973e-05,
      "loss": 0.7203,
      "step": 112000
    },
    {
      "epoch": 0.15299622732194476,
      "grad_norm": 2.734375,
      "learning_rate": 9.552426328853659e-05,
      "loss": 0.8889,
      "step": 112050
    },
    {
      "epoch": 0.1530644987308345,
      "grad_norm": 8.6875,
      "learning_rate": 9.551973684877888e-05,
      "loss": 0.8447,
      "step": 112100
    },
    {
      "epoch": 0.15313277013972426,
      "grad_norm": 8.1875,
      "learning_rate": 9.551520822867344e-05,
      "loss": 0.6824,
      "step": 112150
    },
    {
      "epoch": 0.15320104154861403,
      "grad_norm": 2.890625,
      "learning_rate": 9.551067742843713e-05,
      "loss": 0.8482,
      "step": 112200
    },
    {
      "epoch": 0.1532693129575038,
      "grad_norm": 2.765625,
      "learning_rate": 9.5506144448287e-05,
      "loss": 0.8523,
      "step": 112250
    },
    {
      "epoch": 0.15333758436639353,
      "grad_norm": 2.765625,
      "learning_rate": 9.550160928844017e-05,
      "loss": 0.789,
      "step": 112300
    },
    {
      "epoch": 0.1534058557752833,
      "grad_norm": 3.65625,
      "learning_rate": 9.549707194911389e-05,
      "loss": 0.6822,
      "step": 112350
    },
    {
      "epoch": 0.15347412718417305,
      "grad_norm": 3.59375,
      "learning_rate": 9.549253243052546e-05,
      "loss": 0.7356,
      "step": 112400
    },
    {
      "epoch": 0.15354239859306282,
      "grad_norm": 2.578125,
      "learning_rate": 9.548799073289233e-05,
      "loss": 0.7517,
      "step": 112450
    },
    {
      "epoch": 0.15361067000195255,
      "grad_norm": 3.15625,
      "learning_rate": 9.548344685643209e-05,
      "loss": 0.831,
      "step": 112500
    },
    {
      "epoch": 0.15367894141084232,
      "grad_norm": 3.3125,
      "learning_rate": 9.54789008013623e-05,
      "loss": 0.8428,
      "step": 112550
    },
    {
      "epoch": 0.15374721281973208,
      "grad_norm": 8.25,
      "learning_rate": 9.547435256790078e-05,
      "loss": 0.7342,
      "step": 112600
    },
    {
      "epoch": 0.15381548422862185,
      "grad_norm": 3.734375,
      "learning_rate": 9.546980215626535e-05,
      "loss": 0.6725,
      "step": 112650
    },
    {
      "epoch": 0.15388375563751158,
      "grad_norm": 8.0,
      "learning_rate": 9.5465249566674e-05,
      "loss": 0.8634,
      "step": 112700
    },
    {
      "epoch": 0.15395202704640135,
      "grad_norm": 2.96875,
      "learning_rate": 9.546069479934476e-05,
      "loss": 0.75,
      "step": 112750
    },
    {
      "epoch": 0.1540202984552911,
      "grad_norm": 8.3125,
      "learning_rate": 9.545613785449582e-05,
      "loss": 0.9223,
      "step": 112800
    },
    {
      "epoch": 0.15408856986418085,
      "grad_norm": 2.671875,
      "learning_rate": 9.545157873234544e-05,
      "loss": 0.7682,
      "step": 112850
    },
    {
      "epoch": 0.1541568412730706,
      "grad_norm": 2.71875,
      "learning_rate": 9.544701743311202e-05,
      "loss": 0.7639,
      "step": 112900
    },
    {
      "epoch": 0.15422511268196037,
      "grad_norm": 2.78125,
      "learning_rate": 9.544245395701401e-05,
      "loss": 0.6142,
      "step": 112950
    },
    {
      "epoch": 0.15429338409085014,
      "grad_norm": 2.75,
      "learning_rate": 9.543788830427003e-05,
      "loss": 0.6911,
      "step": 113000
    },
    {
      "epoch": 0.15436165549973987,
      "grad_norm": 2.984375,
      "learning_rate": 9.543332047509875e-05,
      "loss": 0.7264,
      "step": 113050
    },
    {
      "epoch": 0.15442992690862964,
      "grad_norm": 2.546875,
      "learning_rate": 9.542875046971896e-05,
      "loss": 0.7742,
      "step": 113100
    },
    {
      "epoch": 0.1544981983175194,
      "grad_norm": 2.859375,
      "learning_rate": 9.542417828834955e-05,
      "loss": 0.7636,
      "step": 113150
    },
    {
      "epoch": 0.15456646972640917,
      "grad_norm": 3.34375,
      "learning_rate": 9.541960393120954e-05,
      "loss": 0.651,
      "step": 113200
    },
    {
      "epoch": 0.1546347411352989,
      "grad_norm": 2.609375,
      "learning_rate": 9.541502739851806e-05,
      "loss": 0.9001,
      "step": 113250
    },
    {
      "epoch": 0.15470301254418867,
      "grad_norm": 3.171875,
      "learning_rate": 9.541044869049427e-05,
      "loss": 0.643,
      "step": 113300
    },
    {
      "epoch": 0.15477128395307843,
      "grad_norm": 2.96875,
      "learning_rate": 9.540586780735753e-05,
      "loss": 0.7178,
      "step": 113350
    },
    {
      "epoch": 0.1548395553619682,
      "grad_norm": 2.765625,
      "learning_rate": 9.540128474932723e-05,
      "loss": 0.7704,
      "step": 113400
    },
    {
      "epoch": 0.15490782677085793,
      "grad_norm": 3.328125,
      "learning_rate": 9.539669951662291e-05,
      "loss": 0.8074,
      "step": 113450
    },
    {
      "epoch": 0.1549760981797477,
      "grad_norm": 3.859375,
      "learning_rate": 9.539211210946419e-05,
      "loss": 0.8288,
      "step": 113500
    },
    {
      "epoch": 0.15504436958863746,
      "grad_norm": 2.78125,
      "learning_rate": 9.538752252807079e-05,
      "loss": 0.75,
      "step": 113550
    },
    {
      "epoch": 0.1551126409975272,
      "grad_norm": 2.453125,
      "learning_rate": 9.538293077266259e-05,
      "loss": 0.7055,
      "step": 113600
    },
    {
      "epoch": 0.15518091240641696,
      "grad_norm": 3.75,
      "learning_rate": 9.537833684345946e-05,
      "loss": 0.6929,
      "step": 113650
    },
    {
      "epoch": 0.15524918381530672,
      "grad_norm": 2.453125,
      "learning_rate": 9.537374074068153e-05,
      "loss": 0.73,
      "step": 113700
    },
    {
      "epoch": 0.1553174552241965,
      "grad_norm": 7.53125,
      "learning_rate": 9.536914246454887e-05,
      "loss": 0.8827,
      "step": 113750
    },
    {
      "epoch": 0.15538572663308622,
      "grad_norm": 2.65625,
      "learning_rate": 9.536454201528178e-05,
      "loss": 0.7967,
      "step": 113800
    },
    {
      "epoch": 0.155453998041976,
      "grad_norm": 3.375,
      "learning_rate": 9.53599393931006e-05,
      "loss": 0.7518,
      "step": 113850
    },
    {
      "epoch": 0.15552226945086575,
      "grad_norm": 2.4375,
      "learning_rate": 9.535533459822579e-05,
      "loss": 0.6627,
      "step": 113900
    },
    {
      "epoch": 0.15559054085975552,
      "grad_norm": 2.796875,
      "learning_rate": 9.535072763087793e-05,
      "loss": 0.7819,
      "step": 113950
    },
    {
      "epoch": 0.15565881226864525,
      "grad_norm": 4.03125,
      "learning_rate": 9.534611849127765e-05,
      "loss": 0.8242,
      "step": 114000
    },
    {
      "epoch": 0.15572708367753502,
      "grad_norm": 2.578125,
      "learning_rate": 9.534150717964577e-05,
      "loss": 0.7893,
      "step": 114050
    },
    {
      "epoch": 0.15579535508642478,
      "grad_norm": 2.84375,
      "learning_rate": 9.533689369620315e-05,
      "loss": 0.8005,
      "step": 114100
    },
    {
      "epoch": 0.15586362649531454,
      "grad_norm": 3.0625,
      "learning_rate": 9.533227804117076e-05,
      "loss": 0.6918,
      "step": 114150
    },
    {
      "epoch": 0.15593189790420428,
      "grad_norm": 8.0625,
      "learning_rate": 9.53276602147697e-05,
      "loss": 0.8822,
      "step": 114200
    },
    {
      "epoch": 0.15600016931309404,
      "grad_norm": 2.65625,
      "learning_rate": 9.532304021722114e-05,
      "loss": 0.6559,
      "step": 114250
    },
    {
      "epoch": 0.1560684407219838,
      "grad_norm": 2.53125,
      "learning_rate": 9.531841804874639e-05,
      "loss": 0.6187,
      "step": 114300
    },
    {
      "epoch": 0.15613671213087357,
      "grad_norm": 2.953125,
      "learning_rate": 9.531379370956686e-05,
      "loss": 0.6886,
      "step": 114350
    },
    {
      "epoch": 0.1562049835397633,
      "grad_norm": 3.109375,
      "learning_rate": 9.530916719990402e-05,
      "loss": 0.719,
      "step": 114400
    },
    {
      "epoch": 0.15627325494865307,
      "grad_norm": 3.546875,
      "learning_rate": 9.530453851997949e-05,
      "loss": 0.8182,
      "step": 114450
    },
    {
      "epoch": 0.15634152635754284,
      "grad_norm": 2.84375,
      "learning_rate": 9.529990767001497e-05,
      "loss": 0.599,
      "step": 114500
    },
    {
      "epoch": 0.15640979776643257,
      "grad_norm": 8.0,
      "learning_rate": 9.529527465023229e-05,
      "loss": 0.7621,
      "step": 114550
    },
    {
      "epoch": 0.15647806917532234,
      "grad_norm": 3.15625,
      "learning_rate": 9.529063946085335e-05,
      "loss": 0.6603,
      "step": 114600
    },
    {
      "epoch": 0.1565463405842121,
      "grad_norm": 3.0625,
      "learning_rate": 9.528600210210017e-05,
      "loss": 0.7845,
      "step": 114650
    },
    {
      "epoch": 0.15661461199310187,
      "grad_norm": 2.84375,
      "learning_rate": 9.528136257419488e-05,
      "loss": 0.8853,
      "step": 114700
    },
    {
      "epoch": 0.1566828834019916,
      "grad_norm": 3.03125,
      "learning_rate": 9.527672087735973e-05,
      "loss": 0.826,
      "step": 114750
    },
    {
      "epoch": 0.15675115481088137,
      "grad_norm": 2.71875,
      "learning_rate": 9.527207701181704e-05,
      "loss": 0.7257,
      "step": 114800
    },
    {
      "epoch": 0.15681942621977113,
      "grad_norm": 2.484375,
      "learning_rate": 9.526743097778922e-05,
      "loss": 0.6729,
      "step": 114850
    },
    {
      "epoch": 0.1568876976286609,
      "grad_norm": 5.0625,
      "learning_rate": 9.526278277549882e-05,
      "loss": 0.6459,
      "step": 114900
    },
    {
      "epoch": 0.15695596903755063,
      "grad_norm": 8.5,
      "learning_rate": 9.525813240516852e-05,
      "loss": 0.8448,
      "step": 114950
    },
    {
      "epoch": 0.1570242404464404,
      "grad_norm": 3.265625,
      "learning_rate": 9.525347986702103e-05,
      "loss": 0.8929,
      "step": 115000
    },
    {
      "epoch": 0.15709251185533016,
      "grad_norm": 3.015625,
      "learning_rate": 9.524882516127922e-05,
      "loss": 0.7168,
      "step": 115050
    },
    {
      "epoch": 0.15716078326421992,
      "grad_norm": 3.140625,
      "learning_rate": 9.524416828816602e-05,
      "loss": 0.7597,
      "step": 115100
    },
    {
      "epoch": 0.15722905467310966,
      "grad_norm": 2.671875,
      "learning_rate": 9.523950924790452e-05,
      "loss": 0.7097,
      "step": 115150
    },
    {
      "epoch": 0.15729732608199942,
      "grad_norm": 3.34375,
      "learning_rate": 9.523484804071787e-05,
      "loss": 0.6774,
      "step": 115200
    },
    {
      "epoch": 0.1573655974908892,
      "grad_norm": 9.625,
      "learning_rate": 9.523018466682935e-05,
      "loss": 0.7163,
      "step": 115250
    },
    {
      "epoch": 0.15743386889977895,
      "grad_norm": 7.84375,
      "learning_rate": 9.52255191264623e-05,
      "loss": 0.8063,
      "step": 115300
    },
    {
      "epoch": 0.1575021403086687,
      "grad_norm": 3.6875,
      "learning_rate": 9.522085141984023e-05,
      "loss": 0.9183,
      "step": 115350
    },
    {
      "epoch": 0.15757041171755845,
      "grad_norm": 3.171875,
      "learning_rate": 9.521618154718669e-05,
      "loss": 0.8114,
      "step": 115400
    },
    {
      "epoch": 0.15763868312644821,
      "grad_norm": 2.796875,
      "learning_rate": 9.521150950872537e-05,
      "loss": 0.7338,
      "step": 115450
    },
    {
      "epoch": 0.15770695453533795,
      "grad_norm": 7.46875,
      "learning_rate": 9.520683530468006e-05,
      "loss": 0.8905,
      "step": 115500
    },
    {
      "epoch": 0.15777522594422771,
      "grad_norm": 3.625,
      "learning_rate": 9.520215893527466e-05,
      "loss": 0.8512,
      "step": 115550
    },
    {
      "epoch": 0.15784349735311748,
      "grad_norm": 2.953125,
      "learning_rate": 9.519748040073315e-05,
      "loss": 0.751,
      "step": 115600
    },
    {
      "epoch": 0.15791176876200724,
      "grad_norm": 7.5,
      "learning_rate": 9.519279970127964e-05,
      "loss": 0.6684,
      "step": 115650
    },
    {
      "epoch": 0.15798004017089698,
      "grad_norm": 2.703125,
      "learning_rate": 9.51881168371383e-05,
      "loss": 0.71,
      "step": 115700
    },
    {
      "epoch": 0.15804831157978674,
      "grad_norm": 2.578125,
      "learning_rate": 9.518343180853347e-05,
      "loss": 0.7449,
      "step": 115750
    },
    {
      "epoch": 0.1581165829886765,
      "grad_norm": 3.796875,
      "learning_rate": 9.517874461568952e-05,
      "loss": 0.9409,
      "step": 115800
    },
    {
      "epoch": 0.15818485439756627,
      "grad_norm": 3.625,
      "learning_rate": 9.517405525883099e-05,
      "loss": 0.8257,
      "step": 115850
    },
    {
      "epoch": 0.158253125806456,
      "grad_norm": 2.875,
      "learning_rate": 9.51693637381825e-05,
      "loss": 0.7238,
      "step": 115900
    },
    {
      "epoch": 0.15832139721534577,
      "grad_norm": 3.609375,
      "learning_rate": 9.516467005396876e-05,
      "loss": 0.6797,
      "step": 115950
    },
    {
      "epoch": 0.15838966862423554,
      "grad_norm": 2.9375,
      "learning_rate": 9.515997420641458e-05,
      "loss": 0.7601,
      "step": 116000
    },
    {
      "epoch": 0.1584579400331253,
      "grad_norm": 4.46875,
      "learning_rate": 9.51552761957449e-05,
      "loss": 0.7074,
      "step": 116050
    },
    {
      "epoch": 0.15852621144201504,
      "grad_norm": 3.09375,
      "learning_rate": 9.515057602218474e-05,
      "loss": 0.7727,
      "step": 116100
    },
    {
      "epoch": 0.1585944828509048,
      "grad_norm": 2.875,
      "learning_rate": 9.514587368595924e-05,
      "loss": 0.8326,
      "step": 116150
    },
    {
      "epoch": 0.15866275425979456,
      "grad_norm": 3.09375,
      "learning_rate": 9.514116918729365e-05,
      "loss": 0.9217,
      "step": 116200
    },
    {
      "epoch": 0.15873102566868433,
      "grad_norm": 3.734375,
      "learning_rate": 9.513646252641328e-05,
      "loss": 0.7112,
      "step": 116250
    },
    {
      "epoch": 0.15879929707757406,
      "grad_norm": 4.59375,
      "learning_rate": 9.513175370354361e-05,
      "loss": 0.6164,
      "step": 116300
    },
    {
      "epoch": 0.15886756848646383,
      "grad_norm": 4.40625,
      "learning_rate": 9.512704271891015e-05,
      "loss": 0.7854,
      "step": 116350
    },
    {
      "epoch": 0.1589358398953536,
      "grad_norm": 2.71875,
      "learning_rate": 9.51223295727386e-05,
      "loss": 0.7703,
      "step": 116400
    },
    {
      "epoch": 0.15900411130424333,
      "grad_norm": 7.75,
      "learning_rate": 9.511761426525465e-05,
      "loss": 0.7466,
      "step": 116450
    },
    {
      "epoch": 0.1590723827131331,
      "grad_norm": 3.359375,
      "learning_rate": 9.511289679668422e-05,
      "loss": 0.7625,
      "step": 116500
    },
    {
      "epoch": 0.15914065412202286,
      "grad_norm": 2.796875,
      "learning_rate": 9.510817716725324e-05,
      "loss": 0.7487,
      "step": 116550
    },
    {
      "epoch": 0.15920892553091262,
      "grad_norm": 7.28125,
      "learning_rate": 9.510345537718777e-05,
      "loss": 0.7321,
      "step": 116600
    },
    {
      "epoch": 0.15927719693980236,
      "grad_norm": 3.71875,
      "learning_rate": 9.5098731426714e-05,
      "loss": 0.8064,
      "step": 116650
    },
    {
      "epoch": 0.15934546834869212,
      "grad_norm": 3.03125,
      "learning_rate": 9.509400531605816e-05,
      "loss": 0.7448,
      "step": 116700
    },
    {
      "epoch": 0.15941373975758188,
      "grad_norm": 9.0,
      "learning_rate": 9.508927704544671e-05,
      "loss": 0.7143,
      "step": 116750
    },
    {
      "epoch": 0.15948201116647165,
      "grad_norm": 3.359375,
      "learning_rate": 9.508454661510604e-05,
      "loss": 0.8129,
      "step": 116800
    },
    {
      "epoch": 0.15955028257536139,
      "grad_norm": 3.6875,
      "learning_rate": 9.507981402526278e-05,
      "loss": 0.633,
      "step": 116850
    },
    {
      "epoch": 0.15961855398425115,
      "grad_norm": 2.59375,
      "learning_rate": 9.50750792761436e-05,
      "loss": 0.7301,
      "step": 116900
    },
    {
      "epoch": 0.1596868253931409,
      "grad_norm": 3.9375,
      "learning_rate": 9.50703423679753e-05,
      "loss": 0.8386,
      "step": 116950
    },
    {
      "epoch": 0.15975509680203068,
      "grad_norm": 3.109375,
      "learning_rate": 9.506560330098476e-05,
      "loss": 0.7639,
      "step": 117000
    },
    {
      "epoch": 0.1598233682109204,
      "grad_norm": 3.46875,
      "learning_rate": 9.5060862075399e-05,
      "loss": 0.9105,
      "step": 117050
    },
    {
      "epoch": 0.15989163961981018,
      "grad_norm": 3.578125,
      "learning_rate": 9.505611869144508e-05,
      "loss": 0.7689,
      "step": 117100
    },
    {
      "epoch": 0.15995991102869994,
      "grad_norm": 2.671875,
      "learning_rate": 9.505137314935024e-05,
      "loss": 0.6803,
      "step": 117150
    },
    {
      "epoch": 0.16002818243758968,
      "grad_norm": 3.59375,
      "learning_rate": 9.504662544934178e-05,
      "loss": 0.7349,
      "step": 117200
    },
    {
      "epoch": 0.16009645384647944,
      "grad_norm": 2.984375,
      "learning_rate": 9.50418755916471e-05,
      "loss": 0.6877,
      "step": 117250
    },
    {
      "epoch": 0.1601647252553692,
      "grad_norm": 3.265625,
      "learning_rate": 9.503712357649373e-05,
      "loss": 0.8118,
      "step": 117300
    },
    {
      "epoch": 0.16023299666425897,
      "grad_norm": 3.1875,
      "learning_rate": 9.503236940410925e-05,
      "loss": 0.7977,
      "step": 117350
    },
    {
      "epoch": 0.1603012680731487,
      "grad_norm": 3.515625,
      "learning_rate": 9.502761307472141e-05,
      "loss": 0.7363,
      "step": 117400
    },
    {
      "epoch": 0.16036953948203847,
      "grad_norm": 3.15625,
      "learning_rate": 9.502285458855801e-05,
      "loss": 0.7159,
      "step": 117450
    },
    {
      "epoch": 0.16043781089092823,
      "grad_norm": 3.46875,
      "learning_rate": 9.501809394584702e-05,
      "loss": 0.7119,
      "step": 117500
    },
    {
      "epoch": 0.160506082299818,
      "grad_norm": 3.140625,
      "learning_rate": 9.501333114681644e-05,
      "loss": 0.7085,
      "step": 117550
    },
    {
      "epoch": 0.16057435370870773,
      "grad_norm": 4.125,
      "learning_rate": 9.50085661916944e-05,
      "loss": 0.7516,
      "step": 117600
    },
    {
      "epoch": 0.1606426251175975,
      "grad_norm": 2.921875,
      "learning_rate": 9.500379908070914e-05,
      "loss": 0.7699,
      "step": 117650
    },
    {
      "epoch": 0.16071089652648726,
      "grad_norm": 4.25,
      "learning_rate": 9.499902981408899e-05,
      "loss": 0.7869,
      "step": 117700
    },
    {
      "epoch": 0.16077916793537703,
      "grad_norm": 3.75,
      "learning_rate": 9.499425839206242e-05,
      "loss": 0.7477,
      "step": 117750
    },
    {
      "epoch": 0.16084743934426676,
      "grad_norm": 2.828125,
      "learning_rate": 9.498948481485796e-05,
      "loss": 0.7713,
      "step": 117800
    },
    {
      "epoch": 0.16091571075315653,
      "grad_norm": 10.6875,
      "learning_rate": 9.498470908270425e-05,
      "loss": 0.8519,
      "step": 117850
    },
    {
      "epoch": 0.1609839821620463,
      "grad_norm": 7.375,
      "learning_rate": 9.497993119583007e-05,
      "loss": 0.7267,
      "step": 117900
    },
    {
      "epoch": 0.16105225357093605,
      "grad_norm": 8.625,
      "learning_rate": 9.497515115446425e-05,
      "loss": 0.7741,
      "step": 117950
    },
    {
      "epoch": 0.1611205249798258,
      "grad_norm": 7.5625,
      "learning_rate": 9.497036895883575e-05,
      "loss": 0.7488,
      "step": 118000
    },
    {
      "epoch": 0.16118879638871556,
      "grad_norm": 3.3125,
      "learning_rate": 9.496558460917363e-05,
      "loss": 0.6168,
      "step": 118050
    },
    {
      "epoch": 0.16125706779760532,
      "grad_norm": 2.796875,
      "learning_rate": 9.496079810570709e-05,
      "loss": 0.7569,
      "step": 118100
    },
    {
      "epoch": 0.16132533920649506,
      "grad_norm": 2.96875,
      "learning_rate": 9.495600944866536e-05,
      "loss": 0.7182,
      "step": 118150
    },
    {
      "epoch": 0.16139361061538482,
      "grad_norm": 2.71875,
      "learning_rate": 9.495121863827783e-05,
      "loss": 0.773,
      "step": 118200
    },
    {
      "epoch": 0.16146188202427458,
      "grad_norm": 3.046875,
      "learning_rate": 9.494642567477396e-05,
      "loss": 0.6217,
      "step": 118250
    },
    {
      "epoch": 0.16153015343316435,
      "grad_norm": 3.359375,
      "learning_rate": 9.494163055838335e-05,
      "loss": 0.8428,
      "step": 118300
    },
    {
      "epoch": 0.16159842484205408,
      "grad_norm": 3.34375,
      "learning_rate": 9.493683328933567e-05,
      "loss": 0.6087,
      "step": 118350
    },
    {
      "epoch": 0.16166669625094385,
      "grad_norm": 9.25,
      "learning_rate": 9.49320338678607e-05,
      "loss": 0.9157,
      "step": 118400
    },
    {
      "epoch": 0.1617349676598336,
      "grad_norm": 2.984375,
      "learning_rate": 9.492723229418831e-05,
      "loss": 0.6679,
      "step": 118450
    },
    {
      "epoch": 0.16180323906872338,
      "grad_norm": 7.78125,
      "learning_rate": 9.492242856854854e-05,
      "loss": 0.7467,
      "step": 118500
    },
    {
      "epoch": 0.1618715104776131,
      "grad_norm": 4.0625,
      "learning_rate": 9.491762269117144e-05,
      "loss": 0.7095,
      "step": 118550
    },
    {
      "epoch": 0.16193978188650288,
      "grad_norm": 8.4375,
      "learning_rate": 9.491281466228723e-05,
      "loss": 0.7516,
      "step": 118600
    },
    {
      "epoch": 0.16200805329539264,
      "grad_norm": 3.125,
      "learning_rate": 9.490800448212618e-05,
      "loss": 0.7748,
      "step": 118650
    },
    {
      "epoch": 0.1620763247042824,
      "grad_norm": 3.203125,
      "learning_rate": 9.490319215091873e-05,
      "loss": 0.7171,
      "step": 118700
    },
    {
      "epoch": 0.16214459611317214,
      "grad_norm": 3.171875,
      "learning_rate": 9.489837766889536e-05,
      "loss": 0.8982,
      "step": 118750
    },
    {
      "epoch": 0.1622128675220619,
      "grad_norm": 2.921875,
      "learning_rate": 9.48935610362867e-05,
      "loss": 0.693,
      "step": 118800
    },
    {
      "epoch": 0.16228113893095167,
      "grad_norm": 3.203125,
      "learning_rate": 9.488874225332342e-05,
      "loss": 0.6942,
      "step": 118850
    },
    {
      "epoch": 0.16234941033984143,
      "grad_norm": 3.140625,
      "learning_rate": 9.48839213202364e-05,
      "loss": 0.6869,
      "step": 118900
    },
    {
      "epoch": 0.16241768174873117,
      "grad_norm": 2.828125,
      "learning_rate": 9.487909823725649e-05,
      "loss": 0.8046,
      "step": 118950
    },
    {
      "epoch": 0.16248595315762093,
      "grad_norm": 3.515625,
      "learning_rate": 9.487427300461475e-05,
      "loss": 0.7041,
      "step": 119000
    },
    {
      "epoch": 0.1625542245665107,
      "grad_norm": 2.921875,
      "learning_rate": 9.486944562254231e-05,
      "loss": 0.7456,
      "step": 119050
    },
    {
      "epoch": 0.16262249597540043,
      "grad_norm": 3.421875,
      "learning_rate": 9.486461609127037e-05,
      "loss": 0.8453,
      "step": 119100
    },
    {
      "epoch": 0.1626907673842902,
      "grad_norm": 3.0625,
      "learning_rate": 9.485978441103028e-05,
      "loss": 0.7969,
      "step": 119150
    },
    {
      "epoch": 0.16275903879317996,
      "grad_norm": 2.796875,
      "learning_rate": 9.485495058205344e-05,
      "loss": 0.775,
      "step": 119200
    },
    {
      "epoch": 0.16282731020206972,
      "grad_norm": 7.46875,
      "learning_rate": 9.485011460457143e-05,
      "loss": 0.6539,
      "step": 119250
    },
    {
      "epoch": 0.16289558161095946,
      "grad_norm": 3.671875,
      "learning_rate": 9.484527647881587e-05,
      "loss": 0.8173,
      "step": 119300
    },
    {
      "epoch": 0.16296385301984923,
      "grad_norm": 7.9375,
      "learning_rate": 9.484043620501848e-05,
      "loss": 0.7462,
      "step": 119350
    },
    {
      "epoch": 0.163032124428739,
      "grad_norm": 3.125,
      "learning_rate": 9.483559378341114e-05,
      "loss": 0.8441,
      "step": 119400
    },
    {
      "epoch": 0.16310039583762875,
      "grad_norm": 4.1875,
      "learning_rate": 9.483074921422577e-05,
      "loss": 0.7683,
      "step": 119450
    },
    {
      "epoch": 0.1631686672465185,
      "grad_norm": 2.640625,
      "learning_rate": 9.482590249769443e-05,
      "loss": 0.6723,
      "step": 119500
    },
    {
      "epoch": 0.16323693865540825,
      "grad_norm": 3.21875,
      "learning_rate": 9.482105363404927e-05,
      "loss": 0.8549,
      "step": 119550
    },
    {
      "epoch": 0.16330521006429802,
      "grad_norm": 2.765625,
      "learning_rate": 9.481620262352256e-05,
      "loss": 0.719,
      "step": 119600
    },
    {
      "epoch": 0.16337348147318778,
      "grad_norm": 2.9375,
      "learning_rate": 9.481134946634662e-05,
      "loss": 0.6731,
      "step": 119650
    },
    {
      "epoch": 0.16344175288207752,
      "grad_norm": 2.78125,
      "learning_rate": 9.480649416275396e-05,
      "loss": 0.7841,
      "step": 119700
    },
    {
      "epoch": 0.16351002429096728,
      "grad_norm": 7.625,
      "learning_rate": 9.48016367129771e-05,
      "loss": 0.8008,
      "step": 119750
    },
    {
      "epoch": 0.16357829569985705,
      "grad_norm": 2.734375,
      "learning_rate": 9.479677711724874e-05,
      "loss": 0.727,
      "step": 119800
    },
    {
      "epoch": 0.1636465671087468,
      "grad_norm": 2.9375,
      "learning_rate": 9.479191537580165e-05,
      "loss": 0.6767,
      "step": 119850
    },
    {
      "epoch": 0.16371483851763655,
      "grad_norm": 2.625,
      "learning_rate": 9.478705148886868e-05,
      "loss": 0.8619,
      "step": 119900
    },
    {
      "epoch": 0.1637831099265263,
      "grad_norm": 4.6875,
      "learning_rate": 9.478218545668281e-05,
      "loss": 0.6863,
      "step": 119950
    },
    {
      "epoch": 0.16385138133541607,
      "grad_norm": 4.25,
      "learning_rate": 9.477731727947712e-05,
      "loss": 0.7361,
      "step": 120000
    },
    {
      "epoch": 0.1639196527443058,
      "grad_norm": 4.125,
      "learning_rate": 9.47724469574848e-05,
      "loss": 0.8159,
      "step": 120050
    },
    {
      "epoch": 0.16398792415319557,
      "grad_norm": 2.40625,
      "learning_rate": 9.476757449093911e-05,
      "loss": 0.646,
      "step": 120100
    },
    {
      "epoch": 0.16405619556208534,
      "grad_norm": 3.28125,
      "learning_rate": 9.476269988007346e-05,
      "loss": 0.8273,
      "step": 120150
    },
    {
      "epoch": 0.1641244669709751,
      "grad_norm": 2.625,
      "learning_rate": 9.475782312512135e-05,
      "loss": 0.7423,
      "step": 120200
    },
    {
      "epoch": 0.16419273837986484,
      "grad_norm": 7.875,
      "learning_rate": 9.475294422631633e-05,
      "loss": 0.8736,
      "step": 120250
    },
    {
      "epoch": 0.1642610097887546,
      "grad_norm": 3.09375,
      "learning_rate": 9.474806318389213e-05,
      "loss": 0.7,
      "step": 120300
    },
    {
      "epoch": 0.16432928119764437,
      "grad_norm": 3.984375,
      "learning_rate": 9.474317999808253e-05,
      "loss": 0.7532,
      "step": 120350
    },
    {
      "epoch": 0.16439755260653413,
      "grad_norm": 5.6875,
      "learning_rate": 9.473829466912143e-05,
      "loss": 0.7421,
      "step": 120400
    },
    {
      "epoch": 0.16446582401542387,
      "grad_norm": 3.921875,
      "learning_rate": 9.473340719724285e-05,
      "loss": 0.8378,
      "step": 120450
    },
    {
      "epoch": 0.16453409542431363,
      "grad_norm": 3.34375,
      "learning_rate": 9.472851758268085e-05,
      "loss": 0.7035,
      "step": 120500
    },
    {
      "epoch": 0.1646023668332034,
      "grad_norm": 4.5625,
      "learning_rate": 9.47236258256697e-05,
      "loss": 0.7175,
      "step": 120550
    },
    {
      "epoch": 0.16467063824209316,
      "grad_norm": 8.4375,
      "learning_rate": 9.471873192644364e-05,
      "loss": 0.8173,
      "step": 120600
    },
    {
      "epoch": 0.1647389096509829,
      "grad_norm": 2.96875,
      "learning_rate": 9.471383588523715e-05,
      "loss": 0.798,
      "step": 120650
    },
    {
      "epoch": 0.16480718105987266,
      "grad_norm": 4.15625,
      "learning_rate": 9.47089377022847e-05,
      "loss": 0.765,
      "step": 120700
    },
    {
      "epoch": 0.16487545246876242,
      "grad_norm": 3.375,
      "learning_rate": 9.470403737782094e-05,
      "loss": 0.7586,
      "step": 120750
    },
    {
      "epoch": 0.16494372387765216,
      "grad_norm": 8.6875,
      "learning_rate": 9.469913491208055e-05,
      "loss": 0.8586,
      "step": 120800
    },
    {
      "epoch": 0.16501199528654192,
      "grad_norm": 41.0,
      "learning_rate": 9.469423030529839e-05,
      "loss": 0.7511,
      "step": 120850
    },
    {
      "epoch": 0.1650802666954317,
      "grad_norm": 2.890625,
      "learning_rate": 9.468932355770938e-05,
      "loss": 0.6113,
      "step": 120900
    },
    {
      "epoch": 0.16514853810432145,
      "grad_norm": 3.671875,
      "learning_rate": 9.468441466954853e-05,
      "loss": 0.7176,
      "step": 120950
    },
    {
      "epoch": 0.1652168095132112,
      "grad_norm": 2.890625,
      "learning_rate": 9.467950364105098e-05,
      "loss": 0.7668,
      "step": 121000
    },
    {
      "epoch": 0.16528508092210095,
      "grad_norm": 3.203125,
      "learning_rate": 9.467459047245196e-05,
      "loss": 0.8361,
      "step": 121050
    },
    {
      "epoch": 0.16535335233099072,
      "grad_norm": 3.21875,
      "learning_rate": 9.466967516398681e-05,
      "loss": 0.6952,
      "step": 121100
    },
    {
      "epoch": 0.16542162373988048,
      "grad_norm": 3.21875,
      "learning_rate": 9.466475771589098e-05,
      "loss": 0.7665,
      "step": 121150
    },
    {
      "epoch": 0.16548989514877022,
      "grad_norm": 2.546875,
      "learning_rate": 9.465983812839999e-05,
      "loss": 0.7548,
      "step": 121200
    },
    {
      "epoch": 0.16555816655765998,
      "grad_norm": 3.09375,
      "learning_rate": 9.465491640174948e-05,
      "loss": 0.7554,
      "step": 121250
    },
    {
      "epoch": 0.16562643796654974,
      "grad_norm": 2.6875,
      "learning_rate": 9.464999253617523e-05,
      "loss": 0.7239,
      "step": 121300
    },
    {
      "epoch": 0.1656947093754395,
      "grad_norm": 3.953125,
      "learning_rate": 9.464506653191305e-05,
      "loss": 0.7071,
      "step": 121350
    },
    {
      "epoch": 0.16576298078432924,
      "grad_norm": 3.421875,
      "learning_rate": 9.464013838919892e-05,
      "loss": 0.8221,
      "step": 121400
    },
    {
      "epoch": 0.165831252193219,
      "grad_norm": 3.109375,
      "learning_rate": 9.463520810826886e-05,
      "loss": 0.8213,
      "step": 121450
    },
    {
      "epoch": 0.16589952360210877,
      "grad_norm": 3.640625,
      "learning_rate": 9.463027568935904e-05,
      "loss": 0.6821,
      "step": 121500
    },
    {
      "epoch": 0.16596779501099854,
      "grad_norm": 3.03125,
      "learning_rate": 9.462534113270574e-05,
      "loss": 0.6616,
      "step": 121550
    },
    {
      "epoch": 0.16603606641988827,
      "grad_norm": 2.90625,
      "learning_rate": 9.46204044385453e-05,
      "loss": 0.7217,
      "step": 121600
    },
    {
      "epoch": 0.16610433782877804,
      "grad_norm": 7.59375,
      "learning_rate": 9.461546560711416e-05,
      "loss": 0.7966,
      "step": 121650
    },
    {
      "epoch": 0.1661726092376678,
      "grad_norm": 4.09375,
      "learning_rate": 9.461052463864893e-05,
      "loss": 0.7957,
      "step": 121700
    },
    {
      "epoch": 0.16624088064655754,
      "grad_norm": 3.140625,
      "learning_rate": 9.460558153338626e-05,
      "loss": 0.7208,
      "step": 121750
    },
    {
      "epoch": 0.1663091520554473,
      "grad_norm": 2.828125,
      "learning_rate": 9.46006362915629e-05,
      "loss": 0.7245,
      "step": 121800
    },
    {
      "epoch": 0.16637742346433707,
      "grad_norm": 3.578125,
      "learning_rate": 9.459568891341575e-05,
      "loss": 0.7645,
      "step": 121850
    },
    {
      "epoch": 0.16644569487322683,
      "grad_norm": 2.734375,
      "learning_rate": 9.459073939918176e-05,
      "loss": 0.6857,
      "step": 121900
    },
    {
      "epoch": 0.16651396628211657,
      "grad_norm": 3.1875,
      "learning_rate": 9.458578774909802e-05,
      "loss": 0.8075,
      "step": 121950
    },
    {
      "epoch": 0.16658223769100633,
      "grad_norm": 3.90625,
      "learning_rate": 9.458083396340172e-05,
      "loss": 0.7224,
      "step": 122000
    },
    {
      "epoch": 0.1666505090998961,
      "grad_norm": 3.96875,
      "learning_rate": 9.457587804233011e-05,
      "loss": 0.6702,
      "step": 122050
    },
    {
      "epoch": 0.16671878050878586,
      "grad_norm": 2.984375,
      "learning_rate": 9.45709199861206e-05,
      "loss": 0.6855,
      "step": 122100
    },
    {
      "epoch": 0.1667870519176756,
      "grad_norm": 3.4375,
      "learning_rate": 9.456595979501067e-05,
      "loss": 0.6884,
      "step": 122150
    },
    {
      "epoch": 0.16685532332656536,
      "grad_norm": 3.65625,
      "learning_rate": 9.45609974692379e-05,
      "loss": 0.6771,
      "step": 122200
    },
    {
      "epoch": 0.16692359473545512,
      "grad_norm": 3.0,
      "learning_rate": 9.455603300904e-05,
      "loss": 0.7289,
      "step": 122250
    },
    {
      "epoch": 0.16699186614434489,
      "grad_norm": 3.015625,
      "learning_rate": 9.455106641465472e-05,
      "loss": 0.7489,
      "step": 122300
    },
    {
      "epoch": 0.16706013755323462,
      "grad_norm": 3.1875,
      "learning_rate": 9.454609768632e-05,
      "loss": 0.7885,
      "step": 122350
    },
    {
      "epoch": 0.1671284089621244,
      "grad_norm": 3.328125,
      "learning_rate": 9.454112682427382e-05,
      "loss": 0.8888,
      "step": 122400
    },
    {
      "epoch": 0.16719668037101415,
      "grad_norm": 2.984375,
      "learning_rate": 9.453615382875426e-05,
      "loss": 0.6308,
      "step": 122450
    },
    {
      "epoch": 0.16726495177990391,
      "grad_norm": 2.65625,
      "learning_rate": 9.453117869999956e-05,
      "loss": 0.79,
      "step": 122500
    },
    {
      "epoch": 0.16733322318879365,
      "grad_norm": 2.90625,
      "learning_rate": 9.452620143824801e-05,
      "loss": 0.8752,
      "step": 122550
    },
    {
      "epoch": 0.16740149459768341,
      "grad_norm": 3.5,
      "learning_rate": 9.4521222043738e-05,
      "loss": 0.6326,
      "step": 122600
    },
    {
      "epoch": 0.16746976600657318,
      "grad_norm": 2.890625,
      "learning_rate": 9.451624051670805e-05,
      "loss": 0.6809,
      "step": 122650
    },
    {
      "epoch": 0.16753803741546291,
      "grad_norm": 3.03125,
      "learning_rate": 9.451125685739675e-05,
      "loss": 0.8789,
      "step": 122700
    },
    {
      "epoch": 0.16760630882435268,
      "grad_norm": 2.84375,
      "learning_rate": 9.450627106604284e-05,
      "loss": 0.8268,
      "step": 122750
    },
    {
      "epoch": 0.16767458023324244,
      "grad_norm": 3.796875,
      "learning_rate": 9.450128314288512e-05,
      "loss": 0.741,
      "step": 122800
    },
    {
      "epoch": 0.1677428516421322,
      "grad_norm": 2.625,
      "learning_rate": 9.449629308816252e-05,
      "loss": 0.955,
      "step": 122850
    },
    {
      "epoch": 0.16781112305102194,
      "grad_norm": 7.875,
      "learning_rate": 9.449130090211403e-05,
      "loss": 0.7165,
      "step": 122900
    },
    {
      "epoch": 0.1678793944599117,
      "grad_norm": 4.125,
      "learning_rate": 9.448630658497879e-05,
      "loss": 0.6272,
      "step": 122950
    },
    {
      "epoch": 0.16794766586880147,
      "grad_norm": 2.796875,
      "learning_rate": 9.448131013699603e-05,
      "loss": 0.5993,
      "step": 123000
    },
    {
      "epoch": 0.16801593727769124,
      "grad_norm": 2.890625,
      "learning_rate": 9.447631155840506e-05,
      "loss": 0.8069,
      "step": 123050
    },
    {
      "epoch": 0.16808420868658097,
      "grad_norm": 4.0625,
      "learning_rate": 9.447131084944532e-05,
      "loss": 0.733,
      "step": 123100
    },
    {
      "epoch": 0.16815248009547074,
      "grad_norm": 7.84375,
      "learning_rate": 9.446630801035633e-05,
      "loss": 0.658,
      "step": 123150
    },
    {
      "epoch": 0.1682207515043605,
      "grad_norm": 8.3125,
      "learning_rate": 9.446130304137772e-05,
      "loss": 0.7445,
      "step": 123200
    },
    {
      "epoch": 0.16828902291325026,
      "grad_norm": 3.25,
      "learning_rate": 9.445629594274922e-05,
      "loss": 0.9479,
      "step": 123250
    },
    {
      "epoch": 0.16835729432214,
      "grad_norm": 3.375,
      "learning_rate": 9.445128671471066e-05,
      "loss": 0.7716,
      "step": 123300
    },
    {
      "epoch": 0.16842556573102976,
      "grad_norm": 3.171875,
      "learning_rate": 9.4446275357502e-05,
      "loss": 0.6959,
      "step": 123350
    },
    {
      "epoch": 0.16849383713991953,
      "grad_norm": 3.265625,
      "learning_rate": 9.444126187136326e-05,
      "loss": 0.7704,
      "step": 123400
    },
    {
      "epoch": 0.1685621085488093,
      "grad_norm": 3.015625,
      "learning_rate": 9.443624625653457e-05,
      "loss": 0.6965,
      "step": 123450
    },
    {
      "epoch": 0.16863037995769903,
      "grad_norm": 3.28125,
      "learning_rate": 9.443122851325621e-05,
      "loss": 0.7329,
      "step": 123500
    },
    {
      "epoch": 0.1686986513665888,
      "grad_norm": 3.484375,
      "learning_rate": 9.44262086417685e-05,
      "loss": 0.7237,
      "step": 123550
    },
    {
      "epoch": 0.16876692277547856,
      "grad_norm": 3.578125,
      "learning_rate": 9.44211866423119e-05,
      "loss": 0.6087,
      "step": 123600
    },
    {
      "epoch": 0.1688351941843683,
      "grad_norm": 3.875,
      "learning_rate": 9.441616251512692e-05,
      "loss": 0.641,
      "step": 123650
    },
    {
      "epoch": 0.16890346559325806,
      "grad_norm": 3.53125,
      "learning_rate": 9.441113626045426e-05,
      "loss": 0.6942,
      "step": 123700
    },
    {
      "epoch": 0.16897173700214782,
      "grad_norm": 4.28125,
      "learning_rate": 9.440610787853463e-05,
      "loss": 0.7261,
      "step": 123750
    },
    {
      "epoch": 0.16904000841103758,
      "grad_norm": 2.9375,
      "learning_rate": 9.440107736960892e-05,
      "loss": 0.7373,
      "step": 123800
    },
    {
      "epoch": 0.16910827981992732,
      "grad_norm": 2.796875,
      "learning_rate": 9.439604473391806e-05,
      "loss": 0.7212,
      "step": 123850
    },
    {
      "epoch": 0.16917655122881708,
      "grad_norm": 7.75,
      "learning_rate": 9.439100997170314e-05,
      "loss": 0.7955,
      "step": 123900
    },
    {
      "epoch": 0.16924482263770685,
      "grad_norm": 4.84375,
      "learning_rate": 9.438597308320527e-05,
      "loss": 0.6281,
      "step": 123950
    },
    {
      "epoch": 0.1693130940465966,
      "grad_norm": 2.75,
      "learning_rate": 9.438093406866576e-05,
      "loss": 0.6452,
      "step": 124000
    },
    {
      "epoch": 0.16938136545548635,
      "grad_norm": 3.703125,
      "learning_rate": 9.437589292832594e-05,
      "loss": 0.8249,
      "step": 124050
    },
    {
      "epoch": 0.1694496368643761,
      "grad_norm": 2.53125,
      "learning_rate": 9.437084966242731e-05,
      "loss": 0.6308,
      "step": 124100
    },
    {
      "epoch": 0.16951790827326588,
      "grad_norm": 3.640625,
      "learning_rate": 9.43658042712114e-05,
      "loss": 0.7937,
      "step": 124150
    },
    {
      "epoch": 0.16958617968215564,
      "grad_norm": 2.90625,
      "learning_rate": 9.43607567549199e-05,
      "loss": 0.7985,
      "step": 124200
    },
    {
      "epoch": 0.16965445109104538,
      "grad_norm": 2.96875,
      "learning_rate": 9.435570711379457e-05,
      "loss": 0.6896,
      "step": 124250
    },
    {
      "epoch": 0.16972272249993514,
      "grad_norm": 7.78125,
      "learning_rate": 9.43506553480773e-05,
      "loss": 0.6679,
      "step": 124300
    },
    {
      "epoch": 0.1697909939088249,
      "grad_norm": 7.9375,
      "learning_rate": 9.434560145801004e-05,
      "loss": 0.7597,
      "step": 124350
    },
    {
      "epoch": 0.16985926531771467,
      "grad_norm": 2.5,
      "learning_rate": 9.43405454438349e-05,
      "loss": 0.6529,
      "step": 124400
    },
    {
      "epoch": 0.1699275367266044,
      "grad_norm": 3.640625,
      "learning_rate": 9.433548730579401e-05,
      "loss": 0.6284,
      "step": 124450
    },
    {
      "epoch": 0.16999580813549417,
      "grad_norm": 2.921875,
      "learning_rate": 9.433042704412969e-05,
      "loss": 0.7406,
      "step": 124500
    },
    {
      "epoch": 0.17006407954438393,
      "grad_norm": 7.34375,
      "learning_rate": 9.43253646590843e-05,
      "loss": 0.6641,
      "step": 124550
    },
    {
      "epoch": 0.17013235095327367,
      "grad_norm": 7.8125,
      "learning_rate": 9.432030015090034e-05,
      "loss": 0.8155,
      "step": 124600
    },
    {
      "epoch": 0.17020062236216343,
      "grad_norm": 3.9375,
      "learning_rate": 9.431523351982039e-05,
      "loss": 0.7289,
      "step": 124650
    },
    {
      "epoch": 0.1702688937710532,
      "grad_norm": 2.640625,
      "learning_rate": 9.431016476608712e-05,
      "loss": 0.7007,
      "step": 124700
    },
    {
      "epoch": 0.17033716517994296,
      "grad_norm": 3.21875,
      "learning_rate": 9.430509388994333e-05,
      "loss": 0.7389,
      "step": 124750
    },
    {
      "epoch": 0.1704054365888327,
      "grad_norm": 3.578125,
      "learning_rate": 9.430002089163192e-05,
      "loss": 0.684,
      "step": 124800
    },
    {
      "epoch": 0.17047370799772246,
      "grad_norm": 7.40625,
      "learning_rate": 9.429494577139585e-05,
      "loss": 0.7961,
      "step": 124850
    },
    {
      "epoch": 0.17054197940661223,
      "grad_norm": 3.78125,
      "learning_rate": 9.428986852947825e-05,
      "loss": 0.8414,
      "step": 124900
    },
    {
      "epoch": 0.170610250815502,
      "grad_norm": 3.21875,
      "learning_rate": 9.42847891661223e-05,
      "loss": 0.7853,
      "step": 124950
    },
    {
      "epoch": 0.17067852222439173,
      "grad_norm": 3.0625,
      "learning_rate": 9.427970768157129e-05,
      "loss": 0.8011,
      "step": 125000
    },
    {
      "epoch": 0.1707467936332815,
      "grad_norm": 3.296875,
      "learning_rate": 9.427462407606861e-05,
      "loss": 0.8367,
      "step": 125050
    },
    {
      "epoch": 0.17081506504217125,
      "grad_norm": 3.859375,
      "learning_rate": 9.426953834985778e-05,
      "loss": 0.7567,
      "step": 125100
    },
    {
      "epoch": 0.17088333645106102,
      "grad_norm": 3.0625,
      "learning_rate": 9.426445050318238e-05,
      "loss": 0.7985,
      "step": 125150
    },
    {
      "epoch": 0.17095160785995075,
      "grad_norm": 3.09375,
      "learning_rate": 9.425936053628615e-05,
      "loss": 0.6902,
      "step": 125200
    },
    {
      "epoch": 0.17101987926884052,
      "grad_norm": 2.65625,
      "learning_rate": 9.425426844941285e-05,
      "loss": 0.8045,
      "step": 125250
    },
    {
      "epoch": 0.17108815067773028,
      "grad_norm": 2.65625,
      "learning_rate": 9.424917424280642e-05,
      "loss": 0.7801,
      "step": 125300
    },
    {
      "epoch": 0.17115642208662002,
      "grad_norm": 2.703125,
      "learning_rate": 9.424407791671083e-05,
      "loss": 0.7309,
      "step": 125350
    },
    {
      "epoch": 0.17122469349550978,
      "grad_norm": 3.640625,
      "learning_rate": 9.423897947137022e-05,
      "loss": 0.8521,
      "step": 125400
    },
    {
      "epoch": 0.17129296490439955,
      "grad_norm": 2.703125,
      "learning_rate": 9.42338789070288e-05,
      "loss": 0.6394,
      "step": 125450
    },
    {
      "epoch": 0.1713612363132893,
      "grad_norm": 3.484375,
      "learning_rate": 9.422877622393087e-05,
      "loss": 0.816,
      "step": 125500
    },
    {
      "epoch": 0.17142950772217905,
      "grad_norm": 3.1875,
      "learning_rate": 9.422367142232083e-05,
      "loss": 0.8102,
      "step": 125550
    },
    {
      "epoch": 0.1714977791310688,
      "grad_norm": 3.375,
      "learning_rate": 9.421856450244321e-05,
      "loss": 0.6852,
      "step": 125600
    },
    {
      "epoch": 0.17156605053995858,
      "grad_norm": 2.375,
      "learning_rate": 9.421345546454266e-05,
      "loss": 0.7299,
      "step": 125650
    },
    {
      "epoch": 0.17163432194884834,
      "grad_norm": 3.28125,
      "learning_rate": 9.420834430886383e-05,
      "loss": 0.7821,
      "step": 125700
    },
    {
      "epoch": 0.17170259335773808,
      "grad_norm": 2.953125,
      "learning_rate": 9.420323103565158e-05,
      "loss": 0.6735,
      "step": 125750
    },
    {
      "epoch": 0.17177086476662784,
      "grad_norm": 2.765625,
      "learning_rate": 9.419811564515083e-05,
      "loss": 0.8258,
      "step": 125800
    },
    {
      "epoch": 0.1718391361755176,
      "grad_norm": 7.5625,
      "learning_rate": 9.419299813760658e-05,
      "loss": 0.7595,
      "step": 125850
    },
    {
      "epoch": 0.17190740758440737,
      "grad_norm": 2.875,
      "learning_rate": 9.418787851326398e-05,
      "loss": 0.6871,
      "step": 125900
    },
    {
      "epoch": 0.1719756789932971,
      "grad_norm": 2.703125,
      "learning_rate": 9.418275677236826e-05,
      "loss": 0.7358,
      "step": 125950
    },
    {
      "epoch": 0.17204395040218687,
      "grad_norm": 3.140625,
      "learning_rate": 9.41776329151647e-05,
      "loss": 0.5956,
      "step": 126000
    },
    {
      "epoch": 0.17211222181107663,
      "grad_norm": 8.0,
      "learning_rate": 9.417250694189877e-05,
      "loss": 0.7703,
      "step": 126050
    },
    {
      "epoch": 0.1721804932199664,
      "grad_norm": 3.15625,
      "learning_rate": 9.416737885281598e-05,
      "loss": 0.7976,
      "step": 126100
    },
    {
      "epoch": 0.17224876462885613,
      "grad_norm": 4.125,
      "learning_rate": 9.416224864816197e-05,
      "loss": 0.6435,
      "step": 126150
    },
    {
      "epoch": 0.1723170360377459,
      "grad_norm": 2.609375,
      "learning_rate": 9.415711632818247e-05,
      "loss": 0.7544,
      "step": 126200
    },
    {
      "epoch": 0.17238530744663566,
      "grad_norm": 3.59375,
      "learning_rate": 9.41519818931233e-05,
      "loss": 0.607,
      "step": 126250
    },
    {
      "epoch": 0.1724535788555254,
      "grad_norm": 3.015625,
      "learning_rate": 9.41468453432304e-05,
      "loss": 0.6634,
      "step": 126300
    },
    {
      "epoch": 0.17252185026441516,
      "grad_norm": 3.546875,
      "learning_rate": 9.414170667874983e-05,
      "loss": 0.7815,
      "step": 126350
    },
    {
      "epoch": 0.17259012167330492,
      "grad_norm": 2.546875,
      "learning_rate": 9.413656589992767e-05,
      "loss": 0.6403,
      "step": 126400
    },
    {
      "epoch": 0.1726583930821947,
      "grad_norm": 7.9375,
      "learning_rate": 9.413142300701022e-05,
      "loss": 0.8458,
      "step": 126450
    },
    {
      "epoch": 0.17272666449108443,
      "grad_norm": 3.28125,
      "learning_rate": 9.412627800024378e-05,
      "loss": 0.7737,
      "step": 126500
    },
    {
      "epoch": 0.1727949358999742,
      "grad_norm": 3.234375,
      "learning_rate": 9.412113087987482e-05,
      "loss": 0.7228,
      "step": 126550
    },
    {
      "epoch": 0.17286320730886395,
      "grad_norm": 2.84375,
      "learning_rate": 9.411598164614985e-05,
      "loss": 0.6834,
      "step": 126600
    },
    {
      "epoch": 0.17293147871775372,
      "grad_norm": 5.03125,
      "learning_rate": 9.411083029931553e-05,
      "loss": 0.7414,
      "step": 126650
    },
    {
      "epoch": 0.17299975012664345,
      "grad_norm": 7.21875,
      "learning_rate": 9.410567683961862e-05,
      "loss": 0.7256,
      "step": 126700
    },
    {
      "epoch": 0.17306802153553322,
      "grad_norm": 3.40625,
      "learning_rate": 9.410052126730593e-05,
      "loss": 0.7992,
      "step": 126750
    },
    {
      "epoch": 0.17313629294442298,
      "grad_norm": 3.671875,
      "learning_rate": 9.409536358262442e-05,
      "loss": 0.6537,
      "step": 126800
    },
    {
      "epoch": 0.17320456435331275,
      "grad_norm": 4.25,
      "learning_rate": 9.409020378582115e-05,
      "loss": 0.7246,
      "step": 126850
    },
    {
      "epoch": 0.17327283576220248,
      "grad_norm": 2.859375,
      "learning_rate": 9.408504187714325e-05,
      "loss": 0.7814,
      "step": 126900
    },
    {
      "epoch": 0.17334110717109225,
      "grad_norm": 2.96875,
      "learning_rate": 9.407987785683798e-05,
      "loss": 0.7211,
      "step": 126950
    },
    {
      "epoch": 0.173409378579982,
      "grad_norm": 3.5,
      "learning_rate": 9.407471172515271e-05,
      "loss": 0.6871,
      "step": 127000
    },
    {
      "epoch": 0.17347764998887177,
      "grad_norm": 3.140625,
      "learning_rate": 9.406954348233486e-05,
      "loss": 0.7391,
      "step": 127050
    },
    {
      "epoch": 0.1735459213977615,
      "grad_norm": 3.0,
      "learning_rate": 9.4064373128632e-05,
      "loss": 0.657,
      "step": 127100
    },
    {
      "epoch": 0.17361419280665127,
      "grad_norm": 4.6875,
      "learning_rate": 9.405920066429177e-05,
      "loss": 0.7492,
      "step": 127150
    },
    {
      "epoch": 0.17368246421554104,
      "grad_norm": 2.640625,
      "learning_rate": 9.405402608956195e-05,
      "loss": 0.8109,
      "step": 127200
    },
    {
      "epoch": 0.17375073562443077,
      "grad_norm": 2.546875,
      "learning_rate": 9.404884940469039e-05,
      "loss": 0.8272,
      "step": 127250
    },
    {
      "epoch": 0.17381900703332054,
      "grad_norm": 2.71875,
      "learning_rate": 9.404367060992503e-05,
      "loss": 0.7356,
      "step": 127300
    },
    {
      "epoch": 0.1738872784422103,
      "grad_norm": 2.953125,
      "learning_rate": 9.403848970551394e-05,
      "loss": 0.7538,
      "step": 127350
    },
    {
      "epoch": 0.17395554985110007,
      "grad_norm": 2.65625,
      "learning_rate": 9.403330669170529e-05,
      "loss": 0.6416,
      "step": 127400
    },
    {
      "epoch": 0.1740238212599898,
      "grad_norm": 2.796875,
      "learning_rate": 9.402812156874731e-05,
      "loss": 0.9085,
      "step": 127450
    },
    {
      "epoch": 0.17409209266887957,
      "grad_norm": 3.8125,
      "learning_rate": 9.40229343368884e-05,
      "loss": 0.7596,
      "step": 127500
    },
    {
      "epoch": 0.17416036407776933,
      "grad_norm": 4.0625,
      "learning_rate": 9.401774499637701e-05,
      "loss": 0.7036,
      "step": 127550
    },
    {
      "epoch": 0.1742286354866591,
      "grad_norm": 3.125,
      "learning_rate": 9.40125535474617e-05,
      "loss": 0.7124,
      "step": 127600
    },
    {
      "epoch": 0.17429690689554883,
      "grad_norm": 7.53125,
      "learning_rate": 9.400735999039113e-05,
      "loss": 0.8953,
      "step": 127650
    },
    {
      "epoch": 0.1743651783044386,
      "grad_norm": 4.09375,
      "learning_rate": 9.400216432541406e-05,
      "loss": 0.8286,
      "step": 127700
    },
    {
      "epoch": 0.17443344971332836,
      "grad_norm": 3.75,
      "learning_rate": 9.399696655277938e-05,
      "loss": 0.7845,
      "step": 127750
    },
    {
      "epoch": 0.17450172112221812,
      "grad_norm": 2.65625,
      "learning_rate": 9.399176667273605e-05,
      "loss": 0.6284,
      "step": 127800
    },
    {
      "epoch": 0.17456999253110786,
      "grad_norm": 8.0625,
      "learning_rate": 9.398656468553315e-05,
      "loss": 0.7482,
      "step": 127850
    },
    {
      "epoch": 0.17463826393999762,
      "grad_norm": 2.359375,
      "learning_rate": 9.39813605914198e-05,
      "loss": 0.8137,
      "step": 127900
    },
    {
      "epoch": 0.1747065353488874,
      "grad_norm": 2.75,
      "learning_rate": 9.397615439064534e-05,
      "loss": 0.6693,
      "step": 127950
    },
    {
      "epoch": 0.17477480675777715,
      "grad_norm": 3.265625,
      "learning_rate": 9.397094608345906e-05,
      "loss": 0.6524,
      "step": 128000
    },
    {
      "epoch": 0.1748430781666669,
      "grad_norm": 3.609375,
      "learning_rate": 9.396573567011052e-05,
      "loss": 0.723,
      "step": 128050
    },
    {
      "epoch": 0.17491134957555665,
      "grad_norm": 3.5,
      "learning_rate": 9.396052315084925e-05,
      "loss": 0.8046,
      "step": 128100
    },
    {
      "epoch": 0.17497962098444642,
      "grad_norm": 2.953125,
      "learning_rate": 9.395530852592492e-05,
      "loss": 0.7816,
      "step": 128150
    },
    {
      "epoch": 0.17504789239333615,
      "grad_norm": 2.859375,
      "learning_rate": 9.395009179558729e-05,
      "loss": 0.7717,
      "step": 128200
    },
    {
      "epoch": 0.17511616380222592,
      "grad_norm": 3.015625,
      "learning_rate": 9.394487296008628e-05,
      "loss": 0.6346,
      "step": 128250
    },
    {
      "epoch": 0.17518443521111568,
      "grad_norm": 3.09375,
      "learning_rate": 9.393965201967184e-05,
      "loss": 0.6623,
      "step": 128300
    },
    {
      "epoch": 0.17525270662000544,
      "grad_norm": 4.21875,
      "learning_rate": 9.393442897459406e-05,
      "loss": 0.8442,
      "step": 128350
    },
    {
      "epoch": 0.17532097802889518,
      "grad_norm": 8.625,
      "learning_rate": 9.392920382510309e-05,
      "loss": 0.7204,
      "step": 128400
    },
    {
      "epoch": 0.17538924943778494,
      "grad_norm": 3.1875,
      "learning_rate": 9.392397657144925e-05,
      "loss": 0.7367,
      "step": 128450
    },
    {
      "epoch": 0.1754575208466747,
      "grad_norm": 3.109375,
      "learning_rate": 9.39187472138829e-05,
      "loss": 0.8143,
      "step": 128500
    },
    {
      "epoch": 0.17552579225556447,
      "grad_norm": 3.484375,
      "learning_rate": 9.39135157526545e-05,
      "loss": 0.7355,
      "step": 128550
    },
    {
      "epoch": 0.1755940636644542,
      "grad_norm": 3.765625,
      "learning_rate": 9.390828218801468e-05,
      "loss": 0.796,
      "step": 128600
    },
    {
      "epoch": 0.17566233507334397,
      "grad_norm": 4.75,
      "learning_rate": 9.390304652021407e-05,
      "loss": 0.7259,
      "step": 128650
    },
    {
      "epoch": 0.17573060648223374,
      "grad_norm": 9.0,
      "learning_rate": 9.38978087495035e-05,
      "loss": 0.8165,
      "step": 128700
    },
    {
      "epoch": 0.1757988778911235,
      "grad_norm": 2.921875,
      "learning_rate": 9.38925688761338e-05,
      "loss": 0.7931,
      "step": 128750
    },
    {
      "epoch": 0.17586714930001324,
      "grad_norm": 7.78125,
      "learning_rate": 9.3887326900356e-05,
      "loss": 0.7306,
      "step": 128800
    },
    {
      "epoch": 0.175935420708903,
      "grad_norm": 3.0,
      "learning_rate": 9.38820828224212e-05,
      "loss": 0.7873,
      "step": 128850
    },
    {
      "epoch": 0.17600369211779276,
      "grad_norm": 2.734375,
      "learning_rate": 9.387683664258051e-05,
      "loss": 0.7277,
      "step": 128900
    },
    {
      "epoch": 0.1760719635266825,
      "grad_norm": 3.09375,
      "learning_rate": 9.38715883610853e-05,
      "loss": 0.7475,
      "step": 128950
    },
    {
      "epoch": 0.17614023493557227,
      "grad_norm": 3.921875,
      "learning_rate": 9.386633797818689e-05,
      "loss": 0.7974,
      "step": 129000
    },
    {
      "epoch": 0.17620850634446203,
      "grad_norm": 3.765625,
      "learning_rate": 9.386108549413681e-05,
      "loss": 0.6638,
      "step": 129050
    },
    {
      "epoch": 0.1762767777533518,
      "grad_norm": 2.78125,
      "learning_rate": 9.385583090918663e-05,
      "loss": 0.6502,
      "step": 129100
    },
    {
      "epoch": 0.17634504916224153,
      "grad_norm": 3.03125,
      "learning_rate": 9.385057422358808e-05,
      "loss": 0.7028,
      "step": 129150
    },
    {
      "epoch": 0.1764133205711313,
      "grad_norm": 7.1875,
      "learning_rate": 9.384531543759287e-05,
      "loss": 0.7434,
      "step": 129200
    },
    {
      "epoch": 0.17648159198002106,
      "grad_norm": 3.234375,
      "learning_rate": 9.384005455145296e-05,
      "loss": 0.7539,
      "step": 129250
    },
    {
      "epoch": 0.17654986338891082,
      "grad_norm": 3.75,
      "learning_rate": 9.383479156542032e-05,
      "loss": 0.7009,
      "step": 129300
    },
    {
      "epoch": 0.17661813479780056,
      "grad_norm": 3.1875,
      "learning_rate": 9.382952647974702e-05,
      "loss": 0.7252,
      "step": 129350
    },
    {
      "epoch": 0.17668640620669032,
      "grad_norm": 7.375,
      "learning_rate": 9.382425929468528e-05,
      "loss": 0.885,
      "step": 129400
    },
    {
      "epoch": 0.17675467761558009,
      "grad_norm": 3.671875,
      "learning_rate": 9.38189900104874e-05,
      "loss": 0.7741,
      "step": 129450
    },
    {
      "epoch": 0.17682294902446985,
      "grad_norm": 3.484375,
      "learning_rate": 9.381371862740573e-05,
      "loss": 0.7584,
      "step": 129500
    },
    {
      "epoch": 0.17689122043335959,
      "grad_norm": 3.21875,
      "learning_rate": 9.380844514569279e-05,
      "loss": 0.8231,
      "step": 129550
    },
    {
      "epoch": 0.17695949184224935,
      "grad_norm": 2.875,
      "learning_rate": 9.38031695656012e-05,
      "loss": 0.6574,
      "step": 129600
    },
    {
      "epoch": 0.17702776325113911,
      "grad_norm": 2.625,
      "learning_rate": 9.37978918873836e-05,
      "loss": 0.6581,
      "step": 129650
    },
    {
      "epoch": 0.17709603466002888,
      "grad_norm": 3.53125,
      "learning_rate": 9.379261211129282e-05,
      "loss": 0.7702,
      "step": 129700
    },
    {
      "epoch": 0.17716430606891861,
      "grad_norm": 8.4375,
      "learning_rate": 9.378733023758178e-05,
      "loss": 0.7541,
      "step": 129750
    },
    {
      "epoch": 0.17723257747780838,
      "grad_norm": 3.65625,
      "learning_rate": 9.37820462665034e-05,
      "loss": 0.7108,
      "step": 129800
    },
    {
      "epoch": 0.17730084888669814,
      "grad_norm": 3.875,
      "learning_rate": 9.377676019831085e-05,
      "loss": 0.8271,
      "step": 129850
    },
    {
      "epoch": 0.17736912029558788,
      "grad_norm": 2.71875,
      "learning_rate": 9.37714720332573e-05,
      "loss": 0.9058,
      "step": 129900
    },
    {
      "epoch": 0.17743739170447764,
      "grad_norm": 8.1875,
      "learning_rate": 9.376618177159604e-05,
      "loss": 0.7194,
      "step": 129950
    },
    {
      "epoch": 0.1775056631133674,
      "grad_norm": 4.15625,
      "learning_rate": 9.376088941358047e-05,
      "loss": 0.6941,
      "step": 130000
    },
    {
      "epoch": 0.17757393452225717,
      "grad_norm": 2.953125,
      "learning_rate": 9.375559495946411e-05,
      "loss": 0.6945,
      "step": 130050
    },
    {
      "epoch": 0.1776422059311469,
      "grad_norm": 3.59375,
      "learning_rate": 9.375029840950054e-05,
      "loss": 0.6556,
      "step": 130100
    },
    {
      "epoch": 0.17771047734003667,
      "grad_norm": 2.546875,
      "learning_rate": 9.374499976394346e-05,
      "loss": 0.759,
      "step": 130150
    },
    {
      "epoch": 0.17777874874892644,
      "grad_norm": 2.828125,
      "learning_rate": 9.373969902304667e-05,
      "loss": 0.6401,
      "step": 130200
    },
    {
      "epoch": 0.1778470201578162,
      "grad_norm": 3.8125,
      "learning_rate": 9.373439618706405e-05,
      "loss": 0.7765,
      "step": 130250
    },
    {
      "epoch": 0.17791529156670594,
      "grad_norm": 2.640625,
      "learning_rate": 9.372909125624965e-05,
      "loss": 0.6928,
      "step": 130300
    },
    {
      "epoch": 0.1779835629755957,
      "grad_norm": 2.828125,
      "learning_rate": 9.372378423085754e-05,
      "loss": 0.7942,
      "step": 130350
    },
    {
      "epoch": 0.17805183438448546,
      "grad_norm": 6.8125,
      "learning_rate": 9.371847511114192e-05,
      "loss": 0.7797,
      "step": 130400
    },
    {
      "epoch": 0.17812010579337523,
      "grad_norm": 2.8125,
      "learning_rate": 9.371316389735709e-05,
      "loss": 0.7559,
      "step": 130450
    },
    {
      "epoch": 0.17818837720226496,
      "grad_norm": 2.9375,
      "learning_rate": 9.370785058975746e-05,
      "loss": 0.6286,
      "step": 130500
    },
    {
      "epoch": 0.17825664861115473,
      "grad_norm": 3.140625,
      "learning_rate": 9.370253518859753e-05,
      "loss": 0.6753,
      "step": 130550
    },
    {
      "epoch": 0.1783249200200445,
      "grad_norm": 4.25,
      "learning_rate": 9.36972176941319e-05,
      "loss": 0.6097,
      "step": 130600
    },
    {
      "epoch": 0.17839319142893426,
      "grad_norm": 2.953125,
      "learning_rate": 9.369189810661526e-05,
      "loss": 0.7793,
      "step": 130650
    },
    {
      "epoch": 0.178461462837824,
      "grad_norm": 4.125,
      "learning_rate": 9.368657642630243e-05,
      "loss": 0.7513,
      "step": 130700
    },
    {
      "epoch": 0.17852973424671376,
      "grad_norm": 2.734375,
      "learning_rate": 9.368125265344832e-05,
      "loss": 0.9376,
      "step": 130750
    },
    {
      "epoch": 0.17859800565560352,
      "grad_norm": 3.1875,
      "learning_rate": 9.367592678830791e-05,
      "loss": 0.6314,
      "step": 130800
    },
    {
      "epoch": 0.17866627706449326,
      "grad_norm": 3.0625,
      "learning_rate": 9.367059883113632e-05,
      "loss": 0.7043,
      "step": 130850
    },
    {
      "epoch": 0.17873454847338302,
      "grad_norm": 3.59375,
      "learning_rate": 9.366526878218874e-05,
      "loss": 0.8541,
      "step": 130900
    },
    {
      "epoch": 0.17880281988227278,
      "grad_norm": 7.625,
      "learning_rate": 9.36599366417205e-05,
      "loss": 0.7347,
      "step": 130950
    },
    {
      "epoch": 0.17887109129116255,
      "grad_norm": 3.03125,
      "learning_rate": 9.365460240998697e-05,
      "loss": 0.8812,
      "step": 131000
    },
    {
      "epoch": 0.17893936270005228,
      "grad_norm": 4.125,
      "learning_rate": 9.364926608724367e-05,
      "loss": 0.8111,
      "step": 131050
    },
    {
      "epoch": 0.17900763410894205,
      "grad_norm": 8.1875,
      "learning_rate": 9.364392767374621e-05,
      "loss": 0.745,
      "step": 131100
    },
    {
      "epoch": 0.1790759055178318,
      "grad_norm": 3.734375,
      "learning_rate": 9.36385871697503e-05,
      "loss": 0.7307,
      "step": 131150
    },
    {
      "epoch": 0.17914417692672158,
      "grad_norm": 7.40625,
      "learning_rate": 9.363324457551173e-05,
      "loss": 0.7844,
      "step": 131200
    },
    {
      "epoch": 0.1792124483356113,
      "grad_norm": 2.765625,
      "learning_rate": 9.362789989128638e-05,
      "loss": 0.8739,
      "step": 131250
    },
    {
      "epoch": 0.17928071974450108,
      "grad_norm": 2.859375,
      "learning_rate": 9.362255311733032e-05,
      "loss": 0.7767,
      "step": 131300
    },
    {
      "epoch": 0.17934899115339084,
      "grad_norm": 3.09375,
      "learning_rate": 9.36172042538996e-05,
      "loss": 0.6777,
      "step": 131350
    },
    {
      "epoch": 0.1794172625622806,
      "grad_norm": 3.609375,
      "learning_rate": 9.361185330125044e-05,
      "loss": 0.8011,
      "step": 131400
    },
    {
      "epoch": 0.17948553397117034,
      "grad_norm": 3.484375,
      "learning_rate": 9.360650025963914e-05,
      "loss": 0.7503,
      "step": 131450
    },
    {
      "epoch": 0.1795538053800601,
      "grad_norm": 3.796875,
      "learning_rate": 9.360114512932213e-05,
      "loss": 0.7408,
      "step": 131500
    },
    {
      "epoch": 0.17962207678894987,
      "grad_norm": 7.5,
      "learning_rate": 9.359578791055589e-05,
      "loss": 0.7184,
      "step": 131550
    },
    {
      "epoch": 0.17969034819783963,
      "grad_norm": 3.828125,
      "learning_rate": 9.359042860359703e-05,
      "loss": 0.7091,
      "step": 131600
    },
    {
      "epoch": 0.17975861960672937,
      "grad_norm": 3.875,
      "learning_rate": 9.358506720870229e-05,
      "loss": 0.7922,
      "step": 131650
    },
    {
      "epoch": 0.17982689101561913,
      "grad_norm": 2.734375,
      "learning_rate": 9.357970372612842e-05,
      "loss": 0.7311,
      "step": 131700
    },
    {
      "epoch": 0.1798951624245089,
      "grad_norm": 3.09375,
      "learning_rate": 9.357433815613232e-05,
      "loss": 0.8164,
      "step": 131750
    },
    {
      "epoch": 0.17996343383339863,
      "grad_norm": 2.71875,
      "learning_rate": 9.356897049897106e-05,
      "loss": 0.8008,
      "step": 131800
    },
    {
      "epoch": 0.1800317052422884,
      "grad_norm": 3.265625,
      "learning_rate": 9.356360075490169e-05,
      "loss": 0.7632,
      "step": 131850
    },
    {
      "epoch": 0.18009997665117816,
      "grad_norm": 3.15625,
      "learning_rate": 9.355822892418145e-05,
      "loss": 0.8242,
      "step": 131900
    },
    {
      "epoch": 0.18016824806006793,
      "grad_norm": 2.984375,
      "learning_rate": 9.355285500706763e-05,
      "loss": 0.6882,
      "step": 131950
    },
    {
      "epoch": 0.18023651946895766,
      "grad_norm": 2.796875,
      "learning_rate": 9.354747900381761e-05,
      "loss": 0.8358,
      "step": 132000
    },
    {
      "epoch": 0.18030479087784743,
      "grad_norm": 2.375,
      "learning_rate": 9.354210091468895e-05,
      "loss": 0.7264,
      "step": 132050
    },
    {
      "epoch": 0.1803730622867372,
      "grad_norm": 3.078125,
      "learning_rate": 9.353672073993921e-05,
      "loss": 0.6637,
      "step": 132100
    },
    {
      "epoch": 0.18044133369562695,
      "grad_norm": 2.671875,
      "learning_rate": 9.35313384798261e-05,
      "loss": 0.7656,
      "step": 132150
    },
    {
      "epoch": 0.1805096051045167,
      "grad_norm": 2.921875,
      "learning_rate": 9.352595413460745e-05,
      "loss": 0.7351,
      "step": 132200
    },
    {
      "epoch": 0.18057787651340645,
      "grad_norm": 2.671875,
      "learning_rate": 9.352056770454114e-05,
      "loss": 0.743,
      "step": 132250
    },
    {
      "epoch": 0.18064614792229622,
      "grad_norm": 2.953125,
      "learning_rate": 9.351517918988518e-05,
      "loss": 0.673,
      "step": 132300
    },
    {
      "epoch": 0.18071441933118598,
      "grad_norm": 2.40625,
      "learning_rate": 9.350978859089768e-05,
      "loss": 0.6983,
      "step": 132350
    },
    {
      "epoch": 0.18078269074007572,
      "grad_norm": 3.375,
      "learning_rate": 9.350439590783683e-05,
      "loss": 0.6216,
      "step": 132400
    },
    {
      "epoch": 0.18085096214896548,
      "grad_norm": 3.4375,
      "learning_rate": 9.349900114096098e-05,
      "loss": 0.763,
      "step": 132450
    },
    {
      "epoch": 0.18091923355785525,
      "grad_norm": 2.5625,
      "learning_rate": 9.349360429052846e-05,
      "loss": 0.6436,
      "step": 132500
    },
    {
      "epoch": 0.18098750496674498,
      "grad_norm": 2.640625,
      "learning_rate": 9.348820535679782e-05,
      "loss": 0.6745,
      "step": 132550
    },
    {
      "epoch": 0.18105577637563475,
      "grad_norm": 3.5625,
      "learning_rate": 9.348280434002766e-05,
      "loss": 0.8689,
      "step": 132600
    },
    {
      "epoch": 0.1811240477845245,
      "grad_norm": 3.796875,
      "learning_rate": 9.347740124047668e-05,
      "loss": 0.8014,
      "step": 132650
    },
    {
      "epoch": 0.18119231919341428,
      "grad_norm": 3.578125,
      "learning_rate": 9.347199605840367e-05,
      "loss": 0.6638,
      "step": 132700
    },
    {
      "epoch": 0.181260590602304,
      "grad_norm": 3.828125,
      "learning_rate": 9.346658879406755e-05,
      "loss": 0.7329,
      "step": 132750
    },
    {
      "epoch": 0.18132886201119378,
      "grad_norm": 2.59375,
      "learning_rate": 9.346117944772733e-05,
      "loss": 0.6409,
      "step": 132800
    },
    {
      "epoch": 0.18139713342008354,
      "grad_norm": 2.65625,
      "learning_rate": 9.345576801964207e-05,
      "loss": 0.9021,
      "step": 132850
    },
    {
      "epoch": 0.1814654048289733,
      "grad_norm": 2.734375,
      "learning_rate": 9.345035451007102e-05,
      "loss": 0.6937,
      "step": 132900
    },
    {
      "epoch": 0.18153367623786304,
      "grad_norm": 3.03125,
      "learning_rate": 9.344493891927345e-05,
      "loss": 0.8015,
      "step": 132950
    },
    {
      "epoch": 0.1816019476467528,
      "grad_norm": 2.84375,
      "learning_rate": 9.343952124750879e-05,
      "loss": 0.6454,
      "step": 133000
    },
    {
      "epoch": 0.18167021905564257,
      "grad_norm": 2.90625,
      "learning_rate": 9.34341014950365e-05,
      "loss": 0.742,
      "step": 133050
    },
    {
      "epoch": 0.18173849046453233,
      "grad_norm": 3.359375,
      "learning_rate": 9.342867966211622e-05,
      "loss": 0.6852,
      "step": 133100
    },
    {
      "epoch": 0.18180676187342207,
      "grad_norm": 3.4375,
      "learning_rate": 9.342325574900761e-05,
      "loss": 0.6651,
      "step": 133150
    },
    {
      "epoch": 0.18187503328231183,
      "grad_norm": 2.390625,
      "learning_rate": 9.34178297559705e-05,
      "loss": 0.8667,
      "step": 133200
    },
    {
      "epoch": 0.1819433046912016,
      "grad_norm": 3.234375,
      "learning_rate": 9.341240168326481e-05,
      "loss": 0.8077,
      "step": 133250
    },
    {
      "epoch": 0.18201157610009136,
      "grad_norm": 2.640625,
      "learning_rate": 9.340697153115048e-05,
      "loss": 0.7527,
      "step": 133300
    },
    {
      "epoch": 0.1820798475089811,
      "grad_norm": 2.765625,
      "learning_rate": 9.340153929988766e-05,
      "loss": 0.6407,
      "step": 133350
    },
    {
      "epoch": 0.18214811891787086,
      "grad_norm": 2.59375,
      "learning_rate": 9.339610498973652e-05,
      "loss": 0.8279,
      "step": 133400
    },
    {
      "epoch": 0.18221639032676062,
      "grad_norm": 3.078125,
      "learning_rate": 9.339066860095738e-05,
      "loss": 0.8157,
      "step": 133450
    },
    {
      "epoch": 0.18228466173565036,
      "grad_norm": 2.765625,
      "learning_rate": 9.33852301338106e-05,
      "loss": 0.7057,
      "step": 133500
    },
    {
      "epoch": 0.18235293314454012,
      "grad_norm": 7.78125,
      "learning_rate": 9.337978958855672e-05,
      "loss": 0.7143,
      "step": 133550
    },
    {
      "epoch": 0.1824212045534299,
      "grad_norm": 4.0625,
      "learning_rate": 9.33743469654563e-05,
      "loss": 0.7176,
      "step": 133600
    },
    {
      "epoch": 0.18248947596231965,
      "grad_norm": 2.65625,
      "learning_rate": 9.336890226477006e-05,
      "loss": 0.7545,
      "step": 133650
    },
    {
      "epoch": 0.1825577473712094,
      "grad_norm": 3.890625,
      "learning_rate": 9.336345548675879e-05,
      "loss": 0.7363,
      "step": 133700
    },
    {
      "epoch": 0.18262601878009915,
      "grad_norm": 2.984375,
      "learning_rate": 9.335800663168338e-05,
      "loss": 0.8054,
      "step": 133750
    },
    {
      "epoch": 0.18269429018898892,
      "grad_norm": 3.765625,
      "learning_rate": 9.335255569980484e-05,
      "loss": 0.726,
      "step": 133800
    },
    {
      "epoch": 0.18276256159787868,
      "grad_norm": 2.96875,
      "learning_rate": 9.334710269138423e-05,
      "loss": 0.6765,
      "step": 133850
    },
    {
      "epoch": 0.18283083300676842,
      "grad_norm": 2.59375,
      "learning_rate": 9.334164760668278e-05,
      "loss": 0.6274,
      "step": 133900
    },
    {
      "epoch": 0.18289910441565818,
      "grad_norm": 2.71875,
      "learning_rate": 9.333619044596175e-05,
      "loss": 0.7887,
      "step": 133950
    },
    {
      "epoch": 0.18296737582454795,
      "grad_norm": 2.984375,
      "learning_rate": 9.333073120948257e-05,
      "loss": 0.7081,
      "step": 134000
    },
    {
      "epoch": 0.1830356472334377,
      "grad_norm": 4.84375,
      "learning_rate": 9.33252698975067e-05,
      "loss": 0.8695,
      "step": 134050
    },
    {
      "epoch": 0.18310391864232745,
      "grad_norm": 2.65625,
      "learning_rate": 9.331980651029575e-05,
      "loss": 0.8049,
      "step": 134100
    },
    {
      "epoch": 0.1831721900512172,
      "grad_norm": 2.90625,
      "learning_rate": 9.33143410481114e-05,
      "loss": 0.8367,
      "step": 134150
    },
    {
      "epoch": 0.18324046146010697,
      "grad_norm": 5.15625,
      "learning_rate": 9.330887351121545e-05,
      "loss": 0.7217,
      "step": 134200
    },
    {
      "epoch": 0.18330873286899674,
      "grad_norm": 3.703125,
      "learning_rate": 9.330340389986978e-05,
      "loss": 0.7509,
      "step": 134250
    },
    {
      "epoch": 0.18337700427788647,
      "grad_norm": 2.640625,
      "learning_rate": 9.329793221433638e-05,
      "loss": 0.6867,
      "step": 134300
    },
    {
      "epoch": 0.18344527568677624,
      "grad_norm": 3.375,
      "learning_rate": 9.329245845487733e-05,
      "loss": 0.6752,
      "step": 134350
    },
    {
      "epoch": 0.183513547095666,
      "grad_norm": 2.640625,
      "learning_rate": 9.328698262175484e-05,
      "loss": 0.666,
      "step": 134400
    },
    {
      "epoch": 0.18358181850455574,
      "grad_norm": 2.875,
      "learning_rate": 9.328150471523117e-05,
      "loss": 0.6625,
      "step": 134450
    },
    {
      "epoch": 0.1836500899134455,
      "grad_norm": 3.09375,
      "learning_rate": 9.327602473556873e-05,
      "loss": 0.6605,
      "step": 134500
    },
    {
      "epoch": 0.18371836132233527,
      "grad_norm": 2.53125,
      "learning_rate": 9.327054268302999e-05,
      "loss": 0.6775,
      "step": 134550
    },
    {
      "epoch": 0.18378663273122503,
      "grad_norm": 4.1875,
      "learning_rate": 9.326505855787755e-05,
      "loss": 0.6613,
      "step": 134600
    },
    {
      "epoch": 0.18385490414011477,
      "grad_norm": 4.0,
      "learning_rate": 9.325957236037407e-05,
      "loss": 0.6772,
      "step": 134650
    },
    {
      "epoch": 0.18392317554900453,
      "grad_norm": 2.84375,
      "learning_rate": 9.325408409078235e-05,
      "loss": 0.6567,
      "step": 134700
    },
    {
      "epoch": 0.1839914469578943,
      "grad_norm": 7.375,
      "learning_rate": 9.324859374936527e-05,
      "loss": 0.799,
      "step": 134750
    },
    {
      "epoch": 0.18405971836678406,
      "grad_norm": 8.375,
      "learning_rate": 9.32431013363858e-05,
      "loss": 0.6871,
      "step": 134800
    },
    {
      "epoch": 0.1841279897756738,
      "grad_norm": 3.046875,
      "learning_rate": 9.323760685210703e-05,
      "loss": 0.7851,
      "step": 134850
    },
    {
      "epoch": 0.18419626118456356,
      "grad_norm": 3.40625,
      "learning_rate": 9.323211029679216e-05,
      "loss": 0.7473,
      "step": 134900
    },
    {
      "epoch": 0.18426453259345332,
      "grad_norm": 3.0,
      "learning_rate": 9.322661167070445e-05,
      "loss": 0.664,
      "step": 134950
    },
    {
      "epoch": 0.1843328040023431,
      "grad_norm": 2.625,
      "learning_rate": 9.322111097410726e-05,
      "loss": 0.7433,
      "step": 135000
    },
    {
      "epoch": 0.18440107541123282,
      "grad_norm": 3.984375,
      "learning_rate": 9.321560820726409e-05,
      "loss": 0.7934,
      "step": 135050
    },
    {
      "epoch": 0.1844693468201226,
      "grad_norm": 3.09375,
      "learning_rate": 9.321010337043854e-05,
      "loss": 0.7312,
      "step": 135100
    },
    {
      "epoch": 0.18453761822901235,
      "grad_norm": 3.109375,
      "learning_rate": 9.320459646389424e-05,
      "loss": 0.7488,
      "step": 135150
    },
    {
      "epoch": 0.18460588963790212,
      "grad_norm": 7.3125,
      "learning_rate": 9.319908748789497e-05,
      "loss": 0.8417,
      "step": 135200
    },
    {
      "epoch": 0.18467416104679185,
      "grad_norm": 3.59375,
      "learning_rate": 9.319357644270463e-05,
      "loss": 0.7504,
      "step": 135250
    },
    {
      "epoch": 0.18474243245568162,
      "grad_norm": 2.984375,
      "learning_rate": 9.318806332858718e-05,
      "loss": 0.6753,
      "step": 135300
    },
    {
      "epoch": 0.18481070386457138,
      "grad_norm": 3.71875,
      "learning_rate": 9.318254814580669e-05,
      "loss": 0.6944,
      "step": 135350
    },
    {
      "epoch": 0.18487897527346112,
      "grad_norm": 2.6875,
      "learning_rate": 9.317703089462734e-05,
      "loss": 0.6599,
      "step": 135400
    },
    {
      "epoch": 0.18494724668235088,
      "grad_norm": 2.9375,
      "learning_rate": 9.317151157531341e-05,
      "loss": 0.7006,
      "step": 135450
    },
    {
      "epoch": 0.18501551809124064,
      "grad_norm": 3.0,
      "learning_rate": 9.316599018812924e-05,
      "loss": 0.7544,
      "step": 135500
    },
    {
      "epoch": 0.1850837895001304,
      "grad_norm": 8.5625,
      "learning_rate": 9.316046673333931e-05,
      "loss": 0.7633,
      "step": 135550
    },
    {
      "epoch": 0.18515206090902014,
      "grad_norm": 2.9375,
      "learning_rate": 9.31549412112082e-05,
      "loss": 0.666,
      "step": 135600
    },
    {
      "epoch": 0.1852203323179099,
      "grad_norm": 2.484375,
      "learning_rate": 9.314941362200055e-05,
      "loss": 0.6122,
      "step": 135650
    },
    {
      "epoch": 0.18528860372679967,
      "grad_norm": 3.03125,
      "learning_rate": 9.314388396598117e-05,
      "loss": 0.8217,
      "step": 135700
    },
    {
      "epoch": 0.18535687513568944,
      "grad_norm": 5.03125,
      "learning_rate": 9.31383522434149e-05,
      "loss": 0.6641,
      "step": 135750
    },
    {
      "epoch": 0.18542514654457917,
      "grad_norm": 2.921875,
      "learning_rate": 9.31328184545667e-05,
      "loss": 0.7144,
      "step": 135800
    },
    {
      "epoch": 0.18549341795346894,
      "grad_norm": 3.296875,
      "learning_rate": 9.312728259970162e-05,
      "loss": 0.6494,
      "step": 135850
    },
    {
      "epoch": 0.1855616893623587,
      "grad_norm": 2.640625,
      "learning_rate": 9.312174467908485e-05,
      "loss": 0.6306,
      "step": 135900
    },
    {
      "epoch": 0.18562996077124846,
      "grad_norm": 2.5625,
      "learning_rate": 9.311620469298163e-05,
      "loss": 0.7303,
      "step": 135950
    },
    {
      "epoch": 0.1856982321801382,
      "grad_norm": 2.859375,
      "learning_rate": 9.311066264165733e-05,
      "loss": 0.6698,
      "step": 136000
    },
    {
      "epoch": 0.18576650358902796,
      "grad_norm": 3.515625,
      "learning_rate": 9.310511852537742e-05,
      "loss": 0.7147,
      "step": 136050
    },
    {
      "epoch": 0.18583477499791773,
      "grad_norm": 3.78125,
      "learning_rate": 9.309957234440742e-05,
      "loss": 0.7355,
      "step": 136100
    },
    {
      "epoch": 0.18590304640680747,
      "grad_norm": 2.953125,
      "learning_rate": 9.309402409901303e-05,
      "loss": 0.7213,
      "step": 136150
    },
    {
      "epoch": 0.18597131781569723,
      "grad_norm": 3.0625,
      "learning_rate": 9.308847378945998e-05,
      "loss": 0.7239,
      "step": 136200
    },
    {
      "epoch": 0.186039589224587,
      "grad_norm": 3.078125,
      "learning_rate": 9.308292141601411e-05,
      "loss": 0.6954,
      "step": 136250
    },
    {
      "epoch": 0.18610786063347676,
      "grad_norm": 4.15625,
      "learning_rate": 9.30773669789414e-05,
      "loss": 0.7322,
      "step": 136300
    },
    {
      "epoch": 0.1861761320423665,
      "grad_norm": 4.09375,
      "learning_rate": 9.30718104785079e-05,
      "loss": 0.635,
      "step": 136350
    },
    {
      "epoch": 0.18624440345125626,
      "grad_norm": 3.078125,
      "learning_rate": 9.306625191497975e-05,
      "loss": 0.7138,
      "step": 136400
    },
    {
      "epoch": 0.18631267486014602,
      "grad_norm": 3.0,
      "learning_rate": 9.306069128862321e-05,
      "loss": 0.704,
      "step": 136450
    },
    {
      "epoch": 0.18638094626903579,
      "grad_norm": 7.0,
      "learning_rate": 9.305512859970463e-05,
      "loss": 0.7278,
      "step": 136500
    },
    {
      "epoch": 0.18644921767792552,
      "grad_norm": 3.1875,
      "learning_rate": 9.304956384849042e-05,
      "loss": 0.7354,
      "step": 136550
    },
    {
      "epoch": 0.18651748908681529,
      "grad_norm": 2.34375,
      "learning_rate": 9.304399703524718e-05,
      "loss": 0.7656,
      "step": 136600
    },
    {
      "epoch": 0.18658576049570505,
      "grad_norm": 3.046875,
      "learning_rate": 9.303842816024151e-05,
      "loss": 0.9089,
      "step": 136650
    },
    {
      "epoch": 0.1866540319045948,
      "grad_norm": 3.640625,
      "learning_rate": 9.303285722374018e-05,
      "loss": 0.6915,
      "step": 136700
    },
    {
      "epoch": 0.18672230331348455,
      "grad_norm": 3.734375,
      "learning_rate": 9.302728422601001e-05,
      "loss": 0.728,
      "step": 136750
    },
    {
      "epoch": 0.18679057472237431,
      "grad_norm": 4.0,
      "learning_rate": 9.302170916731798e-05,
      "loss": 0.9154,
      "step": 136800
    },
    {
      "epoch": 0.18685884613126408,
      "grad_norm": 2.59375,
      "learning_rate": 9.30161320479311e-05,
      "loss": 0.6903,
      "step": 136850
    },
    {
      "epoch": 0.18692711754015384,
      "grad_norm": 2.515625,
      "learning_rate": 9.30105528681165e-05,
      "loss": 0.649,
      "step": 136900
    },
    {
      "epoch": 0.18699538894904358,
      "grad_norm": 2.859375,
      "learning_rate": 9.300497162814143e-05,
      "loss": 0.6432,
      "step": 136950
    },
    {
      "epoch": 0.18706366035793334,
      "grad_norm": 3.0,
      "learning_rate": 9.299938832827323e-05,
      "loss": 0.7262,
      "step": 137000
    },
    {
      "epoch": 0.1871319317668231,
      "grad_norm": 3.21875,
      "learning_rate": 9.299380296877933e-05,
      "loss": 0.7471,
      "step": 137050
    },
    {
      "epoch": 0.18720020317571284,
      "grad_norm": 2.875,
      "learning_rate": 9.298821554992724e-05,
      "loss": 0.7961,
      "step": 137100
    },
    {
      "epoch": 0.1872684745846026,
      "grad_norm": 3.203125,
      "learning_rate": 9.298262607198465e-05,
      "loss": 0.607,
      "step": 137150
    },
    {
      "epoch": 0.18733674599349237,
      "grad_norm": 2.734375,
      "learning_rate": 9.297703453521925e-05,
      "loss": 0.5904,
      "step": 137200
    },
    {
      "epoch": 0.18740501740238213,
      "grad_norm": 2.46875,
      "learning_rate": 9.297144093989885e-05,
      "loss": 0.6773,
      "step": 137250
    },
    {
      "epoch": 0.18747328881127187,
      "grad_norm": 2.65625,
      "learning_rate": 9.29658452862914e-05,
      "loss": 0.6771,
      "step": 137300
    },
    {
      "epoch": 0.18754156022016163,
      "grad_norm": 3.65625,
      "learning_rate": 9.296024757466494e-05,
      "loss": 0.7087,
      "step": 137350
    },
    {
      "epoch": 0.1876098316290514,
      "grad_norm": 3.484375,
      "learning_rate": 9.295464780528758e-05,
      "loss": 0.8863,
      "step": 137400
    },
    {
      "epoch": 0.18767810303794116,
      "grad_norm": 7.875,
      "learning_rate": 9.294904597842753e-05,
      "loss": 0.6483,
      "step": 137450
    },
    {
      "epoch": 0.1877463744468309,
      "grad_norm": 2.875,
      "learning_rate": 9.294344209435313e-05,
      "loss": 0.7652,
      "step": 137500
    },
    {
      "epoch": 0.18781464585572066,
      "grad_norm": 4.03125,
      "learning_rate": 9.293783615333279e-05,
      "loss": 0.7406,
      "step": 137550
    },
    {
      "epoch": 0.18788291726461043,
      "grad_norm": 3.71875,
      "learning_rate": 9.293222815563505e-05,
      "loss": 0.7434,
      "step": 137600
    },
    {
      "epoch": 0.1879511886735002,
      "grad_norm": 8.25,
      "learning_rate": 9.29266181015285e-05,
      "loss": 0.6776,
      "step": 137650
    },
    {
      "epoch": 0.18801946008238993,
      "grad_norm": 2.765625,
      "learning_rate": 9.292100599128187e-05,
      "loss": 0.6911,
      "step": 137700
    },
    {
      "epoch": 0.1880877314912797,
      "grad_norm": 4.21875,
      "learning_rate": 9.291539182516396e-05,
      "loss": 0.7129,
      "step": 137750
    },
    {
      "epoch": 0.18815600290016946,
      "grad_norm": 3.0,
      "learning_rate": 9.290977560344371e-05,
      "loss": 0.7649,
      "step": 137800
    },
    {
      "epoch": 0.18822427430905922,
      "grad_norm": 7.0625,
      "learning_rate": 9.29041573263901e-05,
      "loss": 0.6698,
      "step": 137850
    },
    {
      "epoch": 0.18829254571794896,
      "grad_norm": 2.703125,
      "learning_rate": 9.289853699427227e-05,
      "loss": 0.7965,
      "step": 137900
    },
    {
      "epoch": 0.18836081712683872,
      "grad_norm": 2.5625,
      "learning_rate": 9.28929146073594e-05,
      "loss": 0.6757,
      "step": 137950
    },
    {
      "epoch": 0.18842908853572848,
      "grad_norm": 3.78125,
      "learning_rate": 9.288729016592081e-05,
      "loss": 0.6236,
      "step": 138000
    },
    {
      "epoch": 0.18849735994461822,
      "grad_norm": 2.984375,
      "learning_rate": 9.28816636702259e-05,
      "loss": 0.6886,
      "step": 138050
    },
    {
      "epoch": 0.18856563135350798,
      "grad_norm": 2.953125,
      "learning_rate": 9.287603512054419e-05,
      "loss": 0.659,
      "step": 138100
    },
    {
      "epoch": 0.18863390276239775,
      "grad_norm": 3.8125,
      "learning_rate": 9.287040451714525e-05,
      "loss": 0.6936,
      "step": 138150
    },
    {
      "epoch": 0.1887021741712875,
      "grad_norm": 2.9375,
      "learning_rate": 9.286477186029883e-05,
      "loss": 0.6729,
      "step": 138200
    },
    {
      "epoch": 0.18877044558017725,
      "grad_norm": 7.28125,
      "learning_rate": 9.285913715027467e-05,
      "loss": 0.7868,
      "step": 138250
    },
    {
      "epoch": 0.188838716989067,
      "grad_norm": 8.0,
      "learning_rate": 9.285350038734271e-05,
      "loss": 0.8119,
      "step": 138300
    },
    {
      "epoch": 0.18890698839795678,
      "grad_norm": 2.765625,
      "learning_rate": 9.284786157177292e-05,
      "loss": 0.6771,
      "step": 138350
    },
    {
      "epoch": 0.18897525980684654,
      "grad_norm": 3.859375,
      "learning_rate": 9.284222070383539e-05,
      "loss": 0.647,
      "step": 138400
    },
    {
      "epoch": 0.18904353121573628,
      "grad_norm": 8.3125,
      "learning_rate": 9.283657778380035e-05,
      "loss": 0.7406,
      "step": 138450
    },
    {
      "epoch": 0.18911180262462604,
      "grad_norm": 3.65625,
      "learning_rate": 9.283093281193805e-05,
      "loss": 0.6836,
      "step": 138500
    },
    {
      "epoch": 0.1891800740335158,
      "grad_norm": 2.734375,
      "learning_rate": 9.282528578851887e-05,
      "loss": 0.728,
      "step": 138550
    },
    {
      "epoch": 0.18924834544240557,
      "grad_norm": 4.21875,
      "learning_rate": 9.281963671381335e-05,
      "loss": 0.7387,
      "step": 138600
    },
    {
      "epoch": 0.1893166168512953,
      "grad_norm": 3.828125,
      "learning_rate": 9.281398558809205e-05,
      "loss": 0.6526,
      "step": 138650
    },
    {
      "epoch": 0.18938488826018507,
      "grad_norm": 3.484375,
      "learning_rate": 9.28083324116256e-05,
      "loss": 0.7062,
      "step": 138700
    },
    {
      "epoch": 0.18945315966907483,
      "grad_norm": 2.484375,
      "learning_rate": 9.280267718468487e-05,
      "loss": 0.7522,
      "step": 138750
    },
    {
      "epoch": 0.1895214310779646,
      "grad_norm": 2.5,
      "learning_rate": 9.279701990754069e-05,
      "loss": 0.5974,
      "step": 138800
    },
    {
      "epoch": 0.18958970248685433,
      "grad_norm": 3.203125,
      "learning_rate": 9.279136058046403e-05,
      "loss": 0.6477,
      "step": 138850
    },
    {
      "epoch": 0.1896579738957441,
      "grad_norm": 2.78125,
      "learning_rate": 9.278569920372599e-05,
      "loss": 0.6253,
      "step": 138900
    },
    {
      "epoch": 0.18972624530463386,
      "grad_norm": 2.96875,
      "learning_rate": 9.278003577759772e-05,
      "loss": 0.7741,
      "step": 138950
    },
    {
      "epoch": 0.1897945167135236,
      "grad_norm": 2.734375,
      "learning_rate": 9.277437030235054e-05,
      "loss": 0.7288,
      "step": 139000
    },
    {
      "epoch": 0.18986278812241336,
      "grad_norm": 2.765625,
      "learning_rate": 9.276870277825576e-05,
      "loss": 0.7308,
      "step": 139050
    },
    {
      "epoch": 0.18993105953130313,
      "grad_norm": 2.40625,
      "learning_rate": 9.276303320558488e-05,
      "loss": 0.6765,
      "step": 139100
    },
    {
      "epoch": 0.1899993309401929,
      "grad_norm": 2.390625,
      "learning_rate": 9.275736158460947e-05,
      "loss": 0.6901,
      "step": 139150
    },
    {
      "epoch": 0.19006760234908263,
      "grad_norm": 2.8125,
      "learning_rate": 9.275168791560119e-05,
      "loss": 0.7368,
      "step": 139200
    },
    {
      "epoch": 0.1901358737579724,
      "grad_norm": 3.90625,
      "learning_rate": 9.274601219883177e-05,
      "loss": 0.6776,
      "step": 139250
    },
    {
      "epoch": 0.19020414516686215,
      "grad_norm": 2.609375,
      "learning_rate": 9.274033443457313e-05,
      "loss": 0.8426,
      "step": 139300
    },
    {
      "epoch": 0.19027241657575192,
      "grad_norm": 2.78125,
      "learning_rate": 9.273465462309718e-05,
      "loss": 0.6188,
      "step": 139350
    },
    {
      "epoch": 0.19034068798464165,
      "grad_norm": 2.328125,
      "learning_rate": 9.272897276467602e-05,
      "loss": 0.6027,
      "step": 139400
    },
    {
      "epoch": 0.19040895939353142,
      "grad_norm": 3.375,
      "learning_rate": 9.272328885958178e-05,
      "loss": 0.5491,
      "step": 139450
    },
    {
      "epoch": 0.19047723080242118,
      "grad_norm": 2.703125,
      "learning_rate": 9.271760290808668e-05,
      "loss": 0.6888,
      "step": 139500
    },
    {
      "epoch": 0.19054550221131095,
      "grad_norm": 7.71875,
      "learning_rate": 9.271191491046313e-05,
      "loss": 0.6197,
      "step": 139550
    },
    {
      "epoch": 0.19061377362020068,
      "grad_norm": 3.734375,
      "learning_rate": 9.270622486698354e-05,
      "loss": 0.8438,
      "step": 139600
    },
    {
      "epoch": 0.19068204502909045,
      "grad_norm": 2.8125,
      "learning_rate": 9.27005327779205e-05,
      "loss": 0.8147,
      "step": 139650
    },
    {
      "epoch": 0.1907503164379802,
      "grad_norm": 3.515625,
      "learning_rate": 9.269483864354662e-05,
      "loss": 0.624,
      "step": 139700
    },
    {
      "epoch": 0.19081858784686995,
      "grad_norm": 2.375,
      "learning_rate": 9.268914246413464e-05,
      "loss": 0.6214,
      "step": 139750
    },
    {
      "epoch": 0.1908868592557597,
      "grad_norm": 3.328125,
      "learning_rate": 9.268344423995741e-05,
      "loss": 0.7322,
      "step": 139800
    },
    {
      "epoch": 0.19095513066464948,
      "grad_norm": 2.59375,
      "learning_rate": 9.267774397128788e-05,
      "loss": 0.6954,
      "step": 139850
    },
    {
      "epoch": 0.19102340207353924,
      "grad_norm": 3.40625,
      "learning_rate": 9.267204165839907e-05,
      "loss": 0.8705,
      "step": 139900
    },
    {
      "epoch": 0.19109167348242898,
      "grad_norm": 3.625,
      "learning_rate": 9.26663373015641e-05,
      "loss": 0.9164,
      "step": 139950
    },
    {
      "epoch": 0.19115994489131874,
      "grad_norm": 2.34375,
      "learning_rate": 9.266063090105626e-05,
      "loss": 0.6244,
      "step": 140000
    },
    {
      "epoch": 0.1912282163002085,
      "grad_norm": 7.34375,
      "learning_rate": 9.265492245714884e-05,
      "loss": 0.8335,
      "step": 140050
    },
    {
      "epoch": 0.19129648770909827,
      "grad_norm": 2.59375,
      "learning_rate": 9.264921197011527e-05,
      "loss": 0.8062,
      "step": 140100
    },
    {
      "epoch": 0.191364759117988,
      "grad_norm": 2.5625,
      "learning_rate": 9.264349944022907e-05,
      "loss": 0.5992,
      "step": 140150
    },
    {
      "epoch": 0.19143303052687777,
      "grad_norm": 2.640625,
      "learning_rate": 9.26377848677639e-05,
      "loss": 0.6183,
      "step": 140200
    },
    {
      "epoch": 0.19150130193576753,
      "grad_norm": 3.84375,
      "learning_rate": 9.263206825299342e-05,
      "loss": 0.7042,
      "step": 140250
    },
    {
      "epoch": 0.1915695733446573,
      "grad_norm": 2.34375,
      "learning_rate": 9.262634959619149e-05,
      "loss": 0.6843,
      "step": 140300
    },
    {
      "epoch": 0.19163784475354703,
      "grad_norm": 3.328125,
      "learning_rate": 9.262062889763204e-05,
      "loss": 0.7148,
      "step": 140350
    },
    {
      "epoch": 0.1917061161624368,
      "grad_norm": 3.421875,
      "learning_rate": 9.261490615758907e-05,
      "loss": 0.7288,
      "step": 140400
    },
    {
      "epoch": 0.19177438757132656,
      "grad_norm": 3.6875,
      "learning_rate": 9.26091813763367e-05,
      "loss": 0.6952,
      "step": 140450
    },
    {
      "epoch": 0.19184265898021632,
      "grad_norm": 2.59375,
      "learning_rate": 9.260345455414912e-05,
      "loss": 0.6319,
      "step": 140500
    },
    {
      "epoch": 0.19191093038910606,
      "grad_norm": 2.796875,
      "learning_rate": 9.259772569130065e-05,
      "loss": 0.5853,
      "step": 140550
    },
    {
      "epoch": 0.19197920179799582,
      "grad_norm": 3.359375,
      "learning_rate": 9.25919947880657e-05,
      "loss": 0.6257,
      "step": 140600
    },
    {
      "epoch": 0.1920474732068856,
      "grad_norm": 2.34375,
      "learning_rate": 9.258626184471878e-05,
      "loss": 0.8559,
      "step": 140650
    },
    {
      "epoch": 0.19211574461577532,
      "grad_norm": 2.75,
      "learning_rate": 9.258052686153449e-05,
      "loss": 0.6543,
      "step": 140700
    },
    {
      "epoch": 0.1921840160246651,
      "grad_norm": 4.0625,
      "learning_rate": 9.257478983878751e-05,
      "loss": 0.6645,
      "step": 140750
    },
    {
      "epoch": 0.19225228743355485,
      "grad_norm": 2.671875,
      "learning_rate": 9.256905077675266e-05,
      "loss": 0.5792,
      "step": 140800
    },
    {
      "epoch": 0.19232055884244462,
      "grad_norm": 2.6875,
      "learning_rate": 9.256330967570484e-05,
      "loss": 0.769,
      "step": 140850
    },
    {
      "epoch": 0.19238883025133435,
      "grad_norm": 2.421875,
      "learning_rate": 9.255756653591901e-05,
      "loss": 0.7671,
      "step": 140900
    },
    {
      "epoch": 0.19245710166022412,
      "grad_norm": 2.734375,
      "learning_rate": 9.255182135767029e-05,
      "loss": 0.6391,
      "step": 140950
    },
    {
      "epoch": 0.19252537306911388,
      "grad_norm": 2.609375,
      "learning_rate": 9.254607414123385e-05,
      "loss": 0.6996,
      "step": 141000
    },
    {
      "epoch": 0.19259364447800364,
      "grad_norm": 2.796875,
      "learning_rate": 9.254032488688499e-05,
      "loss": 0.6471,
      "step": 141050
    },
    {
      "epoch": 0.19266191588689338,
      "grad_norm": 3.90625,
      "learning_rate": 9.253457359489908e-05,
      "loss": 0.7221,
      "step": 141100
    },
    {
      "epoch": 0.19273018729578315,
      "grad_norm": 3.78125,
      "learning_rate": 9.252882026555161e-05,
      "loss": 0.7308,
      "step": 141150
    },
    {
      "epoch": 0.1927984587046729,
      "grad_norm": 2.9375,
      "learning_rate": 9.252306489911818e-05,
      "loss": 0.6988,
      "step": 141200
    },
    {
      "epoch": 0.19286673011356267,
      "grad_norm": 3.546875,
      "learning_rate": 9.251730749587442e-05,
      "loss": 0.7073,
      "step": 141250
    },
    {
      "epoch": 0.1929350015224524,
      "grad_norm": 2.6875,
      "learning_rate": 9.251154805609612e-05,
      "loss": 0.63,
      "step": 141300
    },
    {
      "epoch": 0.19300327293134217,
      "grad_norm": 2.53125,
      "learning_rate": 9.250578658005917e-05,
      "loss": 0.587,
      "step": 141350
    },
    {
      "epoch": 0.19307154434023194,
      "grad_norm": 3.859375,
      "learning_rate": 9.250002306803953e-05,
      "loss": 0.665,
      "step": 141400
    },
    {
      "epoch": 0.1931398157491217,
      "grad_norm": 2.921875,
      "learning_rate": 9.249425752031326e-05,
      "loss": 0.7362,
      "step": 141450
    },
    {
      "epoch": 0.19320808715801144,
      "grad_norm": 3.734375,
      "learning_rate": 9.248848993715653e-05,
      "loss": 0.756,
      "step": 141500
    },
    {
      "epoch": 0.1932763585669012,
      "grad_norm": 8.125,
      "learning_rate": 9.248272031884559e-05,
      "loss": 0.7471,
      "step": 141550
    },
    {
      "epoch": 0.19334462997579097,
      "grad_norm": 3.703125,
      "learning_rate": 9.24769486656568e-05,
      "loss": 0.757,
      "step": 141600
    },
    {
      "epoch": 0.1934129013846807,
      "grad_norm": 4.3125,
      "learning_rate": 9.247117497786663e-05,
      "loss": 0.7782,
      "step": 141650
    },
    {
      "epoch": 0.19348117279357047,
      "grad_norm": 3.921875,
      "learning_rate": 9.246539925575163e-05,
      "loss": 0.7027,
      "step": 141700
    },
    {
      "epoch": 0.19354944420246023,
      "grad_norm": 3.328125,
      "learning_rate": 9.245962149958844e-05,
      "loss": 0.7676,
      "step": 141750
    },
    {
      "epoch": 0.19361771561135,
      "grad_norm": 2.84375,
      "learning_rate": 9.245384170965382e-05,
      "loss": 0.6915,
      "step": 141800
    },
    {
      "epoch": 0.19368598702023973,
      "grad_norm": 3.171875,
      "learning_rate": 9.244805988622461e-05,
      "loss": 0.7212,
      "step": 141850
    },
    {
      "epoch": 0.1937542584291295,
      "grad_norm": 2.53125,
      "learning_rate": 9.244227602957773e-05,
      "loss": 0.6647,
      "step": 141900
    },
    {
      "epoch": 0.19382252983801926,
      "grad_norm": 3.0625,
      "learning_rate": 9.243649013999027e-05,
      "loss": 0.7994,
      "step": 141950
    },
    {
      "epoch": 0.19389080124690902,
      "grad_norm": 2.8125,
      "learning_rate": 9.243070221773935e-05,
      "loss": 0.6492,
      "step": 142000
    },
    {
      "epoch": 0.19395907265579876,
      "grad_norm": 2.671875,
      "learning_rate": 9.24249122631022e-05,
      "loss": 0.6945,
      "step": 142050
    },
    {
      "epoch": 0.19402734406468852,
      "grad_norm": 8.1875,
      "learning_rate": 9.241912027635613e-05,
      "loss": 0.6691,
      "step": 142100
    },
    {
      "epoch": 0.1940956154735783,
      "grad_norm": 3.125,
      "learning_rate": 9.24133262577786e-05,
      "loss": 0.7249,
      "step": 142150
    },
    {
      "epoch": 0.19416388688246805,
      "grad_norm": 9.0625,
      "learning_rate": 9.240753020764711e-05,
      "loss": 0.7373,
      "step": 142200
    },
    {
      "epoch": 0.1942321582913578,
      "grad_norm": 3.234375,
      "learning_rate": 9.240173212623935e-05,
      "loss": 0.8117,
      "step": 142250
    },
    {
      "epoch": 0.19430042970024755,
      "grad_norm": 3.140625,
      "learning_rate": 9.239593201383296e-05,
      "loss": 0.6174,
      "step": 142300
    },
    {
      "epoch": 0.19436870110913732,
      "grad_norm": 3.640625,
      "learning_rate": 9.239012987070581e-05,
      "loss": 0.7116,
      "step": 142350
    },
    {
      "epoch": 0.19443697251802708,
      "grad_norm": 8.3125,
      "learning_rate": 9.23843256971358e-05,
      "loss": 0.6385,
      "step": 142400
    },
    {
      "epoch": 0.19450524392691682,
      "grad_norm": 3.015625,
      "learning_rate": 9.237851949340092e-05,
      "loss": 0.6523,
      "step": 142450
    },
    {
      "epoch": 0.19457351533580658,
      "grad_norm": 2.59375,
      "learning_rate": 9.237271125977935e-05,
      "loss": 0.5457,
      "step": 142500
    },
    {
      "epoch": 0.19464178674469634,
      "grad_norm": 3.984375,
      "learning_rate": 9.236690099654922e-05,
      "loss": 0.6331,
      "step": 142550
    },
    {
      "epoch": 0.19471005815358608,
      "grad_norm": 3.890625,
      "learning_rate": 9.236108870398889e-05,
      "loss": 0.7021,
      "step": 142600
    },
    {
      "epoch": 0.19477832956247584,
      "grad_norm": 2.40625,
      "learning_rate": 9.235527438237673e-05,
      "loss": 0.5278,
      "step": 142650
    },
    {
      "epoch": 0.1948466009713656,
      "grad_norm": 2.5625,
      "learning_rate": 9.234945803199126e-05,
      "loss": 0.6521,
      "step": 142700
    },
    {
      "epoch": 0.19491487238025537,
      "grad_norm": 8.25,
      "learning_rate": 9.234363965311107e-05,
      "loss": 0.664,
      "step": 142750
    },
    {
      "epoch": 0.1949831437891451,
      "grad_norm": 2.734375,
      "learning_rate": 9.233781924601485e-05,
      "loss": 0.6234,
      "step": 142800
    },
    {
      "epoch": 0.19505141519803487,
      "grad_norm": 8.125,
      "learning_rate": 9.233199681098141e-05,
      "loss": 0.6287,
      "step": 142850
    },
    {
      "epoch": 0.19511968660692464,
      "grad_norm": 2.484375,
      "learning_rate": 9.23261723482896e-05,
      "loss": 0.8387,
      "step": 142900
    },
    {
      "epoch": 0.1951879580158144,
      "grad_norm": 3.171875,
      "learning_rate": 9.232034585821845e-05,
      "loss": 0.6649,
      "step": 142950
    },
    {
      "epoch": 0.19525622942470414,
      "grad_norm": 2.515625,
      "learning_rate": 9.231451734104702e-05,
      "loss": 0.5696,
      "step": 143000
    },
    {
      "epoch": 0.1953245008335939,
      "grad_norm": 2.75,
      "learning_rate": 9.230868679705447e-05,
      "loss": 0.7644,
      "step": 143050
    },
    {
      "epoch": 0.19539277224248366,
      "grad_norm": 7.09375,
      "learning_rate": 9.230285422652012e-05,
      "loss": 0.6903,
      "step": 143100
    },
    {
      "epoch": 0.19546104365137343,
      "grad_norm": 2.75,
      "learning_rate": 9.229701962972333e-05,
      "loss": 0.6729,
      "step": 143150
    },
    {
      "epoch": 0.19552931506026316,
      "grad_norm": 2.59375,
      "learning_rate": 9.229118300694354e-05,
      "loss": 0.5815,
      "step": 143200
    },
    {
      "epoch": 0.19559758646915293,
      "grad_norm": 4.375,
      "learning_rate": 9.228534435846037e-05,
      "loss": 0.6514,
      "step": 143250
    },
    {
      "epoch": 0.1956658578780427,
      "grad_norm": 3.609375,
      "learning_rate": 9.227950368455345e-05,
      "loss": 0.6694,
      "step": 143300
    },
    {
      "epoch": 0.19573412928693243,
      "grad_norm": 2.546875,
      "learning_rate": 9.227366098550254e-05,
      "loss": 0.7423,
      "step": 143350
    },
    {
      "epoch": 0.1958024006958222,
      "grad_norm": 2.8125,
      "learning_rate": 9.226781626158751e-05,
      "loss": 0.7117,
      "step": 143400
    },
    {
      "epoch": 0.19587067210471196,
      "grad_norm": 3.0,
      "learning_rate": 9.226196951308832e-05,
      "loss": 0.6604,
      "step": 143450
    },
    {
      "epoch": 0.19593894351360172,
      "grad_norm": 2.546875,
      "learning_rate": 9.225612074028502e-05,
      "loss": 0.639,
      "step": 143500
    },
    {
      "epoch": 0.19600721492249146,
      "grad_norm": 3.421875,
      "learning_rate": 9.225026994345776e-05,
      "loss": 0.7438,
      "step": 143550
    },
    {
      "epoch": 0.19607548633138122,
      "grad_norm": 2.453125,
      "learning_rate": 9.224441712288679e-05,
      "loss": 0.629,
      "step": 143600
    },
    {
      "epoch": 0.19614375774027099,
      "grad_norm": 3.328125,
      "learning_rate": 9.223856227885243e-05,
      "loss": 0.7854,
      "step": 143650
    },
    {
      "epoch": 0.19621202914916075,
      "grad_norm": 3.375,
      "learning_rate": 9.223270541163516e-05,
      "loss": 0.6661,
      "step": 143700
    },
    {
      "epoch": 0.19628030055805049,
      "grad_norm": 2.71875,
      "learning_rate": 9.22268465215155e-05,
      "loss": 0.5717,
      "step": 143750
    },
    {
      "epoch": 0.19634857196694025,
      "grad_norm": 3.1875,
      "learning_rate": 9.222098560877407e-05,
      "loss": 0.6805,
      "step": 143800
    },
    {
      "epoch": 0.19641684337583,
      "grad_norm": 7.8125,
      "learning_rate": 9.221512267369161e-05,
      "loss": 0.6539,
      "step": 143850
    },
    {
      "epoch": 0.19648511478471978,
      "grad_norm": 2.828125,
      "learning_rate": 9.220925771654899e-05,
      "loss": 0.8302,
      "step": 143900
    },
    {
      "epoch": 0.19655338619360951,
      "grad_norm": 2.515625,
      "learning_rate": 9.220339073762705e-05,
      "loss": 0.6646,
      "step": 143950
    },
    {
      "epoch": 0.19662165760249928,
      "grad_norm": 2.890625,
      "learning_rate": 9.219752173720688e-05,
      "loss": 0.5995,
      "step": 144000
    },
    {
      "epoch": 0.19668992901138904,
      "grad_norm": 3.5625,
      "learning_rate": 9.219165071556959e-05,
      "loss": 0.6368,
      "step": 144050
    },
    {
      "epoch": 0.1967582004202788,
      "grad_norm": 2.53125,
      "learning_rate": 9.218577767299637e-05,
      "loss": 0.6823,
      "step": 144100
    },
    {
      "epoch": 0.19682647182916854,
      "grad_norm": 2.90625,
      "learning_rate": 9.217990260976857e-05,
      "loss": 0.712,
      "step": 144150
    },
    {
      "epoch": 0.1968947432380583,
      "grad_norm": 2.65625,
      "learning_rate": 9.217402552616755e-05,
      "loss": 0.7179,
      "step": 144200
    },
    {
      "epoch": 0.19696301464694807,
      "grad_norm": 2.390625,
      "learning_rate": 9.216814642247484e-05,
      "loss": 0.7067,
      "step": 144250
    },
    {
      "epoch": 0.1970312860558378,
      "grad_norm": 2.71875,
      "learning_rate": 9.216226529897207e-05,
      "loss": 0.7545,
      "step": 144300
    },
    {
      "epoch": 0.19709955746472757,
      "grad_norm": 3.0,
      "learning_rate": 9.215638215594092e-05,
      "loss": 0.849,
      "step": 144350
    },
    {
      "epoch": 0.19716782887361733,
      "grad_norm": 3.515625,
      "learning_rate": 9.215049699366316e-05,
      "loss": 0.6862,
      "step": 144400
    },
    {
      "epoch": 0.1972361002825071,
      "grad_norm": 2.71875,
      "learning_rate": 9.214460981242072e-05,
      "loss": 0.7253,
      "step": 144450
    },
    {
      "epoch": 0.19730437169139683,
      "grad_norm": 2.671875,
      "learning_rate": 9.213872061249557e-05,
      "loss": 0.5469,
      "step": 144500
    },
    {
      "epoch": 0.1973726431002866,
      "grad_norm": 2.65625,
      "learning_rate": 9.21328293941698e-05,
      "loss": 0.6298,
      "step": 144550
    },
    {
      "epoch": 0.19744091450917636,
      "grad_norm": 8.125,
      "learning_rate": 9.212693615772559e-05,
      "loss": 0.6895,
      "step": 144600
    },
    {
      "epoch": 0.19750918591806613,
      "grad_norm": 2.890625,
      "learning_rate": 9.212104090344524e-05,
      "loss": 0.781,
      "step": 144650
    },
    {
      "epoch": 0.19757745732695586,
      "grad_norm": 2.859375,
      "learning_rate": 9.211514363161112e-05,
      "loss": 0.6557,
      "step": 144700
    },
    {
      "epoch": 0.19764572873584563,
      "grad_norm": 3.796875,
      "learning_rate": 9.210924434250567e-05,
      "loss": 0.7207,
      "step": 144750
    },
    {
      "epoch": 0.1977140001447354,
      "grad_norm": 4.09375,
      "learning_rate": 9.210334303641149e-05,
      "loss": 0.7292,
      "step": 144800
    },
    {
      "epoch": 0.19778227155362516,
      "grad_norm": 3.1875,
      "learning_rate": 9.209743971361125e-05,
      "loss": 0.6351,
      "step": 144850
    },
    {
      "epoch": 0.1978505429625149,
      "grad_norm": 3.515625,
      "learning_rate": 9.209153437438769e-05,
      "loss": 0.6696,
      "step": 144900
    },
    {
      "epoch": 0.19791881437140466,
      "grad_norm": 2.796875,
      "learning_rate": 9.20856270190237e-05,
      "loss": 0.675,
      "step": 144950
    },
    {
      "epoch": 0.19798708578029442,
      "grad_norm": 8.1875,
      "learning_rate": 9.20797176478022e-05,
      "loss": 0.8442,
      "step": 145000
    },
    {
      "epoch": 0.19805535718918418,
      "grad_norm": 7.75,
      "learning_rate": 9.207380626100628e-05,
      "loss": 0.643,
      "step": 145050
    },
    {
      "epoch": 0.19812362859807392,
      "grad_norm": 2.515625,
      "learning_rate": 9.206789285891905e-05,
      "loss": 0.7061,
      "step": 145100
    },
    {
      "epoch": 0.19819190000696368,
      "grad_norm": 3.359375,
      "learning_rate": 9.20619774418238e-05,
      "loss": 0.8223,
      "step": 145150
    },
    {
      "epoch": 0.19826017141585345,
      "grad_norm": 3.375,
      "learning_rate": 9.205606001000384e-05,
      "loss": 0.5503,
      "step": 145200
    },
    {
      "epoch": 0.19832844282474318,
      "grad_norm": 6.1875,
      "learning_rate": 9.205014056374261e-05,
      "loss": 0.707,
      "step": 145250
    },
    {
      "epoch": 0.19839671423363295,
      "grad_norm": 3.453125,
      "learning_rate": 9.204421910332366e-05,
      "loss": 0.7505,
      "step": 145300
    },
    {
      "epoch": 0.1984649856425227,
      "grad_norm": 2.8125,
      "learning_rate": 9.203829562903063e-05,
      "loss": 0.5971,
      "step": 145350
    },
    {
      "epoch": 0.19853325705141248,
      "grad_norm": 4.125,
      "learning_rate": 9.20323701411472e-05,
      "loss": 0.5815,
      "step": 145400
    },
    {
      "epoch": 0.1986015284603022,
      "grad_norm": 2.90625,
      "learning_rate": 9.202644263995726e-05,
      "loss": 0.6115,
      "step": 145450
    },
    {
      "epoch": 0.19866979986919198,
      "grad_norm": 3.75,
      "learning_rate": 9.202051312574468e-05,
      "loss": 0.6497,
      "step": 145500
    },
    {
      "epoch": 0.19873807127808174,
      "grad_norm": 7.28125,
      "learning_rate": 9.201458159879352e-05,
      "loss": 0.6491,
      "step": 145550
    },
    {
      "epoch": 0.1988063426869715,
      "grad_norm": 8.5,
      "learning_rate": 9.200864805938784e-05,
      "loss": 0.7216,
      "step": 145600
    },
    {
      "epoch": 0.19887461409586124,
      "grad_norm": 2.625,
      "learning_rate": 9.200271250781191e-05,
      "loss": 0.6221,
      "step": 145650
    },
    {
      "epoch": 0.198942885504751,
      "grad_norm": 2.4375,
      "learning_rate": 9.199677494435e-05,
      "loss": 0.741,
      "step": 145700
    },
    {
      "epoch": 0.19901115691364077,
      "grad_norm": 2.71875,
      "learning_rate": 9.199083536928651e-05,
      "loss": 0.6134,
      "step": 145750
    },
    {
      "epoch": 0.19907942832253053,
      "grad_norm": 2.5,
      "learning_rate": 9.198489378290595e-05,
      "loss": 0.7483,
      "step": 145800
    },
    {
      "epoch": 0.19914769973142027,
      "grad_norm": 3.4375,
      "learning_rate": 9.197895018549292e-05,
      "loss": 0.6987,
      "step": 145850
    },
    {
      "epoch": 0.19921597114031003,
      "grad_norm": 3.78125,
      "learning_rate": 9.19730045773321e-05,
      "loss": 0.5884,
      "step": 145900
    },
    {
      "epoch": 0.1992842425491998,
      "grad_norm": 9.75,
      "learning_rate": 9.196705695870831e-05,
      "loss": 0.6885,
      "step": 145950
    },
    {
      "epoch": 0.19935251395808956,
      "grad_norm": 3.78125,
      "learning_rate": 9.196110732990639e-05,
      "loss": 0.6307,
      "step": 146000
    },
    {
      "epoch": 0.1994207853669793,
      "grad_norm": 2.65625,
      "learning_rate": 9.195515569121136e-05,
      "loss": 0.6731,
      "step": 146050
    },
    {
      "epoch": 0.19948905677586906,
      "grad_norm": 3.46875,
      "learning_rate": 9.194920204290827e-05,
      "loss": 0.5566,
      "step": 146100
    },
    {
      "epoch": 0.19955732818475883,
      "grad_norm": 4.03125,
      "learning_rate": 9.194324638528229e-05,
      "loss": 0.77,
      "step": 146150
    },
    {
      "epoch": 0.19962559959364856,
      "grad_norm": 2.3125,
      "learning_rate": 9.193728871861873e-05,
      "loss": 0.6615,
      "step": 146200
    },
    {
      "epoch": 0.19969387100253833,
      "grad_norm": 3.4375,
      "learning_rate": 9.193132904320289e-05,
      "loss": 0.5769,
      "step": 146250
    },
    {
      "epoch": 0.1997621424114281,
      "grad_norm": 2.5,
      "learning_rate": 9.192536735932032e-05,
      "loss": 0.7091,
      "step": 146300
    },
    {
      "epoch": 0.19983041382031785,
      "grad_norm": 3.046875,
      "learning_rate": 9.19194036672565e-05,
      "loss": 0.7638,
      "step": 146350
    },
    {
      "epoch": 0.1998986852292076,
      "grad_norm": 2.5,
      "learning_rate": 9.191343796729711e-05,
      "loss": 0.7923,
      "step": 146400
    },
    {
      "epoch": 0.19996695663809735,
      "grad_norm": 3.96875,
      "learning_rate": 9.190747025972791e-05,
      "loss": 0.632,
      "step": 146450
    },
    {
      "epoch": 0.20003522804698712,
      "grad_norm": 2.171875,
      "learning_rate": 9.190150054483475e-05,
      "loss": 0.6367,
      "step": 146500
    },
    {
      "epoch": 0.20010349945587688,
      "grad_norm": 7.90625,
      "learning_rate": 9.189552882290356e-05,
      "loss": 0.7157,
      "step": 146550
    },
    {
      "epoch": 0.20017177086476662,
      "grad_norm": 2.875,
      "learning_rate": 9.188955509422039e-05,
      "loss": 0.644,
      "step": 146600
    },
    {
      "epoch": 0.20024004227365638,
      "grad_norm": 2.890625,
      "learning_rate": 9.188357935907135e-05,
      "loss": 0.6136,
      "step": 146650
    },
    {
      "epoch": 0.20030831368254615,
      "grad_norm": 3.40625,
      "learning_rate": 9.18776016177427e-05,
      "loss": 0.615,
      "step": 146700
    },
    {
      "epoch": 0.2003765850914359,
      "grad_norm": 3.265625,
      "learning_rate": 9.187162187052076e-05,
      "loss": 0.7618,
      "step": 146750
    },
    {
      "epoch": 0.20044485650032565,
      "grad_norm": 2.296875,
      "learning_rate": 9.186564011769197e-05,
      "loss": 0.7403,
      "step": 146800
    },
    {
      "epoch": 0.2005131279092154,
      "grad_norm": 3.625,
      "learning_rate": 9.185965635954281e-05,
      "loss": 0.7245,
      "step": 146850
    },
    {
      "epoch": 0.20058139931810517,
      "grad_norm": 2.734375,
      "learning_rate": 9.185367059635993e-05,
      "loss": 0.7793,
      "step": 146900
    },
    {
      "epoch": 0.2006496707269949,
      "grad_norm": 3.859375,
      "learning_rate": 9.184768282843002e-05,
      "loss": 0.7182,
      "step": 146950
    },
    {
      "epoch": 0.20071794213588467,
      "grad_norm": 5.3125,
      "learning_rate": 9.184169305603989e-05,
      "loss": 0.6828,
      "step": 147000
    },
    {
      "epoch": 0.20078621354477444,
      "grad_norm": 4.5,
      "learning_rate": 9.183570127947647e-05,
      "loss": 0.5612,
      "step": 147050
    },
    {
      "epoch": 0.2008544849536642,
      "grad_norm": 3.953125,
      "learning_rate": 9.182970749902674e-05,
      "loss": 0.7081,
      "step": 147100
    },
    {
      "epoch": 0.20092275636255394,
      "grad_norm": 7.625,
      "learning_rate": 9.182371171497778e-05,
      "loss": 0.7504,
      "step": 147150
    },
    {
      "epoch": 0.2009910277714437,
      "grad_norm": 2.296875,
      "learning_rate": 9.18177139276168e-05,
      "loss": 0.7206,
      "step": 147200
    },
    {
      "epoch": 0.20105929918033347,
      "grad_norm": 3.125,
      "learning_rate": 9.18117141372311e-05,
      "loss": 0.5779,
      "step": 147250
    },
    {
      "epoch": 0.20112757058922323,
      "grad_norm": 3.96875,
      "learning_rate": 9.180571234410804e-05,
      "loss": 0.7292,
      "step": 147300
    },
    {
      "epoch": 0.20119584199811297,
      "grad_norm": 3.0,
      "learning_rate": 9.179970854853512e-05,
      "loss": 0.5736,
      "step": 147350
    },
    {
      "epoch": 0.20126411340700273,
      "grad_norm": 2.6875,
      "learning_rate": 9.179370275079989e-05,
      "loss": 0.6546,
      "step": 147400
    },
    {
      "epoch": 0.2013323848158925,
      "grad_norm": 3.71875,
      "learning_rate": 9.178769495119004e-05,
      "loss": 0.7021,
      "step": 147450
    },
    {
      "epoch": 0.20140065622478226,
      "grad_norm": 10.3125,
      "learning_rate": 9.178168514999335e-05,
      "loss": 0.7577,
      "step": 147500
    },
    {
      "epoch": 0.201468927633672,
      "grad_norm": 3.734375,
      "learning_rate": 9.177567334749765e-05,
      "loss": 0.7025,
      "step": 147550
    },
    {
      "epoch": 0.20153719904256176,
      "grad_norm": 2.3125,
      "learning_rate": 9.176965954399091e-05,
      "loss": 0.6336,
      "step": 147600
    },
    {
      "epoch": 0.20160547045145152,
      "grad_norm": 2.375,
      "learning_rate": 9.176364373976121e-05,
      "loss": 0.6015,
      "step": 147650
    },
    {
      "epoch": 0.2016737418603413,
      "grad_norm": 3.5625,
      "learning_rate": 9.175762593509666e-05,
      "loss": 0.6918,
      "step": 147700
    },
    {
      "epoch": 0.20174201326923102,
      "grad_norm": 2.921875,
      "learning_rate": 9.175160613028555e-05,
      "loss": 0.6912,
      "step": 147750
    },
    {
      "epoch": 0.2018102846781208,
      "grad_norm": 3.03125,
      "learning_rate": 9.17455843256162e-05,
      "loss": 0.6515,
      "step": 147800
    },
    {
      "epoch": 0.20187855608701055,
      "grad_norm": 3.640625,
      "learning_rate": 9.173956052137702e-05,
      "loss": 0.6953,
      "step": 147850
    },
    {
      "epoch": 0.2019468274959003,
      "grad_norm": 3.3125,
      "learning_rate": 9.173353471785659e-05,
      "loss": 0.5601,
      "step": 147900
    },
    {
      "epoch": 0.20201509890479005,
      "grad_norm": 3.84375,
      "learning_rate": 9.172750691534353e-05,
      "loss": 0.6984,
      "step": 147950
    },
    {
      "epoch": 0.20208337031367982,
      "grad_norm": 7.625,
      "learning_rate": 9.172147711412655e-05,
      "loss": 0.9535,
      "step": 148000
    },
    {
      "epoch": 0.20215164172256958,
      "grad_norm": 7.09375,
      "learning_rate": 9.171544531449448e-05,
      "loss": 0.7351,
      "step": 148050
    },
    {
      "epoch": 0.20221991313145932,
      "grad_norm": 3.734375,
      "learning_rate": 9.170941151673624e-05,
      "loss": 0.7291,
      "step": 148100
    },
    {
      "epoch": 0.20228818454034908,
      "grad_norm": 2.9375,
      "learning_rate": 9.170337572114084e-05,
      "loss": 0.7595,
      "step": 148150
    },
    {
      "epoch": 0.20235645594923884,
      "grad_norm": 3.546875,
      "learning_rate": 9.169733792799738e-05,
      "loss": 0.6018,
      "step": 148200
    },
    {
      "epoch": 0.2024247273581286,
      "grad_norm": 3.0625,
      "learning_rate": 9.169129813759507e-05,
      "loss": 0.696,
      "step": 148250
    },
    {
      "epoch": 0.20249299876701835,
      "grad_norm": 3.09375,
      "learning_rate": 9.168525635022321e-05,
      "loss": 0.6819,
      "step": 148300
    },
    {
      "epoch": 0.2025612701759081,
      "grad_norm": 3.859375,
      "learning_rate": 9.16792125661712e-05,
      "loss": 0.6733,
      "step": 148350
    },
    {
      "epoch": 0.20262954158479787,
      "grad_norm": 3.453125,
      "learning_rate": 9.167316678572853e-05,
      "loss": 0.6501,
      "step": 148400
    },
    {
      "epoch": 0.20269781299368764,
      "grad_norm": 7.90625,
      "learning_rate": 9.166711900918477e-05,
      "loss": 0.7971,
      "step": 148450
    },
    {
      "epoch": 0.20276608440257737,
      "grad_norm": 3.953125,
      "learning_rate": 9.166106923682962e-05,
      "loss": 0.6252,
      "step": 148500
    },
    {
      "epoch": 0.20283435581146714,
      "grad_norm": 3.890625,
      "learning_rate": 9.165501746895285e-05,
      "loss": 0.6648,
      "step": 148550
    },
    {
      "epoch": 0.2029026272203569,
      "grad_norm": 2.828125,
      "learning_rate": 9.164896370584435e-05,
      "loss": 0.7266,
      "step": 148600
    },
    {
      "epoch": 0.20297089862924667,
      "grad_norm": 2.671875,
      "learning_rate": 9.164290794779407e-05,
      "loss": 0.6241,
      "step": 148650
    },
    {
      "epoch": 0.2030391700381364,
      "grad_norm": 2.84375,
      "learning_rate": 9.163685019509208e-05,
      "loss": 0.6131,
      "step": 148700
    },
    {
      "epoch": 0.20310744144702617,
      "grad_norm": 9.4375,
      "learning_rate": 9.163079044802851e-05,
      "loss": 0.8199,
      "step": 148750
    },
    {
      "epoch": 0.20317571285591593,
      "grad_norm": 2.21875,
      "learning_rate": 9.162472870689368e-05,
      "loss": 0.6757,
      "step": 148800
    },
    {
      "epoch": 0.20324398426480567,
      "grad_norm": 2.671875,
      "learning_rate": 9.16186649719779e-05,
      "loss": 0.6432,
      "step": 148850
    },
    {
      "epoch": 0.20331225567369543,
      "grad_norm": 3.140625,
      "learning_rate": 9.161259924357162e-05,
      "loss": 0.748,
      "step": 148900
    },
    {
      "epoch": 0.2033805270825852,
      "grad_norm": 2.921875,
      "learning_rate": 9.160653152196539e-05,
      "loss": 0.8799,
      "step": 148950
    },
    {
      "epoch": 0.20344879849147496,
      "grad_norm": 3.890625,
      "learning_rate": 9.160046180744983e-05,
      "loss": 0.683,
      "step": 149000
    },
    {
      "epoch": 0.2035170699003647,
      "grad_norm": 3.03125,
      "learning_rate": 9.15943901003157e-05,
      "loss": 0.6284,
      "step": 149050
    },
    {
      "epoch": 0.20358534130925446,
      "grad_norm": 2.921875,
      "learning_rate": 9.158831640085379e-05,
      "loss": 0.7153,
      "step": 149100
    },
    {
      "epoch": 0.20365361271814422,
      "grad_norm": 2.859375,
      "learning_rate": 9.158224070935505e-05,
      "loss": 0.6171,
      "step": 149150
    },
    {
      "epoch": 0.203721884127034,
      "grad_norm": 7.53125,
      "learning_rate": 9.157616302611053e-05,
      "loss": 0.7214,
      "step": 149200
    },
    {
      "epoch": 0.20379015553592372,
      "grad_norm": 2.46875,
      "learning_rate": 9.157008335141128e-05,
      "loss": 0.8843,
      "step": 149250
    },
    {
      "epoch": 0.2038584269448135,
      "grad_norm": 2.828125,
      "learning_rate": 9.156400168554856e-05,
      "loss": 0.6823,
      "step": 149300
    },
    {
      "epoch": 0.20392669835370325,
      "grad_norm": 2.890625,
      "learning_rate": 9.155791802881366e-05,
      "loss": 0.5933,
      "step": 149350
    },
    {
      "epoch": 0.20399496976259301,
      "grad_norm": 3.40625,
      "learning_rate": 9.155183238149796e-05,
      "loss": 0.6773,
      "step": 149400
    },
    {
      "epoch": 0.20406324117148275,
      "grad_norm": 3.078125,
      "learning_rate": 9.154574474389298e-05,
      "loss": 0.6485,
      "step": 149450
    },
    {
      "epoch": 0.20413151258037252,
      "grad_norm": 3.453125,
      "learning_rate": 9.15396551162903e-05,
      "loss": 0.6557,
      "step": 149500
    },
    {
      "epoch": 0.20419978398926228,
      "grad_norm": 8.0625,
      "learning_rate": 9.153356349898164e-05,
      "loss": 0.6424,
      "step": 149550
    },
    {
      "epoch": 0.20426805539815204,
      "grad_norm": 7.78125,
      "learning_rate": 9.152746989225874e-05,
      "loss": 0.7372,
      "step": 149600
    },
    {
      "epoch": 0.20433632680704178,
      "grad_norm": 2.703125,
      "learning_rate": 9.152137429641346e-05,
      "loss": 0.6347,
      "step": 149650
    },
    {
      "epoch": 0.20440459821593154,
      "grad_norm": 7.0,
      "learning_rate": 9.151527671173784e-05,
      "loss": 0.8248,
      "step": 149700
    },
    {
      "epoch": 0.2044728696248213,
      "grad_norm": 2.4375,
      "learning_rate": 9.15091771385239e-05,
      "loss": 0.7252,
      "step": 149750
    },
    {
      "epoch": 0.20454114103371104,
      "grad_norm": 4.1875,
      "learning_rate": 9.150307557706381e-05,
      "loss": 0.8559,
      "step": 149800
    },
    {
      "epoch": 0.2046094124426008,
      "grad_norm": 2.84375,
      "learning_rate": 9.149697202764985e-05,
      "loss": 0.8496,
      "step": 149850
    },
    {
      "epoch": 0.20467768385149057,
      "grad_norm": 2.703125,
      "learning_rate": 9.149086649057434e-05,
      "loss": 0.6538,
      "step": 149900
    },
    {
      "epoch": 0.20474595526038034,
      "grad_norm": 7.53125,
      "learning_rate": 9.148475896612975e-05,
      "loss": 0.7583,
      "step": 149950
    },
    {
      "epoch": 0.20481422666927007,
      "grad_norm": 3.53125,
      "learning_rate": 9.147864945460864e-05,
      "loss": 0.769,
      "step": 150000
    },
    {
      "epoch": 0.20488249807815984,
      "grad_norm": 3.234375,
      "learning_rate": 9.147253795630362e-05,
      "loss": 0.7653,
      "step": 150050
    },
    {
      "epoch": 0.2049507694870496,
      "grad_norm": 2.578125,
      "learning_rate": 9.146642447150742e-05,
      "loss": 0.7169,
      "step": 150100
    },
    {
      "epoch": 0.20501904089593936,
      "grad_norm": 3.765625,
      "learning_rate": 9.14603090005129e-05,
      "loss": 0.6986,
      "step": 150150
    },
    {
      "epoch": 0.2050873123048291,
      "grad_norm": 2.40625,
      "learning_rate": 9.145419154361296e-05,
      "loss": 0.6812,
      "step": 150200
    },
    {
      "epoch": 0.20515558371371886,
      "grad_norm": 2.5,
      "learning_rate": 9.144807210110063e-05,
      "loss": 0.5993,
      "step": 150250
    },
    {
      "epoch": 0.20522385512260863,
      "grad_norm": 8.25,
      "learning_rate": 9.144195067326902e-05,
      "loss": 0.7562,
      "step": 150300
    },
    {
      "epoch": 0.2052921265314984,
      "grad_norm": 3.21875,
      "learning_rate": 9.143582726041133e-05,
      "loss": 0.7275,
      "step": 150350
    },
    {
      "epoch": 0.20536039794038813,
      "grad_norm": 2.65625,
      "learning_rate": 9.14297018628209e-05,
      "loss": 0.6856,
      "step": 150400
    },
    {
      "epoch": 0.2054286693492779,
      "grad_norm": 3.3125,
      "learning_rate": 9.142357448079111e-05,
      "loss": 0.6477,
      "step": 150450
    },
    {
      "epoch": 0.20549694075816766,
      "grad_norm": 3.78125,
      "learning_rate": 9.141744511461544e-05,
      "loss": 0.9068,
      "step": 150500
    },
    {
      "epoch": 0.2055652121670574,
      "grad_norm": 3.546875,
      "learning_rate": 9.14113137645875e-05,
      "loss": 0.8068,
      "step": 150550
    },
    {
      "epoch": 0.20563348357594716,
      "grad_norm": 3.734375,
      "learning_rate": 9.140518043100095e-05,
      "loss": 0.5763,
      "step": 150600
    },
    {
      "epoch": 0.20570175498483692,
      "grad_norm": 2.59375,
      "learning_rate": 9.139904511414961e-05,
      "loss": 0.6708,
      "step": 150650
    },
    {
      "epoch": 0.20577002639372668,
      "grad_norm": 8.4375,
      "learning_rate": 9.139290781432733e-05,
      "loss": 0.7624,
      "step": 150700
    },
    {
      "epoch": 0.20583829780261642,
      "grad_norm": 2.671875,
      "learning_rate": 9.138676853182808e-05,
      "loss": 0.6729,
      "step": 150750
    },
    {
      "epoch": 0.20590656921150619,
      "grad_norm": 7.0625,
      "learning_rate": 9.138062726694593e-05,
      "loss": 0.7258,
      "step": 150800
    },
    {
      "epoch": 0.20597484062039595,
      "grad_norm": 2.421875,
      "learning_rate": 9.137448401997504e-05,
      "loss": 0.6357,
      "step": 150850
    },
    {
      "epoch": 0.2060431120292857,
      "grad_norm": 2.53125,
      "learning_rate": 9.136833879120967e-05,
      "loss": 0.6871,
      "step": 150900
    },
    {
      "epoch": 0.20611138343817545,
      "grad_norm": 8.8125,
      "learning_rate": 9.136219158094415e-05,
      "loss": 0.9739,
      "step": 150950
    },
    {
      "epoch": 0.2061796548470652,
      "grad_norm": 7.28125,
      "learning_rate": 9.135604238947295e-05,
      "loss": 0.872,
      "step": 151000
    },
    {
      "epoch": 0.20624792625595498,
      "grad_norm": 3.65625,
      "learning_rate": 9.134989121709061e-05,
      "loss": 0.6497,
      "step": 151050
    },
    {
      "epoch": 0.20631619766484474,
      "grad_norm": 2.984375,
      "learning_rate": 9.134373806409175e-05,
      "loss": 0.711,
      "step": 151100
    },
    {
      "epoch": 0.20638446907373448,
      "grad_norm": 3.0625,
      "learning_rate": 9.13375829307711e-05,
      "loss": 0.5867,
      "step": 151150
    },
    {
      "epoch": 0.20645274048262424,
      "grad_norm": 8.0625,
      "learning_rate": 9.133142581742349e-05,
      "loss": 0.8788,
      "step": 151200
    },
    {
      "epoch": 0.206521011891514,
      "grad_norm": 3.53125,
      "learning_rate": 9.132526672434382e-05,
      "loss": 0.6053,
      "step": 151250
    },
    {
      "epoch": 0.20658928330040377,
      "grad_norm": 3.015625,
      "learning_rate": 9.131910565182716e-05,
      "loss": 0.7002,
      "step": 151300
    },
    {
      "epoch": 0.2066575547092935,
      "grad_norm": 2.796875,
      "learning_rate": 9.131294260016854e-05,
      "loss": 0.6905,
      "step": 151350
    },
    {
      "epoch": 0.20672582611818327,
      "grad_norm": 2.6875,
      "learning_rate": 9.130677756966322e-05,
      "loss": 0.6894,
      "step": 151400
    },
    {
      "epoch": 0.20679409752707303,
      "grad_norm": 3.3125,
      "learning_rate": 9.130061056060648e-05,
      "loss": 0.7045,
      "step": 151450
    },
    {
      "epoch": 0.20686236893596277,
      "grad_norm": 3.03125,
      "learning_rate": 9.129444157329373e-05,
      "loss": 0.6631,
      "step": 151500
    },
    {
      "epoch": 0.20693064034485253,
      "grad_norm": 3.0,
      "learning_rate": 9.128827060802043e-05,
      "loss": 0.781,
      "step": 151550
    },
    {
      "epoch": 0.2069989117537423,
      "grad_norm": 2.921875,
      "learning_rate": 9.128209766508218e-05,
      "loss": 0.6106,
      "step": 151600
    },
    {
      "epoch": 0.20706718316263206,
      "grad_norm": 3.453125,
      "learning_rate": 9.127592274477468e-05,
      "loss": 0.6817,
      "step": 151650
    },
    {
      "epoch": 0.2071354545715218,
      "grad_norm": 3.234375,
      "learning_rate": 9.126974584739364e-05,
      "loss": 0.649,
      "step": 151700
    },
    {
      "epoch": 0.20720372598041156,
      "grad_norm": 3.15625,
      "learning_rate": 9.126356697323499e-05,
      "loss": 0.7878,
      "step": 151750
    },
    {
      "epoch": 0.20727199738930133,
      "grad_norm": 7.46875,
      "learning_rate": 9.125738612259464e-05,
      "loss": 0.7008,
      "step": 151800
    },
    {
      "epoch": 0.2073402687981911,
      "grad_norm": 2.9375,
      "learning_rate": 9.125120329576869e-05,
      "loss": 0.6529,
      "step": 151850
    },
    {
      "epoch": 0.20740854020708083,
      "grad_norm": 3.9375,
      "learning_rate": 9.124501849305326e-05,
      "loss": 0.7104,
      "step": 151900
    },
    {
      "epoch": 0.2074768116159706,
      "grad_norm": 3.015625,
      "learning_rate": 9.123883171474461e-05,
      "loss": 0.7898,
      "step": 151950
    },
    {
      "epoch": 0.20754508302486036,
      "grad_norm": 2.625,
      "learning_rate": 9.123264296113909e-05,
      "loss": 0.6818,
      "step": 152000
    },
    {
      "epoch": 0.20761335443375012,
      "grad_norm": 2.703125,
      "learning_rate": 9.122645223253312e-05,
      "loss": 0.5832,
      "step": 152050
    },
    {
      "epoch": 0.20768162584263986,
      "grad_norm": 7.3125,
      "learning_rate": 9.122025952922322e-05,
      "loss": 0.8885,
      "step": 152100
    },
    {
      "epoch": 0.20774989725152962,
      "grad_norm": 3.0,
      "learning_rate": 9.121406485150605e-05,
      "loss": 0.7429,
      "step": 152150
    },
    {
      "epoch": 0.20781816866041938,
      "grad_norm": 3.21875,
      "learning_rate": 9.120786819967828e-05,
      "loss": 0.6672,
      "step": 152200
    },
    {
      "epoch": 0.20788644006930915,
      "grad_norm": 2.5625,
      "learning_rate": 9.120166957403677e-05,
      "loss": 0.7129,
      "step": 152250
    },
    {
      "epoch": 0.20795471147819888,
      "grad_norm": 4.0625,
      "learning_rate": 9.119546897487839e-05,
      "loss": 0.6935,
      "step": 152300
    },
    {
      "epoch": 0.20802298288708865,
      "grad_norm": 3.21875,
      "learning_rate": 9.118926640250017e-05,
      "loss": 0.7128,
      "step": 152350
    },
    {
      "epoch": 0.2080912542959784,
      "grad_norm": 3.15625,
      "learning_rate": 9.118306185719918e-05,
      "loss": 0.7243,
      "step": 152400
    },
    {
      "epoch": 0.20815952570486815,
      "grad_norm": 3.640625,
      "learning_rate": 9.117685533927263e-05,
      "loss": 0.6975,
      "step": 152450
    },
    {
      "epoch": 0.2082277971137579,
      "grad_norm": 3.453125,
      "learning_rate": 9.117064684901781e-05,
      "loss": 0.6965,
      "step": 152500
    },
    {
      "epoch": 0.20829606852264768,
      "grad_norm": 3.578125,
      "learning_rate": 9.116443638673209e-05,
      "loss": 0.7313,
      "step": 152550
    },
    {
      "epoch": 0.20836433993153744,
      "grad_norm": 8.0625,
      "learning_rate": 9.115822395271294e-05,
      "loss": 0.7036,
      "step": 152600
    },
    {
      "epoch": 0.20843261134042718,
      "grad_norm": 2.703125,
      "learning_rate": 9.115200954725796e-05,
      "loss": 0.6939,
      "step": 152650
    },
    {
      "epoch": 0.20850088274931694,
      "grad_norm": 3.75,
      "learning_rate": 9.114579317066476e-05,
      "loss": 0.7732,
      "step": 152700
    },
    {
      "epoch": 0.2085691541582067,
      "grad_norm": 8.0625,
      "learning_rate": 9.113957482323114e-05,
      "loss": 0.74,
      "step": 152750
    },
    {
      "epoch": 0.20863742556709647,
      "grad_norm": 3.734375,
      "learning_rate": 9.113335450525493e-05,
      "loss": 0.6782,
      "step": 152800
    },
    {
      "epoch": 0.2087056969759862,
      "grad_norm": 2.890625,
      "learning_rate": 9.11271322170341e-05,
      "loss": 0.6485,
      "step": 152850
    },
    {
      "epoch": 0.20877396838487597,
      "grad_norm": 3.5625,
      "learning_rate": 9.112090795886667e-05,
      "loss": 0.7119,
      "step": 152900
    },
    {
      "epoch": 0.20884223979376573,
      "grad_norm": 2.796875,
      "learning_rate": 9.111468173105077e-05,
      "loss": 0.6578,
      "step": 152950
    },
    {
      "epoch": 0.2089105112026555,
      "grad_norm": 2.515625,
      "learning_rate": 9.110845353388467e-05,
      "loss": 0.6132,
      "step": 153000
    },
    {
      "epoch": 0.20897878261154523,
      "grad_norm": 4.125,
      "learning_rate": 9.110222336766664e-05,
      "loss": 0.6868,
      "step": 153050
    },
    {
      "epoch": 0.209047054020435,
      "grad_norm": 2.375,
      "learning_rate": 9.109599123269515e-05,
      "loss": 0.7971,
      "step": 153100
    },
    {
      "epoch": 0.20911532542932476,
      "grad_norm": 3.46875,
      "learning_rate": 9.108975712926867e-05,
      "loss": 0.9718,
      "step": 153150
    },
    {
      "epoch": 0.20918359683821452,
      "grad_norm": 2.859375,
      "learning_rate": 9.108352105768583e-05,
      "loss": 0.6334,
      "step": 153200
    },
    {
      "epoch": 0.20925186824710426,
      "grad_norm": 2.234375,
      "learning_rate": 9.107728301824532e-05,
      "loss": 0.8349,
      "step": 153250
    },
    {
      "epoch": 0.20932013965599403,
      "grad_norm": 3.03125,
      "learning_rate": 9.107104301124596e-05,
      "loss": 0.6879,
      "step": 153300
    },
    {
      "epoch": 0.2093884110648838,
      "grad_norm": 3.59375,
      "learning_rate": 9.10648010369866e-05,
      "loss": 0.8494,
      "step": 153350
    },
    {
      "epoch": 0.20945668247377353,
      "grad_norm": 2.671875,
      "learning_rate": 9.105855709576625e-05,
      "loss": 0.6008,
      "step": 153400
    },
    {
      "epoch": 0.2095249538826633,
      "grad_norm": 3.109375,
      "learning_rate": 9.1052311187884e-05,
      "loss": 0.7418,
      "step": 153450
    },
    {
      "epoch": 0.20959322529155305,
      "grad_norm": 2.6875,
      "learning_rate": 9.1046063313639e-05,
      "loss": 0.7458,
      "step": 153500
    },
    {
      "epoch": 0.20966149670044282,
      "grad_norm": 3.359375,
      "learning_rate": 9.103981347333053e-05,
      "loss": 0.6452,
      "step": 153550
    },
    {
      "epoch": 0.20972976810933255,
      "grad_norm": 3.078125,
      "learning_rate": 9.103356166725792e-05,
      "loss": 0.5974,
      "step": 153600
    },
    {
      "epoch": 0.20979803951822232,
      "grad_norm": 4.0625,
      "learning_rate": 9.102730789572067e-05,
      "loss": 0.7259,
      "step": 153650
    },
    {
      "epoch": 0.20986631092711208,
      "grad_norm": 3.34375,
      "learning_rate": 9.10210521590183e-05,
      "loss": 0.5689,
      "step": 153700
    },
    {
      "epoch": 0.20993458233600185,
      "grad_norm": 2.609375,
      "learning_rate": 9.101479445745045e-05,
      "loss": 0.8501,
      "step": 153750
    },
    {
      "epoch": 0.21000285374489158,
      "grad_norm": 2.46875,
      "learning_rate": 9.100853479131688e-05,
      "loss": 0.6316,
      "step": 153800
    },
    {
      "epoch": 0.21007112515378135,
      "grad_norm": 2.78125,
      "learning_rate": 9.100227316091741e-05,
      "loss": 0.7167,
      "step": 153850
    },
    {
      "epoch": 0.2101393965626711,
      "grad_norm": 3.65625,
      "learning_rate": 9.099600956655197e-05,
      "loss": 0.6786,
      "step": 153900
    },
    {
      "epoch": 0.21020766797156087,
      "grad_norm": 3.453125,
      "learning_rate": 9.098974400852056e-05,
      "loss": 0.7459,
      "step": 153950
    },
    {
      "epoch": 0.2102759393804506,
      "grad_norm": 3.8125,
      "learning_rate": 9.098347648712334e-05,
      "loss": 0.6704,
      "step": 154000
    },
    {
      "epoch": 0.21034421078934037,
      "grad_norm": 2.421875,
      "learning_rate": 9.097720700266045e-05,
      "loss": 0.601,
      "step": 154050
    },
    {
      "epoch": 0.21041248219823014,
      "grad_norm": 2.46875,
      "learning_rate": 9.097093555543224e-05,
      "loss": 0.7347,
      "step": 154100
    },
    {
      "epoch": 0.2104807536071199,
      "grad_norm": 2.578125,
      "learning_rate": 9.09646621457391e-05,
      "loss": 0.6715,
      "step": 154150
    },
    {
      "epoch": 0.21054902501600964,
      "grad_norm": 2.265625,
      "learning_rate": 9.095838677388151e-05,
      "loss": 0.5771,
      "step": 154200
    },
    {
      "epoch": 0.2106172964248994,
      "grad_norm": 7.09375,
      "learning_rate": 9.095210944016007e-05,
      "loss": 0.7033,
      "step": 154250
    },
    {
      "epoch": 0.21068556783378917,
      "grad_norm": 2.953125,
      "learning_rate": 9.094583014487543e-05,
      "loss": 0.7166,
      "step": 154300
    },
    {
      "epoch": 0.2107538392426789,
      "grad_norm": 2.328125,
      "learning_rate": 9.093954888832838e-05,
      "loss": 0.6771,
      "step": 154350
    },
    {
      "epoch": 0.21082211065156867,
      "grad_norm": 7.59375,
      "learning_rate": 9.093326567081977e-05,
      "loss": 0.8934,
      "step": 154400
    },
    {
      "epoch": 0.21089038206045843,
      "grad_norm": 2.8125,
      "learning_rate": 9.092698049265059e-05,
      "loss": 0.6859,
      "step": 154450
    },
    {
      "epoch": 0.2109586534693482,
      "grad_norm": 3.75,
      "learning_rate": 9.092069335412188e-05,
      "loss": 0.6535,
      "step": 154500
    },
    {
      "epoch": 0.21102692487823793,
      "grad_norm": 3.828125,
      "learning_rate": 9.091440425553477e-05,
      "loss": 0.7754,
      "step": 154550
    },
    {
      "epoch": 0.2110951962871277,
      "grad_norm": 2.46875,
      "learning_rate": 9.090811319719052e-05,
      "loss": 0.5935,
      "step": 154600
    },
    {
      "epoch": 0.21116346769601746,
      "grad_norm": 4.03125,
      "learning_rate": 9.090182017939046e-05,
      "loss": 0.6003,
      "step": 154650
    },
    {
      "epoch": 0.21123173910490722,
      "grad_norm": 2.890625,
      "learning_rate": 9.0895525202436e-05,
      "loss": 0.7066,
      "step": 154700
    },
    {
      "epoch": 0.21130001051379696,
      "grad_norm": 4.03125,
      "learning_rate": 9.08892282666287e-05,
      "loss": 0.6179,
      "step": 154750
    },
    {
      "epoch": 0.21136828192268672,
      "grad_norm": 2.609375,
      "learning_rate": 9.088292937227016e-05,
      "loss": 0.7708,
      "step": 154800
    },
    {
      "epoch": 0.2114365533315765,
      "grad_norm": 3.109375,
      "learning_rate": 9.087662851966207e-05,
      "loss": 0.7679,
      "step": 154850
    },
    {
      "epoch": 0.21150482474046625,
      "grad_norm": 2.453125,
      "learning_rate": 9.087032570910627e-05,
      "loss": 0.6339,
      "step": 154900
    },
    {
      "epoch": 0.211573096149356,
      "grad_norm": 2.53125,
      "learning_rate": 9.086402094090463e-05,
      "loss": 0.9044,
      "step": 154950
    },
    {
      "epoch": 0.21164136755824575,
      "grad_norm": 3.5625,
      "learning_rate": 9.085771421535915e-05,
      "loss": 0.7391,
      "step": 155000
    },
    {
      "epoch": 0.21170963896713552,
      "grad_norm": 2.921875,
      "learning_rate": 9.085140553277193e-05,
      "loss": 0.8769,
      "step": 155050
    },
    {
      "epoch": 0.21177791037602525,
      "grad_norm": 3.671875,
      "learning_rate": 9.084509489344513e-05,
      "loss": 0.8151,
      "step": 155100
    },
    {
      "epoch": 0.21184618178491502,
      "grad_norm": 6.75,
      "learning_rate": 9.083878229768103e-05,
      "loss": 0.6844,
      "step": 155150
    },
    {
      "epoch": 0.21191445319380478,
      "grad_norm": 3.671875,
      "learning_rate": 9.083246774578201e-05,
      "loss": 0.6232,
      "step": 155200
    },
    {
      "epoch": 0.21198272460269454,
      "grad_norm": 3.625,
      "learning_rate": 9.08261512380505e-05,
      "loss": 0.5666,
      "step": 155250
    },
    {
      "epoch": 0.21205099601158428,
      "grad_norm": 8.4375,
      "learning_rate": 9.081983277478907e-05,
      "loss": 0.7719,
      "step": 155300
    },
    {
      "epoch": 0.21211926742047404,
      "grad_norm": 2.59375,
      "learning_rate": 9.081351235630038e-05,
      "loss": 0.7174,
      "step": 155350
    },
    {
      "epoch": 0.2121875388293638,
      "grad_norm": 3.6875,
      "learning_rate": 9.080718998288716e-05,
      "loss": 0.6432,
      "step": 155400
    },
    {
      "epoch": 0.21225581023825357,
      "grad_norm": 2.421875,
      "learning_rate": 9.080086565485224e-05,
      "loss": 0.5751,
      "step": 155450
    },
    {
      "epoch": 0.2123240816471433,
      "grad_norm": 2.46875,
      "learning_rate": 9.079453937249855e-05,
      "loss": 0.7544,
      "step": 155500
    },
    {
      "epoch": 0.21239235305603307,
      "grad_norm": 4.125,
      "learning_rate": 9.078821113612911e-05,
      "loss": 0.942,
      "step": 155550
    },
    {
      "epoch": 0.21246062446492284,
      "grad_norm": 3.40625,
      "learning_rate": 9.078188094604706e-05,
      "loss": 0.7836,
      "step": 155600
    },
    {
      "epoch": 0.2125288958738126,
      "grad_norm": 3.703125,
      "learning_rate": 9.077554880255559e-05,
      "loss": 0.7802,
      "step": 155650
    },
    {
      "epoch": 0.21259716728270234,
      "grad_norm": 2.671875,
      "learning_rate": 9.076921470595801e-05,
      "loss": 0.8236,
      "step": 155700
    },
    {
      "epoch": 0.2126654386915921,
      "grad_norm": 3.03125,
      "learning_rate": 9.076287865655769e-05,
      "loss": 0.8013,
      "step": 155750
    },
    {
      "epoch": 0.21273371010048187,
      "grad_norm": 2.71875,
      "learning_rate": 9.075654065465815e-05,
      "loss": 0.7359,
      "step": 155800
    },
    {
      "epoch": 0.21280198150937163,
      "grad_norm": 3.828125,
      "learning_rate": 9.075020070056298e-05,
      "loss": 0.749,
      "step": 155850
    },
    {
      "epoch": 0.21287025291826137,
      "grad_norm": 2.375,
      "learning_rate": 9.074385879457583e-05,
      "loss": 0.6172,
      "step": 155900
    },
    {
      "epoch": 0.21293852432715113,
      "grad_norm": 3.03125,
      "learning_rate": 9.073751493700049e-05,
      "loss": 0.6031,
      "step": 155950
    },
    {
      "epoch": 0.2130067957360409,
      "grad_norm": 8.125,
      "learning_rate": 9.073116912814081e-05,
      "loss": 0.7113,
      "step": 156000
    },
    {
      "epoch": 0.21307506714493063,
      "grad_norm": 2.796875,
      "learning_rate": 9.072482136830076e-05,
      "loss": 0.6508,
      "step": 156050
    },
    {
      "epoch": 0.2131433385538204,
      "grad_norm": 8.25,
      "learning_rate": 9.071847165778437e-05,
      "loss": 0.8996,
      "step": 156100
    },
    {
      "epoch": 0.21321160996271016,
      "grad_norm": 3.609375,
      "learning_rate": 9.071211999689582e-05,
      "loss": 0.6315,
      "step": 156150
    },
    {
      "epoch": 0.21327988137159992,
      "grad_norm": 2.78125,
      "learning_rate": 9.070576638593932e-05,
      "loss": 0.6033,
      "step": 156200
    },
    {
      "epoch": 0.21334815278048966,
      "grad_norm": 3.03125,
      "learning_rate": 9.069941082521923e-05,
      "loss": 0.7,
      "step": 156250
    },
    {
      "epoch": 0.21341642418937942,
      "grad_norm": 2.8125,
      "learning_rate": 9.069305331503992e-05,
      "loss": 0.6315,
      "step": 156300
    },
    {
      "epoch": 0.2134846955982692,
      "grad_norm": 4.0625,
      "learning_rate": 9.068669385570596e-05,
      "loss": 0.9366,
      "step": 156350
    },
    {
      "epoch": 0.21355296700715895,
      "grad_norm": 3.515625,
      "learning_rate": 9.068033244752194e-05,
      "loss": 0.7195,
      "step": 156400
    },
    {
      "epoch": 0.2136212384160487,
      "grad_norm": 2.890625,
      "learning_rate": 9.067396909079258e-05,
      "loss": 0.535,
      "step": 156450
    },
    {
      "epoch": 0.21368950982493845,
      "grad_norm": 4.0,
      "learning_rate": 9.066760378582267e-05,
      "loss": 0.7188,
      "step": 156500
    },
    {
      "epoch": 0.21375778123382821,
      "grad_norm": 2.4375,
      "learning_rate": 9.066123653291708e-05,
      "loss": 0.8691,
      "step": 156550
    },
    {
      "epoch": 0.21382605264271798,
      "grad_norm": 4.0,
      "learning_rate": 9.065486733238082e-05,
      "loss": 0.7233,
      "step": 156600
    },
    {
      "epoch": 0.21389432405160771,
      "grad_norm": 2.625,
      "learning_rate": 9.064849618451896e-05,
      "loss": 0.7208,
      "step": 156650
    },
    {
      "epoch": 0.21396259546049748,
      "grad_norm": 2.53125,
      "learning_rate": 9.064212308963667e-05,
      "loss": 0.7398,
      "step": 156700
    },
    {
      "epoch": 0.21403086686938724,
      "grad_norm": 2.359375,
      "learning_rate": 9.063574804803923e-05,
      "loss": 0.8359,
      "step": 156750
    },
    {
      "epoch": 0.214099138278277,
      "grad_norm": 7.6875,
      "learning_rate": 9.062937106003196e-05,
      "loss": 0.7297,
      "step": 156800
    },
    {
      "epoch": 0.21416740968716674,
      "grad_norm": 2.65625,
      "learning_rate": 9.062299212592036e-05,
      "loss": 0.5589,
      "step": 156850
    },
    {
      "epoch": 0.2142356810960565,
      "grad_norm": 3.3125,
      "learning_rate": 9.061661124600993e-05,
      "loss": 0.7627,
      "step": 156900
    },
    {
      "epoch": 0.21430395250494627,
      "grad_norm": 3.046875,
      "learning_rate": 9.061022842060635e-05,
      "loss": 0.6677,
      "step": 156950
    },
    {
      "epoch": 0.214372223913836,
      "grad_norm": 3.546875,
      "learning_rate": 9.060384365001531e-05,
      "loss": 0.8826,
      "step": 157000
    },
    {
      "epoch": 0.21444049532272577,
      "grad_norm": 3.875,
      "learning_rate": 9.059745693454267e-05,
      "loss": 0.7332,
      "step": 157050
    },
    {
      "epoch": 0.21450876673161554,
      "grad_norm": 2.890625,
      "learning_rate": 9.059106827449431e-05,
      "loss": 0.695,
      "step": 157100
    },
    {
      "epoch": 0.2145770381405053,
      "grad_norm": 2.53125,
      "learning_rate": 9.058467767017627e-05,
      "loss": 0.6962,
      "step": 157150
    },
    {
      "epoch": 0.21464530954939504,
      "grad_norm": 3.796875,
      "learning_rate": 9.057828512189464e-05,
      "loss": 0.7441,
      "step": 157200
    },
    {
      "epoch": 0.2147135809582848,
      "grad_norm": 2.328125,
      "learning_rate": 9.057189062995562e-05,
      "loss": 0.7151,
      "step": 157250
    },
    {
      "epoch": 0.21478185236717456,
      "grad_norm": 2.515625,
      "learning_rate": 9.05654941946655e-05,
      "loss": 0.722,
      "step": 157300
    },
    {
      "epoch": 0.21485012377606433,
      "grad_norm": 2.875,
      "learning_rate": 9.055909581633066e-05,
      "loss": 0.6955,
      "step": 157350
    },
    {
      "epoch": 0.21491839518495406,
      "grad_norm": 2.828125,
      "learning_rate": 9.055269549525756e-05,
      "loss": 0.8443,
      "step": 157400
    },
    {
      "epoch": 0.21498666659384383,
      "grad_norm": 2.640625,
      "learning_rate": 9.054629323175281e-05,
      "loss": 0.8059,
      "step": 157450
    },
    {
      "epoch": 0.2150549380027336,
      "grad_norm": 3.625,
      "learning_rate": 9.053988902612303e-05,
      "loss": 0.7681,
      "step": 157500
    },
    {
      "epoch": 0.21512320941162336,
      "grad_norm": 3.828125,
      "learning_rate": 9.0533482878675e-05,
      "loss": 0.7648,
      "step": 157550
    },
    {
      "epoch": 0.2151914808205131,
      "grad_norm": 3.75,
      "learning_rate": 9.052707478971555e-05,
      "loss": 0.8076,
      "step": 157600
    },
    {
      "epoch": 0.21525975222940286,
      "grad_norm": 4.15625,
      "learning_rate": 9.052066475955164e-05,
      "loss": 0.6749,
      "step": 157650
    },
    {
      "epoch": 0.21532802363829262,
      "grad_norm": 2.890625,
      "learning_rate": 9.051425278849029e-05,
      "loss": 0.7126,
      "step": 157700
    },
    {
      "epoch": 0.21539629504718238,
      "grad_norm": 3.1875,
      "learning_rate": 9.050783887683863e-05,
      "loss": 0.6998,
      "step": 157750
    },
    {
      "epoch": 0.21546456645607212,
      "grad_norm": 3.296875,
      "learning_rate": 9.050142302490389e-05,
      "loss": 0.7256,
      "step": 157800
    },
    {
      "epoch": 0.21553283786496188,
      "grad_norm": 2.953125,
      "learning_rate": 9.049500523299337e-05,
      "loss": 0.7128,
      "step": 157850
    },
    {
      "epoch": 0.21560110927385165,
      "grad_norm": 2.78125,
      "learning_rate": 9.048858550141447e-05,
      "loss": 0.6805,
      "step": 157900
    },
    {
      "epoch": 0.21566938068274139,
      "grad_norm": 3.1875,
      "learning_rate": 9.048216383047469e-05,
      "loss": 0.6195,
      "step": 157950
    },
    {
      "epoch": 0.21573765209163115,
      "grad_norm": 2.609375,
      "learning_rate": 9.047574022048165e-05,
      "loss": 0.7409,
      "step": 158000
    },
    {
      "epoch": 0.2158059235005209,
      "grad_norm": 2.421875,
      "learning_rate": 9.0469314671743e-05,
      "loss": 0.8196,
      "step": 158050
    },
    {
      "epoch": 0.21587419490941068,
      "grad_norm": 3.203125,
      "learning_rate": 9.046288718456652e-05,
      "loss": 0.6842,
      "step": 158100
    },
    {
      "epoch": 0.2159424663183004,
      "grad_norm": 2.890625,
      "learning_rate": 9.04564577592601e-05,
      "loss": 0.6941,
      "step": 158150
    },
    {
      "epoch": 0.21601073772719018,
      "grad_norm": 2.515625,
      "learning_rate": 9.045002639613169e-05,
      "loss": 0.5739,
      "step": 158200
    },
    {
      "epoch": 0.21607900913607994,
      "grad_norm": 3.234375,
      "learning_rate": 9.044359309548935e-05,
      "loss": 0.7048,
      "step": 158250
    },
    {
      "epoch": 0.2161472805449697,
      "grad_norm": 4.1875,
      "learning_rate": 9.043715785764123e-05,
      "loss": 0.7006,
      "step": 158300
    },
    {
      "epoch": 0.21621555195385944,
      "grad_norm": 2.5,
      "learning_rate": 9.043072068289556e-05,
      "loss": 0.7549,
      "step": 158350
    },
    {
      "epoch": 0.2162838233627492,
      "grad_norm": 3.71875,
      "learning_rate": 9.042428157156069e-05,
      "loss": 0.6058,
      "step": 158400
    },
    {
      "epoch": 0.21635209477163897,
      "grad_norm": 2.28125,
      "learning_rate": 9.041784052394501e-05,
      "loss": 0.5921,
      "step": 158450
    },
    {
      "epoch": 0.21642036618052873,
      "grad_norm": 2.953125,
      "learning_rate": 9.04113975403571e-05,
      "loss": 0.8871,
      "step": 158500
    },
    {
      "epoch": 0.21648863758941847,
      "grad_norm": 2.59375,
      "learning_rate": 9.040495262110553e-05,
      "loss": 0.6875,
      "step": 158550
    },
    {
      "epoch": 0.21655690899830823,
      "grad_norm": 6.78125,
      "learning_rate": 9.039850576649902e-05,
      "loss": 0.7147,
      "step": 158600
    },
    {
      "epoch": 0.216625180407198,
      "grad_norm": 3.703125,
      "learning_rate": 9.039205697684633e-05,
      "loss": 0.6716,
      "step": 158650
    },
    {
      "epoch": 0.21669345181608773,
      "grad_norm": 3.390625,
      "learning_rate": 9.038560625245642e-05,
      "loss": 0.6623,
      "step": 158700
    },
    {
      "epoch": 0.2167617232249775,
      "grad_norm": 2.59375,
      "learning_rate": 9.037915359363822e-05,
      "loss": 0.577,
      "step": 158750
    },
    {
      "epoch": 0.21682999463386726,
      "grad_norm": 2.734375,
      "learning_rate": 9.037269900070082e-05,
      "loss": 0.6816,
      "step": 158800
    },
    {
      "epoch": 0.21689826604275703,
      "grad_norm": 3.90625,
      "learning_rate": 9.03662424739534e-05,
      "loss": 0.7618,
      "step": 158850
    },
    {
      "epoch": 0.21696653745164676,
      "grad_norm": 3.4375,
      "learning_rate": 9.03597840137052e-05,
      "loss": 0.7081,
      "step": 158900
    },
    {
      "epoch": 0.21703480886053653,
      "grad_norm": 9.5625,
      "learning_rate": 9.035332362026558e-05,
      "loss": 0.7262,
      "step": 158950
    },
    {
      "epoch": 0.2171030802694263,
      "grad_norm": 2.375,
      "learning_rate": 9.034686129394398e-05,
      "loss": 0.6222,
      "step": 159000
    },
    {
      "epoch": 0.21717135167831605,
      "grad_norm": 2.703125,
      "learning_rate": 9.034039703504997e-05,
      "loss": 0.9006,
      "step": 159050
    },
    {
      "epoch": 0.2172396230872058,
      "grad_norm": 8.875,
      "learning_rate": 9.033393084389314e-05,
      "loss": 0.9435,
      "step": 159100
    },
    {
      "epoch": 0.21730789449609555,
      "grad_norm": 2.578125,
      "learning_rate": 9.032746272078326e-05,
      "loss": 0.7054,
      "step": 159150
    },
    {
      "epoch": 0.21737616590498532,
      "grad_norm": 2.5625,
      "learning_rate": 9.03209926660301e-05,
      "loss": 0.8409,
      "step": 159200
    },
    {
      "epoch": 0.21744443731387508,
      "grad_norm": 4.40625,
      "learning_rate": 9.031452067994358e-05,
      "loss": 0.6631,
      "step": 159250
    },
    {
      "epoch": 0.21751270872276482,
      "grad_norm": 3.3125,
      "learning_rate": 9.030804676283372e-05,
      "loss": 0.7992,
      "step": 159300
    },
    {
      "epoch": 0.21758098013165458,
      "grad_norm": 3.4375,
      "learning_rate": 9.030157091501061e-05,
      "loss": 0.8976,
      "step": 159350
    },
    {
      "epoch": 0.21764925154054435,
      "grad_norm": 2.5,
      "learning_rate": 9.029509313678442e-05,
      "loss": 0.699,
      "step": 159400
    },
    {
      "epoch": 0.2177175229494341,
      "grad_norm": 2.6875,
      "learning_rate": 9.028861342846544e-05,
      "loss": 0.6771,
      "step": 159450
    },
    {
      "epoch": 0.21778579435832385,
      "grad_norm": 2.734375,
      "learning_rate": 9.028213179036405e-05,
      "loss": 0.741,
      "step": 159500
    },
    {
      "epoch": 0.2178540657672136,
      "grad_norm": 2.328125,
      "learning_rate": 9.027564822279068e-05,
      "loss": 0.9182,
      "step": 159550
    },
    {
      "epoch": 0.21792233717610338,
      "grad_norm": 2.921875,
      "learning_rate": 9.026916272605592e-05,
      "loss": 0.677,
      "step": 159600
    },
    {
      "epoch": 0.2179906085849931,
      "grad_norm": 4.65625,
      "learning_rate": 9.026267530047041e-05,
      "loss": 0.8263,
      "step": 159650
    },
    {
      "epoch": 0.21805887999388288,
      "grad_norm": 2.484375,
      "learning_rate": 9.02561859463449e-05,
      "loss": 0.7984,
      "step": 159700
    },
    {
      "epoch": 0.21812715140277264,
      "grad_norm": 2.390625,
      "learning_rate": 9.02496946639902e-05,
      "loss": 0.6576,
      "step": 159750
    },
    {
      "epoch": 0.2181954228116624,
      "grad_norm": 2.421875,
      "learning_rate": 9.024320145371726e-05,
      "loss": 0.6598,
      "step": 159800
    },
    {
      "epoch": 0.21826369422055214,
      "grad_norm": 5.84375,
      "learning_rate": 9.023670631583707e-05,
      "loss": 0.8341,
      "step": 159850
    },
    {
      "epoch": 0.2183319656294419,
      "grad_norm": 3.125,
      "learning_rate": 9.023020925066077e-05,
      "loss": 0.6029,
      "step": 159900
    },
    {
      "epoch": 0.21840023703833167,
      "grad_norm": 2.515625,
      "learning_rate": 9.022371025849954e-05,
      "loss": 0.7659,
      "step": 159950
    },
    {
      "epoch": 0.21846850844722143,
      "grad_norm": 2.640625,
      "learning_rate": 9.021720933966468e-05,
      "loss": 0.6791,
      "step": 160000
    },
    {
      "epoch": 0.21853677985611117,
      "grad_norm": 2.609375,
      "learning_rate": 9.021070649446759e-05,
      "loss": 0.6714,
      "step": 160050
    },
    {
      "epoch": 0.21860505126500093,
      "grad_norm": 4.59375,
      "learning_rate": 9.020420172321973e-05,
      "loss": 0.7137,
      "step": 160100
    },
    {
      "epoch": 0.2186733226738907,
      "grad_norm": 3.703125,
      "learning_rate": 9.01976950262327e-05,
      "loss": 0.9902,
      "step": 160150
    },
    {
      "epoch": 0.21874159408278046,
      "grad_norm": 2.984375,
      "learning_rate": 9.019118640381813e-05,
      "loss": 0.8477,
      "step": 160200
    },
    {
      "epoch": 0.2188098654916702,
      "grad_norm": 4.40625,
      "learning_rate": 9.018467585628781e-05,
      "loss": 0.6965,
      "step": 160250
    },
    {
      "epoch": 0.21887813690055996,
      "grad_norm": 3.84375,
      "learning_rate": 9.017816338395355e-05,
      "loss": 0.7942,
      "step": 160300
    },
    {
      "epoch": 0.21894640830944972,
      "grad_norm": 3.890625,
      "learning_rate": 9.01716489871273e-05,
      "loss": 0.8445,
      "step": 160350
    },
    {
      "epoch": 0.2190146797183395,
      "grad_norm": 2.515625,
      "learning_rate": 9.016513266612115e-05,
      "loss": 0.694,
      "step": 160400
    },
    {
      "epoch": 0.21908295112722923,
      "grad_norm": 4.9375,
      "learning_rate": 9.015861442124713e-05,
      "loss": 0.7467,
      "step": 160450
    },
    {
      "epoch": 0.219151222536119,
      "grad_norm": 3.0,
      "learning_rate": 9.015209425281755e-05,
      "loss": 0.7723,
      "step": 160500
    },
    {
      "epoch": 0.21921949394500875,
      "grad_norm": 2.78125,
      "learning_rate": 9.014557216114465e-05,
      "loss": 0.5853,
      "step": 160550
    },
    {
      "epoch": 0.2192877653538985,
      "grad_norm": 8.125,
      "learning_rate": 9.013904814654086e-05,
      "loss": 0.8979,
      "step": 160600
    },
    {
      "epoch": 0.21935603676278825,
      "grad_norm": 2.703125,
      "learning_rate": 9.013252220931867e-05,
      "loss": 0.703,
      "step": 160650
    },
    {
      "epoch": 0.21942430817167802,
      "grad_norm": 7.875,
      "learning_rate": 9.012599434979067e-05,
      "loss": 0.8258,
      "step": 160700
    },
    {
      "epoch": 0.21949257958056778,
      "grad_norm": 3.96875,
      "learning_rate": 9.011946456826952e-05,
      "loss": 0.7893,
      "step": 160750
    },
    {
      "epoch": 0.21956085098945752,
      "grad_norm": 3.796875,
      "learning_rate": 9.011293286506802e-05,
      "loss": 0.8153,
      "step": 160800
    },
    {
      "epoch": 0.21962912239834728,
      "grad_norm": 2.421875,
      "learning_rate": 9.010639924049901e-05,
      "loss": 0.8169,
      "step": 160850
    },
    {
      "epoch": 0.21969739380723705,
      "grad_norm": 2.90625,
      "learning_rate": 9.009986369487546e-05,
      "loss": 0.8848,
      "step": 160900
    },
    {
      "epoch": 0.2197656652161268,
      "grad_norm": 2.359375,
      "learning_rate": 9.009332622851038e-05,
      "loss": 0.6016,
      "step": 160950
    },
    {
      "epoch": 0.21983393662501655,
      "grad_norm": 3.015625,
      "learning_rate": 9.008678684171694e-05,
      "loss": 0.7707,
      "step": 161000
    },
    {
      "epoch": 0.2199022080339063,
      "grad_norm": 2.765625,
      "learning_rate": 9.008024553480838e-05,
      "loss": 0.8176,
      "step": 161050
    },
    {
      "epoch": 0.21997047944279607,
      "grad_norm": 3.0625,
      "learning_rate": 9.007370230809798e-05,
      "loss": 0.7838,
      "step": 161100
    },
    {
      "epoch": 0.22003875085168584,
      "grad_norm": 4.15625,
      "learning_rate": 9.00671571618992e-05,
      "loss": 0.8323,
      "step": 161150
    },
    {
      "epoch": 0.22010702226057557,
      "grad_norm": 3.0625,
      "learning_rate": 9.00606100965255e-05,
      "loss": 0.7582,
      "step": 161200
    },
    {
      "epoch": 0.22017529366946534,
      "grad_norm": 3.5,
      "learning_rate": 9.005406111229051e-05,
      "loss": 0.8145,
      "step": 161250
    },
    {
      "epoch": 0.2202435650783551,
      "grad_norm": 7.46875,
      "learning_rate": 9.004751020950793e-05,
      "loss": 0.8213,
      "step": 161300
    },
    {
      "epoch": 0.22031183648724487,
      "grad_norm": 3.390625,
      "learning_rate": 9.00409573884915e-05,
      "loss": 0.811,
      "step": 161350
    },
    {
      "epoch": 0.2203801078961346,
      "grad_norm": 3.015625,
      "learning_rate": 9.003440264955512e-05,
      "loss": 0.8294,
      "step": 161400
    },
    {
      "epoch": 0.22044837930502437,
      "grad_norm": 6.15625,
      "learning_rate": 9.002784599301274e-05,
      "loss": 1.0089,
      "step": 161450
    },
    {
      "epoch": 0.22051665071391413,
      "grad_norm": 3.96875,
      "learning_rate": 9.002128741917843e-05,
      "loss": 0.7897,
      "step": 161500
    },
    {
      "epoch": 0.22058492212280387,
      "grad_norm": 2.3125,
      "learning_rate": 9.001472692836635e-05,
      "loss": 0.8803,
      "step": 161550
    },
    {
      "epoch": 0.22065319353169363,
      "grad_norm": 2.859375,
      "learning_rate": 9.000816452089071e-05,
      "loss": 0.7367,
      "step": 161600
    },
    {
      "epoch": 0.2207214649405834,
      "grad_norm": 4.625,
      "learning_rate": 9.000160019706587e-05,
      "loss": 0.8352,
      "step": 161650
    },
    {
      "epoch": 0.22078973634947316,
      "grad_norm": 8.5,
      "learning_rate": 8.999503395720624e-05,
      "loss": 0.7932,
      "step": 161700
    },
    {
      "epoch": 0.2208580077583629,
      "grad_norm": 5.6875,
      "learning_rate": 8.998846580162635e-05,
      "loss": 0.7913,
      "step": 161750
    },
    {
      "epoch": 0.22092627916725266,
      "grad_norm": 2.890625,
      "learning_rate": 8.998189573064077e-05,
      "loss": 0.8362,
      "step": 161800
    },
    {
      "epoch": 0.22099455057614242,
      "grad_norm": 2.5625,
      "learning_rate": 8.997532374456426e-05,
      "loss": 0.9008,
      "step": 161850
    },
    {
      "epoch": 0.2210628219850322,
      "grad_norm": 3.0,
      "learning_rate": 8.996874984371155e-05,
      "loss": 0.793,
      "step": 161900
    },
    {
      "epoch": 0.22113109339392192,
      "grad_norm": 2.9375,
      "learning_rate": 8.996217402839757e-05,
      "loss": 1.0047,
      "step": 161950
    },
    {
      "epoch": 0.2211993648028117,
      "grad_norm": 2.8125,
      "learning_rate": 8.995559629893726e-05,
      "loss": 0.6757,
      "step": 162000
    },
    {
      "epoch": 0.22126763621170145,
      "grad_norm": 4.0,
      "learning_rate": 8.994901665564571e-05,
      "loss": 0.8028,
      "step": 162050
    },
    {
      "epoch": 0.22133590762059122,
      "grad_norm": 3.265625,
      "learning_rate": 8.994243509883808e-05,
      "loss": 0.7634,
      "step": 162100
    },
    {
      "epoch": 0.22140417902948095,
      "grad_norm": 3.609375,
      "learning_rate": 8.993585162882959e-05,
      "loss": 0.7109,
      "step": 162150
    },
    {
      "epoch": 0.22147245043837072,
      "grad_norm": 2.46875,
      "learning_rate": 8.99292662459356e-05,
      "loss": 0.8915,
      "step": 162200
    },
    {
      "epoch": 0.22154072184726048,
      "grad_norm": 3.484375,
      "learning_rate": 8.992267895047157e-05,
      "loss": 0.8698,
      "step": 162250
    },
    {
      "epoch": 0.22160899325615022,
      "grad_norm": 7.4375,
      "learning_rate": 8.991608974275297e-05,
      "loss": 0.8406,
      "step": 162300
    },
    {
      "epoch": 0.22167726466503998,
      "grad_norm": 2.234375,
      "learning_rate": 8.990949862309546e-05,
      "loss": 0.7971,
      "step": 162350
    },
    {
      "epoch": 0.22174553607392974,
      "grad_norm": 2.796875,
      "learning_rate": 8.990290559181473e-05,
      "loss": 0.6937,
      "step": 162400
    },
    {
      "epoch": 0.2218138074828195,
      "grad_norm": 4.03125,
      "learning_rate": 8.989631064922658e-05,
      "loss": 0.8431,
      "step": 162450
    },
    {
      "epoch": 0.22188207889170924,
      "grad_norm": 8.5625,
      "learning_rate": 8.98897137956469e-05,
      "loss": 0.8349,
      "step": 162500
    },
    {
      "epoch": 0.221950350300599,
      "grad_norm": 5.84375,
      "learning_rate": 8.988311503139167e-05,
      "loss": 0.8103,
      "step": 162550
    },
    {
      "epoch": 0.22201862170948877,
      "grad_norm": 8.25,
      "learning_rate": 8.987651435677698e-05,
      "loss": 0.8901,
      "step": 162600
    },
    {
      "epoch": 0.22208689311837854,
      "grad_norm": 3.125,
      "learning_rate": 8.986991177211899e-05,
      "loss": 0.6823,
      "step": 162650
    },
    {
      "epoch": 0.22215516452726827,
      "grad_norm": 8.3125,
      "learning_rate": 8.986330727773393e-05,
      "loss": 1.0012,
      "step": 162700
    },
    {
      "epoch": 0.22222343593615804,
      "grad_norm": 2.875,
      "learning_rate": 8.985670087393818e-05,
      "loss": 0.6558,
      "step": 162750
    },
    {
      "epoch": 0.2222917073450478,
      "grad_norm": 4.59375,
      "learning_rate": 8.985009256104817e-05,
      "loss": 0.8277,
      "step": 162800
    },
    {
      "epoch": 0.22235997875393756,
      "grad_norm": 3.59375,
      "learning_rate": 8.984348233938042e-05,
      "loss": 0.7626,
      "step": 162850
    },
    {
      "epoch": 0.2224282501628273,
      "grad_norm": 5.0,
      "learning_rate": 8.983687020925158e-05,
      "loss": 0.8488,
      "step": 162900
    },
    {
      "epoch": 0.22249652157171707,
      "grad_norm": 2.53125,
      "learning_rate": 8.983025617097835e-05,
      "loss": 0.7616,
      "step": 162950
    },
    {
      "epoch": 0.22256479298060683,
      "grad_norm": 3.046875,
      "learning_rate": 8.982364022487752e-05,
      "loss": 0.9313,
      "step": 163000
    },
    {
      "epoch": 0.2226330643894966,
      "grad_norm": 2.75,
      "learning_rate": 8.9817022371266e-05,
      "loss": 0.6894,
      "step": 163050
    },
    {
      "epoch": 0.22270133579838633,
      "grad_norm": 2.515625,
      "learning_rate": 8.981040261046078e-05,
      "loss": 0.7867,
      "step": 163100
    },
    {
      "epoch": 0.2227696072072761,
      "grad_norm": 2.375,
      "learning_rate": 8.980378094277893e-05,
      "loss": 0.7732,
      "step": 163150
    },
    {
      "epoch": 0.22283787861616586,
      "grad_norm": 8.1875,
      "learning_rate": 8.979715736853764e-05,
      "loss": 0.8109,
      "step": 163200
    },
    {
      "epoch": 0.2229061500250556,
      "grad_norm": 4.0,
      "learning_rate": 8.979053188805415e-05,
      "loss": 0.8777,
      "step": 163250
    },
    {
      "epoch": 0.22297442143394536,
      "grad_norm": 4.0625,
      "learning_rate": 8.978390450164584e-05,
      "loss": 0.8048,
      "step": 163300
    },
    {
      "epoch": 0.22304269284283512,
      "grad_norm": 3.875,
      "learning_rate": 8.977727520963013e-05,
      "loss": 0.6842,
      "step": 163350
    },
    {
      "epoch": 0.22311096425172489,
      "grad_norm": 2.578125,
      "learning_rate": 8.977064401232456e-05,
      "loss": 0.7518,
      "step": 163400
    },
    {
      "epoch": 0.22317923566061462,
      "grad_norm": 3.640625,
      "learning_rate": 8.976401091004678e-05,
      "loss": 0.7012,
      "step": 163450
    },
    {
      "epoch": 0.2232475070695044,
      "grad_norm": 8.5,
      "learning_rate": 8.975737590311448e-05,
      "loss": 0.8977,
      "step": 163500
    },
    {
      "epoch": 0.22331577847839415,
      "grad_norm": 2.984375,
      "learning_rate": 8.975073899184547e-05,
      "loss": 0.7796,
      "step": 163550
    },
    {
      "epoch": 0.22338404988728391,
      "grad_norm": 3.03125,
      "learning_rate": 8.974410017655768e-05,
      "loss": 0.8563,
      "step": 163600
    },
    {
      "epoch": 0.22345232129617365,
      "grad_norm": 2.484375,
      "learning_rate": 8.973745945756909e-05,
      "loss": 0.7796,
      "step": 163650
    },
    {
      "epoch": 0.22352059270506341,
      "grad_norm": 7.875,
      "learning_rate": 8.973081683519774e-05,
      "loss": 0.8557,
      "step": 163700
    },
    {
      "epoch": 0.22358886411395318,
      "grad_norm": 2.453125,
      "learning_rate": 8.972417230976189e-05,
      "loss": 0.786,
      "step": 163750
    },
    {
      "epoch": 0.22365713552284294,
      "grad_norm": 2.890625,
      "learning_rate": 8.971752588157973e-05,
      "loss": 0.7684,
      "step": 163800
    },
    {
      "epoch": 0.22372540693173268,
      "grad_norm": 3.75,
      "learning_rate": 8.971087755096966e-05,
      "loss": 0.7454,
      "step": 163850
    },
    {
      "epoch": 0.22379367834062244,
      "grad_norm": 3.59375,
      "learning_rate": 8.97042273182501e-05,
      "loss": 0.8216,
      "step": 163900
    },
    {
      "epoch": 0.2238619497495122,
      "grad_norm": 7.78125,
      "learning_rate": 8.969757518373962e-05,
      "loss": 0.792,
      "step": 163950
    },
    {
      "epoch": 0.22393022115840197,
      "grad_norm": 3.109375,
      "learning_rate": 8.969092114775682e-05,
      "loss": 0.6988,
      "step": 164000
    },
    {
      "epoch": 0.2239984925672917,
      "grad_norm": 3.203125,
      "learning_rate": 8.968426521062044e-05,
      "loss": 0.9635,
      "step": 164050
    },
    {
      "epoch": 0.22406676397618147,
      "grad_norm": 4.25,
      "learning_rate": 8.967760737264927e-05,
      "loss": 0.8803,
      "step": 164100
    },
    {
      "epoch": 0.22413503538507124,
      "grad_norm": 7.625,
      "learning_rate": 8.967094763416226e-05,
      "loss": 0.7055,
      "step": 164150
    },
    {
      "epoch": 0.22420330679396097,
      "grad_norm": 3.828125,
      "learning_rate": 8.966428599547836e-05,
      "loss": 0.7659,
      "step": 164200
    },
    {
      "epoch": 0.22427157820285074,
      "grad_norm": 2.6875,
      "learning_rate": 8.965762245691667e-05,
      "loss": 0.8148,
      "step": 164250
    },
    {
      "epoch": 0.2243398496117405,
      "grad_norm": 4.1875,
      "learning_rate": 8.965095701879636e-05,
      "loss": 0.8406,
      "step": 164300
    },
    {
      "epoch": 0.22440812102063026,
      "grad_norm": 4.09375,
      "learning_rate": 8.964428968143673e-05,
      "loss": 0.9007,
      "step": 164350
    },
    {
      "epoch": 0.22447639242952,
      "grad_norm": 4.03125,
      "learning_rate": 8.96376204451571e-05,
      "loss": 0.8653,
      "step": 164400
    },
    {
      "epoch": 0.22454466383840976,
      "grad_norm": 4.4375,
      "learning_rate": 8.96309493102769e-05,
      "loss": 0.7445,
      "step": 164450
    },
    {
      "epoch": 0.22461293524729953,
      "grad_norm": 2.59375,
      "learning_rate": 8.962427627711574e-05,
      "loss": 0.6792,
      "step": 164500
    },
    {
      "epoch": 0.2246812066561893,
      "grad_norm": 2.578125,
      "learning_rate": 8.96176013459932e-05,
      "loss": 0.8821,
      "step": 164550
    },
    {
      "epoch": 0.22474947806507903,
      "grad_norm": 3.03125,
      "learning_rate": 8.961092451722903e-05,
      "loss": 0.9352,
      "step": 164600
    },
    {
      "epoch": 0.2248177494739688,
      "grad_norm": 3.40625,
      "learning_rate": 8.960424579114302e-05,
      "loss": 0.7936,
      "step": 164650
    },
    {
      "epoch": 0.22488602088285856,
      "grad_norm": 2.265625,
      "learning_rate": 8.959756516805507e-05,
      "loss": 0.8368,
      "step": 164700
    },
    {
      "epoch": 0.22495429229174832,
      "grad_norm": 8.3125,
      "learning_rate": 8.959088264828522e-05,
      "loss": 0.6516,
      "step": 164750
    },
    {
      "epoch": 0.22502256370063806,
      "grad_norm": 3.0625,
      "learning_rate": 8.95841982321535e-05,
      "loss": 0.7782,
      "step": 164800
    },
    {
      "epoch": 0.22509083510952782,
      "grad_norm": 2.34375,
      "learning_rate": 8.957751191998012e-05,
      "loss": 1.0036,
      "step": 164850
    },
    {
      "epoch": 0.22515910651841758,
      "grad_norm": 3.765625,
      "learning_rate": 8.957082371208533e-05,
      "loss": 0.8445,
      "step": 164900
    },
    {
      "epoch": 0.22522737792730735,
      "grad_norm": 2.5,
      "learning_rate": 8.95641336087895e-05,
      "loss": 0.7298,
      "step": 164950
    },
    {
      "epoch": 0.22529564933619708,
      "grad_norm": 3.203125,
      "learning_rate": 8.955744161041307e-05,
      "loss": 0.7475,
      "step": 165000
    },
    {
      "epoch": 0.22536392074508685,
      "grad_norm": 2.421875,
      "learning_rate": 8.95507477172766e-05,
      "loss": 0.731,
      "step": 165050
    },
    {
      "epoch": 0.2254321921539766,
      "grad_norm": 3.75,
      "learning_rate": 8.954405192970069e-05,
      "loss": 0.7102,
      "step": 165100
    },
    {
      "epoch": 0.22550046356286635,
      "grad_norm": 7.21875,
      "learning_rate": 8.953735424800609e-05,
      "loss": 0.9744,
      "step": 165150
    },
    {
      "epoch": 0.2255687349717561,
      "grad_norm": 3.140625,
      "learning_rate": 8.953065467251358e-05,
      "loss": 0.8313,
      "step": 165200
    },
    {
      "epoch": 0.22563700638064588,
      "grad_norm": 4.1875,
      "learning_rate": 8.952395320354408e-05,
      "loss": 0.832,
      "step": 165250
    },
    {
      "epoch": 0.22570527778953564,
      "grad_norm": 7.46875,
      "learning_rate": 8.951724984141861e-05,
      "loss": 0.7506,
      "step": 165300
    },
    {
      "epoch": 0.22577354919842538,
      "grad_norm": 3.0,
      "learning_rate": 8.95105445864582e-05,
      "loss": 0.8594,
      "step": 165350
    },
    {
      "epoch": 0.22584182060731514,
      "grad_norm": 4.09375,
      "learning_rate": 8.950383743898407e-05,
      "loss": 0.9075,
      "step": 165400
    },
    {
      "epoch": 0.2259100920162049,
      "grad_norm": 7.875,
      "learning_rate": 8.949712839931748e-05,
      "loss": 0.8687,
      "step": 165450
    },
    {
      "epoch": 0.22597836342509467,
      "grad_norm": 2.46875,
      "learning_rate": 8.949041746777976e-05,
      "loss": 0.7218,
      "step": 165500
    },
    {
      "epoch": 0.2260466348339844,
      "grad_norm": 2.796875,
      "learning_rate": 8.948370464469235e-05,
      "loss": 0.779,
      "step": 165550
    },
    {
      "epoch": 0.22611490624287417,
      "grad_norm": 8.1875,
      "learning_rate": 8.947698993037683e-05,
      "loss": 0.7681,
      "step": 165600
    },
    {
      "epoch": 0.22618317765176393,
      "grad_norm": 3.046875,
      "learning_rate": 8.947027332515482e-05,
      "loss": 0.7478,
      "step": 165650
    },
    {
      "epoch": 0.2262514490606537,
      "grad_norm": 3.3125,
      "learning_rate": 8.9463554829348e-05,
      "loss": 0.9329,
      "step": 165700
    },
    {
      "epoch": 0.22631972046954343,
      "grad_norm": 2.390625,
      "learning_rate": 8.945683444327822e-05,
      "loss": 0.6698,
      "step": 165750
    },
    {
      "epoch": 0.2263879918784332,
      "grad_norm": 2.140625,
      "learning_rate": 8.945011216726736e-05,
      "loss": 0.671,
      "step": 165800
    },
    {
      "epoch": 0.22645626328732296,
      "grad_norm": 2.90625,
      "learning_rate": 8.94433880016374e-05,
      "loss": 0.7152,
      "step": 165850
    },
    {
      "epoch": 0.2265245346962127,
      "grad_norm": 4.1875,
      "learning_rate": 8.943666194671043e-05,
      "loss": 0.7682,
      "step": 165900
    },
    {
      "epoch": 0.22659280610510246,
      "grad_norm": 3.046875,
      "learning_rate": 8.942993400280865e-05,
      "loss": 0.6568,
      "step": 165950
    },
    {
      "epoch": 0.22666107751399223,
      "grad_norm": 3.890625,
      "learning_rate": 8.942320417025427e-05,
      "loss": 0.6617,
      "step": 166000
    },
    {
      "epoch": 0.226729348922882,
      "grad_norm": 2.453125,
      "learning_rate": 8.941647244936968e-05,
      "loss": 0.7392,
      "step": 166050
    },
    {
      "epoch": 0.22679762033177173,
      "grad_norm": 2.640625,
      "learning_rate": 8.940973884047731e-05,
      "loss": 0.7892,
      "step": 166100
    },
    {
      "epoch": 0.2268658917406615,
      "grad_norm": 3.125,
      "learning_rate": 8.940300334389969e-05,
      "loss": 0.5861,
      "step": 166150
    },
    {
      "epoch": 0.22693416314955125,
      "grad_norm": 8.3125,
      "learning_rate": 8.939626595995944e-05,
      "loss": 0.7448,
      "step": 166200
    },
    {
      "epoch": 0.22700243455844102,
      "grad_norm": 2.640625,
      "learning_rate": 8.93895266889793e-05,
      "loss": 0.7058,
      "step": 166250
    },
    {
      "epoch": 0.22707070596733075,
      "grad_norm": 2.4375,
      "learning_rate": 8.938278553128204e-05,
      "loss": 0.7182,
      "step": 166300
    },
    {
      "epoch": 0.22713897737622052,
      "grad_norm": 3.1875,
      "learning_rate": 8.937604248719056e-05,
      "loss": 0.7522,
      "step": 166350
    },
    {
      "epoch": 0.22720724878511028,
      "grad_norm": 2.46875,
      "learning_rate": 8.936929755702786e-05,
      "loss": 0.6743,
      "step": 166400
    },
    {
      "epoch": 0.22727552019400005,
      "grad_norm": 2.71875,
      "learning_rate": 8.936255074111701e-05,
      "loss": 0.7815,
      "step": 166450
    },
    {
      "epoch": 0.22734379160288978,
      "grad_norm": 3.46875,
      "learning_rate": 8.935580203978117e-05,
      "loss": 0.7681,
      "step": 166500
    },
    {
      "epoch": 0.22741206301177955,
      "grad_norm": 2.421875,
      "learning_rate": 8.934905145334361e-05,
      "loss": 0.7053,
      "step": 166550
    },
    {
      "epoch": 0.2274803344206693,
      "grad_norm": 2.484375,
      "learning_rate": 8.934229898212766e-05,
      "loss": 0.906,
      "step": 166600
    },
    {
      "epoch": 0.22754860582955908,
      "grad_norm": 3.640625,
      "learning_rate": 8.933554462645675e-05,
      "loss": 0.7403,
      "step": 166650
    },
    {
      "epoch": 0.2276168772384488,
      "grad_norm": 3.921875,
      "learning_rate": 8.932878838665444e-05,
      "loss": 0.7137,
      "step": 166700
    },
    {
      "epoch": 0.22768514864733858,
      "grad_norm": 7.9375,
      "learning_rate": 8.93220302630443e-05,
      "loss": 0.6913,
      "step": 166750
    },
    {
      "epoch": 0.22775342005622834,
      "grad_norm": 3.25,
      "learning_rate": 8.931527025595007e-05,
      "loss": 0.7448,
      "step": 166800
    },
    {
      "epoch": 0.22782169146511808,
      "grad_norm": 3.09375,
      "learning_rate": 8.930850836569555e-05,
      "loss": 0.9422,
      "step": 166850
    },
    {
      "epoch": 0.22788996287400784,
      "grad_norm": 4.21875,
      "learning_rate": 8.93017445926046e-05,
      "loss": 0.7658,
      "step": 166900
    },
    {
      "epoch": 0.2279582342828976,
      "grad_norm": 2.171875,
      "learning_rate": 8.929497893700123e-05,
      "loss": 0.6678,
      "step": 166950
    },
    {
      "epoch": 0.22802650569178737,
      "grad_norm": 3.171875,
      "learning_rate": 8.928821139920949e-05,
      "loss": 0.6831,
      "step": 167000
    },
    {
      "epoch": 0.2280947771006771,
      "grad_norm": 2.984375,
      "learning_rate": 8.928144197955353e-05,
      "loss": 0.7931,
      "step": 167050
    },
    {
      "epoch": 0.22816304850956687,
      "grad_norm": 3.859375,
      "learning_rate": 8.927467067835762e-05,
      "loss": 0.6418,
      "step": 167100
    },
    {
      "epoch": 0.22823131991845663,
      "grad_norm": 7.96875,
      "learning_rate": 8.926789749594608e-05,
      "loss": 0.6967,
      "step": 167150
    },
    {
      "epoch": 0.2282995913273464,
      "grad_norm": 3.546875,
      "learning_rate": 8.926112243264334e-05,
      "loss": 0.6402,
      "step": 167200
    },
    {
      "epoch": 0.22836786273623613,
      "grad_norm": 2.90625,
      "learning_rate": 8.925434548877392e-05,
      "loss": 0.7408,
      "step": 167250
    },
    {
      "epoch": 0.2284361341451259,
      "grad_norm": 3.09375,
      "learning_rate": 8.924756666466244e-05,
      "loss": 0.8201,
      "step": 167300
    },
    {
      "epoch": 0.22850440555401566,
      "grad_norm": 3.5625,
      "learning_rate": 8.924078596063359e-05,
      "loss": 0.7312,
      "step": 167350
    },
    {
      "epoch": 0.22857267696290542,
      "grad_norm": 3.234375,
      "learning_rate": 8.923400337701215e-05,
      "loss": 0.7915,
      "step": 167400
    },
    {
      "epoch": 0.22864094837179516,
      "grad_norm": 3.015625,
      "learning_rate": 8.922721891412303e-05,
      "loss": 0.6734,
      "step": 167450
    },
    {
      "epoch": 0.22870921978068492,
      "grad_norm": 8.125,
      "learning_rate": 8.922043257229115e-05,
      "loss": 0.6954,
      "step": 167500
    },
    {
      "epoch": 0.2287774911895747,
      "grad_norm": 3.0,
      "learning_rate": 8.921364435184162e-05,
      "loss": 0.5265,
      "step": 167550
    },
    {
      "epoch": 0.22884576259846445,
      "grad_norm": 3.015625,
      "learning_rate": 8.920685425309956e-05,
      "loss": 0.6011,
      "step": 167600
    },
    {
      "epoch": 0.2289140340073542,
      "grad_norm": 2.5,
      "learning_rate": 8.92000622763902e-05,
      "loss": 0.825,
      "step": 167650
    },
    {
      "epoch": 0.22898230541624395,
      "grad_norm": 4.40625,
      "learning_rate": 8.919326842203888e-05,
      "loss": 0.7963,
      "step": 167700
    },
    {
      "epoch": 0.22905057682513372,
      "grad_norm": 7.03125,
      "learning_rate": 8.918647269037101e-05,
      "loss": 0.7142,
      "step": 167750
    },
    {
      "epoch": 0.22911884823402345,
      "grad_norm": 2.53125,
      "learning_rate": 8.917967508171214e-05,
      "loss": 0.8199,
      "step": 167800
    },
    {
      "epoch": 0.22918711964291322,
      "grad_norm": 3.484375,
      "learning_rate": 8.91728755963878e-05,
      "loss": 0.8262,
      "step": 167850
    },
    {
      "epoch": 0.22925539105180298,
      "grad_norm": 4.09375,
      "learning_rate": 8.916607423472373e-05,
      "loss": 0.9082,
      "step": 167900
    },
    {
      "epoch": 0.22932366246069275,
      "grad_norm": 3.984375,
      "learning_rate": 8.91592709970457e-05,
      "loss": 0.8806,
      "step": 167950
    },
    {
      "epoch": 0.22939193386958248,
      "grad_norm": 3.40625,
      "learning_rate": 8.915246588367957e-05,
      "loss": 0.7811,
      "step": 168000
    },
    {
      "epoch": 0.22946020527847225,
      "grad_norm": 7.8125,
      "learning_rate": 8.914565889495128e-05,
      "loss": 0.8697,
      "step": 168050
    },
    {
      "epoch": 0.229528476687362,
      "grad_norm": 7.09375,
      "learning_rate": 8.913885003118692e-05,
      "loss": 1.0271,
      "step": 168100
    },
    {
      "epoch": 0.22959674809625177,
      "grad_norm": 3.78125,
      "learning_rate": 8.913203929271258e-05,
      "loss": 0.5315,
      "step": 168150
    },
    {
      "epoch": 0.2296650195051415,
      "grad_norm": 2.9375,
      "learning_rate": 8.912522667985452e-05,
      "loss": 0.6775,
      "step": 168200
    },
    {
      "epoch": 0.22973329091403127,
      "grad_norm": 3.484375,
      "learning_rate": 8.911841219293907e-05,
      "loss": 0.8484,
      "step": 168250
    },
    {
      "epoch": 0.22980156232292104,
      "grad_norm": 4.46875,
      "learning_rate": 8.911159583229258e-05,
      "loss": 0.9641,
      "step": 168300
    },
    {
      "epoch": 0.2298698337318108,
      "grad_norm": 3.15625,
      "learning_rate": 8.910477759824161e-05,
      "loss": 0.7985,
      "step": 168350
    },
    {
      "epoch": 0.22993810514070054,
      "grad_norm": 3.828125,
      "learning_rate": 8.90979574911127e-05,
      "loss": 1.0024,
      "step": 168400
    },
    {
      "epoch": 0.2300063765495903,
      "grad_norm": 2.59375,
      "learning_rate": 8.909113551123254e-05,
      "loss": 0.8852,
      "step": 168450
    },
    {
      "epoch": 0.23007464795848007,
      "grad_norm": 3.796875,
      "learning_rate": 8.90843116589279e-05,
      "loss": 0.7455,
      "step": 168500
    },
    {
      "epoch": 0.23014291936736983,
      "grad_norm": 3.5625,
      "learning_rate": 8.907748593452564e-05,
      "loss": 0.8905,
      "step": 168550
    },
    {
      "epoch": 0.23021119077625957,
      "grad_norm": 2.4375,
      "learning_rate": 8.907065833835269e-05,
      "loss": 0.8146,
      "step": 168600
    },
    {
      "epoch": 0.23027946218514933,
      "grad_norm": 2.515625,
      "learning_rate": 8.906382887073611e-05,
      "loss": 0.7295,
      "step": 168650
    },
    {
      "epoch": 0.2303477335940391,
      "grad_norm": 3.328125,
      "learning_rate": 8.9056997532003e-05,
      "loss": 0.6619,
      "step": 168700
    },
    {
      "epoch": 0.23041600500292883,
      "grad_norm": 4.4375,
      "learning_rate": 8.905016432248057e-05,
      "loss": 0.7111,
      "step": 168750
    },
    {
      "epoch": 0.2304842764118186,
      "grad_norm": 2.296875,
      "learning_rate": 8.904332924249616e-05,
      "loss": 0.6582,
      "step": 168800
    },
    {
      "epoch": 0.23055254782070836,
      "grad_norm": 2.8125,
      "learning_rate": 8.903649229237712e-05,
      "loss": 0.7865,
      "step": 168850
    },
    {
      "epoch": 0.23062081922959812,
      "grad_norm": 3.84375,
      "learning_rate": 8.902965347245096e-05,
      "loss": 0.7174,
      "step": 168900
    },
    {
      "epoch": 0.23068909063848786,
      "grad_norm": 4.0625,
      "learning_rate": 8.902281278304526e-05,
      "loss": 0.9244,
      "step": 168950
    },
    {
      "epoch": 0.23075736204737762,
      "grad_norm": 3.890625,
      "learning_rate": 8.901597022448764e-05,
      "loss": 0.9882,
      "step": 169000
    },
    {
      "epoch": 0.2308256334562674,
      "grad_norm": 4.125,
      "learning_rate": 8.900912579710587e-05,
      "loss": 0.7065,
      "step": 169050
    },
    {
      "epoch": 0.23089390486515715,
      "grad_norm": 2.921875,
      "learning_rate": 8.900227950122783e-05,
      "loss": 0.98,
      "step": 169100
    },
    {
      "epoch": 0.2309621762740469,
      "grad_norm": 4.34375,
      "learning_rate": 8.89954313371814e-05,
      "loss": 0.6922,
      "step": 169150
    },
    {
      "epoch": 0.23103044768293665,
      "grad_norm": 3.515625,
      "learning_rate": 8.898858130529461e-05,
      "loss": 0.7903,
      "step": 169200
    },
    {
      "epoch": 0.23109871909182642,
      "grad_norm": 2.84375,
      "learning_rate": 8.89817294058956e-05,
      "loss": 0.7055,
      "step": 169250
    },
    {
      "epoch": 0.23116699050071618,
      "grad_norm": 2.328125,
      "learning_rate": 8.897487563931254e-05,
      "loss": 0.7442,
      "step": 169300
    },
    {
      "epoch": 0.23123526190960592,
      "grad_norm": 2.640625,
      "learning_rate": 8.896802000587371e-05,
      "loss": 0.7376,
      "step": 169350
    },
    {
      "epoch": 0.23130353331849568,
      "grad_norm": 4.0,
      "learning_rate": 8.896116250590752e-05,
      "loss": 0.8249,
      "step": 169400
    },
    {
      "epoch": 0.23137180472738544,
      "grad_norm": 7.59375,
      "learning_rate": 8.895430313974242e-05,
      "loss": 0.8632,
      "step": 169450
    },
    {
      "epoch": 0.23144007613627518,
      "grad_norm": 2.484375,
      "learning_rate": 8.894744190770696e-05,
      "loss": 0.8082,
      "step": 169500
    },
    {
      "epoch": 0.23150834754516494,
      "grad_norm": 2.921875,
      "learning_rate": 8.894057881012979e-05,
      "loss": 0.7966,
      "step": 169550
    },
    {
      "epoch": 0.2315766189540547,
      "grad_norm": 2.90625,
      "learning_rate": 8.893371384733966e-05,
      "loss": 0.8686,
      "step": 169600
    },
    {
      "epoch": 0.23164489036294447,
      "grad_norm": 3.0625,
      "learning_rate": 8.892684701966537e-05,
      "loss": 0.8755,
      "step": 169650
    },
    {
      "epoch": 0.2317131617718342,
      "grad_norm": 2.984375,
      "learning_rate": 8.891997832743585e-05,
      "loss": 0.7259,
      "step": 169700
    },
    {
      "epoch": 0.23178143318072397,
      "grad_norm": 3.5625,
      "learning_rate": 8.891310777098008e-05,
      "loss": 0.7485,
      "step": 169750
    },
    {
      "epoch": 0.23184970458961374,
      "grad_norm": 7.21875,
      "learning_rate": 8.89062353506272e-05,
      "loss": 0.9408,
      "step": 169800
    },
    {
      "epoch": 0.2319179759985035,
      "grad_norm": 3.671875,
      "learning_rate": 8.889936106670635e-05,
      "loss": 0.9726,
      "step": 169850
    },
    {
      "epoch": 0.23198624740739324,
      "grad_norm": 3.671875,
      "learning_rate": 8.889248491954682e-05,
      "loss": 0.9381,
      "step": 169900
    },
    {
      "epoch": 0.232054518816283,
      "grad_norm": 3.515625,
      "learning_rate": 8.888560690947796e-05,
      "loss": 0.7754,
      "step": 169950
    },
    {
      "epoch": 0.23212279022517276,
      "grad_norm": 2.4375,
      "learning_rate": 8.887872703682922e-05,
      "loss": 0.643,
      "step": 170000
    },
    {
      "epoch": 0.23219106163406253,
      "grad_norm": 3.015625,
      "learning_rate": 8.887184530193013e-05,
      "loss": 0.7234,
      "step": 170050
    },
    {
      "epoch": 0.23225933304295227,
      "grad_norm": 4.625,
      "learning_rate": 8.886496170511036e-05,
      "loss": 0.9586,
      "step": 170100
    },
    {
      "epoch": 0.23232760445184203,
      "grad_norm": 3.25,
      "learning_rate": 8.885807624669957e-05,
      "loss": 0.7322,
      "step": 170150
    },
    {
      "epoch": 0.2323958758607318,
      "grad_norm": 9.6875,
      "learning_rate": 8.885118892702762e-05,
      "loss": 0.7406,
      "step": 170200
    },
    {
      "epoch": 0.23246414726962156,
      "grad_norm": 2.796875,
      "learning_rate": 8.884429974642437e-05,
      "loss": 0.8235,
      "step": 170250
    },
    {
      "epoch": 0.2325324186785113,
      "grad_norm": 4.4375,
      "learning_rate": 8.883740870521979e-05,
      "loss": 0.8201,
      "step": 170300
    },
    {
      "epoch": 0.23260069008740106,
      "grad_norm": 8.25,
      "learning_rate": 8.883051580374401e-05,
      "loss": 0.9717,
      "step": 170350
    },
    {
      "epoch": 0.23266896149629082,
      "grad_norm": 3.671875,
      "learning_rate": 8.882362104232714e-05,
      "loss": 0.7087,
      "step": 170400
    },
    {
      "epoch": 0.23273723290518056,
      "grad_norm": 7.84375,
      "learning_rate": 8.881672442129948e-05,
      "loss": 0.716,
      "step": 170450
    },
    {
      "epoch": 0.23280550431407032,
      "grad_norm": 3.21875,
      "learning_rate": 8.88098259409913e-05,
      "loss": 0.7446,
      "step": 170500
    },
    {
      "epoch": 0.23287377572296009,
      "grad_norm": 4.15625,
      "learning_rate": 8.88029256017331e-05,
      "loss": 0.8684,
      "step": 170550
    },
    {
      "epoch": 0.23294204713184985,
      "grad_norm": 8.3125,
      "learning_rate": 8.879602340385537e-05,
      "loss": 0.9396,
      "step": 170600
    },
    {
      "epoch": 0.23301031854073959,
      "grad_norm": 3.796875,
      "learning_rate": 8.878911934768871e-05,
      "loss": 0.6329,
      "step": 170650
    },
    {
      "epoch": 0.23307858994962935,
      "grad_norm": 2.5625,
      "learning_rate": 8.878221343356384e-05,
      "loss": 0.7781,
      "step": 170700
    },
    {
      "epoch": 0.23314686135851911,
      "grad_norm": 5.28125,
      "learning_rate": 8.877530566181151e-05,
      "loss": 0.6775,
      "step": 170750
    },
    {
      "epoch": 0.23321513276740888,
      "grad_norm": 7.8125,
      "learning_rate": 8.876839603276264e-05,
      "loss": 0.9569,
      "step": 170800
    },
    {
      "epoch": 0.23328340417629861,
      "grad_norm": 3.8125,
      "learning_rate": 8.876148454674817e-05,
      "loss": 0.636,
      "step": 170850
    },
    {
      "epoch": 0.23335167558518838,
      "grad_norm": 2.84375,
      "learning_rate": 8.875457120409915e-05,
      "loss": 0.8003,
      "step": 170900
    },
    {
      "epoch": 0.23341994699407814,
      "grad_norm": 2.421875,
      "learning_rate": 8.874765600514674e-05,
      "loss": 0.8849,
      "step": 170950
    },
    {
      "epoch": 0.2334882184029679,
      "grad_norm": 3.734375,
      "learning_rate": 8.874073895022215e-05,
      "loss": 0.9207,
      "step": 171000
    },
    {
      "epoch": 0.23355648981185764,
      "grad_norm": 3.09375,
      "learning_rate": 8.87338200396567e-05,
      "loss": 0.7668,
      "step": 171050
    },
    {
      "epoch": 0.2336247612207474,
      "grad_norm": 2.640625,
      "learning_rate": 8.87268992737818e-05,
      "loss": 0.7567,
      "step": 171100
    },
    {
      "epoch": 0.23369303262963717,
      "grad_norm": 3.9375,
      "learning_rate": 8.871997665292897e-05,
      "loss": 0.6812,
      "step": 171150
    },
    {
      "epoch": 0.23376130403852693,
      "grad_norm": 9.8125,
      "learning_rate": 8.871305217742978e-05,
      "loss": 0.9397,
      "step": 171200
    },
    {
      "epoch": 0.23382957544741667,
      "grad_norm": 3.75,
      "learning_rate": 8.870612584761588e-05,
      "loss": 0.8603,
      "step": 171250
    },
    {
      "epoch": 0.23389784685630644,
      "grad_norm": 3.765625,
      "learning_rate": 8.86991976638191e-05,
      "loss": 0.8591,
      "step": 171300
    },
    {
      "epoch": 0.2339661182651962,
      "grad_norm": 3.046875,
      "learning_rate": 8.869226762637122e-05,
      "loss": 0.7858,
      "step": 171350
    },
    {
      "epoch": 0.23403438967408594,
      "grad_norm": 3.125,
      "learning_rate": 8.868533573560422e-05,
      "loss": 0.8237,
      "step": 171400
    },
    {
      "epoch": 0.2341026610829757,
      "grad_norm": 2.453125,
      "learning_rate": 8.86784019918501e-05,
      "loss": 0.9171,
      "step": 171450
    },
    {
      "epoch": 0.23417093249186546,
      "grad_norm": 2.625,
      "learning_rate": 8.867146639544104e-05,
      "loss": 0.8071,
      "step": 171500
    },
    {
      "epoch": 0.23423920390075523,
      "grad_norm": 2.5625,
      "learning_rate": 8.86645289467092e-05,
      "loss": 0.8686,
      "step": 171550
    },
    {
      "epoch": 0.23430747530964496,
      "grad_norm": 9.8125,
      "learning_rate": 8.865758964598689e-05,
      "loss": 0.7843,
      "step": 171600
    },
    {
      "epoch": 0.23437574671853473,
      "grad_norm": 3.453125,
      "learning_rate": 8.86506484936065e-05,
      "loss": 0.8063,
      "step": 171650
    },
    {
      "epoch": 0.2344440181274245,
      "grad_norm": 3.25,
      "learning_rate": 8.864370548990047e-05,
      "loss": 0.8255,
      "step": 171700
    },
    {
      "epoch": 0.23451228953631426,
      "grad_norm": 4.15625,
      "learning_rate": 8.86367606352014e-05,
      "loss": 0.828,
      "step": 171750
    },
    {
      "epoch": 0.234580560945204,
      "grad_norm": 8.6875,
      "learning_rate": 8.862981392984194e-05,
      "loss": 0.8638,
      "step": 171800
    },
    {
      "epoch": 0.23464883235409376,
      "grad_norm": 4.03125,
      "learning_rate": 8.86228653741548e-05,
      "loss": 0.7269,
      "step": 171850
    },
    {
      "epoch": 0.23471710376298352,
      "grad_norm": 3.71875,
      "learning_rate": 8.861591496847283e-05,
      "loss": 0.9248,
      "step": 171900
    },
    {
      "epoch": 0.23478537517187328,
      "grad_norm": 10.3125,
      "learning_rate": 8.860896271312896e-05,
      "loss": 0.8246,
      "step": 171950
    },
    {
      "epoch": 0.23485364658076302,
      "grad_norm": 8.4375,
      "learning_rate": 8.860200860845618e-05,
      "loss": 0.9513,
      "step": 172000
    },
    {
      "epoch": 0.23492191798965278,
      "grad_norm": 8.25,
      "learning_rate": 8.859505265478758e-05,
      "loss": 0.6071,
      "step": 172050
    },
    {
      "epoch": 0.23499018939854255,
      "grad_norm": 2.40625,
      "learning_rate": 8.858809485245635e-05,
      "loss": 1.0228,
      "step": 172100
    },
    {
      "epoch": 0.2350584608074323,
      "grad_norm": 3.75,
      "learning_rate": 8.858113520179576e-05,
      "loss": 0.8068,
      "step": 172150
    },
    {
      "epoch": 0.23512673221632205,
      "grad_norm": 2.484375,
      "learning_rate": 8.857417370313918e-05,
      "loss": 1.0173,
      "step": 172200
    },
    {
      "epoch": 0.2351950036252118,
      "grad_norm": 2.53125,
      "learning_rate": 8.856721035682002e-05,
      "loss": 0.671,
      "step": 172250
    },
    {
      "epoch": 0.23526327503410158,
      "grad_norm": 3.234375,
      "learning_rate": 8.856024516317187e-05,
      "loss": 0.6798,
      "step": 172300
    },
    {
      "epoch": 0.2353315464429913,
      "grad_norm": 9.25,
      "learning_rate": 8.855327812252832e-05,
      "loss": 0.9146,
      "step": 172350
    },
    {
      "epoch": 0.23539981785188108,
      "grad_norm": 4.09375,
      "learning_rate": 8.854630923522311e-05,
      "loss": 1.1787,
      "step": 172400
    },
    {
      "epoch": 0.23546808926077084,
      "grad_norm": 9.875,
      "learning_rate": 8.853933850159001e-05,
      "loss": 0.9084,
      "step": 172450
    },
    {
      "epoch": 0.2355363606696606,
      "grad_norm": 4.375,
      "learning_rate": 8.853236592196295e-05,
      "loss": 1.0675,
      "step": 172500
    },
    {
      "epoch": 0.23560463207855034,
      "grad_norm": 7.84375,
      "learning_rate": 8.852539149667585e-05,
      "loss": 0.9221,
      "step": 172550
    },
    {
      "epoch": 0.2356729034874401,
      "grad_norm": 2.515625,
      "learning_rate": 8.851841522606285e-05,
      "loss": 0.8956,
      "step": 172600
    },
    {
      "epoch": 0.23574117489632987,
      "grad_norm": 8.0,
      "learning_rate": 8.851143711045807e-05,
      "loss": 0.7411,
      "step": 172650
    },
    {
      "epoch": 0.23580944630521963,
      "grad_norm": 2.515625,
      "learning_rate": 8.850445715019573e-05,
      "loss": 0.887,
      "step": 172700
    },
    {
      "epoch": 0.23587771771410937,
      "grad_norm": 4.5625,
      "learning_rate": 8.849747534561021e-05,
      "loss": 0.6375,
      "step": 172750
    },
    {
      "epoch": 0.23594598912299913,
      "grad_norm": 3.046875,
      "learning_rate": 8.84904916970359e-05,
      "loss": 0.7541,
      "step": 172800
    },
    {
      "epoch": 0.2360142605318889,
      "grad_norm": 2.984375,
      "learning_rate": 8.848350620480732e-05,
      "loss": 0.7097,
      "step": 172850
    },
    {
      "epoch": 0.23608253194077866,
      "grad_norm": 2.453125,
      "learning_rate": 8.847651886925907e-05,
      "loss": 0.9429,
      "step": 172900
    },
    {
      "epoch": 0.2361508033496684,
      "grad_norm": 4.03125,
      "learning_rate": 8.846952969072582e-05,
      "loss": 0.7248,
      "step": 172950
    },
    {
      "epoch": 0.23621907475855816,
      "grad_norm": 2.546875,
      "learning_rate": 8.846253866954237e-05,
      "loss": 0.7692,
      "step": 173000
    },
    {
      "epoch": 0.23628734616744793,
      "grad_norm": 2.78125,
      "learning_rate": 8.845554580604357e-05,
      "loss": 0.7939,
      "step": 173050
    },
    {
      "epoch": 0.23635561757633766,
      "grad_norm": 2.984375,
      "learning_rate": 8.844855110056437e-05,
      "loss": 0.8252,
      "step": 173100
    },
    {
      "epoch": 0.23642388898522743,
      "grad_norm": 2.90625,
      "learning_rate": 8.84415545534398e-05,
      "loss": 0.7158,
      "step": 173150
    },
    {
      "epoch": 0.2364921603941172,
      "grad_norm": 8.0,
      "learning_rate": 8.8434556165005e-05,
      "loss": 0.9067,
      "step": 173200
    },
    {
      "epoch": 0.23656043180300695,
      "grad_norm": 8.5,
      "learning_rate": 8.842755593559519e-05,
      "loss": 0.8343,
      "step": 173250
    },
    {
      "epoch": 0.2366287032118967,
      "grad_norm": 2.828125,
      "learning_rate": 8.842055386554567e-05,
      "loss": 1.1,
      "step": 173300
    },
    {
      "epoch": 0.23669697462078645,
      "grad_norm": 2.8125,
      "learning_rate": 8.841354995519181e-05,
      "loss": 0.8108,
      "step": 173350
    },
    {
      "epoch": 0.23676524602967622,
      "grad_norm": 7.46875,
      "learning_rate": 8.840654420486914e-05,
      "loss": 0.9992,
      "step": 173400
    },
    {
      "epoch": 0.23683351743856598,
      "grad_norm": 3.140625,
      "learning_rate": 8.839953661491315e-05,
      "loss": 0.8949,
      "step": 173450
    },
    {
      "epoch": 0.23690178884745572,
      "grad_norm": 8.1875,
      "learning_rate": 8.839252718565958e-05,
      "loss": 0.9859,
      "step": 173500
    },
    {
      "epoch": 0.23697006025634548,
      "grad_norm": 4.125,
      "learning_rate": 8.838551591744413e-05,
      "loss": 1.0353,
      "step": 173550
    },
    {
      "epoch": 0.23703833166523525,
      "grad_norm": 3.671875,
      "learning_rate": 8.837850281060263e-05,
      "loss": 0.8902,
      "step": 173600
    },
    {
      "epoch": 0.237106603074125,
      "grad_norm": 11.5625,
      "learning_rate": 8.8371487865471e-05,
      "loss": 1.042,
      "step": 173650
    },
    {
      "epoch": 0.23717487448301475,
      "grad_norm": 8.25,
      "learning_rate": 8.836447108238528e-05,
      "loss": 0.8676,
      "step": 173700
    },
    {
      "epoch": 0.2372431458919045,
      "grad_norm": 8.1875,
      "learning_rate": 8.835745246168153e-05,
      "loss": 0.678,
      "step": 173750
    },
    {
      "epoch": 0.23731141730079428,
      "grad_norm": 3.609375,
      "learning_rate": 8.835043200369595e-05,
      "loss": 0.7799,
      "step": 173800
    },
    {
      "epoch": 0.23737968870968404,
      "grad_norm": 2.84375,
      "learning_rate": 8.834340970876483e-05,
      "loss": 0.5723,
      "step": 173850
    },
    {
      "epoch": 0.23744796011857378,
      "grad_norm": 2.921875,
      "learning_rate": 8.833638557722448e-05,
      "loss": 0.7329,
      "step": 173900
    },
    {
      "epoch": 0.23751623152746354,
      "grad_norm": 4.28125,
      "learning_rate": 8.83293596094114e-05,
      "loss": 0.804,
      "step": 173950
    },
    {
      "epoch": 0.2375845029363533,
      "grad_norm": 3.921875,
      "learning_rate": 8.832233180566211e-05,
      "loss": 1.0608,
      "step": 174000
    },
    {
      "epoch": 0.23765277434524304,
      "grad_norm": 2.65625,
      "learning_rate": 8.831530216631324e-05,
      "loss": 0.8473,
      "step": 174050
    },
    {
      "epoch": 0.2377210457541328,
      "grad_norm": 2.453125,
      "learning_rate": 8.830827069170147e-05,
      "loss": 0.7358,
      "step": 174100
    },
    {
      "epoch": 0.23778931716302257,
      "grad_norm": 8.5625,
      "learning_rate": 8.830123738216363e-05,
      "loss": 0.814,
      "step": 174150
    },
    {
      "epoch": 0.23785758857191233,
      "grad_norm": 6.46875,
      "learning_rate": 8.829420223803661e-05,
      "loss": 0.8827,
      "step": 174200
    },
    {
      "epoch": 0.23792585998080207,
      "grad_norm": 4.0625,
      "learning_rate": 8.828716525965738e-05,
      "loss": 0.7478,
      "step": 174250
    },
    {
      "epoch": 0.23799413138969183,
      "grad_norm": 2.953125,
      "learning_rate": 8.8280126447363e-05,
      "loss": 1.0084,
      "step": 174300
    },
    {
      "epoch": 0.2380624027985816,
      "grad_norm": 2.640625,
      "learning_rate": 8.827308580149063e-05,
      "loss": 0.6122,
      "step": 174350
    },
    {
      "epoch": 0.23813067420747136,
      "grad_norm": 7.84375,
      "learning_rate": 8.826604332237749e-05,
      "loss": 0.731,
      "step": 174400
    },
    {
      "epoch": 0.2381989456163611,
      "grad_norm": 2.6875,
      "learning_rate": 8.825899901036093e-05,
      "loss": 0.8745,
      "step": 174450
    },
    {
      "epoch": 0.23826721702525086,
      "grad_norm": 4.75,
      "learning_rate": 8.825195286577834e-05,
      "loss": 0.8734,
      "step": 174500
    },
    {
      "epoch": 0.23833548843414062,
      "grad_norm": 4.9375,
      "learning_rate": 8.824490488896726e-05,
      "loss": 0.7552,
      "step": 174550
    },
    {
      "epoch": 0.2384037598430304,
      "grad_norm": 7.5625,
      "learning_rate": 8.823785508026526e-05,
      "loss": 0.7904,
      "step": 174600
    },
    {
      "epoch": 0.23847203125192012,
      "grad_norm": 2.953125,
      "learning_rate": 8.823080344001001e-05,
      "loss": 0.9064,
      "step": 174650
    },
    {
      "epoch": 0.2385403026608099,
      "grad_norm": 3.265625,
      "learning_rate": 8.82237499685393e-05,
      "loss": 0.9631,
      "step": 174700
    },
    {
      "epoch": 0.23860857406969965,
      "grad_norm": 3.203125,
      "learning_rate": 8.821669466619094e-05,
      "loss": 0.8338,
      "step": 174750
    },
    {
      "epoch": 0.23867684547858942,
      "grad_norm": 8.8125,
      "learning_rate": 8.820963753330292e-05,
      "loss": 0.696,
      "step": 174800
    },
    {
      "epoch": 0.23874511688747915,
      "grad_norm": 3.21875,
      "learning_rate": 8.820257857021326e-05,
      "loss": 0.8027,
      "step": 174850
    },
    {
      "epoch": 0.23881338829636892,
      "grad_norm": 3.765625,
      "learning_rate": 8.819551777726005e-05,
      "loss": 0.8761,
      "step": 174900
    },
    {
      "epoch": 0.23888165970525868,
      "grad_norm": 3.59375,
      "learning_rate": 8.818845515478152e-05,
      "loss": 0.7536,
      "step": 174950
    },
    {
      "epoch": 0.23894993111414842,
      "grad_norm": 2.453125,
      "learning_rate": 8.818139070311593e-05,
      "loss": 0.6122,
      "step": 175000
    },
    {
      "epoch": 0.23901820252303818,
      "grad_norm": 4.75,
      "learning_rate": 8.81743244226017e-05,
      "loss": 0.6835,
      "step": 175050
    },
    {
      "epoch": 0.23908647393192795,
      "grad_norm": 7.0,
      "learning_rate": 8.816725631357728e-05,
      "loss": 0.9125,
      "step": 175100
    },
    {
      "epoch": 0.2391547453408177,
      "grad_norm": 4.1875,
      "learning_rate": 8.816018637638123e-05,
      "loss": 0.9192,
      "step": 175150
    },
    {
      "epoch": 0.23922301674970745,
      "grad_norm": 2.484375,
      "learning_rate": 8.815311461135218e-05,
      "loss": 0.7928,
      "step": 175200
    },
    {
      "epoch": 0.2392912881585972,
      "grad_norm": 4.0,
      "learning_rate": 8.814604101882887e-05,
      "loss": 0.7318,
      "step": 175250
    },
    {
      "epoch": 0.23935955956748697,
      "grad_norm": 2.671875,
      "learning_rate": 8.813896559915012e-05,
      "loss": 0.8311,
      "step": 175300
    },
    {
      "epoch": 0.23942783097637674,
      "grad_norm": 2.609375,
      "learning_rate": 8.813188835265484e-05,
      "loss": 0.6996,
      "step": 175350
    },
    {
      "epoch": 0.23949610238526647,
      "grad_norm": 3.6875,
      "learning_rate": 8.812480927968199e-05,
      "loss": 0.8545,
      "step": 175400
    },
    {
      "epoch": 0.23956437379415624,
      "grad_norm": 7.875,
      "learning_rate": 8.811772838057069e-05,
      "loss": 0.8578,
      "step": 175450
    },
    {
      "epoch": 0.239632645203046,
      "grad_norm": 2.828125,
      "learning_rate": 8.811064565566009e-05,
      "loss": 0.81,
      "step": 175500
    },
    {
      "epoch": 0.23970091661193577,
      "grad_norm": 3.859375,
      "learning_rate": 8.810356110528945e-05,
      "loss": 0.7269,
      "step": 175550
    },
    {
      "epoch": 0.2397691880208255,
      "grad_norm": 3.78125,
      "learning_rate": 8.80964747297981e-05,
      "loss": 0.9649,
      "step": 175600
    },
    {
      "epoch": 0.23983745942971527,
      "grad_norm": 3.953125,
      "learning_rate": 8.808938652952547e-05,
      "loss": 0.7547,
      "step": 175650
    },
    {
      "epoch": 0.23990573083860503,
      "grad_norm": 3.078125,
      "learning_rate": 8.808229650481113e-05,
      "loss": 0.8096,
      "step": 175700
    },
    {
      "epoch": 0.2399740022474948,
      "grad_norm": 2.546875,
      "learning_rate": 8.80752046559946e-05,
      "loss": 1.0312,
      "step": 175750
    },
    {
      "epoch": 0.24004227365638453,
      "grad_norm": 2.578125,
      "learning_rate": 8.806811098341562e-05,
      "loss": 0.6595,
      "step": 175800
    },
    {
      "epoch": 0.2401105450652743,
      "grad_norm": 3.8125,
      "learning_rate": 8.806101548741397e-05,
      "loss": 0.8766,
      "step": 175850
    },
    {
      "epoch": 0.24017881647416406,
      "grad_norm": 2.515625,
      "learning_rate": 8.805391816832951e-05,
      "loss": 0.6668,
      "step": 175900
    },
    {
      "epoch": 0.2402470878830538,
      "grad_norm": 3.140625,
      "learning_rate": 8.804681902650221e-05,
      "loss": 0.7016,
      "step": 175950
    },
    {
      "epoch": 0.24031535929194356,
      "grad_norm": 4.09375,
      "learning_rate": 8.803971806227207e-05,
      "loss": 0.8135,
      "step": 176000
    },
    {
      "epoch": 0.24038363070083332,
      "grad_norm": 2.46875,
      "learning_rate": 8.803261527597924e-05,
      "loss": 0.7942,
      "step": 176050
    },
    {
      "epoch": 0.2404519021097231,
      "grad_norm": 2.5,
      "learning_rate": 8.802551066796397e-05,
      "loss": 0.6988,
      "step": 176100
    },
    {
      "epoch": 0.24052017351861282,
      "grad_norm": 8.0,
      "learning_rate": 8.801840423856651e-05,
      "loss": 0.691,
      "step": 176150
    },
    {
      "epoch": 0.2405884449275026,
      "grad_norm": 3.859375,
      "learning_rate": 8.801129598812727e-05,
      "loss": 0.7432,
      "step": 176200
    },
    {
      "epoch": 0.24065671633639235,
      "grad_norm": 2.578125,
      "learning_rate": 8.800418591698675e-05,
      "loss": 0.8497,
      "step": 176250
    },
    {
      "epoch": 0.24072498774528212,
      "grad_norm": 2.671875,
      "learning_rate": 8.79970740254855e-05,
      "loss": 0.9193,
      "step": 176300
    },
    {
      "epoch": 0.24079325915417185,
      "grad_norm": 2.8125,
      "learning_rate": 8.798996031396416e-05,
      "loss": 1.0288,
      "step": 176350
    },
    {
      "epoch": 0.24086153056306162,
      "grad_norm": 3.65625,
      "learning_rate": 8.798284478276348e-05,
      "loss": 0.6785,
      "step": 176400
    },
    {
      "epoch": 0.24092980197195138,
      "grad_norm": 2.296875,
      "learning_rate": 8.797572743222428e-05,
      "loss": 0.9159,
      "step": 176450
    },
    {
      "epoch": 0.24099807338084114,
      "grad_norm": 3.53125,
      "learning_rate": 8.796860826268747e-05,
      "loss": 0.7876,
      "step": 176500
    },
    {
      "epoch": 0.24106634478973088,
      "grad_norm": 3.25,
      "learning_rate": 8.796148727449406e-05,
      "loss": 0.7817,
      "step": 176550
    },
    {
      "epoch": 0.24113461619862064,
      "grad_norm": 2.71875,
      "learning_rate": 8.795436446798516e-05,
      "loss": 0.6823,
      "step": 176600
    },
    {
      "epoch": 0.2412028876075104,
      "grad_norm": 3.3125,
      "learning_rate": 8.79472398435019e-05,
      "loss": 0.8681,
      "step": 176650
    },
    {
      "epoch": 0.24127115901640014,
      "grad_norm": 2.90625,
      "learning_rate": 8.794011340138559e-05,
      "loss": 0.7385,
      "step": 176700
    },
    {
      "epoch": 0.2413394304252899,
      "grad_norm": 3.109375,
      "learning_rate": 8.793298514197753e-05,
      "loss": 0.8038,
      "step": 176750
    },
    {
      "epoch": 0.24140770183417967,
      "grad_norm": 8.0,
      "learning_rate": 8.792585506561919e-05,
      "loss": 0.7647,
      "step": 176800
    },
    {
      "epoch": 0.24147597324306944,
      "grad_norm": 3.421875,
      "learning_rate": 8.791872317265209e-05,
      "loss": 0.7843,
      "step": 176850
    },
    {
      "epoch": 0.24154424465195917,
      "grad_norm": 3.8125,
      "learning_rate": 8.791158946341782e-05,
      "loss": 0.7721,
      "step": 176900
    },
    {
      "epoch": 0.24161251606084894,
      "grad_norm": 2.703125,
      "learning_rate": 8.790445393825808e-05,
      "loss": 0.7631,
      "step": 176950
    },
    {
      "epoch": 0.2416807874697387,
      "grad_norm": 2.703125,
      "learning_rate": 8.789731659751467e-05,
      "loss": 0.8042,
      "step": 177000
    },
    {
      "epoch": 0.24174905887862846,
      "grad_norm": 2.328125,
      "learning_rate": 8.789017744152947e-05,
      "loss": 0.975,
      "step": 177050
    },
    {
      "epoch": 0.2418173302875182,
      "grad_norm": 4.03125,
      "learning_rate": 8.788303647064441e-05,
      "loss": 0.8095,
      "step": 177100
    },
    {
      "epoch": 0.24188560169640796,
      "grad_norm": 3.09375,
      "learning_rate": 8.787589368520157e-05,
      "loss": 0.8699,
      "step": 177150
    },
    {
      "epoch": 0.24195387310529773,
      "grad_norm": 3.8125,
      "learning_rate": 8.786874908554303e-05,
      "loss": 0.7782,
      "step": 177200
    },
    {
      "epoch": 0.2420221445141875,
      "grad_norm": 3.203125,
      "learning_rate": 8.786160267201107e-05,
      "loss": 0.8313,
      "step": 177250
    },
    {
      "epoch": 0.24209041592307723,
      "grad_norm": 4.03125,
      "learning_rate": 8.785445444494794e-05,
      "loss": 0.863,
      "step": 177300
    },
    {
      "epoch": 0.242158687331967,
      "grad_norm": 4.25,
      "learning_rate": 8.784730440469606e-05,
      "loss": 0.8031,
      "step": 177350
    },
    {
      "epoch": 0.24222695874085676,
      "grad_norm": 4.59375,
      "learning_rate": 8.784015255159793e-05,
      "loss": 1.0329,
      "step": 177400
    },
    {
      "epoch": 0.24229523014974652,
      "grad_norm": 4.3125,
      "learning_rate": 8.783299888599608e-05,
      "loss": 1.0444,
      "step": 177450
    },
    {
      "epoch": 0.24236350155863626,
      "grad_norm": 3.15625,
      "learning_rate": 8.782584340823317e-05,
      "loss": 0.8495,
      "step": 177500
    },
    {
      "epoch": 0.24243177296752602,
      "grad_norm": 4.53125,
      "learning_rate": 8.781868611865194e-05,
      "loss": 0.8219,
      "step": 177550
    },
    {
      "epoch": 0.24250004437641579,
      "grad_norm": 3.546875,
      "learning_rate": 8.781152701759523e-05,
      "loss": 0.7816,
      "step": 177600
    },
    {
      "epoch": 0.24256831578530552,
      "grad_norm": 2.515625,
      "learning_rate": 8.780436610540596e-05,
      "loss": 1.0588,
      "step": 177650
    },
    {
      "epoch": 0.24263658719419529,
      "grad_norm": 2.875,
      "learning_rate": 8.779720338242711e-05,
      "loss": 0.7426,
      "step": 177700
    },
    {
      "epoch": 0.24270485860308505,
      "grad_norm": 4.3125,
      "learning_rate": 8.779003884900176e-05,
      "loss": 0.8632,
      "step": 177750
    },
    {
      "epoch": 0.2427731300119748,
      "grad_norm": 3.25,
      "learning_rate": 8.778287250547311e-05,
      "loss": 1.0079,
      "step": 177800
    },
    {
      "epoch": 0.24284140142086455,
      "grad_norm": 2.8125,
      "learning_rate": 8.777570435218441e-05,
      "loss": 0.7969,
      "step": 177850
    },
    {
      "epoch": 0.24290967282975431,
      "grad_norm": 3.6875,
      "learning_rate": 8.7768534389479e-05,
      "loss": 1.0451,
      "step": 177900
    },
    {
      "epoch": 0.24297794423864408,
      "grad_norm": 3.8125,
      "learning_rate": 8.776136261770031e-05,
      "loss": 0.9463,
      "step": 177950
    },
    {
      "epoch": 0.24304621564753384,
      "grad_norm": 2.90625,
      "learning_rate": 8.775418903719188e-05,
      "loss": 0.6881,
      "step": 178000
    },
    {
      "epoch": 0.24311448705642358,
      "grad_norm": 2.515625,
      "learning_rate": 8.774701364829732e-05,
      "loss": 0.7886,
      "step": 178050
    },
    {
      "epoch": 0.24318275846531334,
      "grad_norm": 2.53125,
      "learning_rate": 8.773983645136028e-05,
      "loss": 0.8245,
      "step": 178100
    },
    {
      "epoch": 0.2432510298742031,
      "grad_norm": 4.125,
      "learning_rate": 8.773265744672459e-05,
      "loss": 0.9711,
      "step": 178150
    },
    {
      "epoch": 0.24331930128309287,
      "grad_norm": 2.453125,
      "learning_rate": 8.772547663473409e-05,
      "loss": 0.7913,
      "step": 178200
    },
    {
      "epoch": 0.2433875726919826,
      "grad_norm": 8.0,
      "learning_rate": 8.771829401573273e-05,
      "loss": 0.9501,
      "step": 178250
    },
    {
      "epoch": 0.24345584410087237,
      "grad_norm": 3.703125,
      "learning_rate": 8.771110959006456e-05,
      "loss": 0.8296,
      "step": 178300
    },
    {
      "epoch": 0.24352411550976213,
      "grad_norm": 3.546875,
      "learning_rate": 8.770392335807373e-05,
      "loss": 0.9608,
      "step": 178350
    },
    {
      "epoch": 0.2435923869186519,
      "grad_norm": 2.546875,
      "learning_rate": 8.76967353201044e-05,
      "loss": 0.6878,
      "step": 178400
    },
    {
      "epoch": 0.24366065832754163,
      "grad_norm": 3.875,
      "learning_rate": 8.768954547650092e-05,
      "loss": 0.8267,
      "step": 178450
    },
    {
      "epoch": 0.2437289297364314,
      "grad_norm": 3.984375,
      "learning_rate": 8.768235382760764e-05,
      "loss": 0.7482,
      "step": 178500
    },
    {
      "epoch": 0.24379720114532116,
      "grad_norm": 3.265625,
      "learning_rate": 8.767516037376906e-05,
      "loss": 0.7986,
      "step": 178550
    },
    {
      "epoch": 0.2438654725542109,
      "grad_norm": 2.8125,
      "learning_rate": 8.766796511532972e-05,
      "loss": 1.0522,
      "step": 178600
    },
    {
      "epoch": 0.24393374396310066,
      "grad_norm": 3.796875,
      "learning_rate": 8.766076805263428e-05,
      "loss": 0.6385,
      "step": 178650
    },
    {
      "epoch": 0.24400201537199043,
      "grad_norm": 3.640625,
      "learning_rate": 8.765356918602745e-05,
      "loss": 0.7481,
      "step": 178700
    },
    {
      "epoch": 0.2440702867808802,
      "grad_norm": 3.125,
      "learning_rate": 8.764636851585406e-05,
      "loss": 0.7101,
      "step": 178750
    },
    {
      "epoch": 0.24413855818976993,
      "grad_norm": 2.96875,
      "learning_rate": 8.763916604245903e-05,
      "loss": 0.6894,
      "step": 178800
    },
    {
      "epoch": 0.2442068295986597,
      "grad_norm": 2.28125,
      "learning_rate": 8.763196176618734e-05,
      "loss": 0.8768,
      "step": 178850
    },
    {
      "epoch": 0.24427510100754946,
      "grad_norm": 2.484375,
      "learning_rate": 8.762475568738405e-05,
      "loss": 0.7503,
      "step": 178900
    },
    {
      "epoch": 0.24434337241643922,
      "grad_norm": 3.609375,
      "learning_rate": 8.761754780639433e-05,
      "loss": 0.6964,
      "step": 178950
    },
    {
      "epoch": 0.24441164382532896,
      "grad_norm": 2.375,
      "learning_rate": 8.761033812356345e-05,
      "loss": 0.7468,
      "step": 179000
    },
    {
      "epoch": 0.24447991523421872,
      "grad_norm": 2.53125,
      "learning_rate": 8.760312663923673e-05,
      "loss": 0.7826,
      "step": 179050
    },
    {
      "epoch": 0.24454818664310848,
      "grad_norm": 3.25,
      "learning_rate": 8.759591335375961e-05,
      "loss": 0.7228,
      "step": 179100
    },
    {
      "epoch": 0.24461645805199825,
      "grad_norm": 3.96875,
      "learning_rate": 8.758869826747756e-05,
      "loss": 0.7571,
      "step": 179150
    },
    {
      "epoch": 0.24468472946088798,
      "grad_norm": 3.140625,
      "learning_rate": 8.758148138073623e-05,
      "loss": 0.8043,
      "step": 179200
    },
    {
      "epoch": 0.24475300086977775,
      "grad_norm": 4.03125,
      "learning_rate": 8.757426269388125e-05,
      "loss": 0.6597,
      "step": 179250
    },
    {
      "epoch": 0.2448212722786675,
      "grad_norm": 2.328125,
      "learning_rate": 8.756704220725842e-05,
      "loss": 0.7989,
      "step": 179300
    },
    {
      "epoch": 0.24488954368755728,
      "grad_norm": 2.109375,
      "learning_rate": 8.755981992121359e-05,
      "loss": 0.6253,
      "step": 179350
    },
    {
      "epoch": 0.244957815096447,
      "grad_norm": 7.5625,
      "learning_rate": 8.755259583609268e-05,
      "loss": 0.9916,
      "step": 179400
    },
    {
      "epoch": 0.24502608650533678,
      "grad_norm": 2.71875,
      "learning_rate": 8.754536995224172e-05,
      "loss": 0.845,
      "step": 179450
    },
    {
      "epoch": 0.24509435791422654,
      "grad_norm": 7.34375,
      "learning_rate": 8.753814227000685e-05,
      "loss": 0.7217,
      "step": 179500
    },
    {
      "epoch": 0.24516262932311628,
      "grad_norm": 2.671875,
      "learning_rate": 8.753091278973424e-05,
      "loss": 0.897,
      "step": 179550
    },
    {
      "epoch": 0.24523090073200604,
      "grad_norm": 3.265625,
      "learning_rate": 8.752368151177019e-05,
      "loss": 0.7748,
      "step": 179600
    },
    {
      "epoch": 0.2452991721408958,
      "grad_norm": 2.53125,
      "learning_rate": 8.751644843646105e-05,
      "loss": 0.8333,
      "step": 179650
    },
    {
      "epoch": 0.24536744354978557,
      "grad_norm": 2.90625,
      "learning_rate": 8.750921356415332e-05,
      "loss": 0.7035,
      "step": 179700
    },
    {
      "epoch": 0.2454357149586753,
      "grad_norm": 7.9375,
      "learning_rate": 8.75019768951935e-05,
      "loss": 0.8071,
      "step": 179750
    },
    {
      "epoch": 0.24550398636756507,
      "grad_norm": 3.703125,
      "learning_rate": 8.749473842992822e-05,
      "loss": 0.9523,
      "step": 179800
    },
    {
      "epoch": 0.24557225777645483,
      "grad_norm": 2.6875,
      "learning_rate": 8.748749816870423e-05,
      "loss": 1.0106,
      "step": 179850
    },
    {
      "epoch": 0.2456405291853446,
      "grad_norm": 3.3125,
      "learning_rate": 8.74802561118683e-05,
      "loss": 0.7409,
      "step": 179900
    },
    {
      "epoch": 0.24570880059423433,
      "grad_norm": 2.875,
      "learning_rate": 8.747301225976732e-05,
      "loss": 0.9131,
      "step": 179950
    },
    {
      "epoch": 0.2457770720031241,
      "grad_norm": 2.796875,
      "learning_rate": 8.746576661274827e-05,
      "loss": 0.7331,
      "step": 180000
    },
    {
      "epoch": 0.24584534341201386,
      "grad_norm": 2.90625,
      "learning_rate": 8.745851917115821e-05,
      "loss": 0.705,
      "step": 180050
    },
    {
      "epoch": 0.24591361482090363,
      "grad_norm": 8.5,
      "learning_rate": 8.745126993534429e-05,
      "loss": 0.8002,
      "step": 180100
    },
    {
      "epoch": 0.24598188622979336,
      "grad_norm": 3.34375,
      "learning_rate": 8.744401890565375e-05,
      "loss": 0.6827,
      "step": 180150
    },
    {
      "epoch": 0.24605015763868313,
      "grad_norm": 3.609375,
      "learning_rate": 8.743676608243385e-05,
      "loss": 0.9305,
      "step": 180200
    },
    {
      "epoch": 0.2461184290475729,
      "grad_norm": 3.3125,
      "learning_rate": 8.742951146603206e-05,
      "loss": 0.7068,
      "step": 180250
    },
    {
      "epoch": 0.24618670045646263,
      "grad_norm": 9.0625,
      "learning_rate": 8.742225505679584e-05,
      "loss": 0.7704,
      "step": 180300
    },
    {
      "epoch": 0.2462549718653524,
      "grad_norm": 2.953125,
      "learning_rate": 8.741499685507276e-05,
      "loss": 0.9461,
      "step": 180350
    },
    {
      "epoch": 0.24632324327424215,
      "grad_norm": 2.515625,
      "learning_rate": 8.740773686121049e-05,
      "loss": 0.9256,
      "step": 180400
    },
    {
      "epoch": 0.24639151468313192,
      "grad_norm": 2.671875,
      "learning_rate": 8.740047507555677e-05,
      "loss": 0.6875,
      "step": 180450
    },
    {
      "epoch": 0.24645978609202165,
      "grad_norm": 4.0,
      "learning_rate": 8.739321149845943e-05,
      "loss": 0.8359,
      "step": 180500
    },
    {
      "epoch": 0.24652805750091142,
      "grad_norm": 3.890625,
      "learning_rate": 8.738594613026641e-05,
      "loss": 0.9342,
      "step": 180550
    },
    {
      "epoch": 0.24659632890980118,
      "grad_norm": 3.5,
      "learning_rate": 8.737867897132567e-05,
      "loss": 0.7505,
      "step": 180600
    },
    {
      "epoch": 0.24666460031869095,
      "grad_norm": 3.765625,
      "learning_rate": 8.737141002198535e-05,
      "loss": 0.8177,
      "step": 180650
    },
    {
      "epoch": 0.24673287172758068,
      "grad_norm": 4.65625,
      "learning_rate": 8.736413928259358e-05,
      "loss": 0.6667,
      "step": 180700
    },
    {
      "epoch": 0.24680114313647045,
      "grad_norm": 8.6875,
      "learning_rate": 8.735686675349865e-05,
      "loss": 0.9424,
      "step": 180750
    },
    {
      "epoch": 0.2468694145453602,
      "grad_norm": 8.125,
      "learning_rate": 8.73495924350489e-05,
      "loss": 1.0008,
      "step": 180800
    },
    {
      "epoch": 0.24693768595424997,
      "grad_norm": 4.21875,
      "learning_rate": 8.734231632759276e-05,
      "loss": 0.8185,
      "step": 180850
    },
    {
      "epoch": 0.2470059573631397,
      "grad_norm": 2.5,
      "learning_rate": 8.733503843147873e-05,
      "loss": 0.9764,
      "step": 180900
    },
    {
      "epoch": 0.24707422877202947,
      "grad_norm": 3.78125,
      "learning_rate": 8.732775874705546e-05,
      "loss": 0.7939,
      "step": 180950
    },
    {
      "epoch": 0.24714250018091924,
      "grad_norm": 2.84375,
      "learning_rate": 8.732047727467159e-05,
      "loss": 0.7572,
      "step": 181000
    },
    {
      "epoch": 0.247210771589809,
      "grad_norm": 3.9375,
      "learning_rate": 8.731319401467592e-05,
      "loss": 1.0279,
      "step": 181050
    },
    {
      "epoch": 0.24727904299869874,
      "grad_norm": 3.859375,
      "learning_rate": 8.73059089674173e-05,
      "loss": 0.8043,
      "step": 181100
    },
    {
      "epoch": 0.2473473144075885,
      "grad_norm": 2.75,
      "learning_rate": 8.729862213324469e-05,
      "loss": 0.6459,
      "step": 181150
    },
    {
      "epoch": 0.24741558581647827,
      "grad_norm": 2.921875,
      "learning_rate": 8.729133351250711e-05,
      "loss": 0.6532,
      "step": 181200
    },
    {
      "epoch": 0.247483857225368,
      "grad_norm": 4.28125,
      "learning_rate": 8.728404310555369e-05,
      "loss": 0.8232,
      "step": 181250
    },
    {
      "epoch": 0.24755212863425777,
      "grad_norm": 3.21875,
      "learning_rate": 8.727675091273361e-05,
      "loss": 0.9654,
      "step": 181300
    },
    {
      "epoch": 0.24762040004314753,
      "grad_norm": 3.3125,
      "learning_rate": 8.726945693439617e-05,
      "loss": 0.7427,
      "step": 181350
    },
    {
      "epoch": 0.2476886714520373,
      "grad_norm": 3.734375,
      "learning_rate": 8.726216117089077e-05,
      "loss": 0.7602,
      "step": 181400
    },
    {
      "epoch": 0.24775694286092703,
      "grad_norm": 7.8125,
      "learning_rate": 8.725486362256683e-05,
      "loss": 0.8152,
      "step": 181450
    },
    {
      "epoch": 0.2478252142698168,
      "grad_norm": 3.65625,
      "learning_rate": 8.72475642897739e-05,
      "loss": 0.812,
      "step": 181500
    },
    {
      "epoch": 0.24789348567870656,
      "grad_norm": 4.4375,
      "learning_rate": 8.724026317286165e-05,
      "loss": 0.702,
      "step": 181550
    },
    {
      "epoch": 0.24796175708759632,
      "grad_norm": 3.796875,
      "learning_rate": 8.723296027217973e-05,
      "loss": 0.7429,
      "step": 181600
    },
    {
      "epoch": 0.24803002849648606,
      "grad_norm": 3.4375,
      "learning_rate": 8.7225655588078e-05,
      "loss": 0.7705,
      "step": 181650
    },
    {
      "epoch": 0.24809829990537582,
      "grad_norm": 8.8125,
      "learning_rate": 8.721834912090633e-05,
      "loss": 0.8649,
      "step": 181700
    },
    {
      "epoch": 0.2481665713142656,
      "grad_norm": 3.0,
      "learning_rate": 8.721104087101468e-05,
      "loss": 0.7924,
      "step": 181750
    },
    {
      "epoch": 0.24823484272315535,
      "grad_norm": 8.1875,
      "learning_rate": 8.720373083875311e-05,
      "loss": 0.8646,
      "step": 181800
    },
    {
      "epoch": 0.2483031141320451,
      "grad_norm": 3.9375,
      "learning_rate": 8.719641902447177e-05,
      "loss": 0.6191,
      "step": 181850
    },
    {
      "epoch": 0.24837138554093485,
      "grad_norm": 8.25,
      "learning_rate": 8.71891054285209e-05,
      "loss": 0.9282,
      "step": 181900
    },
    {
      "epoch": 0.24843965694982462,
      "grad_norm": 2.515625,
      "learning_rate": 8.718179005125078e-05,
      "loss": 0.7084,
      "step": 181950
    },
    {
      "epoch": 0.24850792835871438,
      "grad_norm": 3.953125,
      "learning_rate": 8.717447289301183e-05,
      "loss": 0.7739,
      "step": 182000
    },
    {
      "epoch": 0.24857619976760412,
      "grad_norm": 3.203125,
      "learning_rate": 8.716715395415453e-05,
      "loss": 0.8409,
      "step": 182050
    },
    {
      "epoch": 0.24864447117649388,
      "grad_norm": 3.78125,
      "learning_rate": 8.715983323502947e-05,
      "loss": 0.6843,
      "step": 182100
    },
    {
      "epoch": 0.24871274258538364,
      "grad_norm": 2.734375,
      "learning_rate": 8.715251073598727e-05,
      "loss": 0.8161,
      "step": 182150
    },
    {
      "epoch": 0.24878101399427338,
      "grad_norm": 4.28125,
      "learning_rate": 8.71451864573787e-05,
      "loss": 0.6178,
      "step": 182200
    },
    {
      "epoch": 0.24884928540316315,
      "grad_norm": 2.65625,
      "learning_rate": 8.713786039955456e-05,
      "loss": 0.6532,
      "step": 182250
    },
    {
      "epoch": 0.2489175568120529,
      "grad_norm": 3.828125,
      "learning_rate": 8.713053256286578e-05,
      "loss": 0.8904,
      "step": 182300
    },
    {
      "epoch": 0.24898582822094267,
      "grad_norm": 2.34375,
      "learning_rate": 8.712320294766334e-05,
      "loss": 0.9657,
      "step": 182350
    },
    {
      "epoch": 0.2490540996298324,
      "grad_norm": 2.390625,
      "learning_rate": 8.711587155429834e-05,
      "loss": 0.7566,
      "step": 182400
    },
    {
      "epoch": 0.24912237103872217,
      "grad_norm": 2.734375,
      "learning_rate": 8.710853838312193e-05,
      "loss": 0.7227,
      "step": 182450
    },
    {
      "epoch": 0.24919064244761194,
      "grad_norm": 8.0625,
      "learning_rate": 8.710120343448535e-05,
      "loss": 0.9031,
      "step": 182500
    },
    {
      "epoch": 0.2492589138565017,
      "grad_norm": 8.1875,
      "learning_rate": 8.709386670873998e-05,
      "loss": 1.1341,
      "step": 182550
    },
    {
      "epoch": 0.24932718526539144,
      "grad_norm": 2.53125,
      "learning_rate": 8.708652820623721e-05,
      "loss": 0.7471,
      "step": 182600
    },
    {
      "epoch": 0.2493954566742812,
      "grad_norm": 3.859375,
      "learning_rate": 8.707918792732855e-05,
      "loss": 0.8418,
      "step": 182650
    },
    {
      "epoch": 0.24946372808317097,
      "grad_norm": 7.90625,
      "learning_rate": 8.707184587236558e-05,
      "loss": 0.8393,
      "step": 182700
    },
    {
      "epoch": 0.24953199949206073,
      "grad_norm": 3.125,
      "learning_rate": 8.706450204169999e-05,
      "loss": 0.923,
      "step": 182750
    },
    {
      "epoch": 0.24960027090095047,
      "grad_norm": 3.453125,
      "learning_rate": 8.705715643568356e-05,
      "loss": 0.8957,
      "step": 182800
    },
    {
      "epoch": 0.24966854230984023,
      "grad_norm": 3.03125,
      "learning_rate": 8.70498090546681e-05,
      "loss": 0.9165,
      "step": 182850
    },
    {
      "epoch": 0.24973681371873,
      "grad_norm": 3.03125,
      "learning_rate": 8.704245989900555e-05,
      "loss": 1.0182,
      "step": 182900
    },
    {
      "epoch": 0.24980508512761976,
      "grad_norm": 8.375,
      "learning_rate": 8.703510896904796e-05,
      "loss": 0.8183,
      "step": 182950
    },
    {
      "epoch": 0.2498733565365095,
      "grad_norm": 3.0,
      "learning_rate": 8.702775626514741e-05,
      "loss": 0.5794,
      "step": 183000
    },
    {
      "epoch": 0.24994162794539926,
      "grad_norm": 2.40625,
      "learning_rate": 8.702040178765607e-05,
      "loss": 0.7352,
      "step": 183050
    },
    {
      "epoch": 0.250009899354289,
      "grad_norm": 2.515625,
      "learning_rate": 8.701304553692623e-05,
      "loss": 0.78,
      "step": 183100
    },
    {
      "epoch": 0.2500781707631788,
      "grad_norm": 4.03125,
      "learning_rate": 8.700568751331024e-05,
      "loss": 0.7495,
      "step": 183150
    },
    {
      "epoch": 0.25014644217206855,
      "grad_norm": 2.4375,
      "learning_rate": 8.699832771716056e-05,
      "loss": 0.6518,
      "step": 183200
    },
    {
      "epoch": 0.25021471358095826,
      "grad_norm": 3.90625,
      "learning_rate": 8.699096614882969e-05,
      "loss": 0.7955,
      "step": 183250
    },
    {
      "epoch": 0.250282984989848,
      "grad_norm": 2.453125,
      "learning_rate": 8.698360280867027e-05,
      "loss": 0.7699,
      "step": 183300
    },
    {
      "epoch": 0.2503512563987378,
      "grad_norm": 2.421875,
      "learning_rate": 8.697623769703496e-05,
      "loss": 0.7143,
      "step": 183350
    },
    {
      "epoch": 0.25041952780762755,
      "grad_norm": 3.078125,
      "learning_rate": 8.696887081427656e-05,
      "loss": 0.9927,
      "step": 183400
    },
    {
      "epoch": 0.2504877992165173,
      "grad_norm": 7.5625,
      "learning_rate": 8.696150216074794e-05,
      "loss": 0.9133,
      "step": 183450
    },
    {
      "epoch": 0.2505560706254071,
      "grad_norm": 2.6875,
      "learning_rate": 8.695413173680207e-05,
      "loss": 0.9001,
      "step": 183500
    },
    {
      "epoch": 0.25062434203429684,
      "grad_norm": 2.28125,
      "learning_rate": 8.694675954279193e-05,
      "loss": 0.8631,
      "step": 183550
    },
    {
      "epoch": 0.2506926134431866,
      "grad_norm": 3.5,
      "learning_rate": 8.69393855790707e-05,
      "loss": 0.6732,
      "step": 183600
    },
    {
      "epoch": 0.2507608848520763,
      "grad_norm": 2.5625,
      "learning_rate": 8.693200984599155e-05,
      "loss": 0.6575,
      "step": 183650
    },
    {
      "epoch": 0.2508291562609661,
      "grad_norm": 3.578125,
      "learning_rate": 8.692463234390777e-05,
      "loss": 0.6652,
      "step": 183700
    },
    {
      "epoch": 0.25089742766985584,
      "grad_norm": 3.859375,
      "learning_rate": 8.691725307317275e-05,
      "loss": 0.7138,
      "step": 183750
    },
    {
      "epoch": 0.2509656990787456,
      "grad_norm": 3.28125,
      "learning_rate": 8.690987203413994e-05,
      "loss": 0.7951,
      "step": 183800
    },
    {
      "epoch": 0.25103397048763537,
      "grad_norm": 3.734375,
      "learning_rate": 8.690248922716289e-05,
      "loss": 0.8355,
      "step": 183850
    },
    {
      "epoch": 0.25110224189652514,
      "grad_norm": 3.078125,
      "learning_rate": 8.689510465259522e-05,
      "loss": 0.7431,
      "step": 183900
    },
    {
      "epoch": 0.2511705133054149,
      "grad_norm": 7.96875,
      "learning_rate": 8.688771831079066e-05,
      "loss": 0.8392,
      "step": 183950
    },
    {
      "epoch": 0.2512387847143046,
      "grad_norm": 2.515625,
      "learning_rate": 8.688033020210299e-05,
      "loss": 0.7155,
      "step": 184000
    },
    {
      "epoch": 0.2513070561231944,
      "grad_norm": 2.90625,
      "learning_rate": 8.68729403268861e-05,
      "loss": 0.6366,
      "step": 184050
    },
    {
      "epoch": 0.25137532753208414,
      "grad_norm": 7.78125,
      "learning_rate": 8.686554868549396e-05,
      "loss": 0.7015,
      "step": 184100
    },
    {
      "epoch": 0.2514435989409739,
      "grad_norm": 2.390625,
      "learning_rate": 8.68581552782806e-05,
      "loss": 0.8,
      "step": 184150
    },
    {
      "epoch": 0.25151187034986366,
      "grad_norm": 8.4375,
      "learning_rate": 8.68507601056002e-05,
      "loss": 0.9031,
      "step": 184200
    },
    {
      "epoch": 0.25158014175875343,
      "grad_norm": 3.046875,
      "learning_rate": 8.684336316780695e-05,
      "loss": 0.7943,
      "step": 184250
    },
    {
      "epoch": 0.2516484131676432,
      "grad_norm": 3.578125,
      "learning_rate": 8.683596446525514e-05,
      "loss": 0.8838,
      "step": 184300
    },
    {
      "epoch": 0.25171668457653296,
      "grad_norm": 2.5,
      "learning_rate": 8.682856399829921e-05,
      "loss": 0.9505,
      "step": 184350
    },
    {
      "epoch": 0.25178495598542266,
      "grad_norm": 2.625,
      "learning_rate": 8.68211617672936e-05,
      "loss": 0.6948,
      "step": 184400
    },
    {
      "epoch": 0.25185322739431243,
      "grad_norm": 3.03125,
      "learning_rate": 8.681375777259287e-05,
      "loss": 0.7967,
      "step": 184450
    },
    {
      "epoch": 0.2519214988032022,
      "grad_norm": 3.28125,
      "learning_rate": 8.680635201455167e-05,
      "loss": 0.7864,
      "step": 184500
    },
    {
      "epoch": 0.25198977021209196,
      "grad_norm": 2.328125,
      "learning_rate": 8.679894449352472e-05,
      "loss": 0.7987,
      "step": 184550
    },
    {
      "epoch": 0.2520580416209817,
      "grad_norm": 4.09375,
      "learning_rate": 8.679153520986685e-05,
      "loss": 0.6659,
      "step": 184600
    },
    {
      "epoch": 0.2521263130298715,
      "grad_norm": 2.703125,
      "learning_rate": 8.678412416393296e-05,
      "loss": 0.6657,
      "step": 184650
    },
    {
      "epoch": 0.25219458443876125,
      "grad_norm": 2.46875,
      "learning_rate": 8.677671135607799e-05,
      "loss": 0.7645,
      "step": 184700
    },
    {
      "epoch": 0.252262855847651,
      "grad_norm": 4.34375,
      "learning_rate": 8.676929678665707e-05,
      "loss": 0.9157,
      "step": 184750
    },
    {
      "epoch": 0.2523311272565407,
      "grad_norm": 3.828125,
      "learning_rate": 8.676188045602527e-05,
      "loss": 0.774,
      "step": 184800
    },
    {
      "epoch": 0.2523993986654305,
      "grad_norm": 3.0,
      "learning_rate": 8.67544623645379e-05,
      "loss": 0.8295,
      "step": 184850
    },
    {
      "epoch": 0.25246767007432025,
      "grad_norm": 7.90625,
      "learning_rate": 8.674704251255023e-05,
      "loss": 0.8421,
      "step": 184900
    },
    {
      "epoch": 0.25253594148321,
      "grad_norm": 2.421875,
      "learning_rate": 8.673962090041768e-05,
      "loss": 0.8966,
      "step": 184950
    },
    {
      "epoch": 0.2526042128920998,
      "grad_norm": 3.0625,
      "learning_rate": 8.673219752849575e-05,
      "loss": 0.8976,
      "step": 185000
    },
    {
      "epoch": 0.25267248430098954,
      "grad_norm": 3.484375,
      "learning_rate": 8.672477239713999e-05,
      "loss": 0.7639,
      "step": 185050
    },
    {
      "epoch": 0.2527407557098793,
      "grad_norm": 8.125,
      "learning_rate": 8.671734550670607e-05,
      "loss": 0.781,
      "step": 185100
    },
    {
      "epoch": 0.252809027118769,
      "grad_norm": 8.0625,
      "learning_rate": 8.670991685754972e-05,
      "loss": 0.8848,
      "step": 185150
    },
    {
      "epoch": 0.2528772985276588,
      "grad_norm": 3.0,
      "learning_rate": 8.670248645002678e-05,
      "loss": 0.7189,
      "step": 185200
    },
    {
      "epoch": 0.25294556993654854,
      "grad_norm": 3.15625,
      "learning_rate": 8.669505428449314e-05,
      "loss": 0.7289,
      "step": 185250
    },
    {
      "epoch": 0.2530138413454383,
      "grad_norm": 3.015625,
      "learning_rate": 8.668762036130481e-05,
      "loss": 0.8749,
      "step": 185300
    },
    {
      "epoch": 0.25308211275432807,
      "grad_norm": 8.1875,
      "learning_rate": 8.668018468081786e-05,
      "loss": 0.6426,
      "step": 185350
    },
    {
      "epoch": 0.25315038416321783,
      "grad_norm": 2.515625,
      "learning_rate": 8.667274724338845e-05,
      "loss": 0.6447,
      "step": 185400
    },
    {
      "epoch": 0.2532186555721076,
      "grad_norm": 2.90625,
      "learning_rate": 8.666530804937282e-05,
      "loss": 0.6872,
      "step": 185450
    },
    {
      "epoch": 0.25328692698099736,
      "grad_norm": 3.671875,
      "learning_rate": 8.665786709912732e-05,
      "loss": 0.8086,
      "step": 185500
    },
    {
      "epoch": 0.25335519838988707,
      "grad_norm": 2.859375,
      "learning_rate": 8.665042439300832e-05,
      "loss": 0.8284,
      "step": 185550
    },
    {
      "epoch": 0.25342346979877683,
      "grad_norm": 3.546875,
      "learning_rate": 8.664297993137236e-05,
      "loss": 0.6937,
      "step": 185600
    },
    {
      "epoch": 0.2534917412076666,
      "grad_norm": 4.09375,
      "learning_rate": 8.663553371457602e-05,
      "loss": 0.7294,
      "step": 185650
    },
    {
      "epoch": 0.25356001261655636,
      "grad_norm": 3.03125,
      "learning_rate": 8.662808574297594e-05,
      "loss": 0.8339,
      "step": 185700
    },
    {
      "epoch": 0.2536282840254461,
      "grad_norm": 3.703125,
      "learning_rate": 8.66206360169289e-05,
      "loss": 0.9771,
      "step": 185750
    },
    {
      "epoch": 0.2536965554343359,
      "grad_norm": 2.796875,
      "learning_rate": 8.661318453679171e-05,
      "loss": 0.8108,
      "step": 185800
    },
    {
      "epoch": 0.25376482684322565,
      "grad_norm": 2.953125,
      "learning_rate": 8.66057313029213e-05,
      "loss": 0.6608,
      "step": 185850
    },
    {
      "epoch": 0.25383309825211536,
      "grad_norm": 8.4375,
      "learning_rate": 8.659827631567467e-05,
      "loss": 0.7692,
      "step": 185900
    },
    {
      "epoch": 0.2539013696610051,
      "grad_norm": 3.75,
      "learning_rate": 8.65908195754089e-05,
      "loss": 0.6849,
      "step": 185950
    },
    {
      "epoch": 0.2539696410698949,
      "grad_norm": 2.703125,
      "learning_rate": 8.658336108248117e-05,
      "loss": 0.8578,
      "step": 186000
    },
    {
      "epoch": 0.25403791247878466,
      "grad_norm": 4.78125,
      "learning_rate": 8.657590083724874e-05,
      "loss": 0.8513,
      "step": 186050
    },
    {
      "epoch": 0.2541061838876744,
      "grad_norm": 2.5625,
      "learning_rate": 8.656843884006893e-05,
      "loss": 0.7797,
      "step": 186100
    },
    {
      "epoch": 0.2541744552965642,
      "grad_norm": 7.78125,
      "learning_rate": 8.656097509129917e-05,
      "loss": 0.9505,
      "step": 186150
    },
    {
      "epoch": 0.25424272670545395,
      "grad_norm": 2.59375,
      "learning_rate": 8.655350959129696e-05,
      "loss": 0.7712,
      "step": 186200
    },
    {
      "epoch": 0.2543109981143437,
      "grad_norm": 2.921875,
      "learning_rate": 8.654604234041989e-05,
      "loss": 0.6222,
      "step": 186250
    },
    {
      "epoch": 0.2543792695232334,
      "grad_norm": 2.5625,
      "learning_rate": 8.653857333902565e-05,
      "loss": 0.8322,
      "step": 186300
    },
    {
      "epoch": 0.2544475409321232,
      "grad_norm": 8.125,
      "learning_rate": 8.653110258747197e-05,
      "loss": 0.9354,
      "step": 186350
    },
    {
      "epoch": 0.25451581234101295,
      "grad_norm": 2.9375,
      "learning_rate": 8.652363008611673e-05,
      "loss": 0.7537,
      "step": 186400
    },
    {
      "epoch": 0.2545840837499027,
      "grad_norm": 2.890625,
      "learning_rate": 8.65161558353178e-05,
      "loss": 0.7312,
      "step": 186450
    },
    {
      "epoch": 0.2546523551587925,
      "grad_norm": 2.828125,
      "learning_rate": 8.650867983543325e-05,
      "loss": 0.7467,
      "step": 186500
    },
    {
      "epoch": 0.25472062656768224,
      "grad_norm": 3.96875,
      "learning_rate": 8.650120208682113e-05,
      "loss": 0.6937,
      "step": 186550
    },
    {
      "epoch": 0.254788897976572,
      "grad_norm": 8.25,
      "learning_rate": 8.649372258983963e-05,
      "loss": 0.6997,
      "step": 186600
    },
    {
      "epoch": 0.2548571693854617,
      "grad_norm": 8.25,
      "learning_rate": 8.648624134484702e-05,
      "loss": 0.9049,
      "step": 186650
    },
    {
      "epoch": 0.2549254407943515,
      "grad_norm": 3.796875,
      "learning_rate": 8.647875835220161e-05,
      "loss": 0.7526,
      "step": 186700
    },
    {
      "epoch": 0.25499371220324124,
      "grad_norm": 3.6875,
      "learning_rate": 8.647127361226187e-05,
      "loss": 0.8351,
      "step": 186750
    },
    {
      "epoch": 0.255061983612131,
      "grad_norm": 2.546875,
      "learning_rate": 8.64637871253863e-05,
      "loss": 0.6333,
      "step": 186800
    },
    {
      "epoch": 0.25513025502102077,
      "grad_norm": 4.03125,
      "learning_rate": 8.645629889193346e-05,
      "loss": 0.7293,
      "step": 186850
    },
    {
      "epoch": 0.25519852642991053,
      "grad_norm": 2.640625,
      "learning_rate": 8.644880891226208e-05,
      "loss": 0.6958,
      "step": 186900
    },
    {
      "epoch": 0.2552667978388003,
      "grad_norm": 2.5625,
      "learning_rate": 8.644131718673087e-05,
      "loss": 0.6534,
      "step": 186950
    },
    {
      "epoch": 0.25533506924769006,
      "grad_norm": 2.640625,
      "learning_rate": 8.643382371569872e-05,
      "loss": 0.68,
      "step": 187000
    },
    {
      "epoch": 0.25540334065657977,
      "grad_norm": 3.515625,
      "learning_rate": 8.642632849952455e-05,
      "loss": 0.8928,
      "step": 187050
    },
    {
      "epoch": 0.25547161206546953,
      "grad_norm": 8.125,
      "learning_rate": 8.641883153856737e-05,
      "loss": 0.7673,
      "step": 187100
    },
    {
      "epoch": 0.2555398834743593,
      "grad_norm": 4.21875,
      "learning_rate": 8.641133283318625e-05,
      "loss": 0.8338,
      "step": 187150
    },
    {
      "epoch": 0.25560815488324906,
      "grad_norm": 2.796875,
      "learning_rate": 8.640383238374042e-05,
      "loss": 0.836,
      "step": 187200
    },
    {
      "epoch": 0.2556764262921388,
      "grad_norm": 2.75,
      "learning_rate": 8.63963301905891e-05,
      "loss": 0.716,
      "step": 187250
    },
    {
      "epoch": 0.2557446977010286,
      "grad_norm": 2.703125,
      "learning_rate": 8.638882625409166e-05,
      "loss": 0.9151,
      "step": 187300
    },
    {
      "epoch": 0.25581296910991835,
      "grad_norm": 3.25,
      "learning_rate": 8.638132057460751e-05,
      "loss": 0.7366,
      "step": 187350
    },
    {
      "epoch": 0.2558812405188081,
      "grad_norm": 4.0625,
      "learning_rate": 8.637381315249619e-05,
      "loss": 1.1329,
      "step": 187400
    },
    {
      "epoch": 0.2559495119276978,
      "grad_norm": 7.84375,
      "learning_rate": 8.636630398811728e-05,
      "loss": 1.0254,
      "step": 187450
    },
    {
      "epoch": 0.2560177833365876,
      "grad_norm": 3.59375,
      "learning_rate": 8.635879308183048e-05,
      "loss": 0.7737,
      "step": 187500
    },
    {
      "epoch": 0.25608605474547735,
      "grad_norm": 2.953125,
      "learning_rate": 8.635128043399552e-05,
      "loss": 0.7547,
      "step": 187550
    },
    {
      "epoch": 0.2561543261543671,
      "grad_norm": 4.34375,
      "learning_rate": 8.634376604497228e-05,
      "loss": 0.7765,
      "step": 187600
    },
    {
      "epoch": 0.2562225975632569,
      "grad_norm": 8.1875,
      "learning_rate": 8.633624991512068e-05,
      "loss": 0.7721,
      "step": 187650
    },
    {
      "epoch": 0.25629086897214665,
      "grad_norm": 8.9375,
      "learning_rate": 8.632873204480074e-05,
      "loss": 0.9453,
      "step": 187700
    },
    {
      "epoch": 0.2563591403810364,
      "grad_norm": 4.59375,
      "learning_rate": 8.632121243437257e-05,
      "loss": 0.9334,
      "step": 187750
    },
    {
      "epoch": 0.2564274117899261,
      "grad_norm": 2.53125,
      "learning_rate": 8.631369108419631e-05,
      "loss": 1.0422,
      "step": 187800
    },
    {
      "epoch": 0.2564956831988159,
      "grad_norm": 2.875,
      "learning_rate": 8.630616799463225e-05,
      "loss": 0.8102,
      "step": 187850
    },
    {
      "epoch": 0.25656395460770565,
      "grad_norm": 4.34375,
      "learning_rate": 8.629864316604075e-05,
      "loss": 0.6937,
      "step": 187900
    },
    {
      "epoch": 0.2566322260165954,
      "grad_norm": 4.59375,
      "learning_rate": 8.629111659878224e-05,
      "loss": 0.8892,
      "step": 187950
    },
    {
      "epoch": 0.2567004974254852,
      "grad_norm": 2.671875,
      "learning_rate": 8.628358829321721e-05,
      "loss": 0.6716,
      "step": 188000
    },
    {
      "epoch": 0.25676876883437494,
      "grad_norm": 2.765625,
      "learning_rate": 8.627605824970626e-05,
      "loss": 0.7136,
      "step": 188050
    },
    {
      "epoch": 0.2568370402432647,
      "grad_norm": 3.390625,
      "learning_rate": 8.62685264686101e-05,
      "loss": 0.7479,
      "step": 188100
    },
    {
      "epoch": 0.25690531165215447,
      "grad_norm": 3.03125,
      "learning_rate": 8.626099295028949e-05,
      "loss": 0.7272,
      "step": 188150
    },
    {
      "epoch": 0.2569735830610442,
      "grad_norm": 3.4375,
      "learning_rate": 8.625345769510525e-05,
      "loss": 0.8747,
      "step": 188200
    },
    {
      "epoch": 0.25704185446993394,
      "grad_norm": 4.28125,
      "learning_rate": 8.624592070341833e-05,
      "loss": 0.7022,
      "step": 188250
    },
    {
      "epoch": 0.2571101258788237,
      "grad_norm": 2.546875,
      "learning_rate": 8.623838197558973e-05,
      "loss": 0.8449,
      "step": 188300
    },
    {
      "epoch": 0.25717839728771347,
      "grad_norm": 2.828125,
      "learning_rate": 8.623084151198056e-05,
      "loss": 0.7548,
      "step": 188350
    },
    {
      "epoch": 0.25724666869660323,
      "grad_norm": 4.125,
      "learning_rate": 8.6223299312952e-05,
      "loss": 0.6732,
      "step": 188400
    },
    {
      "epoch": 0.257314940105493,
      "grad_norm": 2.46875,
      "learning_rate": 8.621575537886532e-05,
      "loss": 0.7887,
      "step": 188450
    },
    {
      "epoch": 0.25738321151438276,
      "grad_norm": 2.25,
      "learning_rate": 8.620820971008186e-05,
      "loss": 0.7023,
      "step": 188500
    },
    {
      "epoch": 0.25745148292327247,
      "grad_norm": 3.171875,
      "learning_rate": 8.620066230696304e-05,
      "loss": 0.6023,
      "step": 188550
    },
    {
      "epoch": 0.25751975433216223,
      "grad_norm": 3.484375,
      "learning_rate": 8.619311316987037e-05,
      "loss": 0.8614,
      "step": 188600
    },
    {
      "epoch": 0.257588025741052,
      "grad_norm": 4.65625,
      "learning_rate": 8.618556229916548e-05,
      "loss": 0.8493,
      "step": 188650
    },
    {
      "epoch": 0.25765629714994176,
      "grad_norm": 2.984375,
      "learning_rate": 8.617800969521002e-05,
      "loss": 0.6031,
      "step": 188700
    },
    {
      "epoch": 0.2577245685588315,
      "grad_norm": 3.671875,
      "learning_rate": 8.617045535836574e-05,
      "loss": 0.6453,
      "step": 188750
    },
    {
      "epoch": 0.2577928399677213,
      "grad_norm": 4.25,
      "learning_rate": 8.61628992889945e-05,
      "loss": 0.6895,
      "step": 188800
    },
    {
      "epoch": 0.25786111137661105,
      "grad_norm": 3.03125,
      "learning_rate": 8.615534148745826e-05,
      "loss": 0.7592,
      "step": 188850
    },
    {
      "epoch": 0.2579293827855008,
      "grad_norm": 3.15625,
      "learning_rate": 8.614778195411897e-05,
      "loss": 0.715,
      "step": 188900
    },
    {
      "epoch": 0.2579976541943905,
      "grad_norm": 2.765625,
      "learning_rate": 8.614022068933876e-05,
      "loss": 0.6408,
      "step": 188950
    },
    {
      "epoch": 0.2580659256032803,
      "grad_norm": 8.625,
      "learning_rate": 8.613265769347982e-05,
      "loss": 0.6139,
      "step": 189000
    },
    {
      "epoch": 0.25813419701217005,
      "grad_norm": 7.90625,
      "learning_rate": 8.612509296690436e-05,
      "loss": 0.7436,
      "step": 189050
    },
    {
      "epoch": 0.2582024684210598,
      "grad_norm": 3.015625,
      "learning_rate": 8.611752650997478e-05,
      "loss": 0.8612,
      "step": 189100
    },
    {
      "epoch": 0.2582707398299496,
      "grad_norm": 3.46875,
      "learning_rate": 8.610995832305347e-05,
      "loss": 0.7426,
      "step": 189150
    },
    {
      "epoch": 0.25833901123883934,
      "grad_norm": 2.59375,
      "learning_rate": 8.610238840650293e-05,
      "loss": 0.673,
      "step": 189200
    },
    {
      "epoch": 0.2584072826477291,
      "grad_norm": 2.53125,
      "learning_rate": 8.609481676068578e-05,
      "loss": 0.6094,
      "step": 189250
    },
    {
      "epoch": 0.2584755540566189,
      "grad_norm": 2.84375,
      "learning_rate": 8.608724338596468e-05,
      "loss": 0.897,
      "step": 189300
    },
    {
      "epoch": 0.2585438254655086,
      "grad_norm": 3.46875,
      "learning_rate": 8.60796682827024e-05,
      "loss": 0.6973,
      "step": 189350
    },
    {
      "epoch": 0.25861209687439835,
      "grad_norm": 4.09375,
      "learning_rate": 8.607209145126175e-05,
      "loss": 0.89,
      "step": 189400
    },
    {
      "epoch": 0.2586803682832881,
      "grad_norm": 3.78125,
      "learning_rate": 8.606451289200568e-05,
      "loss": 0.659,
      "step": 189450
    },
    {
      "epoch": 0.2587486396921779,
      "grad_norm": 4.03125,
      "learning_rate": 8.605693260529718e-05,
      "loss": 0.7955,
      "step": 189500
    },
    {
      "epoch": 0.25881691110106764,
      "grad_norm": 3.015625,
      "learning_rate": 8.604935059149934e-05,
      "loss": 0.6188,
      "step": 189550
    },
    {
      "epoch": 0.2588851825099574,
      "grad_norm": 2.734375,
      "learning_rate": 8.604176685097534e-05,
      "loss": 0.6582,
      "step": 189600
    },
    {
      "epoch": 0.25895345391884717,
      "grad_norm": 3.765625,
      "learning_rate": 8.603418138408842e-05,
      "loss": 0.7139,
      "step": 189650
    },
    {
      "epoch": 0.2590217253277369,
      "grad_norm": 3.046875,
      "learning_rate": 8.602659419120193e-05,
      "loss": 0.7146,
      "step": 189700
    },
    {
      "epoch": 0.25908999673662664,
      "grad_norm": 3.984375,
      "learning_rate": 8.601900527267927e-05,
      "loss": 0.837,
      "step": 189750
    },
    {
      "epoch": 0.2591582681455164,
      "grad_norm": 3.296875,
      "learning_rate": 8.601141462888396e-05,
      "loss": 0.7723,
      "step": 189800
    },
    {
      "epoch": 0.25922653955440617,
      "grad_norm": 6.0,
      "learning_rate": 8.600382226017958e-05,
      "loss": 0.7734,
      "step": 189850
    },
    {
      "epoch": 0.25929481096329593,
      "grad_norm": 7.65625,
      "learning_rate": 8.599622816692978e-05,
      "loss": 0.8363,
      "step": 189900
    },
    {
      "epoch": 0.2593630823721857,
      "grad_norm": 3.515625,
      "learning_rate": 8.598863234949833e-05,
      "loss": 0.8939,
      "step": 189950
    },
    {
      "epoch": 0.25943135378107546,
      "grad_norm": 3.09375,
      "learning_rate": 8.598103480824906e-05,
      "loss": 0.743,
      "step": 190000
    },
    {
      "epoch": 0.2594996251899652,
      "grad_norm": 3.3125,
      "learning_rate": 8.597343554354586e-05,
      "loss": 0.6665,
      "step": 190050
    },
    {
      "epoch": 0.25956789659885493,
      "grad_norm": 8.1875,
      "learning_rate": 8.596583455575276e-05,
      "loss": 0.76,
      "step": 190100
    },
    {
      "epoch": 0.2596361680077447,
      "grad_norm": 2.984375,
      "learning_rate": 8.595823184523381e-05,
      "loss": 0.743,
      "step": 190150
    },
    {
      "epoch": 0.25970443941663446,
      "grad_norm": 3.71875,
      "learning_rate": 8.59506274123532e-05,
      "loss": 0.6824,
      "step": 190200
    },
    {
      "epoch": 0.2597727108255242,
      "grad_norm": 4.8125,
      "learning_rate": 8.594302125747516e-05,
      "loss": 0.6847,
      "step": 190250
    },
    {
      "epoch": 0.259840982234414,
      "grad_norm": 8.375,
      "learning_rate": 8.593541338096402e-05,
      "loss": 0.8835,
      "step": 190300
    },
    {
      "epoch": 0.25990925364330375,
      "grad_norm": 7.6875,
      "learning_rate": 8.592780378318417e-05,
      "loss": 0.6406,
      "step": 190350
    },
    {
      "epoch": 0.2599775250521935,
      "grad_norm": 3.0,
      "learning_rate": 8.592019246450014e-05,
      "loss": 0.6954,
      "step": 190400
    },
    {
      "epoch": 0.2600457964610832,
      "grad_norm": 2.703125,
      "learning_rate": 8.591257942527646e-05,
      "loss": 0.7202,
      "step": 190450
    },
    {
      "epoch": 0.260114067869973,
      "grad_norm": 2.25,
      "learning_rate": 8.59049646658778e-05,
      "loss": 0.6491,
      "step": 190500
    },
    {
      "epoch": 0.26018233927886275,
      "grad_norm": 3.09375,
      "learning_rate": 8.589734818666894e-05,
      "loss": 0.8146,
      "step": 190550
    },
    {
      "epoch": 0.2602506106877525,
      "grad_norm": 7.40625,
      "learning_rate": 8.588972998801466e-05,
      "loss": 0.8766,
      "step": 190600
    },
    {
      "epoch": 0.2603188820966423,
      "grad_norm": 2.453125,
      "learning_rate": 8.588211007027986e-05,
      "loss": 0.6893,
      "step": 190650
    },
    {
      "epoch": 0.26038715350553204,
      "grad_norm": 3.125,
      "learning_rate": 8.587448843382955e-05,
      "loss": 0.7326,
      "step": 190700
    },
    {
      "epoch": 0.2604554249144218,
      "grad_norm": 2.265625,
      "learning_rate": 8.586686507902879e-05,
      "loss": 0.8165,
      "step": 190750
    },
    {
      "epoch": 0.26052369632331157,
      "grad_norm": 4.125,
      "learning_rate": 8.585924000624272e-05,
      "loss": 0.802,
      "step": 190800
    },
    {
      "epoch": 0.2605919677322013,
      "grad_norm": 4.375,
      "learning_rate": 8.585161321583659e-05,
      "loss": 0.8389,
      "step": 190850
    },
    {
      "epoch": 0.26066023914109104,
      "grad_norm": 2.953125,
      "learning_rate": 8.58439847081757e-05,
      "loss": 0.7399,
      "step": 190900
    },
    {
      "epoch": 0.2607285105499808,
      "grad_norm": 3.171875,
      "learning_rate": 8.583635448362545e-05,
      "loss": 0.7099,
      "step": 190950
    },
    {
      "epoch": 0.26079678195887057,
      "grad_norm": 2.515625,
      "learning_rate": 8.582872254255132e-05,
      "loss": 0.6446,
      "step": 191000
    },
    {
      "epoch": 0.26086505336776034,
      "grad_norm": 3.8125,
      "learning_rate": 8.58210888853189e-05,
      "loss": 0.6667,
      "step": 191050
    },
    {
      "epoch": 0.2609333247766501,
      "grad_norm": 3.15625,
      "learning_rate": 8.581345351229379e-05,
      "loss": 0.6186,
      "step": 191100
    },
    {
      "epoch": 0.26100159618553986,
      "grad_norm": 2.53125,
      "learning_rate": 8.580581642384174e-05,
      "loss": 0.9394,
      "step": 191150
    },
    {
      "epoch": 0.26106986759442957,
      "grad_norm": 3.0,
      "learning_rate": 8.579817762032855e-05,
      "loss": 0.6592,
      "step": 191200
    },
    {
      "epoch": 0.26113813900331934,
      "grad_norm": 7.9375,
      "learning_rate": 8.579053710212012e-05,
      "loss": 0.7082,
      "step": 191250
    },
    {
      "epoch": 0.2612064104122091,
      "grad_norm": 2.609375,
      "learning_rate": 8.578289486958242e-05,
      "loss": 0.8917,
      "step": 191300
    },
    {
      "epoch": 0.26127468182109886,
      "grad_norm": 8.25,
      "learning_rate": 8.57752509230815e-05,
      "loss": 0.7955,
      "step": 191350
    },
    {
      "epoch": 0.26134295322998863,
      "grad_norm": 2.1875,
      "learning_rate": 8.576760526298351e-05,
      "loss": 0.7107,
      "step": 191400
    },
    {
      "epoch": 0.2614112246388784,
      "grad_norm": 7.78125,
      "learning_rate": 8.575995788965466e-05,
      "loss": 0.6479,
      "step": 191450
    },
    {
      "epoch": 0.26147949604776816,
      "grad_norm": 3.921875,
      "learning_rate": 8.575230880346124e-05,
      "loss": 0.8593,
      "step": 191500
    },
    {
      "epoch": 0.2615477674566579,
      "grad_norm": 9.625,
      "learning_rate": 8.574465800476965e-05,
      "loss": 0.7702,
      "step": 191550
    },
    {
      "epoch": 0.26161603886554763,
      "grad_norm": 3.3125,
      "learning_rate": 8.573700549394636e-05,
      "loss": 0.7086,
      "step": 191600
    },
    {
      "epoch": 0.2616843102744374,
      "grad_norm": 3.265625,
      "learning_rate": 8.572935127135789e-05,
      "loss": 0.7456,
      "step": 191650
    },
    {
      "epoch": 0.26175258168332716,
      "grad_norm": 4.15625,
      "learning_rate": 8.57216953373709e-05,
      "loss": 0.7762,
      "step": 191700
    },
    {
      "epoch": 0.2618208530922169,
      "grad_norm": 8.4375,
      "learning_rate": 8.571403769235206e-05,
      "loss": 0.7808,
      "step": 191750
    },
    {
      "epoch": 0.2618891245011067,
      "grad_norm": 7.96875,
      "learning_rate": 8.570637833666821e-05,
      "loss": 0.8966,
      "step": 191800
    },
    {
      "epoch": 0.26195739590999645,
      "grad_norm": 3.6875,
      "learning_rate": 8.56987172706862e-05,
      "loss": 0.5541,
      "step": 191850
    },
    {
      "epoch": 0.2620256673188862,
      "grad_norm": 2.84375,
      "learning_rate": 8.5691054494773e-05,
      "loss": 0.8651,
      "step": 191900
    },
    {
      "epoch": 0.262093938727776,
      "grad_norm": 3.203125,
      "learning_rate": 8.568339000929562e-05,
      "loss": 0.5643,
      "step": 191950
    },
    {
      "epoch": 0.2621622101366657,
      "grad_norm": 2.484375,
      "learning_rate": 8.567572381462122e-05,
      "loss": 0.6068,
      "step": 192000
    },
    {
      "epoch": 0.26223048154555545,
      "grad_norm": 8.5,
      "learning_rate": 8.5668055911117e-05,
      "loss": 0.8343,
      "step": 192050
    },
    {
      "epoch": 0.2622987529544452,
      "grad_norm": 8.1875,
      "learning_rate": 8.566038629915021e-05,
      "loss": 0.767,
      "step": 192100
    },
    {
      "epoch": 0.262367024363335,
      "grad_norm": 3.015625,
      "learning_rate": 8.565271497908822e-05,
      "loss": 0.7635,
      "step": 192150
    },
    {
      "epoch": 0.26243529577222474,
      "grad_norm": 3.875,
      "learning_rate": 8.564504195129853e-05,
      "loss": 0.7577,
      "step": 192200
    },
    {
      "epoch": 0.2625035671811145,
      "grad_norm": 3.953125,
      "learning_rate": 8.563736721614861e-05,
      "loss": 0.6445,
      "step": 192250
    },
    {
      "epoch": 0.26257183859000427,
      "grad_norm": 3.53125,
      "learning_rate": 8.56296907740061e-05,
      "loss": 0.6553,
      "step": 192300
    },
    {
      "epoch": 0.262640109998894,
      "grad_norm": 3.5625,
      "learning_rate": 8.562201262523869e-05,
      "loss": 0.8116,
      "step": 192350
    },
    {
      "epoch": 0.26270838140778374,
      "grad_norm": 2.921875,
      "learning_rate": 8.561433277021416e-05,
      "loss": 0.6722,
      "step": 192400
    },
    {
      "epoch": 0.2627766528166735,
      "grad_norm": 8.125,
      "learning_rate": 8.560665120930034e-05,
      "loss": 0.8671,
      "step": 192450
    },
    {
      "epoch": 0.26284492422556327,
      "grad_norm": 2.40625,
      "learning_rate": 8.559896794286521e-05,
      "loss": 0.6493,
      "step": 192500
    },
    {
      "epoch": 0.26291319563445303,
      "grad_norm": 3.46875,
      "learning_rate": 8.559128297127677e-05,
      "loss": 0.8682,
      "step": 192550
    },
    {
      "epoch": 0.2629814670433428,
      "grad_norm": 7.84375,
      "learning_rate": 8.558359629490313e-05,
      "loss": 0.6874,
      "step": 192600
    },
    {
      "epoch": 0.26304973845223256,
      "grad_norm": 3.03125,
      "learning_rate": 8.557590791411246e-05,
      "loss": 0.8072,
      "step": 192650
    },
    {
      "epoch": 0.2631180098611223,
      "grad_norm": 3.9375,
      "learning_rate": 8.556821782927303e-05,
      "loss": 0.5583,
      "step": 192700
    },
    {
      "epoch": 0.26318628127001203,
      "grad_norm": 2.953125,
      "learning_rate": 8.556052604075318e-05,
      "loss": 0.8981,
      "step": 192750
    },
    {
      "epoch": 0.2632545526789018,
      "grad_norm": 2.4375,
      "learning_rate": 8.555283254892135e-05,
      "loss": 0.8662,
      "step": 192800
    },
    {
      "epoch": 0.26332282408779156,
      "grad_norm": 3.90625,
      "learning_rate": 8.554513735414606e-05,
      "loss": 0.6573,
      "step": 192850
    },
    {
      "epoch": 0.2633910954966813,
      "grad_norm": 3.453125,
      "learning_rate": 8.553744045679588e-05,
      "loss": 0.7033,
      "step": 192900
    },
    {
      "epoch": 0.2634593669055711,
      "grad_norm": 3.953125,
      "learning_rate": 8.55297418572395e-05,
      "loss": 0.772,
      "step": 192950
    },
    {
      "epoch": 0.26352763831446085,
      "grad_norm": 2.96875,
      "learning_rate": 8.552204155584566e-05,
      "loss": 0.9016,
      "step": 193000
    },
    {
      "epoch": 0.2635959097233506,
      "grad_norm": 11.5,
      "learning_rate": 8.55143395529832e-05,
      "loss": 0.7425,
      "step": 193050
    },
    {
      "epoch": 0.2636641811322403,
      "grad_norm": 2.921875,
      "learning_rate": 8.550663584902105e-05,
      "loss": 0.7361,
      "step": 193100
    },
    {
      "epoch": 0.2637324525411301,
      "grad_norm": 3.65625,
      "learning_rate": 8.549893044432822e-05,
      "loss": 1.0166,
      "step": 193150
    },
    {
      "epoch": 0.26380072395001986,
      "grad_norm": 3.109375,
      "learning_rate": 8.549122333927375e-05,
      "loss": 0.7806,
      "step": 193200
    },
    {
      "epoch": 0.2638689953589096,
      "grad_norm": 3.1875,
      "learning_rate": 8.548351453422682e-05,
      "loss": 0.8943,
      "step": 193250
    },
    {
      "epoch": 0.2639372667677994,
      "grad_norm": 2.96875,
      "learning_rate": 8.547580402955668e-05,
      "loss": 0.704,
      "step": 193300
    },
    {
      "epoch": 0.26400553817668915,
      "grad_norm": 2.5,
      "learning_rate": 8.546809182563267e-05,
      "loss": 0.6805,
      "step": 193350
    },
    {
      "epoch": 0.2640738095855789,
      "grad_norm": 3.21875,
      "learning_rate": 8.546037792282418e-05,
      "loss": 0.6368,
      "step": 193400
    },
    {
      "epoch": 0.2641420809944687,
      "grad_norm": 7.84375,
      "learning_rate": 8.545266232150067e-05,
      "loss": 0.8244,
      "step": 193450
    },
    {
      "epoch": 0.2642103524033584,
      "grad_norm": 10.9375,
      "learning_rate": 8.544494502203176e-05,
      "loss": 0.8193,
      "step": 193500
    },
    {
      "epoch": 0.26427862381224815,
      "grad_norm": 2.859375,
      "learning_rate": 8.543722602478708e-05,
      "loss": 0.7654,
      "step": 193550
    },
    {
      "epoch": 0.2643468952211379,
      "grad_norm": 2.84375,
      "learning_rate": 8.542950533013634e-05,
      "loss": 0.9098,
      "step": 193600
    },
    {
      "epoch": 0.2644151666300277,
      "grad_norm": 2.71875,
      "learning_rate": 8.542178293844939e-05,
      "loss": 0.7125,
      "step": 193650
    },
    {
      "epoch": 0.26448343803891744,
      "grad_norm": 3.140625,
      "learning_rate": 8.541405885009611e-05,
      "loss": 0.6203,
      "step": 193700
    },
    {
      "epoch": 0.2645517094478072,
      "grad_norm": 2.65625,
      "learning_rate": 8.540633306544645e-05,
      "loss": 0.8076,
      "step": 193750
    },
    {
      "epoch": 0.26461998085669697,
      "grad_norm": 3.078125,
      "learning_rate": 8.53986055848705e-05,
      "loss": 0.6761,
      "step": 193800
    },
    {
      "epoch": 0.2646882522655867,
      "grad_norm": 2.546875,
      "learning_rate": 8.53908764087384e-05,
      "loss": 0.7181,
      "step": 193850
    },
    {
      "epoch": 0.26475652367447644,
      "grad_norm": 2.296875,
      "learning_rate": 8.538314553742034e-05,
      "loss": 0.5654,
      "step": 193900
    },
    {
      "epoch": 0.2648247950833662,
      "grad_norm": 4.28125,
      "learning_rate": 8.537541297128664e-05,
      "loss": 0.6628,
      "step": 193950
    },
    {
      "epoch": 0.26489306649225597,
      "grad_norm": 4.59375,
      "learning_rate": 8.53676787107077e-05,
      "loss": 0.7339,
      "step": 194000
    },
    {
      "epoch": 0.26496133790114573,
      "grad_norm": 2.90625,
      "learning_rate": 8.535994275605395e-05,
      "loss": 0.7926,
      "step": 194050
    },
    {
      "epoch": 0.2650296093100355,
      "grad_norm": 2.390625,
      "learning_rate": 8.535220510769594e-05,
      "loss": 0.6978,
      "step": 194100
    },
    {
      "epoch": 0.26509788071892526,
      "grad_norm": 4.625,
      "learning_rate": 8.53444657660043e-05,
      "loss": 0.7106,
      "step": 194150
    },
    {
      "epoch": 0.265166152127815,
      "grad_norm": 4.46875,
      "learning_rate": 8.533672473134975e-05,
      "loss": 0.7408,
      "step": 194200
    },
    {
      "epoch": 0.26523442353670473,
      "grad_norm": 2.75,
      "learning_rate": 8.532898200410307e-05,
      "loss": 0.6557,
      "step": 194250
    },
    {
      "epoch": 0.2653026949455945,
      "grad_norm": 3.578125,
      "learning_rate": 8.532123758463512e-05,
      "loss": 0.8278,
      "step": 194300
    },
    {
      "epoch": 0.26537096635448426,
      "grad_norm": 2.953125,
      "learning_rate": 8.531349147331684e-05,
      "loss": 0.8362,
      "step": 194350
    },
    {
      "epoch": 0.265439237763374,
      "grad_norm": 2.90625,
      "learning_rate": 8.530574367051929e-05,
      "loss": 0.7442,
      "step": 194400
    },
    {
      "epoch": 0.2655075091722638,
      "grad_norm": 2.671875,
      "learning_rate": 8.529799417661357e-05,
      "loss": 0.7428,
      "step": 194450
    },
    {
      "epoch": 0.26557578058115355,
      "grad_norm": 2.921875,
      "learning_rate": 8.529024299197086e-05,
      "loss": 0.8536,
      "step": 194500
    },
    {
      "epoch": 0.2656440519900433,
      "grad_norm": 16.0,
      "learning_rate": 8.528249011696244e-05,
      "loss": 0.6894,
      "step": 194550
    },
    {
      "epoch": 0.2657123233989331,
      "grad_norm": 3.0625,
      "learning_rate": 8.527473555195968e-05,
      "loss": 0.8414,
      "step": 194600
    },
    {
      "epoch": 0.2657805948078228,
      "grad_norm": 7.84375,
      "learning_rate": 8.526697929733399e-05,
      "loss": 0.8698,
      "step": 194650
    },
    {
      "epoch": 0.26584886621671255,
      "grad_norm": 9.5,
      "learning_rate": 8.52592213534569e-05,
      "loss": 0.9798,
      "step": 194700
    },
    {
      "epoch": 0.2659171376256023,
      "grad_norm": 8.6875,
      "learning_rate": 8.525146172070002e-05,
      "loss": 0.7318,
      "step": 194750
    },
    {
      "epoch": 0.2659854090344921,
      "grad_norm": 2.9375,
      "learning_rate": 8.524370039943501e-05,
      "loss": 0.6403,
      "step": 194800
    },
    {
      "epoch": 0.26605368044338185,
      "grad_norm": 3.0,
      "learning_rate": 8.523593739003364e-05,
      "loss": 0.7494,
      "step": 194850
    },
    {
      "epoch": 0.2661219518522716,
      "grad_norm": 8.0,
      "learning_rate": 8.522817269286773e-05,
      "loss": 0.9428,
      "step": 194900
    },
    {
      "epoch": 0.2661902232611614,
      "grad_norm": 2.921875,
      "learning_rate": 8.522040630830921e-05,
      "loss": 0.6664,
      "step": 194950
    },
    {
      "epoch": 0.2662584946700511,
      "grad_norm": 2.84375,
      "learning_rate": 8.52126382367301e-05,
      "loss": 0.8176,
      "step": 195000
    },
    {
      "epoch": 0.26632676607894085,
      "grad_norm": 2.984375,
      "learning_rate": 8.520486847850246e-05,
      "loss": 0.5365,
      "step": 195050
    },
    {
      "epoch": 0.2663950374878306,
      "grad_norm": 2.796875,
      "learning_rate": 8.519709703399848e-05,
      "loss": 0.6225,
      "step": 195100
    },
    {
      "epoch": 0.2664633088967204,
      "grad_norm": 9.0625,
      "learning_rate": 8.518932390359038e-05,
      "loss": 0.7029,
      "step": 195150
    },
    {
      "epoch": 0.26653158030561014,
      "grad_norm": 3.109375,
      "learning_rate": 8.518154908765048e-05,
      "loss": 0.8057,
      "step": 195200
    },
    {
      "epoch": 0.2665998517144999,
      "grad_norm": 4.1875,
      "learning_rate": 8.517377258655122e-05,
      "loss": 0.6659,
      "step": 195250
    },
    {
      "epoch": 0.26666812312338967,
      "grad_norm": 3.203125,
      "learning_rate": 8.516599440066504e-05,
      "loss": 0.7563,
      "step": 195300
    },
    {
      "epoch": 0.26673639453227943,
      "grad_norm": 3.3125,
      "learning_rate": 8.515821453036454e-05,
      "loss": 0.7791,
      "step": 195350
    },
    {
      "epoch": 0.26680466594116914,
      "grad_norm": 7.5,
      "learning_rate": 8.515043297602235e-05,
      "loss": 0.9166,
      "step": 195400
    },
    {
      "epoch": 0.2668729373500589,
      "grad_norm": 4.03125,
      "learning_rate": 8.514264973801122e-05,
      "loss": 0.9419,
      "step": 195450
    },
    {
      "epoch": 0.26694120875894867,
      "grad_norm": 3.328125,
      "learning_rate": 8.513486481670394e-05,
      "loss": 0.9211,
      "step": 195500
    },
    {
      "epoch": 0.26700948016783843,
      "grad_norm": 2.359375,
      "learning_rate": 8.512707821247339e-05,
      "loss": 0.7357,
      "step": 195550
    },
    {
      "epoch": 0.2670777515767282,
      "grad_norm": 2.796875,
      "learning_rate": 8.511928992569257e-05,
      "loss": 0.6588,
      "step": 195600
    },
    {
      "epoch": 0.26714602298561796,
      "grad_norm": 8.5,
      "learning_rate": 8.51114999567345e-05,
      "loss": 0.7763,
      "step": 195650
    },
    {
      "epoch": 0.2672142943945077,
      "grad_norm": 2.921875,
      "learning_rate": 8.510370830597236e-05,
      "loss": 0.5771,
      "step": 195700
    },
    {
      "epoch": 0.26728256580339743,
      "grad_norm": 2.53125,
      "learning_rate": 8.509591497377932e-05,
      "loss": 0.8234,
      "step": 195750
    },
    {
      "epoch": 0.2673508372122872,
      "grad_norm": 3.703125,
      "learning_rate": 8.508811996052866e-05,
      "loss": 0.7108,
      "step": 195800
    },
    {
      "epoch": 0.26741910862117696,
      "grad_norm": 5.40625,
      "learning_rate": 8.508032326659378e-05,
      "loss": 0.9837,
      "step": 195850
    },
    {
      "epoch": 0.2674873800300667,
      "grad_norm": 2.9375,
      "learning_rate": 8.507252489234813e-05,
      "loss": 0.7151,
      "step": 195900
    },
    {
      "epoch": 0.2675556514389565,
      "grad_norm": 9.25,
      "learning_rate": 8.506472483816525e-05,
      "loss": 0.6951,
      "step": 195950
    },
    {
      "epoch": 0.26762392284784625,
      "grad_norm": 2.796875,
      "learning_rate": 8.505692310441876e-05,
      "loss": 0.5787,
      "step": 196000
    },
    {
      "epoch": 0.267692194256736,
      "grad_norm": 2.734375,
      "learning_rate": 8.50491196914823e-05,
      "loss": 0.9113,
      "step": 196050
    },
    {
      "epoch": 0.2677604656656258,
      "grad_norm": 7.9375,
      "learning_rate": 8.504131459972972e-05,
      "loss": 0.7431,
      "step": 196100
    },
    {
      "epoch": 0.2678287370745155,
      "grad_norm": 4.21875,
      "learning_rate": 8.503350782953484e-05,
      "loss": 0.6807,
      "step": 196150
    },
    {
      "epoch": 0.26789700848340525,
      "grad_norm": 3.171875,
      "learning_rate": 8.502569938127157e-05,
      "loss": 0.937,
      "step": 196200
    },
    {
      "epoch": 0.267965279892295,
      "grad_norm": 2.953125,
      "learning_rate": 8.501788925531397e-05,
      "loss": 0.6211,
      "step": 196250
    },
    {
      "epoch": 0.2680335513011848,
      "grad_norm": 2.90625,
      "learning_rate": 8.501007745203613e-05,
      "loss": 0.7231,
      "step": 196300
    },
    {
      "epoch": 0.26810182271007454,
      "grad_norm": 3.125,
      "learning_rate": 8.500226397181222e-05,
      "loss": 0.8677,
      "step": 196350
    },
    {
      "epoch": 0.2681700941189643,
      "grad_norm": 8.25,
      "learning_rate": 8.49944488150165e-05,
      "loss": 0.7746,
      "step": 196400
    },
    {
      "epoch": 0.2682383655278541,
      "grad_norm": 3.1875,
      "learning_rate": 8.498663198202329e-05,
      "loss": 0.729,
      "step": 196450
    },
    {
      "epoch": 0.26830663693674384,
      "grad_norm": 2.46875,
      "learning_rate": 8.497881347320703e-05,
      "loss": 0.7835,
      "step": 196500
    },
    {
      "epoch": 0.26837490834563354,
      "grad_norm": 2.546875,
      "learning_rate": 8.497099328894221e-05,
      "loss": 0.6832,
      "step": 196550
    },
    {
      "epoch": 0.2684431797545233,
      "grad_norm": 2.71875,
      "learning_rate": 8.496317142960342e-05,
      "loss": 0.7867,
      "step": 196600
    },
    {
      "epoch": 0.2685114511634131,
      "grad_norm": 7.8125,
      "learning_rate": 8.495534789556529e-05,
      "loss": 0.7309,
      "step": 196650
    },
    {
      "epoch": 0.26857972257230284,
      "grad_norm": 8.0625,
      "learning_rate": 8.494752268720259e-05,
      "loss": 0.7822,
      "step": 196700
    },
    {
      "epoch": 0.2686479939811926,
      "grad_norm": 3.171875,
      "learning_rate": 8.493969580489011e-05,
      "loss": 0.5501,
      "step": 196750
    },
    {
      "epoch": 0.26871626539008237,
      "grad_norm": 7.78125,
      "learning_rate": 8.493186724900279e-05,
      "loss": 0.8267,
      "step": 196800
    },
    {
      "epoch": 0.26878453679897213,
      "grad_norm": 2.75,
      "learning_rate": 8.492403701991556e-05,
      "loss": 0.656,
      "step": 196850
    },
    {
      "epoch": 0.26885280820786184,
      "grad_norm": 2.53125,
      "learning_rate": 8.491620511800354e-05,
      "loss": 0.8146,
      "step": 196900
    },
    {
      "epoch": 0.2689210796167516,
      "grad_norm": 3.96875,
      "learning_rate": 8.49083715436418e-05,
      "loss": 0.8929,
      "step": 196950
    },
    {
      "epoch": 0.26898935102564137,
      "grad_norm": 4.34375,
      "learning_rate": 8.49005362972056e-05,
      "loss": 0.8373,
      "step": 197000
    },
    {
      "epoch": 0.26905762243453113,
      "grad_norm": 3.53125,
      "learning_rate": 8.489269937907025e-05,
      "loss": 0.7712,
      "step": 197050
    },
    {
      "epoch": 0.2691258938434209,
      "grad_norm": 5.125,
      "learning_rate": 8.488486078961111e-05,
      "loss": 0.5649,
      "step": 197100
    },
    {
      "epoch": 0.26919416525231066,
      "grad_norm": 2.734375,
      "learning_rate": 8.487702052920366e-05,
      "loss": 0.7731,
      "step": 197150
    },
    {
      "epoch": 0.2692624366612004,
      "grad_norm": 8.75,
      "learning_rate": 8.486917859822341e-05,
      "loss": 0.9968,
      "step": 197200
    },
    {
      "epoch": 0.2693307080700902,
      "grad_norm": 4.1875,
      "learning_rate": 8.4861334997046e-05,
      "loss": 0.6729,
      "step": 197250
    },
    {
      "epoch": 0.2693989794789799,
      "grad_norm": 3.75,
      "learning_rate": 8.485348972604712e-05,
      "loss": 0.8336,
      "step": 197300
    },
    {
      "epoch": 0.26946725088786966,
      "grad_norm": 3.328125,
      "learning_rate": 8.484564278560257e-05,
      "loss": 0.6855,
      "step": 197350
    },
    {
      "epoch": 0.2695355222967594,
      "grad_norm": 2.765625,
      "learning_rate": 8.483779417608819e-05,
      "loss": 0.8338,
      "step": 197400
    },
    {
      "epoch": 0.2696037937056492,
      "grad_norm": 2.53125,
      "learning_rate": 8.482994389787993e-05,
      "loss": 0.8302,
      "step": 197450
    },
    {
      "epoch": 0.26967206511453895,
      "grad_norm": 3.71875,
      "learning_rate": 8.482209195135381e-05,
      "loss": 0.7095,
      "step": 197500
    },
    {
      "epoch": 0.2697403365234287,
      "grad_norm": 4.03125,
      "learning_rate": 8.481423833688593e-05,
      "loss": 0.7823,
      "step": 197550
    },
    {
      "epoch": 0.2698086079323185,
      "grad_norm": 3.0,
      "learning_rate": 8.480638305485246e-05,
      "loss": 0.8901,
      "step": 197600
    },
    {
      "epoch": 0.2698768793412082,
      "grad_norm": 3.96875,
      "learning_rate": 8.479852610562967e-05,
      "loss": 0.7209,
      "step": 197650
    },
    {
      "epoch": 0.26994515075009795,
      "grad_norm": 8.375,
      "learning_rate": 8.47906674895939e-05,
      "loss": 0.8388,
      "step": 197700
    },
    {
      "epoch": 0.2700134221589877,
      "grad_norm": 2.546875,
      "learning_rate": 8.478280720712155e-05,
      "loss": 1.0503,
      "step": 197750
    },
    {
      "epoch": 0.2700816935678775,
      "grad_norm": 3.828125,
      "learning_rate": 8.477494525858916e-05,
      "loss": 0.7974,
      "step": 197800
    },
    {
      "epoch": 0.27014996497676724,
      "grad_norm": 8.6875,
      "learning_rate": 8.476708164437327e-05,
      "loss": 0.7742,
      "step": 197850
    },
    {
      "epoch": 0.270218236385657,
      "grad_norm": 3.296875,
      "learning_rate": 8.475921636485056e-05,
      "loss": 0.7944,
      "step": 197900
    },
    {
      "epoch": 0.27028650779454677,
      "grad_norm": 2.4375,
      "learning_rate": 8.475134942039777e-05,
      "loss": 0.9134,
      "step": 197950
    },
    {
      "epoch": 0.27035477920343653,
      "grad_norm": 3.265625,
      "learning_rate": 8.474348081139169e-05,
      "loss": 0.8088,
      "step": 198000
    },
    {
      "epoch": 0.27042305061232624,
      "grad_norm": 6.5,
      "learning_rate": 8.473561053820926e-05,
      "loss": 0.7104,
      "step": 198050
    },
    {
      "epoch": 0.270491322021216,
      "grad_norm": 3.125,
      "learning_rate": 8.472773860122742e-05,
      "loss": 0.7158,
      "step": 198100
    },
    {
      "epoch": 0.27055959343010577,
      "grad_norm": 4.375,
      "learning_rate": 8.471986500082325e-05,
      "loss": 0.8401,
      "step": 198150
    },
    {
      "epoch": 0.27062786483899554,
      "grad_norm": 3.5,
      "learning_rate": 8.471198973737388e-05,
      "loss": 0.8546,
      "step": 198200
    },
    {
      "epoch": 0.2706961362478853,
      "grad_norm": 3.265625,
      "learning_rate": 8.470411281125655e-05,
      "loss": 0.7723,
      "step": 198250
    },
    {
      "epoch": 0.27076440765677506,
      "grad_norm": 8.875,
      "learning_rate": 8.46962342228485e-05,
      "loss": 0.8162,
      "step": 198300
    },
    {
      "epoch": 0.2708326790656648,
      "grad_norm": 2.828125,
      "learning_rate": 8.468835397252717e-05,
      "loss": 0.66,
      "step": 198350
    },
    {
      "epoch": 0.27090095047455454,
      "grad_norm": 2.140625,
      "learning_rate": 8.468047206066997e-05,
      "loss": 0.582,
      "step": 198400
    },
    {
      "epoch": 0.2709692218834443,
      "grad_norm": 3.875,
      "learning_rate": 8.467258848765446e-05,
      "loss": 0.8492,
      "step": 198450
    },
    {
      "epoch": 0.27103749329233406,
      "grad_norm": 2.671875,
      "learning_rate": 8.466470325385825e-05,
      "loss": 0.7992,
      "step": 198500
    },
    {
      "epoch": 0.27110576470122383,
      "grad_norm": 3.640625,
      "learning_rate": 8.4656816359659e-05,
      "loss": 0.6698,
      "step": 198550
    },
    {
      "epoch": 0.2711740361101136,
      "grad_norm": 4.0625,
      "learning_rate": 8.464892780543457e-05,
      "loss": 0.9167,
      "step": 198600
    },
    {
      "epoch": 0.27124230751900336,
      "grad_norm": 2.890625,
      "learning_rate": 8.464103759156272e-05,
      "loss": 0.6352,
      "step": 198650
    },
    {
      "epoch": 0.2713105789278931,
      "grad_norm": 7.8125,
      "learning_rate": 8.463314571842143e-05,
      "loss": 0.6725,
      "step": 198700
    },
    {
      "epoch": 0.2713788503367829,
      "grad_norm": 2.59375,
      "learning_rate": 8.46252521863887e-05,
      "loss": 0.7458,
      "step": 198750
    },
    {
      "epoch": 0.2714471217456726,
      "grad_norm": 2.4375,
      "learning_rate": 8.461735699584264e-05,
      "loss": 0.6689,
      "step": 198800
    },
    {
      "epoch": 0.27151539315456236,
      "grad_norm": 4.96875,
      "learning_rate": 8.46094601471614e-05,
      "loss": 0.6159,
      "step": 198850
    },
    {
      "epoch": 0.2715836645634521,
      "grad_norm": 2.90625,
      "learning_rate": 8.460156164072325e-05,
      "loss": 0.7885,
      "step": 198900
    },
    {
      "epoch": 0.2716519359723419,
      "grad_norm": 3.703125,
      "learning_rate": 8.45936614769065e-05,
      "loss": 0.6123,
      "step": 198950
    },
    {
      "epoch": 0.27172020738123165,
      "grad_norm": 8.0625,
      "learning_rate": 8.458575965608957e-05,
      "loss": 0.7991,
      "step": 199000
    },
    {
      "epoch": 0.2717884787901214,
      "grad_norm": 4.53125,
      "learning_rate": 8.457785617865094e-05,
      "loss": 0.6485,
      "step": 199050
    },
    {
      "epoch": 0.2718567501990112,
      "grad_norm": 3.671875,
      "learning_rate": 8.456995104496919e-05,
      "loss": 0.7029,
      "step": 199100
    },
    {
      "epoch": 0.27192502160790094,
      "grad_norm": 3.8125,
      "learning_rate": 8.456204425542296e-05,
      "loss": 0.7273,
      "step": 199150
    },
    {
      "epoch": 0.27199329301679065,
      "grad_norm": 4.4375,
      "learning_rate": 8.455413581039097e-05,
      "loss": 0.6761,
      "step": 199200
    },
    {
      "epoch": 0.2720615644256804,
      "grad_norm": 3.734375,
      "learning_rate": 8.454622571025207e-05,
      "loss": 0.6805,
      "step": 199250
    },
    {
      "epoch": 0.2721298358345702,
      "grad_norm": 2.4375,
      "learning_rate": 8.45383139553851e-05,
      "loss": 0.732,
      "step": 199300
    },
    {
      "epoch": 0.27219810724345994,
      "grad_norm": 4.34375,
      "learning_rate": 8.453040054616902e-05,
      "loss": 0.6162,
      "step": 199350
    },
    {
      "epoch": 0.2722663786523497,
      "grad_norm": 7.90625,
      "learning_rate": 8.452248548298289e-05,
      "loss": 0.8149,
      "step": 199400
    },
    {
      "epoch": 0.27233465006123947,
      "grad_norm": 3.40625,
      "learning_rate": 8.451456876620584e-05,
      "loss": 0.8058,
      "step": 199450
    },
    {
      "epoch": 0.27240292147012923,
      "grad_norm": 2.640625,
      "learning_rate": 8.450665039621707e-05,
      "loss": 0.7092,
      "step": 199500
    },
    {
      "epoch": 0.27247119287901894,
      "grad_norm": 2.828125,
      "learning_rate": 8.449873037339587e-05,
      "loss": 0.7944,
      "step": 199550
    },
    {
      "epoch": 0.2725394642879087,
      "grad_norm": 2.890625,
      "learning_rate": 8.449080869812158e-05,
      "loss": 0.7916,
      "step": 199600
    },
    {
      "epoch": 0.27260773569679847,
      "grad_norm": 3.546875,
      "learning_rate": 8.448288537077364e-05,
      "loss": 0.6849,
      "step": 199650
    },
    {
      "epoch": 0.27267600710568823,
      "grad_norm": 2.625,
      "learning_rate": 8.447496039173159e-05,
      "loss": 0.6521,
      "step": 199700
    },
    {
      "epoch": 0.272744278514578,
      "grad_norm": 2.390625,
      "learning_rate": 8.446703376137502e-05,
      "loss": 0.6751,
      "step": 199750
    },
    {
      "epoch": 0.27281254992346776,
      "grad_norm": 8.0625,
      "learning_rate": 8.445910548008358e-05,
      "loss": 0.7792,
      "step": 199800
    },
    {
      "epoch": 0.2728808213323575,
      "grad_norm": 4.4375,
      "learning_rate": 8.445117554823707e-05,
      "loss": 0.8097,
      "step": 199850
    },
    {
      "epoch": 0.2729490927412473,
      "grad_norm": 3.15625,
      "learning_rate": 8.444324396621529e-05,
      "loss": 0.7949,
      "step": 199900
    },
    {
      "epoch": 0.273017364150137,
      "grad_norm": 2.546875,
      "learning_rate": 8.443531073439819e-05,
      "loss": 0.6851,
      "step": 199950
    },
    {
      "epoch": 0.27308563555902676,
      "grad_norm": 3.140625,
      "learning_rate": 8.442737585316573e-05,
      "loss": 0.7207,
      "step": 200000
    },
    {
      "epoch": 0.2731539069679165,
      "grad_norm": 4.1875,
      "learning_rate": 8.441943932289799e-05,
      "loss": 0.6115,
      "step": 200050
    },
    {
      "epoch": 0.2732221783768063,
      "grad_norm": 4.59375,
      "learning_rate": 8.441150114397513e-05,
      "loss": 0.7527,
      "step": 200100
    },
    {
      "epoch": 0.27329044978569605,
      "grad_norm": 3.578125,
      "learning_rate": 8.440356131677739e-05,
      "loss": 0.7891,
      "step": 200150
    },
    {
      "epoch": 0.2733587211945858,
      "grad_norm": 8.1875,
      "learning_rate": 8.439561984168505e-05,
      "loss": 0.9291,
      "step": 200200
    },
    {
      "epoch": 0.2734269926034756,
      "grad_norm": 5.125,
      "learning_rate": 8.438767671907852e-05,
      "loss": 0.8565,
      "step": 200250
    },
    {
      "epoch": 0.2734952640123653,
      "grad_norm": 8.0,
      "learning_rate": 8.437973194933828e-05,
      "loss": 0.6781,
      "step": 200300
    },
    {
      "epoch": 0.27356353542125506,
      "grad_norm": 2.359375,
      "learning_rate": 8.437178553284484e-05,
      "loss": 0.9108,
      "step": 200350
    },
    {
      "epoch": 0.2736318068301448,
      "grad_norm": 2.875,
      "learning_rate": 8.436383746997884e-05,
      "loss": 0.6211,
      "step": 200400
    },
    {
      "epoch": 0.2737000782390346,
      "grad_norm": 3.703125,
      "learning_rate": 8.4355887761121e-05,
      "loss": 0.8582,
      "step": 200450
    },
    {
      "epoch": 0.27376834964792435,
      "grad_norm": 3.015625,
      "learning_rate": 8.43479364066521e-05,
      "loss": 0.9036,
      "step": 200500
    },
    {
      "epoch": 0.2738366210568141,
      "grad_norm": 3.59375,
      "learning_rate": 8.433998340695298e-05,
      "loss": 0.7341,
      "step": 200550
    },
    {
      "epoch": 0.2739048924657039,
      "grad_norm": 3.71875,
      "learning_rate": 8.433202876240459e-05,
      "loss": 0.8899,
      "step": 200600
    },
    {
      "epoch": 0.27397316387459364,
      "grad_norm": 8.0625,
      "learning_rate": 8.432407247338796e-05,
      "loss": 0.7801,
      "step": 200650
    },
    {
      "epoch": 0.27404143528348335,
      "grad_norm": 8.4375,
      "learning_rate": 8.431611454028417e-05,
      "loss": 1.0234,
      "step": 200700
    },
    {
      "epoch": 0.2741097066923731,
      "grad_norm": 3.59375,
      "learning_rate": 8.430815496347442e-05,
      "loss": 0.6176,
      "step": 200750
    },
    {
      "epoch": 0.2741779781012629,
      "grad_norm": 4.09375,
      "learning_rate": 8.430019374333992e-05,
      "loss": 0.6915,
      "step": 200800
    },
    {
      "epoch": 0.27424624951015264,
      "grad_norm": 4.0,
      "learning_rate": 8.429223088026206e-05,
      "loss": 0.8081,
      "step": 200850
    },
    {
      "epoch": 0.2743145209190424,
      "grad_norm": 2.609375,
      "learning_rate": 8.428426637462224e-05,
      "loss": 0.7545,
      "step": 200900
    },
    {
      "epoch": 0.27438279232793217,
      "grad_norm": 4.28125,
      "learning_rate": 8.427630022680192e-05,
      "loss": 0.7768,
      "step": 200950
    },
    {
      "epoch": 0.27445106373682193,
      "grad_norm": 4.4375,
      "learning_rate": 8.42683324371827e-05,
      "loss": 0.7999,
      "step": 201000
    },
    {
      "epoch": 0.27451933514571164,
      "grad_norm": 7.1875,
      "learning_rate": 8.426036300614622e-05,
      "loss": 0.8607,
      "step": 201050
    },
    {
      "epoch": 0.2745876065546014,
      "grad_norm": 2.984375,
      "learning_rate": 8.425239193407419e-05,
      "loss": 0.8157,
      "step": 201100
    },
    {
      "epoch": 0.27465587796349117,
      "grad_norm": 3.703125,
      "learning_rate": 8.424441922134845e-05,
      "loss": 0.8652,
      "step": 201150
    },
    {
      "epoch": 0.27472414937238093,
      "grad_norm": 3.828125,
      "learning_rate": 8.423644486835085e-05,
      "loss": 0.651,
      "step": 201200
    },
    {
      "epoch": 0.2747924207812707,
      "grad_norm": 4.53125,
      "learning_rate": 8.422846887546338e-05,
      "loss": 0.7103,
      "step": 201250
    },
    {
      "epoch": 0.27486069219016046,
      "grad_norm": 6.90625,
      "learning_rate": 8.422049124306808e-05,
      "loss": 0.7886,
      "step": 201300
    },
    {
      "epoch": 0.2749289635990502,
      "grad_norm": 7.125,
      "learning_rate": 8.421251197154705e-05,
      "loss": 0.6866,
      "step": 201350
    },
    {
      "epoch": 0.27499723500794,
      "grad_norm": 2.625,
      "learning_rate": 8.420453106128251e-05,
      "loss": 0.7617,
      "step": 201400
    },
    {
      "epoch": 0.2750655064168297,
      "grad_norm": 5.46875,
      "learning_rate": 8.419654851265673e-05,
      "loss": 0.6984,
      "step": 201450
    },
    {
      "epoch": 0.27513377782571946,
      "grad_norm": 2.796875,
      "learning_rate": 8.418856432605205e-05,
      "loss": 0.724,
      "step": 201500
    },
    {
      "epoch": 0.2752020492346092,
      "grad_norm": 3.078125,
      "learning_rate": 8.418057850185093e-05,
      "loss": 0.8614,
      "step": 201550
    },
    {
      "epoch": 0.275270320643499,
      "grad_norm": 3.265625,
      "learning_rate": 8.417259104043587e-05,
      "loss": 0.6441,
      "step": 201600
    },
    {
      "epoch": 0.27533859205238875,
      "grad_norm": 3.171875,
      "learning_rate": 8.416460194218944e-05,
      "loss": 0.7039,
      "step": 201650
    },
    {
      "epoch": 0.2754068634612785,
      "grad_norm": 13.9375,
      "learning_rate": 8.415661120749436e-05,
      "loss": 0.6944,
      "step": 201700
    },
    {
      "epoch": 0.2754751348701683,
      "grad_norm": 5.3125,
      "learning_rate": 8.414861883673333e-05,
      "loss": 0.9029,
      "step": 201750
    },
    {
      "epoch": 0.27554340627905805,
      "grad_norm": 4.5,
      "learning_rate": 8.414062483028921e-05,
      "loss": 1.117,
      "step": 201800
    },
    {
      "epoch": 0.27561167768794775,
      "grad_norm": 9.5,
      "learning_rate": 8.413262918854488e-05,
      "loss": 0.969,
      "step": 201850
    },
    {
      "epoch": 0.2756799490968375,
      "grad_norm": 3.9375,
      "learning_rate": 8.412463191188333e-05,
      "loss": 0.773,
      "step": 201900
    },
    {
      "epoch": 0.2757482205057273,
      "grad_norm": 5.40625,
      "learning_rate": 8.411663300068763e-05,
      "loss": 0.8137,
      "step": 201950
    },
    {
      "epoch": 0.27581649191461705,
      "grad_norm": 2.484375,
      "learning_rate": 8.410863245534091e-05,
      "loss": 0.8414,
      "step": 202000
    },
    {
      "epoch": 0.2758847633235068,
      "grad_norm": 5.75,
      "learning_rate": 8.410063027622639e-05,
      "loss": 0.681,
      "step": 202050
    },
    {
      "epoch": 0.2759530347323966,
      "grad_norm": 2.984375,
      "learning_rate": 8.409262646372738e-05,
      "loss": 0.8143,
      "step": 202100
    },
    {
      "epoch": 0.27602130614128634,
      "grad_norm": 3.109375,
      "learning_rate": 8.408462101822723e-05,
      "loss": 0.7819,
      "step": 202150
    },
    {
      "epoch": 0.27608957755017605,
      "grad_norm": 3.71875,
      "learning_rate": 8.407661394010939e-05,
      "loss": 0.7065,
      "step": 202200
    },
    {
      "epoch": 0.2761578489590658,
      "grad_norm": 8.0625,
      "learning_rate": 8.406860522975742e-05,
      "loss": 0.8398,
      "step": 202250
    },
    {
      "epoch": 0.2762261203679556,
      "grad_norm": 3.75,
      "learning_rate": 8.406059488755491e-05,
      "loss": 0.8458,
      "step": 202300
    },
    {
      "epoch": 0.27629439177684534,
      "grad_norm": 8.375,
      "learning_rate": 8.405258291388556e-05,
      "loss": 0.813,
      "step": 202350
    },
    {
      "epoch": 0.2763626631857351,
      "grad_norm": 2.953125,
      "learning_rate": 8.404456930913312e-05,
      "loss": 0.8214,
      "step": 202400
    },
    {
      "epoch": 0.27643093459462487,
      "grad_norm": 7.09375,
      "learning_rate": 8.403655407368143e-05,
      "loss": 0.8405,
      "step": 202450
    },
    {
      "epoch": 0.27649920600351463,
      "grad_norm": 2.546875,
      "learning_rate": 8.402853720791441e-05,
      "loss": 0.7566,
      "step": 202500
    },
    {
      "epoch": 0.2765674774124044,
      "grad_norm": 3.421875,
      "learning_rate": 8.40205187122161e-05,
      "loss": 0.8919,
      "step": 202550
    },
    {
      "epoch": 0.2766357488212941,
      "grad_norm": 2.984375,
      "learning_rate": 8.401249858697053e-05,
      "loss": 0.7739,
      "step": 202600
    },
    {
      "epoch": 0.27670402023018387,
      "grad_norm": 2.984375,
      "learning_rate": 8.400447683256187e-05,
      "loss": 0.8215,
      "step": 202650
    },
    {
      "epoch": 0.27677229163907363,
      "grad_norm": 4.0625,
      "learning_rate": 8.399645344937436e-05,
      "loss": 0.7389,
      "step": 202700
    },
    {
      "epoch": 0.2768405630479634,
      "grad_norm": 4.28125,
      "learning_rate": 8.39884284377923e-05,
      "loss": 0.7669,
      "step": 202750
    },
    {
      "epoch": 0.27690883445685316,
      "grad_norm": 3.734375,
      "learning_rate": 8.39804017982001e-05,
      "loss": 0.6888,
      "step": 202800
    },
    {
      "epoch": 0.2769771058657429,
      "grad_norm": 2.984375,
      "learning_rate": 8.397237353098222e-05,
      "loss": 0.7624,
      "step": 202850
    },
    {
      "epoch": 0.2770453772746327,
      "grad_norm": 7.8125,
      "learning_rate": 8.396434363652319e-05,
      "loss": 0.782,
      "step": 202900
    },
    {
      "epoch": 0.2771136486835224,
      "grad_norm": 2.9375,
      "learning_rate": 8.395631211520764e-05,
      "loss": 0.6902,
      "step": 202950
    },
    {
      "epoch": 0.27718192009241216,
      "grad_norm": 8.5625,
      "learning_rate": 8.394827896742028e-05,
      "loss": 0.6844,
      "step": 203000
    },
    {
      "epoch": 0.2772501915013019,
      "grad_norm": 3.765625,
      "learning_rate": 8.394024419354589e-05,
      "loss": 0.8788,
      "step": 203050
    },
    {
      "epoch": 0.2773184629101917,
      "grad_norm": 8.375,
      "learning_rate": 8.393220779396934e-05,
      "loss": 0.9718,
      "step": 203100
    },
    {
      "epoch": 0.27738673431908145,
      "grad_norm": 3.0625,
      "learning_rate": 8.392416976907551e-05,
      "loss": 0.7964,
      "step": 203150
    },
    {
      "epoch": 0.2774550057279712,
      "grad_norm": 2.359375,
      "learning_rate": 8.391613011924947e-05,
      "loss": 0.6712,
      "step": 203200
    },
    {
      "epoch": 0.277523277136861,
      "grad_norm": 3.390625,
      "learning_rate": 8.390808884487629e-05,
      "loss": 0.7641,
      "step": 203250
    },
    {
      "epoch": 0.27759154854575074,
      "grad_norm": 3.1875,
      "learning_rate": 8.390004594634114e-05,
      "loss": 0.7915,
      "step": 203300
    },
    {
      "epoch": 0.27765981995464045,
      "grad_norm": 4.5,
      "learning_rate": 8.389200142402926e-05,
      "loss": 0.6791,
      "step": 203350
    },
    {
      "epoch": 0.2777280913635302,
      "grad_norm": 4.65625,
      "learning_rate": 8.388395527832599e-05,
      "loss": 0.8925,
      "step": 203400
    },
    {
      "epoch": 0.27779636277242,
      "grad_norm": 3.640625,
      "learning_rate": 8.387590750961671e-05,
      "loss": 0.7006,
      "step": 203450
    },
    {
      "epoch": 0.27786463418130974,
      "grad_norm": 2.359375,
      "learning_rate": 8.386785811828692e-05,
      "loss": 0.5772,
      "step": 203500
    },
    {
      "epoch": 0.2779329055901995,
      "grad_norm": 2.453125,
      "learning_rate": 8.385980710472218e-05,
      "loss": 0.7301,
      "step": 203550
    },
    {
      "epoch": 0.2780011769990893,
      "grad_norm": 3.671875,
      "learning_rate": 8.385175446930811e-05,
      "loss": 0.6395,
      "step": 203600
    },
    {
      "epoch": 0.27806944840797904,
      "grad_norm": 3.265625,
      "learning_rate": 8.384370021243043e-05,
      "loss": 0.8402,
      "step": 203650
    },
    {
      "epoch": 0.2781377198168688,
      "grad_norm": 3.390625,
      "learning_rate": 8.383564433447491e-05,
      "loss": 0.6315,
      "step": 203700
    },
    {
      "epoch": 0.2782059912257585,
      "grad_norm": 2.34375,
      "learning_rate": 8.382758683582745e-05,
      "loss": 0.8695,
      "step": 203750
    },
    {
      "epoch": 0.2782742626346483,
      "grad_norm": 2.625,
      "learning_rate": 8.381952771687397e-05,
      "loss": 0.6788,
      "step": 203800
    },
    {
      "epoch": 0.27834253404353804,
      "grad_norm": 4.78125,
      "learning_rate": 8.381146697800051e-05,
      "loss": 0.6729,
      "step": 203850
    },
    {
      "epoch": 0.2784108054524278,
      "grad_norm": 2.984375,
      "learning_rate": 8.380340461959317e-05,
      "loss": 0.737,
      "step": 203900
    },
    {
      "epoch": 0.27847907686131756,
      "grad_norm": 3.125,
      "learning_rate": 8.379534064203813e-05,
      "loss": 0.7379,
      "step": 203950
    },
    {
      "epoch": 0.27854734827020733,
      "grad_norm": 3.09375,
      "learning_rate": 8.378727504572163e-05,
      "loss": 0.7735,
      "step": 204000
    },
    {
      "epoch": 0.2786156196790971,
      "grad_norm": 7.40625,
      "learning_rate": 8.377920783103003e-05,
      "loss": 0.888,
      "step": 204050
    },
    {
      "epoch": 0.2786838910879868,
      "grad_norm": 3.8125,
      "learning_rate": 8.377113899834972e-05,
      "loss": 0.6702,
      "step": 204100
    },
    {
      "epoch": 0.27875216249687657,
      "grad_norm": 3.828125,
      "learning_rate": 8.37630685480672e-05,
      "loss": 0.7601,
      "step": 204150
    },
    {
      "epoch": 0.27882043390576633,
      "grad_norm": 3.234375,
      "learning_rate": 8.375499648056901e-05,
      "loss": 0.7641,
      "step": 204200
    },
    {
      "epoch": 0.2788887053146561,
      "grad_norm": 2.40625,
      "learning_rate": 8.374692279624183e-05,
      "loss": 0.8058,
      "step": 204250
    },
    {
      "epoch": 0.27895697672354586,
      "grad_norm": 3.78125,
      "learning_rate": 8.373884749547236e-05,
      "loss": 0.6722,
      "step": 204300
    },
    {
      "epoch": 0.2790252481324356,
      "grad_norm": 8.6875,
      "learning_rate": 8.37307705786474e-05,
      "loss": 0.7784,
      "step": 204350
    },
    {
      "epoch": 0.2790935195413254,
      "grad_norm": 2.75,
      "learning_rate": 8.372269204615384e-05,
      "loss": 0.748,
      "step": 204400
    },
    {
      "epoch": 0.27916179095021515,
      "grad_norm": 2.46875,
      "learning_rate": 8.37146118983786e-05,
      "loss": 0.7075,
      "step": 204450
    },
    {
      "epoch": 0.27923006235910486,
      "grad_norm": 3.21875,
      "learning_rate": 8.370653013570874e-05,
      "loss": 0.8426,
      "step": 204500
    },
    {
      "epoch": 0.2792983337679946,
      "grad_norm": 3.078125,
      "learning_rate": 8.369844675853138e-05,
      "loss": 0.8855,
      "step": 204550
    },
    {
      "epoch": 0.2793666051768844,
      "grad_norm": 2.9375,
      "learning_rate": 8.369036176723368e-05,
      "loss": 0.6719,
      "step": 204600
    },
    {
      "epoch": 0.27943487658577415,
      "grad_norm": 7.84375,
      "learning_rate": 8.368227516220291e-05,
      "loss": 0.7997,
      "step": 204650
    },
    {
      "epoch": 0.2795031479946639,
      "grad_norm": 3.703125,
      "learning_rate": 8.36741869438264e-05,
      "loss": 0.8234,
      "step": 204700
    },
    {
      "epoch": 0.2795714194035537,
      "grad_norm": 2.375,
      "learning_rate": 8.366609711249159e-05,
      "loss": 0.6721,
      "step": 204750
    },
    {
      "epoch": 0.27963969081244344,
      "grad_norm": 2.90625,
      "learning_rate": 8.365800566858595e-05,
      "loss": 0.7857,
      "step": 204800
    },
    {
      "epoch": 0.27970796222133315,
      "grad_norm": 2.703125,
      "learning_rate": 8.364991261249706e-05,
      "loss": 0.8334,
      "step": 204850
    },
    {
      "epoch": 0.2797762336302229,
      "grad_norm": 2.5625,
      "learning_rate": 8.364181794461258e-05,
      "loss": 0.7396,
      "step": 204900
    },
    {
      "epoch": 0.2798445050391127,
      "grad_norm": 4.75,
      "learning_rate": 8.363372166532023e-05,
      "loss": 0.6937,
      "step": 204950
    },
    {
      "epoch": 0.27991277644800244,
      "grad_norm": 2.328125,
      "learning_rate": 8.36256237750078e-05,
      "loss": 0.6008,
      "step": 205000
    },
    {
      "epoch": 0.2799810478568922,
      "grad_norm": 7.875,
      "learning_rate": 8.361752427406318e-05,
      "loss": 0.8117,
      "step": 205050
    },
    {
      "epoch": 0.28004931926578197,
      "grad_norm": 7.75,
      "learning_rate": 8.360942316287432e-05,
      "loss": 0.7892,
      "step": 205100
    },
    {
      "epoch": 0.28011759067467173,
      "grad_norm": 2.46875,
      "learning_rate": 8.36013204418293e-05,
      "loss": 0.7219,
      "step": 205150
    },
    {
      "epoch": 0.2801858620835615,
      "grad_norm": 3.078125,
      "learning_rate": 8.359321611131616e-05,
      "loss": 0.8601,
      "step": 205200
    },
    {
      "epoch": 0.2802541334924512,
      "grad_norm": 7.875,
      "learning_rate": 8.358511017172315e-05,
      "loss": 0.807,
      "step": 205250
    },
    {
      "epoch": 0.28032240490134097,
      "grad_norm": 2.96875,
      "learning_rate": 8.357700262343848e-05,
      "loss": 0.7458,
      "step": 205300
    },
    {
      "epoch": 0.28039067631023074,
      "grad_norm": 8.0,
      "learning_rate": 8.356889346685055e-05,
      "loss": 0.8429,
      "step": 205350
    },
    {
      "epoch": 0.2804589477191205,
      "grad_norm": 5.5,
      "learning_rate": 8.356078270234775e-05,
      "loss": 0.6732,
      "step": 205400
    },
    {
      "epoch": 0.28052721912801026,
      "grad_norm": 2.375,
      "learning_rate": 8.355267033031857e-05,
      "loss": 0.8026,
      "step": 205450
    },
    {
      "epoch": 0.2805954905369,
      "grad_norm": 2.84375,
      "learning_rate": 8.354455635115159e-05,
      "loss": 0.9122,
      "step": 205500
    },
    {
      "epoch": 0.2806637619457898,
      "grad_norm": 2.96875,
      "learning_rate": 8.353644076523548e-05,
      "loss": 0.8097,
      "step": 205550
    },
    {
      "epoch": 0.2807320333546795,
      "grad_norm": 2.90625,
      "learning_rate": 8.352832357295896e-05,
      "loss": 0.8252,
      "step": 205600
    },
    {
      "epoch": 0.28080030476356926,
      "grad_norm": 4.5625,
      "learning_rate": 8.35202047747108e-05,
      "loss": 0.7865,
      "step": 205650
    },
    {
      "epoch": 0.28086857617245903,
      "grad_norm": 8.0625,
      "learning_rate": 8.351208437087993e-05,
      "loss": 0.7086,
      "step": 205700
    },
    {
      "epoch": 0.2809368475813488,
      "grad_norm": 3.046875,
      "learning_rate": 8.35039623618553e-05,
      "loss": 0.5736,
      "step": 205750
    },
    {
      "epoch": 0.28100511899023856,
      "grad_norm": 8.3125,
      "learning_rate": 8.349583874802593e-05,
      "loss": 0.8712,
      "step": 205800
    },
    {
      "epoch": 0.2810733903991283,
      "grad_norm": 3.765625,
      "learning_rate": 8.348771352978094e-05,
      "loss": 0.8231,
      "step": 205850
    },
    {
      "epoch": 0.2811416618080181,
      "grad_norm": 6.90625,
      "learning_rate": 8.34795867075095e-05,
      "loss": 0.7591,
      "step": 205900
    },
    {
      "epoch": 0.28120993321690785,
      "grad_norm": 7.65625,
      "learning_rate": 8.347145828160091e-05,
      "loss": 0.8257,
      "step": 205950
    },
    {
      "epoch": 0.28127820462579756,
      "grad_norm": 2.4375,
      "learning_rate": 8.34633282524445e-05,
      "loss": 0.85,
      "step": 206000
    },
    {
      "epoch": 0.2813464760346873,
      "grad_norm": 3.203125,
      "learning_rate": 8.345519662042967e-05,
      "loss": 0.8511,
      "step": 206050
    },
    {
      "epoch": 0.2814147474435771,
      "grad_norm": 2.515625,
      "learning_rate": 8.344706338594595e-05,
      "loss": 0.665,
      "step": 206100
    },
    {
      "epoch": 0.28148301885246685,
      "grad_norm": 3.203125,
      "learning_rate": 8.343892854938289e-05,
      "loss": 0.8105,
      "step": 206150
    },
    {
      "epoch": 0.2815512902613566,
      "grad_norm": 2.375,
      "learning_rate": 8.343079211113014e-05,
      "loss": 0.9442,
      "step": 206200
    },
    {
      "epoch": 0.2816195616702464,
      "grad_norm": 3.5,
      "learning_rate": 8.342265407157745e-05,
      "loss": 0.7305,
      "step": 206250
    },
    {
      "epoch": 0.28168783307913614,
      "grad_norm": 7.96875,
      "learning_rate": 8.34145144311146e-05,
      "loss": 0.8422,
      "step": 206300
    },
    {
      "epoch": 0.2817561044880259,
      "grad_norm": 3.1875,
      "learning_rate": 8.340637319013147e-05,
      "loss": 0.8753,
      "step": 206350
    },
    {
      "epoch": 0.2818243758969156,
      "grad_norm": 3.53125,
      "learning_rate": 8.339823034901803e-05,
      "loss": 0.7401,
      "step": 206400
    },
    {
      "epoch": 0.2818926473058054,
      "grad_norm": 3.125,
      "learning_rate": 8.33900859081643e-05,
      "loss": 0.7545,
      "step": 206450
    },
    {
      "epoch": 0.28196091871469514,
      "grad_norm": 3.46875,
      "learning_rate": 8.338193986796042e-05,
      "loss": 0.6534,
      "step": 206500
    },
    {
      "epoch": 0.2820291901235849,
      "grad_norm": 2.921875,
      "learning_rate": 8.337379222879655e-05,
      "loss": 0.8881,
      "step": 206550
    },
    {
      "epoch": 0.28209746153247467,
      "grad_norm": 3.0625,
      "learning_rate": 8.336564299106295e-05,
      "loss": 0.8363,
      "step": 206600
    },
    {
      "epoch": 0.28216573294136443,
      "grad_norm": 3.34375,
      "learning_rate": 8.335749215514996e-05,
      "loss": 0.8258,
      "step": 206650
    },
    {
      "epoch": 0.2822340043502542,
      "grad_norm": 2.78125,
      "learning_rate": 8.334933972144803e-05,
      "loss": 0.8346,
      "step": 206700
    },
    {
      "epoch": 0.2823022757591439,
      "grad_norm": 2.5625,
      "learning_rate": 8.33411856903476e-05,
      "loss": 0.6849,
      "step": 206750
    },
    {
      "epoch": 0.28237054716803367,
      "grad_norm": 3.265625,
      "learning_rate": 8.333303006223929e-05,
      "loss": 0.6236,
      "step": 206800
    },
    {
      "epoch": 0.28243881857692343,
      "grad_norm": 8.5625,
      "learning_rate": 8.332487283751371e-05,
      "loss": 0.6057,
      "step": 206850
    },
    {
      "epoch": 0.2825070899858132,
      "grad_norm": 2.25,
      "learning_rate": 8.33167140165616e-05,
      "loss": 0.8943,
      "step": 206900
    },
    {
      "epoch": 0.28257536139470296,
      "grad_norm": 3.484375,
      "learning_rate": 8.330855359977377e-05,
      "loss": 0.9962,
      "step": 206950
    },
    {
      "epoch": 0.2826436328035927,
      "grad_norm": 2.640625,
      "learning_rate": 8.330039158754106e-05,
      "loss": 0.6445,
      "step": 207000
    },
    {
      "epoch": 0.2827119042124825,
      "grad_norm": 2.828125,
      "learning_rate": 8.329222798025447e-05,
      "loss": 0.8259,
      "step": 207050
    },
    {
      "epoch": 0.28278017562137225,
      "grad_norm": 8.9375,
      "learning_rate": 8.328406277830497e-05,
      "loss": 0.9172,
      "step": 207100
    },
    {
      "epoch": 0.28284844703026196,
      "grad_norm": 4.09375,
      "learning_rate": 8.327589598208371e-05,
      "loss": 0.6707,
      "step": 207150
    },
    {
      "epoch": 0.2829167184391517,
      "grad_norm": 8.6875,
      "learning_rate": 8.326772759198185e-05,
      "loss": 0.8616,
      "step": 207200
    },
    {
      "epoch": 0.2829849898480415,
      "grad_norm": 7.59375,
      "learning_rate": 8.325955760839066e-05,
      "loss": 0.7864,
      "step": 207250
    },
    {
      "epoch": 0.28305326125693125,
      "grad_norm": 2.796875,
      "learning_rate": 8.325138603170147e-05,
      "loss": 0.9739,
      "step": 207300
    },
    {
      "epoch": 0.283121532665821,
      "grad_norm": 3.890625,
      "learning_rate": 8.324321286230568e-05,
      "loss": 0.787,
      "step": 207350
    },
    {
      "epoch": 0.2831898040747108,
      "grad_norm": 3.40625,
      "learning_rate": 8.323503810059478e-05,
      "loss": 0.7664,
      "step": 207400
    },
    {
      "epoch": 0.28325807548360055,
      "grad_norm": 2.359375,
      "learning_rate": 8.322686174696035e-05,
      "loss": 0.8481,
      "step": 207450
    },
    {
      "epoch": 0.28332634689249026,
      "grad_norm": 3.9375,
      "learning_rate": 8.321868380179401e-05,
      "loss": 0.8626,
      "step": 207500
    },
    {
      "epoch": 0.28339461830138,
      "grad_norm": 8.6875,
      "learning_rate": 8.321050426548748e-05,
      "loss": 0.8204,
      "step": 207550
    },
    {
      "epoch": 0.2834628897102698,
      "grad_norm": 3.0625,
      "learning_rate": 8.320232313843255e-05,
      "loss": 0.9646,
      "step": 207600
    },
    {
      "epoch": 0.28353116111915955,
      "grad_norm": 2.453125,
      "learning_rate": 8.319414042102109e-05,
      "loss": 0.8121,
      "step": 207650
    },
    {
      "epoch": 0.2835994325280493,
      "grad_norm": 4.125,
      "learning_rate": 8.318595611364504e-05,
      "loss": 0.8486,
      "step": 207700
    },
    {
      "epoch": 0.2836677039369391,
      "grad_norm": 2.53125,
      "learning_rate": 8.317777021669642e-05,
      "loss": 0.7525,
      "step": 207750
    },
    {
      "epoch": 0.28373597534582884,
      "grad_norm": 3.890625,
      "learning_rate": 8.316958273056732e-05,
      "loss": 0.6839,
      "step": 207800
    },
    {
      "epoch": 0.2838042467547186,
      "grad_norm": 2.375,
      "learning_rate": 8.316139365564995e-05,
      "loss": 0.6056,
      "step": 207850
    },
    {
      "epoch": 0.2838725181636083,
      "grad_norm": 2.5625,
      "learning_rate": 8.31532029923365e-05,
      "loss": 0.6919,
      "step": 207900
    },
    {
      "epoch": 0.2839407895724981,
      "grad_norm": 3.71875,
      "learning_rate": 8.314501074101933e-05,
      "loss": 0.7864,
      "step": 207950
    },
    {
      "epoch": 0.28400906098138784,
      "grad_norm": 2.953125,
      "learning_rate": 8.313681690209082e-05,
      "loss": 0.6858,
      "step": 208000
    },
    {
      "epoch": 0.2840773323902776,
      "grad_norm": 3.34375,
      "learning_rate": 8.312862147594348e-05,
      "loss": 0.8677,
      "step": 208050
    },
    {
      "epoch": 0.28414560379916737,
      "grad_norm": 3.859375,
      "learning_rate": 8.312042446296984e-05,
      "loss": 0.7264,
      "step": 208100
    },
    {
      "epoch": 0.28421387520805713,
      "grad_norm": 2.65625,
      "learning_rate": 8.311222586356253e-05,
      "loss": 0.7738,
      "step": 208150
    },
    {
      "epoch": 0.2842821466169469,
      "grad_norm": 7.53125,
      "learning_rate": 8.310402567811424e-05,
      "loss": 0.7493,
      "step": 208200
    },
    {
      "epoch": 0.2843504180258366,
      "grad_norm": 4.03125,
      "learning_rate": 8.309582390701777e-05,
      "loss": 0.6923,
      "step": 208250
    },
    {
      "epoch": 0.28441868943472637,
      "grad_norm": 6.625,
      "learning_rate": 8.308762055066597e-05,
      "loss": 0.7196,
      "step": 208300
    },
    {
      "epoch": 0.28448696084361613,
      "grad_norm": 3.21875,
      "learning_rate": 8.307941560945178e-05,
      "loss": 0.648,
      "step": 208350
    },
    {
      "epoch": 0.2845552322525059,
      "grad_norm": 3.96875,
      "learning_rate": 8.30712090837682e-05,
      "loss": 0.6295,
      "step": 208400
    },
    {
      "epoch": 0.28462350366139566,
      "grad_norm": 3.890625,
      "learning_rate": 8.30630009740083e-05,
      "loss": 0.6998,
      "step": 208450
    },
    {
      "epoch": 0.2846917750702854,
      "grad_norm": 3.21875,
      "learning_rate": 8.305479128056526e-05,
      "loss": 0.8413,
      "step": 208500
    },
    {
      "epoch": 0.2847600464791752,
      "grad_norm": 2.296875,
      "learning_rate": 8.304658000383232e-05,
      "loss": 0.8231,
      "step": 208550
    },
    {
      "epoch": 0.28482831788806495,
      "grad_norm": 2.515625,
      "learning_rate": 8.303836714420278e-05,
      "loss": 0.6702,
      "step": 208600
    },
    {
      "epoch": 0.28489658929695466,
      "grad_norm": 4.21875,
      "learning_rate": 8.303015270207002e-05,
      "loss": 0.5642,
      "step": 208650
    },
    {
      "epoch": 0.2849648607058444,
      "grad_norm": 3.375,
      "learning_rate": 8.302193667782752e-05,
      "loss": 0.6855,
      "step": 208700
    },
    {
      "epoch": 0.2850331321147342,
      "grad_norm": 7.5625,
      "learning_rate": 8.301371907186881e-05,
      "loss": 0.6389,
      "step": 208750
    },
    {
      "epoch": 0.28510140352362395,
      "grad_norm": 3.5,
      "learning_rate": 8.30054998845875e-05,
      "loss": 0.6926,
      "step": 208800
    },
    {
      "epoch": 0.2851696749325137,
      "grad_norm": 2.9375,
      "learning_rate": 8.29972791163773e-05,
      "loss": 0.7713,
      "step": 208850
    },
    {
      "epoch": 0.2852379463414035,
      "grad_norm": 4.15625,
      "learning_rate": 8.298905676763195e-05,
      "loss": 0.7347,
      "step": 208900
    },
    {
      "epoch": 0.28530621775029325,
      "grad_norm": 2.21875,
      "learning_rate": 8.298083283874531e-05,
      "loss": 0.7983,
      "step": 208950
    },
    {
      "epoch": 0.285374489159183,
      "grad_norm": 8.5625,
      "learning_rate": 8.29726073301113e-05,
      "loss": 0.7651,
      "step": 209000
    },
    {
      "epoch": 0.2854427605680727,
      "grad_norm": 8.25,
      "learning_rate": 8.29643802421239e-05,
      "loss": 0.6574,
      "step": 209050
    },
    {
      "epoch": 0.2855110319769625,
      "grad_norm": 2.484375,
      "learning_rate": 8.295615157517717e-05,
      "loss": 0.6709,
      "step": 209100
    },
    {
      "epoch": 0.28557930338585225,
      "grad_norm": 2.921875,
      "learning_rate": 8.294792132966529e-05,
      "loss": 0.731,
      "step": 209150
    },
    {
      "epoch": 0.285647574794742,
      "grad_norm": 2.84375,
      "learning_rate": 8.293968950598245e-05,
      "loss": 0.8167,
      "step": 209200
    },
    {
      "epoch": 0.2857158462036318,
      "grad_norm": 2.28125,
      "learning_rate": 8.293145610452295e-05,
      "loss": 0.6422,
      "step": 209250
    },
    {
      "epoch": 0.28578411761252154,
      "grad_norm": 2.9375,
      "learning_rate": 8.292322112568117e-05,
      "loss": 0.6783,
      "step": 209300
    },
    {
      "epoch": 0.2858523890214113,
      "grad_norm": 3.28125,
      "learning_rate": 8.291498456985156e-05,
      "loss": 0.7407,
      "step": 209350
    },
    {
      "epoch": 0.285920660430301,
      "grad_norm": 2.953125,
      "learning_rate": 8.290674643742861e-05,
      "loss": 0.7218,
      "step": 209400
    },
    {
      "epoch": 0.2859889318391908,
      "grad_norm": 8.4375,
      "learning_rate": 8.289850672880696e-05,
      "loss": 0.7732,
      "step": 209450
    },
    {
      "epoch": 0.28605720324808054,
      "grad_norm": 7.375,
      "learning_rate": 8.289026544438129e-05,
      "loss": 0.7822,
      "step": 209500
    },
    {
      "epoch": 0.2861254746569703,
      "grad_norm": 2.875,
      "learning_rate": 8.28820225845463e-05,
      "loss": 0.9855,
      "step": 209550
    },
    {
      "epoch": 0.28619374606586007,
      "grad_norm": 2.875,
      "learning_rate": 8.287377814969685e-05,
      "loss": 0.8054,
      "step": 209600
    },
    {
      "epoch": 0.28626201747474983,
      "grad_norm": 7.9375,
      "learning_rate": 8.286553214022782e-05,
      "loss": 0.7672,
      "step": 209650
    },
    {
      "epoch": 0.2863302888836396,
      "grad_norm": 2.328125,
      "learning_rate": 8.285728455653422e-05,
      "loss": 0.5574,
      "step": 209700
    },
    {
      "epoch": 0.28639856029252936,
      "grad_norm": 2.5,
      "learning_rate": 8.284903539901104e-05,
      "loss": 0.8192,
      "step": 209750
    },
    {
      "epoch": 0.28646683170141907,
      "grad_norm": 3.75,
      "learning_rate": 8.284078466805345e-05,
      "loss": 0.7417,
      "step": 209800
    },
    {
      "epoch": 0.28653510311030883,
      "grad_norm": 4.09375,
      "learning_rate": 8.283253236405666e-05,
      "loss": 0.8101,
      "step": 209850
    },
    {
      "epoch": 0.2866033745191986,
      "grad_norm": 12.9375,
      "learning_rate": 8.282427848741591e-05,
      "loss": 0.7385,
      "step": 209900
    },
    {
      "epoch": 0.28667164592808836,
      "grad_norm": 3.59375,
      "learning_rate": 8.281602303852659e-05,
      "loss": 0.7361,
      "step": 209950
    },
    {
      "epoch": 0.2867399173369781,
      "grad_norm": 2.453125,
      "learning_rate": 8.280776601778411e-05,
      "loss": 0.8384,
      "step": 210000
    },
    {
      "epoch": 0.2868081887458679,
      "grad_norm": 2.328125,
      "learning_rate": 8.279950742558395e-05,
      "loss": 0.6692,
      "step": 210050
    },
    {
      "epoch": 0.28687646015475765,
      "grad_norm": 2.890625,
      "learning_rate": 8.279124726232173e-05,
      "loss": 0.677,
      "step": 210100
    },
    {
      "epoch": 0.28694473156364736,
      "grad_norm": 3.171875,
      "learning_rate": 8.278298552839307e-05,
      "loss": 0.8297,
      "step": 210150
    },
    {
      "epoch": 0.2870130029725371,
      "grad_norm": 3.125,
      "learning_rate": 8.277472222419373e-05,
      "loss": 0.6228,
      "step": 210200
    },
    {
      "epoch": 0.2870812743814269,
      "grad_norm": 7.65625,
      "learning_rate": 8.276645735011949e-05,
      "loss": 0.7293,
      "step": 210250
    },
    {
      "epoch": 0.28714954579031665,
      "grad_norm": 2.953125,
      "learning_rate": 8.275819090656621e-05,
      "loss": 0.6946,
      "step": 210300
    },
    {
      "epoch": 0.2872178171992064,
      "grad_norm": 2.890625,
      "learning_rate": 8.274992289392989e-05,
      "loss": 0.6208,
      "step": 210350
    },
    {
      "epoch": 0.2872860886080962,
      "grad_norm": 2.40625,
      "learning_rate": 8.274165331260654e-05,
      "loss": 0.6742,
      "step": 210400
    },
    {
      "epoch": 0.28735436001698594,
      "grad_norm": 3.46875,
      "learning_rate": 8.273338216299225e-05,
      "loss": 0.7625,
      "step": 210450
    },
    {
      "epoch": 0.2874226314258757,
      "grad_norm": 3.828125,
      "learning_rate": 8.272510944548321e-05,
      "loss": 0.6644,
      "step": 210500
    },
    {
      "epoch": 0.2874909028347654,
      "grad_norm": 4.8125,
      "learning_rate": 8.271683516047569e-05,
      "loss": 0.6474,
      "step": 210550
    },
    {
      "epoch": 0.2875591742436552,
      "grad_norm": 7.65625,
      "learning_rate": 8.270855930836599e-05,
      "loss": 0.7059,
      "step": 210600
    },
    {
      "epoch": 0.28762744565254494,
      "grad_norm": 3.765625,
      "learning_rate": 8.270028188955052e-05,
      "loss": 0.6338,
      "step": 210650
    },
    {
      "epoch": 0.2876957170614347,
      "grad_norm": 2.390625,
      "learning_rate": 8.269200290442578e-05,
      "loss": 0.7528,
      "step": 210700
    },
    {
      "epoch": 0.28776398847032447,
      "grad_norm": 3.453125,
      "learning_rate": 8.268372235338832e-05,
      "loss": 0.6492,
      "step": 210750
    },
    {
      "epoch": 0.28783225987921424,
      "grad_norm": 3.046875,
      "learning_rate": 8.267544023683476e-05,
      "loss": 0.666,
      "step": 210800
    },
    {
      "epoch": 0.287900531288104,
      "grad_norm": 4.875,
      "learning_rate": 8.26671565551618e-05,
      "loss": 0.7187,
      "step": 210850
    },
    {
      "epoch": 0.28796880269699376,
      "grad_norm": 3.046875,
      "learning_rate": 8.265887130876623e-05,
      "loss": 0.7119,
      "step": 210900
    },
    {
      "epoch": 0.2880370741058835,
      "grad_norm": 4.0,
      "learning_rate": 8.265058449804492e-05,
      "loss": 0.8488,
      "step": 210950
    },
    {
      "epoch": 0.28810534551477324,
      "grad_norm": 2.109375,
      "learning_rate": 8.264229612339477e-05,
      "loss": 0.7186,
      "step": 211000
    },
    {
      "epoch": 0.288173616923663,
      "grad_norm": 7.6875,
      "learning_rate": 8.263400618521279e-05,
      "loss": 0.7026,
      "step": 211050
    },
    {
      "epoch": 0.28824188833255276,
      "grad_norm": 4.46875,
      "learning_rate": 8.262571468389608e-05,
      "loss": 0.8394,
      "step": 211100
    },
    {
      "epoch": 0.28831015974144253,
      "grad_norm": 4.125,
      "learning_rate": 8.261742161984178e-05,
      "loss": 0.7436,
      "step": 211150
    },
    {
      "epoch": 0.2883784311503323,
      "grad_norm": 7.46875,
      "learning_rate": 8.260912699344711e-05,
      "loss": 0.8837,
      "step": 211200
    },
    {
      "epoch": 0.28844670255922206,
      "grad_norm": 3.15625,
      "learning_rate": 8.260083080510939e-05,
      "loss": 0.7087,
      "step": 211250
    },
    {
      "epoch": 0.28851497396811177,
      "grad_norm": 7.5,
      "learning_rate": 8.259253305522599e-05,
      "loss": 0.6525,
      "step": 211300
    },
    {
      "epoch": 0.28858324537700153,
      "grad_norm": 4.5625,
      "learning_rate": 8.258423374419435e-05,
      "loss": 0.5913,
      "step": 211350
    },
    {
      "epoch": 0.2886515167858913,
      "grad_norm": 5.21875,
      "learning_rate": 8.257593287241204e-05,
      "loss": 0.8314,
      "step": 211400
    },
    {
      "epoch": 0.28871978819478106,
      "grad_norm": 3.109375,
      "learning_rate": 8.256763044027663e-05,
      "loss": 0.6191,
      "step": 211450
    },
    {
      "epoch": 0.2887880596036708,
      "grad_norm": 8.6875,
      "learning_rate": 8.255932644818578e-05,
      "loss": 0.7865,
      "step": 211500
    },
    {
      "epoch": 0.2888563310125606,
      "grad_norm": 2.890625,
      "learning_rate": 8.25510208965373e-05,
      "loss": 0.7038,
      "step": 211550
    },
    {
      "epoch": 0.28892460242145035,
      "grad_norm": 3.828125,
      "learning_rate": 8.254271378572895e-05,
      "loss": 0.7374,
      "step": 211600
    },
    {
      "epoch": 0.2889928738303401,
      "grad_norm": 3.234375,
      "learning_rate": 8.25344051161587e-05,
      "loss": 0.6393,
      "step": 211650
    },
    {
      "epoch": 0.2890611452392298,
      "grad_norm": 8.4375,
      "learning_rate": 8.252609488822448e-05,
      "loss": 0.7413,
      "step": 211700
    },
    {
      "epoch": 0.2891294166481196,
      "grad_norm": 3.296875,
      "learning_rate": 8.251778310232436e-05,
      "loss": 0.7766,
      "step": 211750
    },
    {
      "epoch": 0.28919768805700935,
      "grad_norm": 4.03125,
      "learning_rate": 8.250946975885645e-05,
      "loss": 0.8038,
      "step": 211800
    },
    {
      "epoch": 0.2892659594658991,
      "grad_norm": 3.671875,
      "learning_rate": 8.250115485821897e-05,
      "loss": 0.7433,
      "step": 211850
    },
    {
      "epoch": 0.2893342308747889,
      "grad_norm": 2.984375,
      "learning_rate": 8.249283840081017e-05,
      "loss": 0.6493,
      "step": 211900
    },
    {
      "epoch": 0.28940250228367864,
      "grad_norm": 2.890625,
      "learning_rate": 8.248452038702844e-05,
      "loss": 0.7739,
      "step": 211950
    },
    {
      "epoch": 0.2894707736925684,
      "grad_norm": 2.28125,
      "learning_rate": 8.247620081727215e-05,
      "loss": 0.7027,
      "step": 212000
    },
    {
      "epoch": 0.2895390451014581,
      "grad_norm": 3.046875,
      "learning_rate": 8.246787969193985e-05,
      "loss": 0.6939,
      "step": 212050
    },
    {
      "epoch": 0.2896073165103479,
      "grad_norm": 3.578125,
      "learning_rate": 8.24595570114301e-05,
      "loss": 0.6505,
      "step": 212100
    },
    {
      "epoch": 0.28967558791923764,
      "grad_norm": 4.3125,
      "learning_rate": 8.24512327761415e-05,
      "loss": 0.8065,
      "step": 212150
    },
    {
      "epoch": 0.2897438593281274,
      "grad_norm": 6.78125,
      "learning_rate": 8.244290698647285e-05,
      "loss": 0.7289,
      "step": 212200
    },
    {
      "epoch": 0.28981213073701717,
      "grad_norm": 3.015625,
      "learning_rate": 8.243457964282288e-05,
      "loss": 0.6561,
      "step": 212250
    },
    {
      "epoch": 0.28988040214590693,
      "grad_norm": 7.78125,
      "learning_rate": 8.24262507455905e-05,
      "loss": 0.7057,
      "step": 212300
    },
    {
      "epoch": 0.2899486735547967,
      "grad_norm": 4.1875,
      "learning_rate": 8.241792029517464e-05,
      "loss": 0.6839,
      "step": 212350
    },
    {
      "epoch": 0.29001694496368646,
      "grad_norm": 3.125,
      "learning_rate": 8.240958829197434e-05,
      "loss": 0.6847,
      "step": 212400
    },
    {
      "epoch": 0.29008521637257617,
      "grad_norm": 3.015625,
      "learning_rate": 8.240125473638867e-05,
      "loss": 0.7743,
      "step": 212450
    },
    {
      "epoch": 0.29015348778146594,
      "grad_norm": 2.796875,
      "learning_rate": 8.239291962881679e-05,
      "loss": 0.7453,
      "step": 212500
    },
    {
      "epoch": 0.2902217591903557,
      "grad_norm": 3.34375,
      "learning_rate": 8.238458296965797e-05,
      "loss": 0.7309,
      "step": 212550
    },
    {
      "epoch": 0.29029003059924546,
      "grad_norm": 2.28125,
      "learning_rate": 8.237624475931153e-05,
      "loss": 0.8513,
      "step": 212600
    },
    {
      "epoch": 0.2903583020081352,
      "grad_norm": 7.6875,
      "learning_rate": 8.236790499817684e-05,
      "loss": 0.7396,
      "step": 212650
    },
    {
      "epoch": 0.290426573417025,
      "grad_norm": 2.65625,
      "learning_rate": 8.235956368665337e-05,
      "loss": 0.6671,
      "step": 212700
    },
    {
      "epoch": 0.29049484482591476,
      "grad_norm": 7.96875,
      "learning_rate": 8.235122082514067e-05,
      "loss": 0.5596,
      "step": 212750
    },
    {
      "epoch": 0.29056311623480446,
      "grad_norm": 3.625,
      "learning_rate": 8.234287641403835e-05,
      "loss": 0.5793,
      "step": 212800
    },
    {
      "epoch": 0.29063138764369423,
      "grad_norm": 3.859375,
      "learning_rate": 8.23345304537461e-05,
      "loss": 0.7435,
      "step": 212850
    },
    {
      "epoch": 0.290699659052584,
      "grad_norm": 2.640625,
      "learning_rate": 8.232618294466366e-05,
      "loss": 0.6925,
      "step": 212900
    },
    {
      "epoch": 0.29076793046147376,
      "grad_norm": 2.78125,
      "learning_rate": 8.231783388719091e-05,
      "loss": 0.7521,
      "step": 212950
    },
    {
      "epoch": 0.2908362018703635,
      "grad_norm": 4.0,
      "learning_rate": 8.230948328172772e-05,
      "loss": 0.8004,
      "step": 213000
    },
    {
      "epoch": 0.2909044732792533,
      "grad_norm": 3.015625,
      "learning_rate": 8.23011311286741e-05,
      "loss": 0.73,
      "step": 213050
    },
    {
      "epoch": 0.29097274468814305,
      "grad_norm": 2.875,
      "learning_rate": 8.229277742843011e-05,
      "loss": 0.7643,
      "step": 213100
    },
    {
      "epoch": 0.2910410160970328,
      "grad_norm": 3.90625,
      "learning_rate": 8.228442218139587e-05,
      "loss": 0.7683,
      "step": 213150
    },
    {
      "epoch": 0.2911092875059225,
      "grad_norm": 3.328125,
      "learning_rate": 8.227606538797159e-05,
      "loss": 0.7701,
      "step": 213200
    },
    {
      "epoch": 0.2911775589148123,
      "grad_norm": 3.65625,
      "learning_rate": 8.226770704855758e-05,
      "loss": 0.7189,
      "step": 213250
    },
    {
      "epoch": 0.29124583032370205,
      "grad_norm": 2.96875,
      "learning_rate": 8.225934716355414e-05,
      "loss": 0.878,
      "step": 213300
    },
    {
      "epoch": 0.2913141017325918,
      "grad_norm": 2.546875,
      "learning_rate": 8.225098573336175e-05,
      "loss": 0.8309,
      "step": 213350
    },
    {
      "epoch": 0.2913823731414816,
      "grad_norm": 3.125,
      "learning_rate": 8.224262275838088e-05,
      "loss": 0.6639,
      "step": 213400
    },
    {
      "epoch": 0.29145064455037134,
      "grad_norm": 3.875,
      "learning_rate": 8.223425823901214e-05,
      "loss": 0.7481,
      "step": 213450
    },
    {
      "epoch": 0.2915189159592611,
      "grad_norm": 3.875,
      "learning_rate": 8.222589217565615e-05,
      "loss": 0.6654,
      "step": 213500
    },
    {
      "epoch": 0.29158718736815087,
      "grad_norm": 3.296875,
      "learning_rate": 8.221752456871365e-05,
      "loss": 0.6291,
      "step": 213550
    },
    {
      "epoch": 0.2916554587770406,
      "grad_norm": 7.3125,
      "learning_rate": 8.220915541858546e-05,
      "loss": 0.7894,
      "step": 213600
    },
    {
      "epoch": 0.29172373018593034,
      "grad_norm": 7.5,
      "learning_rate": 8.220078472567241e-05,
      "loss": 0.7276,
      "step": 213650
    },
    {
      "epoch": 0.2917920015948201,
      "grad_norm": 8.4375,
      "learning_rate": 8.219241249037548e-05,
      "loss": 0.7229,
      "step": 213700
    },
    {
      "epoch": 0.29186027300370987,
      "grad_norm": 7.75,
      "learning_rate": 8.218403871309569e-05,
      "loss": 0.7479,
      "step": 213750
    },
    {
      "epoch": 0.29192854441259963,
      "grad_norm": 2.734375,
      "learning_rate": 8.217566339423411e-05,
      "loss": 0.8568,
      "step": 213800
    },
    {
      "epoch": 0.2919968158214894,
      "grad_norm": 2.9375,
      "learning_rate": 8.216728653419195e-05,
      "loss": 0.7261,
      "step": 213850
    },
    {
      "epoch": 0.29206508723037916,
      "grad_norm": 3.0625,
      "learning_rate": 8.215890813337039e-05,
      "loss": 0.6936,
      "step": 213900
    },
    {
      "epoch": 0.29213335863926887,
      "grad_norm": 3.125,
      "learning_rate": 8.215052819217082e-05,
      "loss": 0.7212,
      "step": 213950
    },
    {
      "epoch": 0.29220163004815863,
      "grad_norm": 7.6875,
      "learning_rate": 8.214214671099458e-05,
      "loss": 0.7158,
      "step": 214000
    },
    {
      "epoch": 0.2922699014570484,
      "grad_norm": 3.0,
      "learning_rate": 8.213376369024315e-05,
      "loss": 0.7057,
      "step": 214050
    },
    {
      "epoch": 0.29233817286593816,
      "grad_norm": 3.234375,
      "learning_rate": 8.212537913031809e-05,
      "loss": 0.6299,
      "step": 214100
    },
    {
      "epoch": 0.2924064442748279,
      "grad_norm": 2.328125,
      "learning_rate": 8.211699303162096e-05,
      "loss": 0.7518,
      "step": 214150
    },
    {
      "epoch": 0.2924747156837177,
      "grad_norm": 8.875,
      "learning_rate": 8.210860539455348e-05,
      "loss": 0.7542,
      "step": 214200
    },
    {
      "epoch": 0.29254298709260745,
      "grad_norm": 2.421875,
      "learning_rate": 8.210021621951742e-05,
      "loss": 0.7029,
      "step": 214250
    },
    {
      "epoch": 0.2926112585014972,
      "grad_norm": 2.890625,
      "learning_rate": 8.209182550691459e-05,
      "loss": 0.6592,
      "step": 214300
    },
    {
      "epoch": 0.2926795299103869,
      "grad_norm": 3.03125,
      "learning_rate": 8.20834332571469e-05,
      "loss": 0.6837,
      "step": 214350
    },
    {
      "epoch": 0.2927478013192767,
      "grad_norm": 3.1875,
      "learning_rate": 8.207503947061633e-05,
      "loss": 0.7563,
      "step": 214400
    },
    {
      "epoch": 0.29281607272816645,
      "grad_norm": 2.5625,
      "learning_rate": 8.206664414772493e-05,
      "loss": 0.6895,
      "step": 214450
    },
    {
      "epoch": 0.2928843441370562,
      "grad_norm": 3.875,
      "learning_rate": 8.205824728887486e-05,
      "loss": 0.7027,
      "step": 214500
    },
    {
      "epoch": 0.292952615545946,
      "grad_norm": 3.09375,
      "learning_rate": 8.204984889446827e-05,
      "loss": 0.6018,
      "step": 214550
    },
    {
      "epoch": 0.29302088695483575,
      "grad_norm": 2.265625,
      "learning_rate": 8.204144896490747e-05,
      "loss": 0.6868,
      "step": 214600
    },
    {
      "epoch": 0.2930891583637255,
      "grad_norm": 3.109375,
      "learning_rate": 8.20330475005948e-05,
      "loss": 0.5745,
      "step": 214650
    },
    {
      "epoch": 0.2931574297726152,
      "grad_norm": 7.46875,
      "learning_rate": 8.202464450193267e-05,
      "loss": 0.7625,
      "step": 214700
    },
    {
      "epoch": 0.293225701181505,
      "grad_norm": 3.03125,
      "learning_rate": 8.20162399693236e-05,
      "loss": 0.7499,
      "step": 214750
    },
    {
      "epoch": 0.29329397259039475,
      "grad_norm": 2.59375,
      "learning_rate": 8.200783390317011e-05,
      "loss": 0.6951,
      "step": 214800
    },
    {
      "epoch": 0.2933622439992845,
      "grad_norm": 3.484375,
      "learning_rate": 8.199942630387489e-05,
      "loss": 0.7086,
      "step": 214850
    },
    {
      "epoch": 0.2934305154081743,
      "grad_norm": 2.109375,
      "learning_rate": 8.199101717184065e-05,
      "loss": 0.652,
      "step": 214900
    },
    {
      "epoch": 0.29349878681706404,
      "grad_norm": 3.5,
      "learning_rate": 8.198260650747014e-05,
      "loss": 0.6496,
      "step": 214950
    },
    {
      "epoch": 0.2935670582259538,
      "grad_norm": 6.6875,
      "learning_rate": 8.197419431116626e-05,
      "loss": 0.7656,
      "step": 215000
    },
    {
      "epoch": 0.29363532963484357,
      "grad_norm": 3.203125,
      "learning_rate": 8.196578058333196e-05,
      "loss": 0.7714,
      "step": 215050
    },
    {
      "epoch": 0.2937036010437333,
      "grad_norm": 7.53125,
      "learning_rate": 8.195736532437019e-05,
      "loss": 0.7653,
      "step": 215100
    },
    {
      "epoch": 0.29377187245262304,
      "grad_norm": 3.046875,
      "learning_rate": 8.194894853468409e-05,
      "loss": 0.8134,
      "step": 215150
    },
    {
      "epoch": 0.2938401438615128,
      "grad_norm": 2.375,
      "learning_rate": 8.194053021467676e-05,
      "loss": 0.6662,
      "step": 215200
    },
    {
      "epoch": 0.29390841527040257,
      "grad_norm": 3.015625,
      "learning_rate": 8.193211036475148e-05,
      "loss": 0.8122,
      "step": 215250
    },
    {
      "epoch": 0.29397668667929233,
      "grad_norm": 3.4375,
      "learning_rate": 8.192368898531153e-05,
      "loss": 0.6191,
      "step": 215300
    },
    {
      "epoch": 0.2940449580881821,
      "grad_norm": 3.1875,
      "learning_rate": 8.191526607676028e-05,
      "loss": 0.8001,
      "step": 215350
    },
    {
      "epoch": 0.29411322949707186,
      "grad_norm": 2.34375,
      "learning_rate": 8.19068416395012e-05,
      "loss": 0.575,
      "step": 215400
    },
    {
      "epoch": 0.2941815009059616,
      "grad_norm": 3.75,
      "learning_rate": 8.189841567393777e-05,
      "loss": 0.6858,
      "step": 215450
    },
    {
      "epoch": 0.29424977231485133,
      "grad_norm": 3.828125,
      "learning_rate": 8.188998818047363e-05,
      "loss": 0.6778,
      "step": 215500
    },
    {
      "epoch": 0.2943180437237411,
      "grad_norm": 3.515625,
      "learning_rate": 8.188155915951243e-05,
      "loss": 0.655,
      "step": 215550
    },
    {
      "epoch": 0.29438631513263086,
      "grad_norm": 2.625,
      "learning_rate": 8.18731286114579e-05,
      "loss": 0.6079,
      "step": 215600
    },
    {
      "epoch": 0.2944545865415206,
      "grad_norm": 2.8125,
      "learning_rate": 8.186469653671389e-05,
      "loss": 0.6473,
      "step": 215650
    },
    {
      "epoch": 0.2945228579504104,
      "grad_norm": 5.0,
      "learning_rate": 8.185626293568424e-05,
      "loss": 0.7625,
      "step": 215700
    },
    {
      "epoch": 0.29459112935930015,
      "grad_norm": 3.46875,
      "learning_rate": 8.184782780877294e-05,
      "loss": 0.7956,
      "step": 215750
    },
    {
      "epoch": 0.2946594007681899,
      "grad_norm": 7.6875,
      "learning_rate": 8.183939115638402e-05,
      "loss": 0.7648,
      "step": 215800
    },
    {
      "epoch": 0.2947276721770796,
      "grad_norm": 2.59375,
      "learning_rate": 8.183095297892159e-05,
      "loss": 0.5968,
      "step": 215850
    },
    {
      "epoch": 0.2947959435859694,
      "grad_norm": 7.1875,
      "learning_rate": 8.182251327678981e-05,
      "loss": 0.7914,
      "step": 215900
    },
    {
      "epoch": 0.29486421499485915,
      "grad_norm": 3.84375,
      "learning_rate": 8.181407205039295e-05,
      "loss": 0.7843,
      "step": 215950
    },
    {
      "epoch": 0.2949324864037489,
      "grad_norm": 2.5625,
      "learning_rate": 8.180562930013534e-05,
      "loss": 0.6932,
      "step": 216000
    },
    {
      "epoch": 0.2950007578126387,
      "grad_norm": 3.0,
      "learning_rate": 8.179718502642138e-05,
      "loss": 0.6662,
      "step": 216050
    },
    {
      "epoch": 0.29506902922152844,
      "grad_norm": 3.59375,
      "learning_rate": 8.178873922965551e-05,
      "loss": 0.6717,
      "step": 216100
    },
    {
      "epoch": 0.2951373006304182,
      "grad_norm": 3.1875,
      "learning_rate": 8.17802919102423e-05,
      "loss": 0.7047,
      "step": 216150
    },
    {
      "epoch": 0.295205572039308,
      "grad_norm": 7.5,
      "learning_rate": 8.177184306858638e-05,
      "loss": 0.7394,
      "step": 216200
    },
    {
      "epoch": 0.2952738434481977,
      "grad_norm": 3.171875,
      "learning_rate": 8.176339270509244e-05,
      "loss": 0.679,
      "step": 216250
    },
    {
      "epoch": 0.29534211485708745,
      "grad_norm": 2.53125,
      "learning_rate": 8.175494082016521e-05,
      "loss": 0.5979,
      "step": 216300
    },
    {
      "epoch": 0.2954103862659772,
      "grad_norm": 3.015625,
      "learning_rate": 8.174648741420955e-05,
      "loss": 0.627,
      "step": 216350
    },
    {
      "epoch": 0.295478657674867,
      "grad_norm": 2.921875,
      "learning_rate": 8.173803248763037e-05,
      "loss": 0.7823,
      "step": 216400
    },
    {
      "epoch": 0.29554692908375674,
      "grad_norm": 7.75,
      "learning_rate": 8.172957604083264e-05,
      "loss": 0.6312,
      "step": 216450
    },
    {
      "epoch": 0.2956152004926465,
      "grad_norm": 3.140625,
      "learning_rate": 8.172111807422142e-05,
      "loss": 0.7631,
      "step": 216500
    },
    {
      "epoch": 0.29568347190153627,
      "grad_norm": 3.65625,
      "learning_rate": 8.171265858820187e-05,
      "loss": 0.7333,
      "step": 216550
    },
    {
      "epoch": 0.295751743310426,
      "grad_norm": 2.609375,
      "learning_rate": 8.170419758317914e-05,
      "loss": 0.7075,
      "step": 216600
    },
    {
      "epoch": 0.29582001471931574,
      "grad_norm": 3.953125,
      "learning_rate": 8.169573505955852e-05,
      "loss": 0.7696,
      "step": 216650
    },
    {
      "epoch": 0.2958882861282055,
      "grad_norm": 3.0625,
      "learning_rate": 8.168727101774539e-05,
      "loss": 0.761,
      "step": 216700
    },
    {
      "epoch": 0.29595655753709527,
      "grad_norm": 3.90625,
      "learning_rate": 8.16788054581451e-05,
      "loss": 0.6771,
      "step": 216750
    },
    {
      "epoch": 0.29602482894598503,
      "grad_norm": 3.3125,
      "learning_rate": 8.16703383811632e-05,
      "loss": 0.7687,
      "step": 216800
    },
    {
      "epoch": 0.2960931003548748,
      "grad_norm": 3.109375,
      "learning_rate": 8.166186978720525e-05,
      "loss": 0.7174,
      "step": 216850
    },
    {
      "epoch": 0.29616137176376456,
      "grad_norm": 7.0,
      "learning_rate": 8.165339967667684e-05,
      "loss": 0.6923,
      "step": 216900
    },
    {
      "epoch": 0.2962296431726543,
      "grad_norm": 2.859375,
      "learning_rate": 8.164492804998374e-05,
      "loss": 0.6605,
      "step": 216950
    },
    {
      "epoch": 0.29629791458154403,
      "grad_norm": 2.359375,
      "learning_rate": 8.163645490753169e-05,
      "loss": 0.6815,
      "step": 217000
    },
    {
      "epoch": 0.2963661859904338,
      "grad_norm": 2.328125,
      "learning_rate": 8.162798024972656e-05,
      "loss": 0.8005,
      "step": 217050
    },
    {
      "epoch": 0.29643445739932356,
      "grad_norm": 2.328125,
      "learning_rate": 8.161950407697427e-05,
      "loss": 0.6154,
      "step": 217100
    },
    {
      "epoch": 0.2965027288082133,
      "grad_norm": 3.046875,
      "learning_rate": 8.161102638968083e-05,
      "loss": 0.7775,
      "step": 217150
    },
    {
      "epoch": 0.2965710002171031,
      "grad_norm": 2.953125,
      "learning_rate": 8.160254718825232e-05,
      "loss": 0.7087,
      "step": 217200
    },
    {
      "epoch": 0.29663927162599285,
      "grad_norm": 3.75,
      "learning_rate": 8.159406647309486e-05,
      "loss": 0.7664,
      "step": 217250
    },
    {
      "epoch": 0.2967075430348826,
      "grad_norm": 3.34375,
      "learning_rate": 8.158558424461468e-05,
      "loss": 0.6541,
      "step": 217300
    },
    {
      "epoch": 0.2967758144437723,
      "grad_norm": 8.125,
      "learning_rate": 8.157710050321807e-05,
      "loss": 0.7125,
      "step": 217350
    },
    {
      "epoch": 0.2968440858526621,
      "grad_norm": 3.4375,
      "learning_rate": 8.156861524931139e-05,
      "loss": 0.671,
      "step": 217400
    },
    {
      "epoch": 0.29691235726155185,
      "grad_norm": 2.671875,
      "learning_rate": 8.156012848330109e-05,
      "loss": 0.7191,
      "step": 217450
    },
    {
      "epoch": 0.2969806286704416,
      "grad_norm": 3.328125,
      "learning_rate": 8.155164020559365e-05,
      "loss": 0.6544,
      "step": 217500
    },
    {
      "epoch": 0.2970489000793314,
      "grad_norm": 2.1875,
      "learning_rate": 8.154315041659566e-05,
      "loss": 0.7506,
      "step": 217550
    },
    {
      "epoch": 0.29711717148822114,
      "grad_norm": 3.25,
      "learning_rate": 8.15346591167138e-05,
      "loss": 0.8305,
      "step": 217600
    },
    {
      "epoch": 0.2971854428971109,
      "grad_norm": 2.6875,
      "learning_rate": 8.152616630635475e-05,
      "loss": 0.7351,
      "step": 217650
    },
    {
      "epoch": 0.29725371430600067,
      "grad_norm": 2.34375,
      "learning_rate": 8.151767198592533e-05,
      "loss": 0.7635,
      "step": 217700
    },
    {
      "epoch": 0.2973219857148904,
      "grad_norm": 3.546875,
      "learning_rate": 8.15091761558324e-05,
      "loss": 0.7611,
      "step": 217750
    },
    {
      "epoch": 0.29739025712378014,
      "grad_norm": 2.890625,
      "learning_rate": 8.150067881648291e-05,
      "loss": 0.6214,
      "step": 217800
    },
    {
      "epoch": 0.2974585285326699,
      "grad_norm": 3.359375,
      "learning_rate": 8.149217996828389e-05,
      "loss": 0.6149,
      "step": 217850
    },
    {
      "epoch": 0.29752679994155967,
      "grad_norm": 2.40625,
      "learning_rate": 8.148367961164239e-05,
      "loss": 0.813,
      "step": 217900
    },
    {
      "epoch": 0.29759507135044944,
      "grad_norm": 2.25,
      "learning_rate": 8.147517774696559e-05,
      "loss": 0.734,
      "step": 217950
    },
    {
      "epoch": 0.2976633427593392,
      "grad_norm": 3.234375,
      "learning_rate": 8.146667437466071e-05,
      "loss": 0.68,
      "step": 218000
    },
    {
      "epoch": 0.29773161416822896,
      "grad_norm": 2.234375,
      "learning_rate": 8.145816949513505e-05,
      "loss": 0.7448,
      "step": 218050
    },
    {
      "epoch": 0.29779988557711873,
      "grad_norm": 2.703125,
      "learning_rate": 8.144966310879602e-05,
      "loss": 0.7808,
      "step": 218100
    },
    {
      "epoch": 0.29786815698600844,
      "grad_norm": 3.40625,
      "learning_rate": 8.144115521605101e-05,
      "loss": 0.734,
      "step": 218150
    },
    {
      "epoch": 0.2979364283948982,
      "grad_norm": 3.890625,
      "learning_rate": 8.143264581730758e-05,
      "loss": 0.7802,
      "step": 218200
    },
    {
      "epoch": 0.29800469980378796,
      "grad_norm": 2.875,
      "learning_rate": 8.142413491297332e-05,
      "loss": 0.7824,
      "step": 218250
    },
    {
      "epoch": 0.29807297121267773,
      "grad_norm": 2.59375,
      "learning_rate": 8.141562250345587e-05,
      "loss": 0.728,
      "step": 218300
    },
    {
      "epoch": 0.2981412426215675,
      "grad_norm": 2.734375,
      "learning_rate": 8.1407108589163e-05,
      "loss": 0.6574,
      "step": 218350
    },
    {
      "epoch": 0.29820951403045726,
      "grad_norm": 8.625,
      "learning_rate": 8.139859317050247e-05,
      "loss": 0.6155,
      "step": 218400
    },
    {
      "epoch": 0.298277785439347,
      "grad_norm": 6.8125,
      "learning_rate": 8.13900762478822e-05,
      "loss": 0.6377,
      "step": 218450
    },
    {
      "epoch": 0.29834605684823673,
      "grad_norm": 2.15625,
      "learning_rate": 8.138155782171013e-05,
      "loss": 0.6358,
      "step": 218500
    },
    {
      "epoch": 0.2984143282571265,
      "grad_norm": 2.8125,
      "learning_rate": 8.137303789239428e-05,
      "loss": 0.5748,
      "step": 218550
    },
    {
      "epoch": 0.29848259966601626,
      "grad_norm": 2.578125,
      "learning_rate": 8.136451646034276e-05,
      "loss": 0.6688,
      "step": 218600
    },
    {
      "epoch": 0.298550871074906,
      "grad_norm": 2.015625,
      "learning_rate": 8.13559935259637e-05,
      "loss": 0.7453,
      "step": 218650
    },
    {
      "epoch": 0.2986191424837958,
      "grad_norm": 2.28125,
      "learning_rate": 8.134746908966538e-05,
      "loss": 0.8025,
      "step": 218700
    },
    {
      "epoch": 0.29868741389268555,
      "grad_norm": 2.140625,
      "learning_rate": 8.133894315185609e-05,
      "loss": 0.7205,
      "step": 218750
    },
    {
      "epoch": 0.2987556853015753,
      "grad_norm": 3.234375,
      "learning_rate": 8.133041571294422e-05,
      "loss": 0.6687,
      "step": 218800
    },
    {
      "epoch": 0.2988239567104651,
      "grad_norm": 3.140625,
      "learning_rate": 8.132188677333823e-05,
      "loss": 0.7796,
      "step": 218850
    },
    {
      "epoch": 0.2988922281193548,
      "grad_norm": 3.15625,
      "learning_rate": 8.131335633344665e-05,
      "loss": 0.7294,
      "step": 218900
    },
    {
      "epoch": 0.29896049952824455,
      "grad_norm": 3.71875,
      "learning_rate": 8.130482439367806e-05,
      "loss": 0.8262,
      "step": 218950
    },
    {
      "epoch": 0.2990287709371343,
      "grad_norm": 2.203125,
      "learning_rate": 8.129629095444115e-05,
      "loss": 0.7033,
      "step": 219000
    },
    {
      "epoch": 0.2990970423460241,
      "grad_norm": 2.59375,
      "learning_rate": 8.128775601614465e-05,
      "loss": 0.546,
      "step": 219050
    },
    {
      "epoch": 0.29916531375491384,
      "grad_norm": 3.359375,
      "learning_rate": 8.127921957919737e-05,
      "loss": 0.6952,
      "step": 219100
    },
    {
      "epoch": 0.2992335851638036,
      "grad_norm": 3.40625,
      "learning_rate": 8.127068164400825e-05,
      "loss": 0.7292,
      "step": 219150
    },
    {
      "epoch": 0.29930185657269337,
      "grad_norm": 2.25,
      "learning_rate": 8.126214221098615e-05,
      "loss": 0.6254,
      "step": 219200
    },
    {
      "epoch": 0.2993701279815831,
      "grad_norm": 3.671875,
      "learning_rate": 8.125360128054019e-05,
      "loss": 0.8438,
      "step": 219250
    },
    {
      "epoch": 0.29943839939047284,
      "grad_norm": 3.75,
      "learning_rate": 8.124505885307943e-05,
      "loss": 0.7685,
      "step": 219300
    },
    {
      "epoch": 0.2995066707993626,
      "grad_norm": 3.578125,
      "learning_rate": 8.123651492901304e-05,
      "loss": 0.7807,
      "step": 219350
    },
    {
      "epoch": 0.29957494220825237,
      "grad_norm": 2.953125,
      "learning_rate": 8.122796950875027e-05,
      "loss": 0.7082,
      "step": 219400
    },
    {
      "epoch": 0.29964321361714213,
      "grad_norm": 2.796875,
      "learning_rate": 8.121942259270044e-05,
      "loss": 0.7475,
      "step": 219450
    },
    {
      "epoch": 0.2997114850260319,
      "grad_norm": 3.3125,
      "learning_rate": 8.121087418127296e-05,
      "loss": 0.7281,
      "step": 219500
    },
    {
      "epoch": 0.29977975643492166,
      "grad_norm": 3.828125,
      "learning_rate": 8.120232427487727e-05,
      "loss": 0.7635,
      "step": 219550
    },
    {
      "epoch": 0.2998480278438114,
      "grad_norm": 4.09375,
      "learning_rate": 8.119377287392287e-05,
      "loss": 0.6809,
      "step": 219600
    },
    {
      "epoch": 0.29991629925270114,
      "grad_norm": 2.953125,
      "learning_rate": 8.118521997881942e-05,
      "loss": 0.6453,
      "step": 219650
    },
    {
      "epoch": 0.2999845706615909,
      "grad_norm": 3.203125,
      "learning_rate": 8.117666558997656e-05,
      "loss": 0.6763,
      "step": 219700
    },
    {
      "epoch": 0.30005284207048066,
      "grad_norm": 8.0,
      "learning_rate": 8.116810970780406e-05,
      "loss": 0.7187,
      "step": 219750
    },
    {
      "epoch": 0.3001211134793704,
      "grad_norm": 2.359375,
      "learning_rate": 8.115955233271171e-05,
      "loss": 0.7707,
      "step": 219800
    },
    {
      "epoch": 0.3001893848882602,
      "grad_norm": 2.9375,
      "learning_rate": 8.115099346510942e-05,
      "loss": 0.6928,
      "step": 219850
    },
    {
      "epoch": 0.30025765629714996,
      "grad_norm": 2.875,
      "learning_rate": 8.114243310540715e-05,
      "loss": 0.6687,
      "step": 219900
    },
    {
      "epoch": 0.3003259277060397,
      "grad_norm": 2.8125,
      "learning_rate": 8.113387125401491e-05,
      "loss": 0.8675,
      "step": 219950
    },
    {
      "epoch": 0.3003941991149294,
      "grad_norm": 2.328125,
      "learning_rate": 8.11253079113428e-05,
      "loss": 0.643,
      "step": 220000
    },
    {
      "epoch": 0.3004624705238192,
      "grad_norm": 3.3125,
      "learning_rate": 8.111674307780106e-05,
      "loss": 0.6693,
      "step": 220050
    },
    {
      "epoch": 0.30053074193270896,
      "grad_norm": 7.90625,
      "learning_rate": 8.110817675379985e-05,
      "loss": 0.6155,
      "step": 220100
    },
    {
      "epoch": 0.3005990133415987,
      "grad_norm": 3.953125,
      "learning_rate": 8.109960893974957e-05,
      "loss": 0.6669,
      "step": 220150
    },
    {
      "epoch": 0.3006672847504885,
      "grad_norm": 8.3125,
      "learning_rate": 8.109103963606053e-05,
      "loss": 0.6534,
      "step": 220200
    },
    {
      "epoch": 0.30073555615937825,
      "grad_norm": 2.921875,
      "learning_rate": 8.108246884314326e-05,
      "loss": 0.6059,
      "step": 220250
    },
    {
      "epoch": 0.300803827568268,
      "grad_norm": 3.21875,
      "learning_rate": 8.107389656140825e-05,
      "loss": 0.7404,
      "step": 220300
    },
    {
      "epoch": 0.3008720989771578,
      "grad_norm": 4.28125,
      "learning_rate": 8.10653227912661e-05,
      "loss": 0.7331,
      "step": 220350
    },
    {
      "epoch": 0.3009403703860475,
      "grad_norm": 7.96875,
      "learning_rate": 8.105674753312751e-05,
      "loss": 0.7441,
      "step": 220400
    },
    {
      "epoch": 0.30100864179493725,
      "grad_norm": 2.703125,
      "learning_rate": 8.104817078740321e-05,
      "loss": 0.7703,
      "step": 220450
    },
    {
      "epoch": 0.301076913203827,
      "grad_norm": 2.609375,
      "learning_rate": 8.103959255450403e-05,
      "loss": 0.6995,
      "step": 220500
    },
    {
      "epoch": 0.3011451846127168,
      "grad_norm": 2.65625,
      "learning_rate": 8.103101283484085e-05,
      "loss": 0.6785,
      "step": 220550
    },
    {
      "epoch": 0.30121345602160654,
      "grad_norm": 3.3125,
      "learning_rate": 8.102243162882461e-05,
      "loss": 0.7278,
      "step": 220600
    },
    {
      "epoch": 0.3012817274304963,
      "grad_norm": 3.859375,
      "learning_rate": 8.10138489368664e-05,
      "loss": 0.9609,
      "step": 220650
    },
    {
      "epoch": 0.30134999883938607,
      "grad_norm": 3.921875,
      "learning_rate": 8.100526475937725e-05,
      "loss": 0.7151,
      "step": 220700
    },
    {
      "epoch": 0.30141827024827583,
      "grad_norm": 2.78125,
      "learning_rate": 8.099667909676838e-05,
      "loss": 0.588,
      "step": 220750
    },
    {
      "epoch": 0.30148654165716554,
      "grad_norm": 3.0,
      "learning_rate": 8.098809194945101e-05,
      "loss": 0.7994,
      "step": 220800
    },
    {
      "epoch": 0.3015548130660553,
      "grad_norm": 3.84375,
      "learning_rate": 8.097950331783648e-05,
      "loss": 0.8205,
      "step": 220850
    },
    {
      "epoch": 0.30162308447494507,
      "grad_norm": 3.328125,
      "learning_rate": 8.097091320233614e-05,
      "loss": 0.8849,
      "step": 220900
    },
    {
      "epoch": 0.30169135588383483,
      "grad_norm": 2.796875,
      "learning_rate": 8.09623216033615e-05,
      "loss": 0.6246,
      "step": 220950
    },
    {
      "epoch": 0.3017596272927246,
      "grad_norm": 3.640625,
      "learning_rate": 8.095372852132403e-05,
      "loss": 0.7485,
      "step": 221000
    },
    {
      "epoch": 0.30182789870161436,
      "grad_norm": 3.75,
      "learning_rate": 8.094513395663537e-05,
      "loss": 0.6442,
      "step": 221050
    },
    {
      "epoch": 0.3018961701105041,
      "grad_norm": 2.453125,
      "learning_rate": 8.093653790970717e-05,
      "loss": 0.8187,
      "step": 221100
    },
    {
      "epoch": 0.30196444151939383,
      "grad_norm": 3.75,
      "learning_rate": 8.092794038095119e-05,
      "loss": 0.8846,
      "step": 221150
    },
    {
      "epoch": 0.3020327129282836,
      "grad_norm": 3.0625,
      "learning_rate": 8.091934137077924e-05,
      "loss": 0.8767,
      "step": 221200
    },
    {
      "epoch": 0.30210098433717336,
      "grad_norm": 2.8125,
      "learning_rate": 8.091074087960317e-05,
      "loss": 0.6197,
      "step": 221250
    },
    {
      "epoch": 0.3021692557460631,
      "grad_norm": 3.078125,
      "learning_rate": 8.090213890783497e-05,
      "loss": 0.876,
      "step": 221300
    },
    {
      "epoch": 0.3022375271549529,
      "grad_norm": 2.265625,
      "learning_rate": 8.089353545588667e-05,
      "loss": 0.7545,
      "step": 221350
    },
    {
      "epoch": 0.30230579856384265,
      "grad_norm": 2.546875,
      "learning_rate": 8.088493052417034e-05,
      "loss": 0.8254,
      "step": 221400
    },
    {
      "epoch": 0.3023740699727324,
      "grad_norm": 4.53125,
      "learning_rate": 8.087632411309818e-05,
      "loss": 0.7099,
      "step": 221450
    },
    {
      "epoch": 0.3024423413816222,
      "grad_norm": 2.796875,
      "learning_rate": 8.086771622308238e-05,
      "loss": 0.707,
      "step": 221500
    },
    {
      "epoch": 0.3025106127905119,
      "grad_norm": 2.40625,
      "learning_rate": 8.085910685453528e-05,
      "loss": 0.7142,
      "step": 221550
    },
    {
      "epoch": 0.30257888419940165,
      "grad_norm": 2.484375,
      "learning_rate": 8.085049600786929e-05,
      "loss": 0.7544,
      "step": 221600
    },
    {
      "epoch": 0.3026471556082914,
      "grad_norm": 2.75,
      "learning_rate": 8.084188368349679e-05,
      "loss": 0.871,
      "step": 221650
    },
    {
      "epoch": 0.3027154270171812,
      "grad_norm": 2.875,
      "learning_rate": 8.083326988183035e-05,
      "loss": 0.6849,
      "step": 221700
    },
    {
      "epoch": 0.30278369842607095,
      "grad_norm": 7.15625,
      "learning_rate": 8.082465460328256e-05,
      "loss": 0.7823,
      "step": 221750
    },
    {
      "epoch": 0.3028519698349607,
      "grad_norm": 3.84375,
      "learning_rate": 8.081603784826606e-05,
      "loss": 0.914,
      "step": 221800
    },
    {
      "epoch": 0.3029202412438505,
      "grad_norm": 3.703125,
      "learning_rate": 8.08074196171936e-05,
      "loss": 0.6851,
      "step": 221850
    },
    {
      "epoch": 0.3029885126527402,
      "grad_norm": 3.90625,
      "learning_rate": 8.079879991047798e-05,
      "loss": 0.7858,
      "step": 221900
    },
    {
      "epoch": 0.30305678406162995,
      "grad_norm": 4.9375,
      "learning_rate": 8.079017872853209e-05,
      "loss": 0.8478,
      "step": 221950
    },
    {
      "epoch": 0.3031250554705197,
      "grad_norm": 3.15625,
      "learning_rate": 8.078155607176884e-05,
      "loss": 0.7757,
      "step": 222000
    },
    {
      "epoch": 0.3031933268794095,
      "grad_norm": 2.453125,
      "learning_rate": 8.077293194060127e-05,
      "loss": 0.7062,
      "step": 222050
    },
    {
      "epoch": 0.30326159828829924,
      "grad_norm": 2.5,
      "learning_rate": 8.076430633544249e-05,
      "loss": 0.6518,
      "step": 222100
    },
    {
      "epoch": 0.303329869697189,
      "grad_norm": 3.578125,
      "learning_rate": 8.075567925670559e-05,
      "loss": 0.7659,
      "step": 222150
    },
    {
      "epoch": 0.30339814110607877,
      "grad_norm": 2.4375,
      "learning_rate": 8.074705070480389e-05,
      "loss": 0.8249,
      "step": 222200
    },
    {
      "epoch": 0.30346641251496853,
      "grad_norm": 2.484375,
      "learning_rate": 8.073842068015061e-05,
      "loss": 0.8396,
      "step": 222250
    },
    {
      "epoch": 0.30353468392385824,
      "grad_norm": 2.96875,
      "learning_rate": 8.072978918315915e-05,
      "loss": 0.6934,
      "step": 222300
    },
    {
      "epoch": 0.303602955332748,
      "grad_norm": 6.75,
      "learning_rate": 8.072115621424295e-05,
      "loss": 0.7306,
      "step": 222350
    },
    {
      "epoch": 0.30367122674163777,
      "grad_norm": 12.875,
      "learning_rate": 8.071252177381552e-05,
      "loss": 0.781,
      "step": 222400
    },
    {
      "epoch": 0.30373949815052753,
      "grad_norm": 4.3125,
      "learning_rate": 8.070388586229043e-05,
      "loss": 0.7663,
      "step": 222450
    },
    {
      "epoch": 0.3038077695594173,
      "grad_norm": 3.25,
      "learning_rate": 8.069524848008134e-05,
      "loss": 0.8095,
      "step": 222500
    },
    {
      "epoch": 0.30387604096830706,
      "grad_norm": 3.234375,
      "learning_rate": 8.068660962760197e-05,
      "loss": 0.8182,
      "step": 222550
    },
    {
      "epoch": 0.3039443123771968,
      "grad_norm": 4.0,
      "learning_rate": 8.067796930526614e-05,
      "loss": 0.784,
      "step": 222600
    },
    {
      "epoch": 0.3040125837860866,
      "grad_norm": 3.390625,
      "learning_rate": 8.066932751348765e-05,
      "loss": 0.7673,
      "step": 222650
    },
    {
      "epoch": 0.3040808551949763,
      "grad_norm": 3.265625,
      "learning_rate": 8.066068425268048e-05,
      "loss": 0.8676,
      "step": 222700
    },
    {
      "epoch": 0.30414912660386606,
      "grad_norm": 3.3125,
      "learning_rate": 8.065203952325863e-05,
      "loss": 0.7421,
      "step": 222750
    },
    {
      "epoch": 0.3042173980127558,
      "grad_norm": 2.703125,
      "learning_rate": 8.064339332563615e-05,
      "loss": 0.7921,
      "step": 222800
    },
    {
      "epoch": 0.3042856694216456,
      "grad_norm": 2.3125,
      "learning_rate": 8.063474566022722e-05,
      "loss": 0.7737,
      "step": 222850
    },
    {
      "epoch": 0.30435394083053535,
      "grad_norm": 4.125,
      "learning_rate": 8.062609652744601e-05,
      "loss": 0.6488,
      "step": 222900
    },
    {
      "epoch": 0.3044222122394251,
      "grad_norm": 3.109375,
      "learning_rate": 8.061744592770683e-05,
      "loss": 0.791,
      "step": 222950
    },
    {
      "epoch": 0.3044904836483149,
      "grad_norm": 3.296875,
      "learning_rate": 8.060879386142406e-05,
      "loss": 0.8018,
      "step": 223000
    },
    {
      "epoch": 0.3045587550572046,
      "grad_norm": 3.046875,
      "learning_rate": 8.060014032901208e-05,
      "loss": 0.844,
      "step": 223050
    },
    {
      "epoch": 0.30462702646609435,
      "grad_norm": 3.96875,
      "learning_rate": 8.05914853308854e-05,
      "loss": 0.6623,
      "step": 223100
    },
    {
      "epoch": 0.3046952978749841,
      "grad_norm": 3.40625,
      "learning_rate": 8.058282886745858e-05,
      "loss": 0.6306,
      "step": 223150
    },
    {
      "epoch": 0.3047635692838739,
      "grad_norm": 3.875,
      "learning_rate": 8.057417093914627e-05,
      "loss": 0.7639,
      "step": 223200
    },
    {
      "epoch": 0.30483184069276364,
      "grad_norm": 3.921875,
      "learning_rate": 8.056551154636317e-05,
      "loss": 0.7831,
      "step": 223250
    },
    {
      "epoch": 0.3049001121016534,
      "grad_norm": 3.421875,
      "learning_rate": 8.055685068952405e-05,
      "loss": 0.5837,
      "step": 223300
    },
    {
      "epoch": 0.3049683835105432,
      "grad_norm": 2.453125,
      "learning_rate": 8.054818836904377e-05,
      "loss": 0.7352,
      "step": 223350
    },
    {
      "epoch": 0.30503665491943294,
      "grad_norm": 2.390625,
      "learning_rate": 8.053952458533723e-05,
      "loss": 0.753,
      "step": 223400
    },
    {
      "epoch": 0.30510492632832265,
      "grad_norm": 2.375,
      "learning_rate": 8.053085933881941e-05,
      "loss": 0.7812,
      "step": 223450
    },
    {
      "epoch": 0.3051731977372124,
      "grad_norm": 2.734375,
      "learning_rate": 8.052219262990541e-05,
      "loss": 0.6528,
      "step": 223500
    },
    {
      "epoch": 0.3052414691461022,
      "grad_norm": 2.5,
      "learning_rate": 8.05135244590103e-05,
      "loss": 0.676,
      "step": 223550
    },
    {
      "epoch": 0.30530974055499194,
      "grad_norm": 3.125,
      "learning_rate": 8.050485482654931e-05,
      "loss": 0.7809,
      "step": 223600
    },
    {
      "epoch": 0.3053780119638817,
      "grad_norm": 2.421875,
      "learning_rate": 8.049618373293769e-05,
      "loss": 0.7231,
      "step": 223650
    },
    {
      "epoch": 0.30544628337277147,
      "grad_norm": 2.5625,
      "learning_rate": 8.048751117859079e-05,
      "loss": 0.7137,
      "step": 223700
    },
    {
      "epoch": 0.30551455478166123,
      "grad_norm": 2.421875,
      "learning_rate": 8.047883716392401e-05,
      "loss": 0.9085,
      "step": 223750
    },
    {
      "epoch": 0.30558282619055094,
      "grad_norm": 2.390625,
      "learning_rate": 8.047016168935282e-05,
      "loss": 0.8235,
      "step": 223800
    },
    {
      "epoch": 0.3056510975994407,
      "grad_norm": 7.09375,
      "learning_rate": 8.046148475529278e-05,
      "loss": 0.9149,
      "step": 223850
    },
    {
      "epoch": 0.30571936900833047,
      "grad_norm": 4.4375,
      "learning_rate": 8.045280636215951e-05,
      "loss": 0.8585,
      "step": 223900
    },
    {
      "epoch": 0.30578764041722023,
      "grad_norm": 3.078125,
      "learning_rate": 8.044412651036867e-05,
      "loss": 0.8122,
      "step": 223950
    },
    {
      "epoch": 0.30585591182611,
      "grad_norm": 2.375,
      "learning_rate": 8.043544520033604e-05,
      "loss": 0.7535,
      "step": 224000
    },
    {
      "epoch": 0.30592418323499976,
      "grad_norm": 3.125,
      "learning_rate": 8.042676243247741e-05,
      "loss": 0.6411,
      "step": 224050
    },
    {
      "epoch": 0.3059924546438895,
      "grad_norm": 3.328125,
      "learning_rate": 8.041807820720872e-05,
      "loss": 0.7539,
      "step": 224100
    },
    {
      "epoch": 0.3060607260527793,
      "grad_norm": 3.5,
      "learning_rate": 8.040939252494595e-05,
      "loss": 0.7349,
      "step": 224150
    },
    {
      "epoch": 0.306128997461669,
      "grad_norm": 2.4375,
      "learning_rate": 8.040070538610507e-05,
      "loss": 0.8275,
      "step": 224200
    },
    {
      "epoch": 0.30619726887055876,
      "grad_norm": 2.1875,
      "learning_rate": 8.039201679110223e-05,
      "loss": 0.6016,
      "step": 224250
    },
    {
      "epoch": 0.3062655402794485,
      "grad_norm": 8.4375,
      "learning_rate": 8.038332674035356e-05,
      "loss": 0.7511,
      "step": 224300
    },
    {
      "epoch": 0.3063338116883383,
      "grad_norm": 3.890625,
      "learning_rate": 8.037463523427535e-05,
      "loss": 0.6298,
      "step": 224350
    },
    {
      "epoch": 0.30640208309722805,
      "grad_norm": 3.59375,
      "learning_rate": 8.036594227328392e-05,
      "loss": 0.643,
      "step": 224400
    },
    {
      "epoch": 0.3064703545061178,
      "grad_norm": 2.5,
      "learning_rate": 8.035724785779561e-05,
      "loss": 0.6803,
      "step": 224450
    },
    {
      "epoch": 0.3065386259150076,
      "grad_norm": 3.796875,
      "learning_rate": 8.03485519882269e-05,
      "loss": 0.8936,
      "step": 224500
    },
    {
      "epoch": 0.3066068973238973,
      "grad_norm": 3.78125,
      "learning_rate": 8.033985466499434e-05,
      "loss": 0.652,
      "step": 224550
    },
    {
      "epoch": 0.30667516873278705,
      "grad_norm": 3.234375,
      "learning_rate": 8.033115588851446e-05,
      "loss": 0.5791,
      "step": 224600
    },
    {
      "epoch": 0.3067434401416768,
      "grad_norm": 3.09375,
      "learning_rate": 8.032245565920398e-05,
      "loss": 0.7001,
      "step": 224650
    },
    {
      "epoch": 0.3068117115505666,
      "grad_norm": 2.296875,
      "learning_rate": 8.031375397747957e-05,
      "loss": 0.7679,
      "step": 224700
    },
    {
      "epoch": 0.30687998295945634,
      "grad_norm": 3.3125,
      "learning_rate": 8.03050508437581e-05,
      "loss": 0.7849,
      "step": 224750
    },
    {
      "epoch": 0.3069482543683461,
      "grad_norm": 2.515625,
      "learning_rate": 8.029634625845641e-05,
      "loss": 0.7378,
      "step": 224800
    },
    {
      "epoch": 0.30701652577723587,
      "grad_norm": 2.203125,
      "learning_rate": 8.028764022199143e-05,
      "loss": 0.6451,
      "step": 224850
    },
    {
      "epoch": 0.30708479718612564,
      "grad_norm": 7.0625,
      "learning_rate": 8.027893273478018e-05,
      "loss": 0.6436,
      "step": 224900
    },
    {
      "epoch": 0.30715306859501534,
      "grad_norm": 7.5625,
      "learning_rate": 8.027022379723973e-05,
      "loss": 0.7103,
      "step": 224950
    },
    {
      "epoch": 0.3072213400039051,
      "grad_norm": 3.21875,
      "learning_rate": 8.026151340978725e-05,
      "loss": 0.7656,
      "step": 225000
    },
    {
      "epoch": 0.30728961141279487,
      "grad_norm": 3.3125,
      "learning_rate": 8.025280157283997e-05,
      "loss": 0.8136,
      "step": 225050
    },
    {
      "epoch": 0.30735788282168464,
      "grad_norm": 2.53125,
      "learning_rate": 8.024408828681513e-05,
      "loss": 0.7058,
      "step": 225100
    },
    {
      "epoch": 0.3074261542305744,
      "grad_norm": 7.8125,
      "learning_rate": 8.023537355213011e-05,
      "loss": 0.7129,
      "step": 225150
    },
    {
      "epoch": 0.30749442563946416,
      "grad_norm": 3.71875,
      "learning_rate": 8.022665736920234e-05,
      "loss": 0.8673,
      "step": 225200
    },
    {
      "epoch": 0.30756269704835393,
      "grad_norm": 3.0,
      "learning_rate": 8.021793973844931e-05,
      "loss": 0.8344,
      "step": 225250
    },
    {
      "epoch": 0.3076309684572437,
      "grad_norm": 2.359375,
      "learning_rate": 8.02092206602886e-05,
      "loss": 0.7312,
      "step": 225300
    },
    {
      "epoch": 0.3076992398661334,
      "grad_norm": 3.109375,
      "learning_rate": 8.020050013513785e-05,
      "loss": 0.5942,
      "step": 225350
    },
    {
      "epoch": 0.30776751127502316,
      "grad_norm": 2.140625,
      "learning_rate": 8.019177816341472e-05,
      "loss": 0.7317,
      "step": 225400
    },
    {
      "epoch": 0.30783578268391293,
      "grad_norm": 7.5625,
      "learning_rate": 8.018305474553703e-05,
      "loss": 0.7985,
      "step": 225450
    },
    {
      "epoch": 0.3079040540928027,
      "grad_norm": 3.015625,
      "learning_rate": 8.01743298819226e-05,
      "loss": 0.6961,
      "step": 225500
    },
    {
      "epoch": 0.30797232550169246,
      "grad_norm": 3.65625,
      "learning_rate": 8.016560357298935e-05,
      "loss": 0.8414,
      "step": 225550
    },
    {
      "epoch": 0.3080405969105822,
      "grad_norm": 2.484375,
      "learning_rate": 8.015687581915525e-05,
      "loss": 0.8869,
      "step": 225600
    },
    {
      "epoch": 0.308108868319472,
      "grad_norm": 2.421875,
      "learning_rate": 8.014814662083836e-05,
      "loss": 0.7739,
      "step": 225650
    },
    {
      "epoch": 0.3081771397283617,
      "grad_norm": 8.4375,
      "learning_rate": 8.013941597845681e-05,
      "loss": 0.6883,
      "step": 225700
    },
    {
      "epoch": 0.30824541113725146,
      "grad_norm": 2.578125,
      "learning_rate": 8.013068389242877e-05,
      "loss": 0.7874,
      "step": 225750
    },
    {
      "epoch": 0.3083136825461412,
      "grad_norm": 2.515625,
      "learning_rate": 8.012195036317249e-05,
      "loss": 0.7972,
      "step": 225800
    },
    {
      "epoch": 0.308381953955031,
      "grad_norm": 3.609375,
      "learning_rate": 8.011321539110633e-05,
      "loss": 0.8017,
      "step": 225850
    },
    {
      "epoch": 0.30845022536392075,
      "grad_norm": 3.0625,
      "learning_rate": 8.010447897664866e-05,
      "loss": 0.7638,
      "step": 225900
    },
    {
      "epoch": 0.3085184967728105,
      "grad_norm": 3.25,
      "learning_rate": 8.009574112021795e-05,
      "loss": 0.7689,
      "step": 225950
    },
    {
      "epoch": 0.3085867681817003,
      "grad_norm": 7.96875,
      "learning_rate": 8.008700182223275e-05,
      "loss": 0.7384,
      "step": 226000
    },
    {
      "epoch": 0.30865503959059004,
      "grad_norm": 2.84375,
      "learning_rate": 8.007826108311163e-05,
      "loss": 0.9498,
      "step": 226050
    },
    {
      "epoch": 0.30872331099947975,
      "grad_norm": 3.234375,
      "learning_rate": 8.006951890327328e-05,
      "loss": 0.728,
      "step": 226100
    },
    {
      "epoch": 0.3087915824083695,
      "grad_norm": 4.15625,
      "learning_rate": 8.006077528313645e-05,
      "loss": 0.8304,
      "step": 226150
    },
    {
      "epoch": 0.3088598538172593,
      "grad_norm": 3.21875,
      "learning_rate": 8.005203022311996e-05,
      "loss": 0.8716,
      "step": 226200
    },
    {
      "epoch": 0.30892812522614904,
      "grad_norm": 3.859375,
      "learning_rate": 8.004328372364265e-05,
      "loss": 0.7101,
      "step": 226250
    },
    {
      "epoch": 0.3089963966350388,
      "grad_norm": 2.640625,
      "learning_rate": 8.003453578512349e-05,
      "loss": 0.7321,
      "step": 226300
    },
    {
      "epoch": 0.30906466804392857,
      "grad_norm": 4.375,
      "learning_rate": 8.002578640798151e-05,
      "loss": 0.6948,
      "step": 226350
    },
    {
      "epoch": 0.30913293945281833,
      "grad_norm": 2.984375,
      "learning_rate": 8.001703559263578e-05,
      "loss": 0.7411,
      "step": 226400
    },
    {
      "epoch": 0.30920121086170804,
      "grad_norm": 3.671875,
      "learning_rate": 8.000828333950546e-05,
      "loss": 0.6377,
      "step": 226450
    },
    {
      "epoch": 0.3092694822705978,
      "grad_norm": 2.453125,
      "learning_rate": 7.999952964900977e-05,
      "loss": 0.5814,
      "step": 226500
    },
    {
      "epoch": 0.30933775367948757,
      "grad_norm": 4.03125,
      "learning_rate": 7.9990774521568e-05,
      "loss": 0.8509,
      "step": 226550
    },
    {
      "epoch": 0.30940602508837733,
      "grad_norm": 2.484375,
      "learning_rate": 7.998201795759953e-05,
      "loss": 0.737,
      "step": 226600
    },
    {
      "epoch": 0.3094742964972671,
      "grad_norm": 2.75,
      "learning_rate": 7.997325995752376e-05,
      "loss": 0.5874,
      "step": 226650
    },
    {
      "epoch": 0.30954256790615686,
      "grad_norm": 3.296875,
      "learning_rate": 7.996450052176024e-05,
      "loss": 0.6854,
      "step": 226700
    },
    {
      "epoch": 0.3096108393150466,
      "grad_norm": 2.6875,
      "learning_rate": 7.995573965072847e-05,
      "loss": 0.6545,
      "step": 226750
    },
    {
      "epoch": 0.3096791107239364,
      "grad_norm": 2.234375,
      "learning_rate": 7.99469773448481e-05,
      "loss": 0.7428,
      "step": 226800
    },
    {
      "epoch": 0.3097473821328261,
      "grad_norm": 7.84375,
      "learning_rate": 7.99382136045389e-05,
      "loss": 0.7091,
      "step": 226850
    },
    {
      "epoch": 0.30981565354171586,
      "grad_norm": 3.0625,
      "learning_rate": 7.992944843022058e-05,
      "loss": 0.8404,
      "step": 226900
    },
    {
      "epoch": 0.3098839249506056,
      "grad_norm": 3.796875,
      "learning_rate": 7.992068182231301e-05,
      "loss": 0.6605,
      "step": 226950
    },
    {
      "epoch": 0.3099521963594954,
      "grad_norm": 2.90625,
      "learning_rate": 7.991191378123609e-05,
      "loss": 0.705,
      "step": 227000
    },
    {
      "epoch": 0.31002046776838516,
      "grad_norm": 4.28125,
      "learning_rate": 7.990314430740981e-05,
      "loss": 0.7251,
      "step": 227050
    },
    {
      "epoch": 0.3100887391772749,
      "grad_norm": 2.828125,
      "learning_rate": 7.98943734012542e-05,
      "loss": 0.7271,
      "step": 227100
    },
    {
      "epoch": 0.3101570105861647,
      "grad_norm": 3.765625,
      "learning_rate": 7.988560106318939e-05,
      "loss": 0.695,
      "step": 227150
    },
    {
      "epoch": 0.3102252819950544,
      "grad_norm": 2.40625,
      "learning_rate": 7.987682729363557e-05,
      "loss": 0.567,
      "step": 227200
    },
    {
      "epoch": 0.31029355340394416,
      "grad_norm": 3.46875,
      "learning_rate": 7.9868052093013e-05,
      "loss": 0.8277,
      "step": 227250
    },
    {
      "epoch": 0.3103618248128339,
      "grad_norm": 3.21875,
      "learning_rate": 7.985927546174197e-05,
      "loss": 0.7853,
      "step": 227300
    },
    {
      "epoch": 0.3104300962217237,
      "grad_norm": 7.75,
      "learning_rate": 7.98504974002429e-05,
      "loss": 0.7949,
      "step": 227350
    },
    {
      "epoch": 0.31049836763061345,
      "grad_norm": 3.078125,
      "learning_rate": 7.984171790893625e-05,
      "loss": 0.734,
      "step": 227400
    },
    {
      "epoch": 0.3105666390395032,
      "grad_norm": 3.875,
      "learning_rate": 7.983293698824255e-05,
      "loss": 0.6401,
      "step": 227450
    },
    {
      "epoch": 0.310634910448393,
      "grad_norm": 4.59375,
      "learning_rate": 7.982415463858238e-05,
      "loss": 0.6463,
      "step": 227500
    },
    {
      "epoch": 0.31070318185728274,
      "grad_norm": 3.53125,
      "learning_rate": 7.98153708603764e-05,
      "loss": 0.6867,
      "step": 227550
    },
    {
      "epoch": 0.31077145326617245,
      "grad_norm": 2.234375,
      "learning_rate": 7.980658565404539e-05,
      "loss": 0.6575,
      "step": 227600
    },
    {
      "epoch": 0.3108397246750622,
      "grad_norm": 3.09375,
      "learning_rate": 7.97977990200101e-05,
      "loss": 0.8236,
      "step": 227650
    },
    {
      "epoch": 0.310907996083952,
      "grad_norm": 3.34375,
      "learning_rate": 7.978901095869141e-05,
      "loss": 0.6349,
      "step": 227700
    },
    {
      "epoch": 0.31097626749284174,
      "grad_norm": 7.5625,
      "learning_rate": 7.978022147051029e-05,
      "loss": 0.7161,
      "step": 227750
    },
    {
      "epoch": 0.3110445389017315,
      "grad_norm": 2.96875,
      "learning_rate": 7.977143055588773e-05,
      "loss": 0.8682,
      "step": 227800
    },
    {
      "epoch": 0.31111281031062127,
      "grad_norm": 3.3125,
      "learning_rate": 7.976263821524479e-05,
      "loss": 0.6403,
      "step": 227850
    },
    {
      "epoch": 0.31118108171951103,
      "grad_norm": 4.125,
      "learning_rate": 7.975384444900262e-05,
      "loss": 0.5814,
      "step": 227900
    },
    {
      "epoch": 0.3112493531284008,
      "grad_norm": 2.53125,
      "learning_rate": 7.974504925758246e-05,
      "loss": 0.8866,
      "step": 227950
    },
    {
      "epoch": 0.3113176245372905,
      "grad_norm": 10.25,
      "learning_rate": 7.973625264140557e-05,
      "loss": 0.8856,
      "step": 228000
    },
    {
      "epoch": 0.31138589594618027,
      "grad_norm": 7.5625,
      "learning_rate": 7.972745460089328e-05,
      "loss": 0.7974,
      "step": 228050
    },
    {
      "epoch": 0.31145416735507003,
      "grad_norm": 3.859375,
      "learning_rate": 7.971865513646702e-05,
      "loss": 0.6813,
      "step": 228100
    },
    {
      "epoch": 0.3115224387639598,
      "grad_norm": 3.625,
      "learning_rate": 7.970985424854831e-05,
      "loss": 0.7477,
      "step": 228150
    },
    {
      "epoch": 0.31159071017284956,
      "grad_norm": 2.421875,
      "learning_rate": 7.970105193755865e-05,
      "loss": 0.721,
      "step": 228200
    },
    {
      "epoch": 0.3116589815817393,
      "grad_norm": 3.640625,
      "learning_rate": 7.969224820391969e-05,
      "loss": 0.834,
      "step": 228250
    },
    {
      "epoch": 0.3117272529906291,
      "grad_norm": 3.25,
      "learning_rate": 7.968344304805312e-05,
      "loss": 0.6959,
      "step": 228300
    },
    {
      "epoch": 0.3117955243995188,
      "grad_norm": 8.0,
      "learning_rate": 7.967463647038068e-05,
      "loss": 0.7004,
      "step": 228350
    },
    {
      "epoch": 0.31186379580840856,
      "grad_norm": 3.34375,
      "learning_rate": 7.966582847132422e-05,
      "loss": 0.6802,
      "step": 228400
    },
    {
      "epoch": 0.3119320672172983,
      "grad_norm": 8.125,
      "learning_rate": 7.965701905130563e-05,
      "loss": 0.6158,
      "step": 228450
    },
    {
      "epoch": 0.3120003386261881,
      "grad_norm": 2.734375,
      "learning_rate": 7.964820821074686e-05,
      "loss": 0.8213,
      "step": 228500
    },
    {
      "epoch": 0.31206861003507785,
      "grad_norm": 4.65625,
      "learning_rate": 7.963939595006993e-05,
      "loss": 0.7413,
      "step": 228550
    },
    {
      "epoch": 0.3121368814439676,
      "grad_norm": 4.1875,
      "learning_rate": 7.963058226969696e-05,
      "loss": 0.8288,
      "step": 228600
    },
    {
      "epoch": 0.3122051528528574,
      "grad_norm": 7.78125,
      "learning_rate": 7.96217671700501e-05,
      "loss": 0.7209,
      "step": 228650
    },
    {
      "epoch": 0.31227342426174715,
      "grad_norm": 7.53125,
      "learning_rate": 7.961295065155162e-05,
      "loss": 0.7856,
      "step": 228700
    },
    {
      "epoch": 0.31234169567063685,
      "grad_norm": 3.703125,
      "learning_rate": 7.960413271462377e-05,
      "loss": 0.7559,
      "step": 228750
    },
    {
      "epoch": 0.3124099670795266,
      "grad_norm": 3.734375,
      "learning_rate": 7.959531335968895e-05,
      "loss": 0.6535,
      "step": 228800
    },
    {
      "epoch": 0.3124782384884164,
      "grad_norm": 3.203125,
      "learning_rate": 7.958649258716959e-05,
      "loss": 0.7036,
      "step": 228850
    },
    {
      "epoch": 0.31254650989730615,
      "grad_norm": 2.78125,
      "learning_rate": 7.95776703974882e-05,
      "loss": 0.9319,
      "step": 228900
    },
    {
      "epoch": 0.3126147813061959,
      "grad_norm": 2.921875,
      "learning_rate": 7.956884679106735e-05,
      "loss": 0.5836,
      "step": 228950
    },
    {
      "epoch": 0.3126830527150857,
      "grad_norm": 3.109375,
      "learning_rate": 7.956002176832968e-05,
      "loss": 0.8352,
      "step": 229000
    },
    {
      "epoch": 0.31275132412397544,
      "grad_norm": 7.875,
      "learning_rate": 7.955119532969792e-05,
      "loss": 0.6292,
      "step": 229050
    },
    {
      "epoch": 0.31281959553286515,
      "grad_norm": 8.5,
      "learning_rate": 7.954236747559481e-05,
      "loss": 0.6722,
      "step": 229100
    },
    {
      "epoch": 0.3128878669417549,
      "grad_norm": 3.015625,
      "learning_rate": 7.953353820644322e-05,
      "loss": 0.8959,
      "step": 229150
    },
    {
      "epoch": 0.3129561383506447,
      "grad_norm": 7.09375,
      "learning_rate": 7.952470752266606e-05,
      "loss": 0.8963,
      "step": 229200
    },
    {
      "epoch": 0.31302440975953444,
      "grad_norm": 3.5,
      "learning_rate": 7.95158754246863e-05,
      "loss": 0.6825,
      "step": 229250
    },
    {
      "epoch": 0.3130926811684242,
      "grad_norm": 3.109375,
      "learning_rate": 7.950704191292701e-05,
      "loss": 0.7314,
      "step": 229300
    },
    {
      "epoch": 0.31316095257731397,
      "grad_norm": 3.203125,
      "learning_rate": 7.94982069878113e-05,
      "loss": 0.5849,
      "step": 229350
    },
    {
      "epoch": 0.31322922398620373,
      "grad_norm": 2.96875,
      "learning_rate": 7.948937064976233e-05,
      "loss": 0.669,
      "step": 229400
    },
    {
      "epoch": 0.3132974953950935,
      "grad_norm": 2.671875,
      "learning_rate": 7.948053289920337e-05,
      "loss": 0.728,
      "step": 229450
    },
    {
      "epoch": 0.3133657668039832,
      "grad_norm": 3.046875,
      "learning_rate": 7.947169373655774e-05,
      "loss": 0.5732,
      "step": 229500
    },
    {
      "epoch": 0.31343403821287297,
      "grad_norm": 3.21875,
      "learning_rate": 7.946285316224882e-05,
      "loss": 0.7732,
      "step": 229550
    },
    {
      "epoch": 0.31350230962176273,
      "grad_norm": 3.328125,
      "learning_rate": 7.945401117670006e-05,
      "loss": 0.9433,
      "step": 229600
    },
    {
      "epoch": 0.3135705810306525,
      "grad_norm": 4.5,
      "learning_rate": 7.944516778033499e-05,
      "loss": 0.7635,
      "step": 229650
    },
    {
      "epoch": 0.31363885243954226,
      "grad_norm": 3.078125,
      "learning_rate": 7.943632297357721e-05,
      "loss": 0.8471,
      "step": 229700
    },
    {
      "epoch": 0.313707123848432,
      "grad_norm": 2.984375,
      "learning_rate": 7.942747675685036e-05,
      "loss": 0.7458,
      "step": 229750
    },
    {
      "epoch": 0.3137753952573218,
      "grad_norm": 3.84375,
      "learning_rate": 7.941862913057816e-05,
      "loss": 0.7362,
      "step": 229800
    },
    {
      "epoch": 0.31384366666621155,
      "grad_norm": 2.296875,
      "learning_rate": 7.940978009518442e-05,
      "loss": 0.6537,
      "step": 229850
    },
    {
      "epoch": 0.31391193807510126,
      "grad_norm": 2.734375,
      "learning_rate": 7.9400929651093e-05,
      "loss": 0.7554,
      "step": 229900
    },
    {
      "epoch": 0.313980209483991,
      "grad_norm": 2.921875,
      "learning_rate": 7.939207779872782e-05,
      "loss": 0.7902,
      "step": 229950
    },
    {
      "epoch": 0.3140484808928808,
      "grad_norm": 7.03125,
      "learning_rate": 7.938322453851286e-05,
      "loss": 0.7985,
      "step": 230000
    },
    {
      "epoch": 0.31411675230177055,
      "grad_norm": 4.40625,
      "learning_rate": 7.937436987087219e-05,
      "loss": 0.7528,
      "step": 230050
    },
    {
      "epoch": 0.3141850237106603,
      "grad_norm": 6.875,
      "learning_rate": 7.936551379622995e-05,
      "loss": 0.7433,
      "step": 230100
    },
    {
      "epoch": 0.3142532951195501,
      "grad_norm": 2.40625,
      "learning_rate": 7.935665631501032e-05,
      "loss": 0.4541,
      "step": 230150
    },
    {
      "epoch": 0.31432156652843984,
      "grad_norm": 2.1875,
      "learning_rate": 7.93477974276376e-05,
      "loss": 0.7678,
      "step": 230200
    },
    {
      "epoch": 0.31438983793732955,
      "grad_norm": 3.96875,
      "learning_rate": 7.933893713453609e-05,
      "loss": 0.7656,
      "step": 230250
    },
    {
      "epoch": 0.3144581093462193,
      "grad_norm": 2.421875,
      "learning_rate": 7.933007543613019e-05,
      "loss": 0.5948,
      "step": 230300
    },
    {
      "epoch": 0.3145263807551091,
      "grad_norm": 3.171875,
      "learning_rate": 7.932121233284438e-05,
      "loss": 0.7197,
      "step": 230350
    },
    {
      "epoch": 0.31459465216399884,
      "grad_norm": 2.78125,
      "learning_rate": 7.931234782510317e-05,
      "loss": 0.7675,
      "step": 230400
    },
    {
      "epoch": 0.3146629235728886,
      "grad_norm": 3.421875,
      "learning_rate": 7.930348191333118e-05,
      "loss": 0.7874,
      "step": 230450
    },
    {
      "epoch": 0.3147311949817784,
      "grad_norm": 2.96875,
      "learning_rate": 7.929461459795306e-05,
      "loss": 0.8911,
      "step": 230500
    },
    {
      "epoch": 0.31479946639066814,
      "grad_norm": 7.53125,
      "learning_rate": 7.928574587939359e-05,
      "loss": 0.856,
      "step": 230550
    },
    {
      "epoch": 0.3148677377995579,
      "grad_norm": 3.078125,
      "learning_rate": 7.927687575807751e-05,
      "loss": 0.8713,
      "step": 230600
    },
    {
      "epoch": 0.3149360092084476,
      "grad_norm": 7.4375,
      "learning_rate": 7.926800423442974e-05,
      "loss": 0.6852,
      "step": 230650
    },
    {
      "epoch": 0.3150042806173374,
      "grad_norm": 3.984375,
      "learning_rate": 7.925913130887519e-05,
      "loss": 0.7232,
      "step": 230700
    },
    {
      "epoch": 0.31507255202622714,
      "grad_norm": 3.84375,
      "learning_rate": 7.925025698183887e-05,
      "loss": 0.7087,
      "step": 230750
    },
    {
      "epoch": 0.3151408234351169,
      "grad_norm": 3.625,
      "learning_rate": 7.924138125374585e-05,
      "loss": 0.7456,
      "step": 230800
    },
    {
      "epoch": 0.31520909484400667,
      "grad_norm": 3.53125,
      "learning_rate": 7.923250412502127e-05,
      "loss": 0.7239,
      "step": 230850
    },
    {
      "epoch": 0.31527736625289643,
      "grad_norm": 2.1875,
      "learning_rate": 7.922362559609035e-05,
      "loss": 0.8519,
      "step": 230900
    },
    {
      "epoch": 0.3153456376617862,
      "grad_norm": 3.0625,
      "learning_rate": 7.921474566737833e-05,
      "loss": 0.8319,
      "step": 230950
    },
    {
      "epoch": 0.3154139090706759,
      "grad_norm": 3.265625,
      "learning_rate": 7.920586433931056e-05,
      "loss": 0.7617,
      "step": 231000
    },
    {
      "epoch": 0.31548218047956567,
      "grad_norm": 4.15625,
      "learning_rate": 7.919698161231248e-05,
      "loss": 0.7496,
      "step": 231050
    },
    {
      "epoch": 0.31555045188845543,
      "grad_norm": 7.46875,
      "learning_rate": 7.91880974868095e-05,
      "loss": 0.7623,
      "step": 231100
    },
    {
      "epoch": 0.3156187232973452,
      "grad_norm": 3.078125,
      "learning_rate": 7.917921196322723e-05,
      "loss": 0.7504,
      "step": 231150
    },
    {
      "epoch": 0.31568699470623496,
      "grad_norm": 2.4375,
      "learning_rate": 7.917032504199124e-05,
      "loss": 0.7333,
      "step": 231200
    },
    {
      "epoch": 0.3157552661151247,
      "grad_norm": 3.0625,
      "learning_rate": 7.916143672352718e-05,
      "loss": 0.7574,
      "step": 231250
    },
    {
      "epoch": 0.3158235375240145,
      "grad_norm": 3.34375,
      "learning_rate": 7.915254700826085e-05,
      "loss": 0.9537,
      "step": 231300
    },
    {
      "epoch": 0.31589180893290425,
      "grad_norm": 8.25,
      "learning_rate": 7.914365589661801e-05,
      "loss": 0.8182,
      "step": 231350
    },
    {
      "epoch": 0.31596008034179396,
      "grad_norm": 7.40625,
      "learning_rate": 7.913476338902455e-05,
      "loss": 0.8226,
      "step": 231400
    },
    {
      "epoch": 0.3160283517506837,
      "grad_norm": 3.03125,
      "learning_rate": 7.912586948590644e-05,
      "loss": 0.6783,
      "step": 231450
    },
    {
      "epoch": 0.3160966231595735,
      "grad_norm": 2.703125,
      "learning_rate": 7.911697418768963e-05,
      "loss": 0.7354,
      "step": 231500
    },
    {
      "epoch": 0.31616489456846325,
      "grad_norm": 2.390625,
      "learning_rate": 7.910807749480024e-05,
      "loss": 0.8888,
      "step": 231550
    },
    {
      "epoch": 0.316233165977353,
      "grad_norm": 7.3125,
      "learning_rate": 7.909917940766441e-05,
      "loss": 0.7471,
      "step": 231600
    },
    {
      "epoch": 0.3163014373862428,
      "grad_norm": 2.71875,
      "learning_rate": 7.909027992670832e-05,
      "loss": 0.7296,
      "step": 231650
    },
    {
      "epoch": 0.31636970879513254,
      "grad_norm": 2.40625,
      "learning_rate": 7.908137905235828e-05,
      "loss": 0.6846,
      "step": 231700
    },
    {
      "epoch": 0.31643798020402225,
      "grad_norm": 3.390625,
      "learning_rate": 7.907247678504061e-05,
      "loss": 0.5467,
      "step": 231750
    },
    {
      "epoch": 0.316506251612912,
      "grad_norm": 3.390625,
      "learning_rate": 7.906357312518174e-05,
      "loss": 0.8229,
      "step": 231800
    },
    {
      "epoch": 0.3165745230218018,
      "grad_norm": 7.1875,
      "learning_rate": 7.905466807320812e-05,
      "loss": 0.7321,
      "step": 231850
    },
    {
      "epoch": 0.31664279443069154,
      "grad_norm": 7.96875,
      "learning_rate": 7.904576162954631e-05,
      "loss": 0.9381,
      "step": 231900
    },
    {
      "epoch": 0.3167110658395813,
      "grad_norm": 3.828125,
      "learning_rate": 7.903685379462291e-05,
      "loss": 0.7582,
      "step": 231950
    },
    {
      "epoch": 0.31677933724847107,
      "grad_norm": 3.75,
      "learning_rate": 7.90279445688646e-05,
      "loss": 0.7244,
      "step": 232000
    },
    {
      "epoch": 0.31684760865736084,
      "grad_norm": 2.796875,
      "learning_rate": 7.901903395269814e-05,
      "loss": 0.7414,
      "step": 232050
    },
    {
      "epoch": 0.3169158800662506,
      "grad_norm": 3.046875,
      "learning_rate": 7.901012194655031e-05,
      "loss": 0.8094,
      "step": 232100
    },
    {
      "epoch": 0.3169841514751403,
      "grad_norm": 2.53125,
      "learning_rate": 7.900120855084799e-05,
      "loss": 0.8129,
      "step": 232150
    },
    {
      "epoch": 0.31705242288403007,
      "grad_norm": 2.890625,
      "learning_rate": 7.899229376601815e-05,
      "loss": 0.8469,
      "step": 232200
    },
    {
      "epoch": 0.31712069429291984,
      "grad_norm": 3.03125,
      "learning_rate": 7.898337759248777e-05,
      "loss": 0.857,
      "step": 232250
    },
    {
      "epoch": 0.3171889657018096,
      "grad_norm": 3.90625,
      "learning_rate": 7.897446003068394e-05,
      "loss": 0.8434,
      "step": 232300
    },
    {
      "epoch": 0.31725723711069936,
      "grad_norm": 5.0625,
      "learning_rate": 7.896554108103379e-05,
      "loss": 0.7752,
      "step": 232350
    },
    {
      "epoch": 0.31732550851958913,
      "grad_norm": 4.03125,
      "learning_rate": 7.895662074396454e-05,
      "loss": 0.8469,
      "step": 232400
    },
    {
      "epoch": 0.3173937799284789,
      "grad_norm": 3.78125,
      "learning_rate": 7.894769901990346e-05,
      "loss": 0.7897,
      "step": 232450
    },
    {
      "epoch": 0.31746205133736866,
      "grad_norm": 4.15625,
      "learning_rate": 7.893877590927789e-05,
      "loss": 0.8867,
      "step": 232500
    },
    {
      "epoch": 0.31753032274625836,
      "grad_norm": 4.03125,
      "learning_rate": 7.892985141251523e-05,
      "loss": 0.6,
      "step": 232550
    },
    {
      "epoch": 0.31759859415514813,
      "grad_norm": 3.53125,
      "learning_rate": 7.892092553004298e-05,
      "loss": 0.7846,
      "step": 232600
    },
    {
      "epoch": 0.3176668655640379,
      "grad_norm": 3.78125,
      "learning_rate": 7.891199826228866e-05,
      "loss": 0.8009,
      "step": 232650
    },
    {
      "epoch": 0.31773513697292766,
      "grad_norm": 3.875,
      "learning_rate": 7.890306960967986e-05,
      "loss": 0.7491,
      "step": 232700
    },
    {
      "epoch": 0.3178034083818174,
      "grad_norm": 4.3125,
      "learning_rate": 7.88941395726443e-05,
      "loss": 0.8334,
      "step": 232750
    },
    {
      "epoch": 0.3178716797907072,
      "grad_norm": 3.578125,
      "learning_rate": 7.888520815160968e-05,
      "loss": 0.8035,
      "step": 232800
    },
    {
      "epoch": 0.31793995119959695,
      "grad_norm": 4.34375,
      "learning_rate": 7.887627534700382e-05,
      "loss": 0.7741,
      "step": 232850
    },
    {
      "epoch": 0.31800822260848666,
      "grad_norm": 3.25,
      "learning_rate": 7.88673411592546e-05,
      "loss": 0.8059,
      "step": 232900
    },
    {
      "epoch": 0.3180764940173764,
      "grad_norm": 2.765625,
      "learning_rate": 7.885840558878994e-05,
      "loss": 0.6978,
      "step": 232950
    },
    {
      "epoch": 0.3181447654262662,
      "grad_norm": 2.265625,
      "learning_rate": 7.884946863603786e-05,
      "loss": 0.5416,
      "step": 233000
    },
    {
      "epoch": 0.31821303683515595,
      "grad_norm": 4.5625,
      "learning_rate": 7.884053030142641e-05,
      "loss": 0.6441,
      "step": 233050
    },
    {
      "epoch": 0.3182813082440457,
      "grad_norm": 2.53125,
      "learning_rate": 7.883159058538374e-05,
      "loss": 0.6965,
      "step": 233100
    },
    {
      "epoch": 0.3183495796529355,
      "grad_norm": 7.28125,
      "learning_rate": 7.882264948833807e-05,
      "loss": 0.7362,
      "step": 233150
    },
    {
      "epoch": 0.31841785106182524,
      "grad_norm": 3.796875,
      "learning_rate": 7.881370701071764e-05,
      "loss": 0.7453,
      "step": 233200
    },
    {
      "epoch": 0.318486122470715,
      "grad_norm": 3.5,
      "learning_rate": 7.880476315295081e-05,
      "loss": 0.7155,
      "step": 233250
    },
    {
      "epoch": 0.3185543938796047,
      "grad_norm": 2.984375,
      "learning_rate": 7.879581791546597e-05,
      "loss": 0.6336,
      "step": 233300
    },
    {
      "epoch": 0.3186226652884945,
      "grad_norm": 4.1875,
      "learning_rate": 7.878687129869158e-05,
      "loss": 0.8306,
      "step": 233350
    },
    {
      "epoch": 0.31869093669738424,
      "grad_norm": 2.953125,
      "learning_rate": 7.877792330305618e-05,
      "loss": 0.987,
      "step": 233400
    },
    {
      "epoch": 0.318759208106274,
      "grad_norm": 3.734375,
      "learning_rate": 7.876897392898836e-05,
      "loss": 0.6133,
      "step": 233450
    },
    {
      "epoch": 0.31882747951516377,
      "grad_norm": 3.6875,
      "learning_rate": 7.876002317691682e-05,
      "loss": 0.6403,
      "step": 233500
    },
    {
      "epoch": 0.31889575092405353,
      "grad_norm": 3.015625,
      "learning_rate": 7.875107104727026e-05,
      "loss": 0.8355,
      "step": 233550
    },
    {
      "epoch": 0.3189640223329433,
      "grad_norm": 4.15625,
      "learning_rate": 7.874211754047747e-05,
      "loss": 0.7125,
      "step": 233600
    },
    {
      "epoch": 0.319032293741833,
      "grad_norm": 6.84375,
      "learning_rate": 7.873316265696736e-05,
      "loss": 0.6638,
      "step": 233650
    },
    {
      "epoch": 0.31910056515072277,
      "grad_norm": 2.53125,
      "learning_rate": 7.872420639716879e-05,
      "loss": 0.6828,
      "step": 233700
    },
    {
      "epoch": 0.31916883655961253,
      "grad_norm": 4.125,
      "learning_rate": 7.871524876151083e-05,
      "loss": 0.6694,
      "step": 233750
    },
    {
      "epoch": 0.3192371079685023,
      "grad_norm": 2.984375,
      "learning_rate": 7.87062897504225e-05,
      "loss": 0.7543,
      "step": 233800
    },
    {
      "epoch": 0.31930537937739206,
      "grad_norm": 3.359375,
      "learning_rate": 7.869732936433292e-05,
      "loss": 0.7185,
      "step": 233850
    },
    {
      "epoch": 0.3193736507862818,
      "grad_norm": 3.1875,
      "learning_rate": 7.868836760367129e-05,
      "loss": 0.7418,
      "step": 233900
    },
    {
      "epoch": 0.3194419221951716,
      "grad_norm": 3.203125,
      "learning_rate": 7.867940446886688e-05,
      "loss": 0.775,
      "step": 233950
    },
    {
      "epoch": 0.31951019360406135,
      "grad_norm": 4.4375,
      "learning_rate": 7.867043996034901e-05,
      "loss": 0.6892,
      "step": 234000
    },
    {
      "epoch": 0.31957846501295106,
      "grad_norm": 4.15625,
      "learning_rate": 7.866147407854709e-05,
      "loss": 0.7376,
      "step": 234050
    },
    {
      "epoch": 0.3196467364218408,
      "grad_norm": 7.40625,
      "learning_rate": 7.865250682389053e-05,
      "loss": 0.8664,
      "step": 234100
    },
    {
      "epoch": 0.3197150078307306,
      "grad_norm": 3.421875,
      "learning_rate": 7.86435381968089e-05,
      "loss": 0.806,
      "step": 234150
    },
    {
      "epoch": 0.31978327923962035,
      "grad_norm": 2.4375,
      "learning_rate": 7.863456819773175e-05,
      "loss": 0.8126,
      "step": 234200
    },
    {
      "epoch": 0.3198515506485101,
      "grad_norm": 2.328125,
      "learning_rate": 7.862559682708875e-05,
      "loss": 0.8913,
      "step": 234250
    },
    {
      "epoch": 0.3199198220573999,
      "grad_norm": 4.4375,
      "learning_rate": 7.861662408530963e-05,
      "loss": 0.8944,
      "step": 234300
    },
    {
      "epoch": 0.31998809346628965,
      "grad_norm": 8.625,
      "learning_rate": 7.860764997282415e-05,
      "loss": 0.9328,
      "step": 234350
    },
    {
      "epoch": 0.32005636487517936,
      "grad_norm": 5.90625,
      "learning_rate": 7.85986744900622e-05,
      "loss": 0.7787,
      "step": 234400
    },
    {
      "epoch": 0.3201246362840691,
      "grad_norm": 3.375,
      "learning_rate": 7.858969763745365e-05,
      "loss": 0.7521,
      "step": 234450
    },
    {
      "epoch": 0.3201929076929589,
      "grad_norm": 4.21875,
      "learning_rate": 7.858071941542851e-05,
      "loss": 0.8419,
      "step": 234500
    },
    {
      "epoch": 0.32026117910184865,
      "grad_norm": 5.03125,
      "learning_rate": 7.857173982441681e-05,
      "loss": 0.6591,
      "step": 234550
    },
    {
      "epoch": 0.3203294505107384,
      "grad_norm": 3.109375,
      "learning_rate": 7.85627588648487e-05,
      "loss": 0.8405,
      "step": 234600
    },
    {
      "epoch": 0.3203977219196282,
      "grad_norm": 2.5,
      "learning_rate": 7.85537765371543e-05,
      "loss": 0.7932,
      "step": 234650
    },
    {
      "epoch": 0.32046599332851794,
      "grad_norm": 3.34375,
      "learning_rate": 7.85447928417639e-05,
      "loss": 0.7992,
      "step": 234700
    },
    {
      "epoch": 0.3205342647374077,
      "grad_norm": 3.40625,
      "learning_rate": 7.85358077791078e-05,
      "loss": 0.7275,
      "step": 234750
    },
    {
      "epoch": 0.3206025361462974,
      "grad_norm": 3.46875,
      "learning_rate": 7.852682134961637e-05,
      "loss": 0.7412,
      "step": 234800
    },
    {
      "epoch": 0.3206708075551872,
      "grad_norm": 3.359375,
      "learning_rate": 7.851783355372005e-05,
      "loss": 0.9152,
      "step": 234850
    },
    {
      "epoch": 0.32073907896407694,
      "grad_norm": 3.734375,
      "learning_rate": 7.850884439184933e-05,
      "loss": 0.7706,
      "step": 234900
    },
    {
      "epoch": 0.3208073503729667,
      "grad_norm": 6.59375,
      "learning_rate": 7.849985386443483e-05,
      "loss": 0.9229,
      "step": 234950
    },
    {
      "epoch": 0.32087562178185647,
      "grad_norm": 4.40625,
      "learning_rate": 7.849086197190714e-05,
      "loss": 0.815,
      "step": 235000
    },
    {
      "epoch": 0.32094389319074623,
      "grad_norm": 7.40625,
      "learning_rate": 7.848186871469698e-05,
      "loss": 0.7685,
      "step": 235050
    },
    {
      "epoch": 0.321012164599636,
      "grad_norm": 3.71875,
      "learning_rate": 7.84728740932351e-05,
      "loss": 0.7928,
      "step": 235100
    },
    {
      "epoch": 0.32108043600852576,
      "grad_norm": 3.875,
      "learning_rate": 7.846387810795237e-05,
      "loss": 0.8427,
      "step": 235150
    },
    {
      "epoch": 0.32114870741741547,
      "grad_norm": 3.125,
      "learning_rate": 7.845488075927965e-05,
      "loss": 0.6123,
      "step": 235200
    },
    {
      "epoch": 0.32121697882630523,
      "grad_norm": 3.0,
      "learning_rate": 7.844588204764793e-05,
      "loss": 0.7803,
      "step": 235250
    },
    {
      "epoch": 0.321285250235195,
      "grad_norm": 3.4375,
      "learning_rate": 7.843688197348824e-05,
      "loss": 0.9014,
      "step": 235300
    },
    {
      "epoch": 0.32135352164408476,
      "grad_norm": 4.0625,
      "learning_rate": 7.842788053723164e-05,
      "loss": 1.0297,
      "step": 235350
    },
    {
      "epoch": 0.3214217930529745,
      "grad_norm": 2.359375,
      "learning_rate": 7.841887773930934e-05,
      "loss": 0.6386,
      "step": 235400
    },
    {
      "epoch": 0.3214900644618643,
      "grad_norm": 3.890625,
      "learning_rate": 7.840987358015251e-05,
      "loss": 0.7628,
      "step": 235450
    },
    {
      "epoch": 0.32155833587075405,
      "grad_norm": 3.453125,
      "learning_rate": 7.840086806019249e-05,
      "loss": 0.6593,
      "step": 235500
    },
    {
      "epoch": 0.32162660727964376,
      "grad_norm": 7.8125,
      "learning_rate": 7.839186117986059e-05,
      "loss": 0.729,
      "step": 235550
    },
    {
      "epoch": 0.3216948786885335,
      "grad_norm": 3.265625,
      "learning_rate": 7.838285293958827e-05,
      "loss": 0.8971,
      "step": 235600
    },
    {
      "epoch": 0.3217631500974233,
      "grad_norm": 7.875,
      "learning_rate": 7.837384333980698e-05,
      "loss": 0.6915,
      "step": 235650
    },
    {
      "epoch": 0.32183142150631305,
      "grad_norm": 2.9375,
      "learning_rate": 7.836483238094832e-05,
      "loss": 0.8879,
      "step": 235700
    },
    {
      "epoch": 0.3218996929152028,
      "grad_norm": 7.0625,
      "learning_rate": 7.835582006344385e-05,
      "loss": 0.7404,
      "step": 235750
    },
    {
      "epoch": 0.3219679643240926,
      "grad_norm": 3.15625,
      "learning_rate": 7.834680638772527e-05,
      "loss": 0.8132,
      "step": 235800
    },
    {
      "epoch": 0.32203623573298235,
      "grad_norm": 3.015625,
      "learning_rate": 7.833779135422433e-05,
      "loss": 0.8739,
      "step": 235850
    },
    {
      "epoch": 0.3221045071418721,
      "grad_norm": 3.515625,
      "learning_rate": 7.832877496337285e-05,
      "loss": 0.8105,
      "step": 235900
    },
    {
      "epoch": 0.3221727785507618,
      "grad_norm": 3.21875,
      "learning_rate": 7.83197572156027e-05,
      "loss": 0.7436,
      "step": 235950
    },
    {
      "epoch": 0.3222410499596516,
      "grad_norm": 3.34375,
      "learning_rate": 7.83107381113458e-05,
      "loss": 0.6754,
      "step": 236000
    },
    {
      "epoch": 0.32230932136854135,
      "grad_norm": 2.765625,
      "learning_rate": 7.830171765103417e-05,
      "loss": 0.8239,
      "step": 236050
    },
    {
      "epoch": 0.3223775927774311,
      "grad_norm": 4.03125,
      "learning_rate": 7.829269583509991e-05,
      "loss": 0.7278,
      "step": 236100
    },
    {
      "epoch": 0.3224458641863209,
      "grad_norm": 2.328125,
      "learning_rate": 7.828367266397512e-05,
      "loss": 0.9898,
      "step": 236150
    },
    {
      "epoch": 0.32251413559521064,
      "grad_norm": 3.234375,
      "learning_rate": 7.8274648138092e-05,
      "loss": 0.8255,
      "step": 236200
    },
    {
      "epoch": 0.3225824070041004,
      "grad_norm": 3.375,
      "learning_rate": 7.82656222578828e-05,
      "loss": 0.7733,
      "step": 236250
    },
    {
      "epoch": 0.3226506784129901,
      "grad_norm": 4.25,
      "learning_rate": 7.825659502377991e-05,
      "loss": 0.6871,
      "step": 236300
    },
    {
      "epoch": 0.3227189498218799,
      "grad_norm": 3.171875,
      "learning_rate": 7.824756643621569e-05,
      "loss": 0.7425,
      "step": 236350
    },
    {
      "epoch": 0.32278722123076964,
      "grad_norm": 3.0,
      "learning_rate": 7.823853649562258e-05,
      "loss": 0.7765,
      "step": 236400
    },
    {
      "epoch": 0.3228554926396594,
      "grad_norm": 3.640625,
      "learning_rate": 7.822950520243314e-05,
      "loss": 0.7845,
      "step": 236450
    },
    {
      "epoch": 0.32292376404854917,
      "grad_norm": 8.6875,
      "learning_rate": 7.822047255707994e-05,
      "loss": 0.8204,
      "step": 236500
    },
    {
      "epoch": 0.32299203545743893,
      "grad_norm": 7.09375,
      "learning_rate": 7.821143855999562e-05,
      "loss": 0.8211,
      "step": 236550
    },
    {
      "epoch": 0.3230603068663287,
      "grad_norm": 8.3125,
      "learning_rate": 7.820240321161294e-05,
      "loss": 0.9369,
      "step": 236600
    },
    {
      "epoch": 0.32312857827521846,
      "grad_norm": 7.28125,
      "learning_rate": 7.819336651236466e-05,
      "loss": 0.8828,
      "step": 236650
    },
    {
      "epoch": 0.32319684968410817,
      "grad_norm": 3.03125,
      "learning_rate": 7.818432846268362e-05,
      "loss": 0.767,
      "step": 236700
    },
    {
      "epoch": 0.32326512109299793,
      "grad_norm": 3.71875,
      "learning_rate": 7.817528906300276e-05,
      "loss": 0.7241,
      "step": 236750
    },
    {
      "epoch": 0.3233333925018877,
      "grad_norm": 2.796875,
      "learning_rate": 7.816624831375501e-05,
      "loss": 0.7377,
      "step": 236800
    },
    {
      "epoch": 0.32340166391077746,
      "grad_norm": 2.3125,
      "learning_rate": 7.815720621537346e-05,
      "loss": 0.6372,
      "step": 236850
    },
    {
      "epoch": 0.3234699353196672,
      "grad_norm": 6.875,
      "learning_rate": 7.81481627682912e-05,
      "loss": 0.7314,
      "step": 236900
    },
    {
      "epoch": 0.323538206728557,
      "grad_norm": 3.234375,
      "learning_rate": 7.813911797294138e-05,
      "loss": 0.7737,
      "step": 236950
    },
    {
      "epoch": 0.32360647813744675,
      "grad_norm": 3.3125,
      "learning_rate": 7.813007182975728e-05,
      "loss": 0.6899,
      "step": 237000
    },
    {
      "epoch": 0.3236747495463365,
      "grad_norm": 2.84375,
      "learning_rate": 7.812102433917218e-05,
      "loss": 0.7336,
      "step": 237050
    },
    {
      "epoch": 0.3237430209552262,
      "grad_norm": 2.171875,
      "learning_rate": 7.811197550161944e-05,
      "loss": 0.6945,
      "step": 237100
    },
    {
      "epoch": 0.323811292364116,
      "grad_norm": 2.578125,
      "learning_rate": 7.81029253175325e-05,
      "loss": 0.912,
      "step": 237150
    },
    {
      "epoch": 0.32387956377300575,
      "grad_norm": 3.171875,
      "learning_rate": 7.809387378734483e-05,
      "loss": 0.723,
      "step": 237200
    },
    {
      "epoch": 0.3239478351818955,
      "grad_norm": 3.265625,
      "learning_rate": 7.808482091149001e-05,
      "loss": 0.7304,
      "step": 237250
    },
    {
      "epoch": 0.3240161065907853,
      "grad_norm": 2.25,
      "learning_rate": 7.807576669040166e-05,
      "loss": 0.6831,
      "step": 237300
    },
    {
      "epoch": 0.32408437799967504,
      "grad_norm": 2.875,
      "learning_rate": 7.806671112451346e-05,
      "loss": 0.7933,
      "step": 237350
    },
    {
      "epoch": 0.3241526494085648,
      "grad_norm": 2.890625,
      "learning_rate": 7.80576542142592e-05,
      "loss": 0.8389,
      "step": 237400
    },
    {
      "epoch": 0.3242209208174545,
      "grad_norm": 3.71875,
      "learning_rate": 7.804859596007263e-05,
      "loss": 0.8162,
      "step": 237450
    },
    {
      "epoch": 0.3242891922263443,
      "grad_norm": 4.65625,
      "learning_rate": 7.80395363623877e-05,
      "loss": 0.8545,
      "step": 237500
    },
    {
      "epoch": 0.32435746363523404,
      "grad_norm": 3.671875,
      "learning_rate": 7.80304754216383e-05,
      "loss": 0.7525,
      "step": 237550
    },
    {
      "epoch": 0.3244257350441238,
      "grad_norm": 4.21875,
      "learning_rate": 7.802141313825847e-05,
      "loss": 0.8312,
      "step": 237600
    },
    {
      "epoch": 0.3244940064530136,
      "grad_norm": 2.96875,
      "learning_rate": 7.801234951268228e-05,
      "loss": 0.869,
      "step": 237650
    },
    {
      "epoch": 0.32456227786190334,
      "grad_norm": 7.8125,
      "learning_rate": 7.800328454534385e-05,
      "loss": 0.7739,
      "step": 237700
    },
    {
      "epoch": 0.3246305492707931,
      "grad_norm": 3.078125,
      "learning_rate": 7.799421823667741e-05,
      "loss": 0.749,
      "step": 237750
    },
    {
      "epoch": 0.32469882067968286,
      "grad_norm": 2.703125,
      "learning_rate": 7.79851505871172e-05,
      "loss": 0.653,
      "step": 237800
    },
    {
      "epoch": 0.3247670920885726,
      "grad_norm": 3.140625,
      "learning_rate": 7.797608159709757e-05,
      "loss": 0.9712,
      "step": 237850
    },
    {
      "epoch": 0.32483536349746234,
      "grad_norm": 2.40625,
      "learning_rate": 7.796701126705293e-05,
      "loss": 0.6263,
      "step": 237900
    },
    {
      "epoch": 0.3249036349063521,
      "grad_norm": 2.859375,
      "learning_rate": 7.795793959741768e-05,
      "loss": 0.8225,
      "step": 237950
    },
    {
      "epoch": 0.32497190631524187,
      "grad_norm": 2.5,
      "learning_rate": 7.794886658862641e-05,
      "loss": 0.8467,
      "step": 238000
    },
    {
      "epoch": 0.32504017772413163,
      "grad_norm": 3.03125,
      "learning_rate": 7.793979224111367e-05,
      "loss": 0.6272,
      "step": 238050
    },
    {
      "epoch": 0.3251084491330214,
      "grad_norm": 8.625,
      "learning_rate": 7.793071655531412e-05,
      "loss": 0.844,
      "step": 238100
    },
    {
      "epoch": 0.32517672054191116,
      "grad_norm": 3.34375,
      "learning_rate": 7.792163953166248e-05,
      "loss": 0.671,
      "step": 238150
    },
    {
      "epoch": 0.32524499195080087,
      "grad_norm": 3.78125,
      "learning_rate": 7.791256117059352e-05,
      "loss": 0.9059,
      "step": 238200
    },
    {
      "epoch": 0.32531326335969063,
      "grad_norm": 7.53125,
      "learning_rate": 7.790348147254211e-05,
      "loss": 0.7571,
      "step": 238250
    },
    {
      "epoch": 0.3253815347685804,
      "grad_norm": 4.03125,
      "learning_rate": 7.789440043794311e-05,
      "loss": 0.7316,
      "step": 238300
    },
    {
      "epoch": 0.32544980617747016,
      "grad_norm": 3.484375,
      "learning_rate": 7.788531806723155e-05,
      "loss": 0.8999,
      "step": 238350
    },
    {
      "epoch": 0.3255180775863599,
      "grad_norm": 4.1875,
      "learning_rate": 7.787623436084243e-05,
      "loss": 0.6675,
      "step": 238400
    },
    {
      "epoch": 0.3255863489952497,
      "grad_norm": 3.671875,
      "learning_rate": 7.786714931921084e-05,
      "loss": 0.7179,
      "step": 238450
    },
    {
      "epoch": 0.32565462040413945,
      "grad_norm": 4.625,
      "learning_rate": 7.785806294277198e-05,
      "loss": 0.9326,
      "step": 238500
    },
    {
      "epoch": 0.3257228918130292,
      "grad_norm": 3.875,
      "learning_rate": 7.784897523196105e-05,
      "loss": 0.7845,
      "step": 238550
    },
    {
      "epoch": 0.3257911632219189,
      "grad_norm": 4.71875,
      "learning_rate": 7.783988618721336e-05,
      "loss": 0.7755,
      "step": 238600
    },
    {
      "epoch": 0.3258594346308087,
      "grad_norm": 3.453125,
      "learning_rate": 7.783079580896424e-05,
      "loss": 0.751,
      "step": 238650
    },
    {
      "epoch": 0.32592770603969845,
      "grad_norm": 8.0625,
      "learning_rate": 7.782170409764915e-05,
      "loss": 0.9053,
      "step": 238700
    },
    {
      "epoch": 0.3259959774485882,
      "grad_norm": 3.296875,
      "learning_rate": 7.781261105370352e-05,
      "loss": 0.9381,
      "step": 238750
    },
    {
      "epoch": 0.326064248857478,
      "grad_norm": 2.71875,
      "learning_rate": 7.780351667756296e-05,
      "loss": 0.7439,
      "step": 238800
    },
    {
      "epoch": 0.32613252026636774,
      "grad_norm": 9.5,
      "learning_rate": 7.779442096966303e-05,
      "loss": 0.8219,
      "step": 238850
    },
    {
      "epoch": 0.3262007916752575,
      "grad_norm": 2.9375,
      "learning_rate": 7.778532393043943e-05,
      "loss": 0.8317,
      "step": 238900
    },
    {
      "epoch": 0.3262690630841472,
      "grad_norm": 2.921875,
      "learning_rate": 7.777622556032788e-05,
      "loss": 0.6373,
      "step": 238950
    },
    {
      "epoch": 0.326337334493037,
      "grad_norm": 3.3125,
      "learning_rate": 7.77671258597642e-05,
      "loss": 0.9113,
      "step": 239000
    },
    {
      "epoch": 0.32640560590192674,
      "grad_norm": 3.9375,
      "learning_rate": 7.775802482918425e-05,
      "loss": 0.8382,
      "step": 239050
    },
    {
      "epoch": 0.3264738773108165,
      "grad_norm": 3.84375,
      "learning_rate": 7.774892246902397e-05,
      "loss": 0.8055,
      "step": 239100
    },
    {
      "epoch": 0.32654214871970627,
      "grad_norm": 3.0625,
      "learning_rate": 7.773981877971933e-05,
      "loss": 0.7462,
      "step": 239150
    },
    {
      "epoch": 0.32661042012859604,
      "grad_norm": 3.59375,
      "learning_rate": 7.77307137617064e-05,
      "loss": 0.6826,
      "step": 239200
    },
    {
      "epoch": 0.3266786915374858,
      "grad_norm": 7.46875,
      "learning_rate": 7.772160741542132e-05,
      "loss": 0.822,
      "step": 239250
    },
    {
      "epoch": 0.32674696294637556,
      "grad_norm": 2.265625,
      "learning_rate": 7.771249974130024e-05,
      "loss": 0.7133,
      "step": 239300
    },
    {
      "epoch": 0.32681523435526527,
      "grad_norm": 3.4375,
      "learning_rate": 7.770339073977942e-05,
      "loss": 0.8353,
      "step": 239350
    },
    {
      "epoch": 0.32688350576415504,
      "grad_norm": 3.234375,
      "learning_rate": 7.769428041129518e-05,
      "loss": 0.8219,
      "step": 239400
    },
    {
      "epoch": 0.3269517771730448,
      "grad_norm": 2.734375,
      "learning_rate": 7.768516875628392e-05,
      "loss": 0.7081,
      "step": 239450
    },
    {
      "epoch": 0.32702004858193456,
      "grad_norm": 7.84375,
      "learning_rate": 7.7676055775182e-05,
      "loss": 0.8456,
      "step": 239500
    },
    {
      "epoch": 0.3270883199908243,
      "grad_norm": 3.625,
      "learning_rate": 7.766694146842602e-05,
      "loss": 0.8782,
      "step": 239550
    },
    {
      "epoch": 0.3271565913997141,
      "grad_norm": 2.609375,
      "learning_rate": 7.765782583645246e-05,
      "loss": 0.6436,
      "step": 239600
    },
    {
      "epoch": 0.32722486280860386,
      "grad_norm": 2.25,
      "learning_rate": 7.7648708879698e-05,
      "loss": 0.583,
      "step": 239650
    },
    {
      "epoch": 0.3272931342174936,
      "grad_norm": 8.4375,
      "learning_rate": 7.763959059859932e-05,
      "loss": 0.8453,
      "step": 239700
    },
    {
      "epoch": 0.32736140562638333,
      "grad_norm": 2.65625,
      "learning_rate": 7.763047099359318e-05,
      "loss": 0.7084,
      "step": 239750
    },
    {
      "epoch": 0.3274296770352731,
      "grad_norm": 3.453125,
      "learning_rate": 7.762135006511639e-05,
      "loss": 0.7436,
      "step": 239800
    },
    {
      "epoch": 0.32749794844416286,
      "grad_norm": 2.6875,
      "learning_rate": 7.761222781360584e-05,
      "loss": 0.691,
      "step": 239850
    },
    {
      "epoch": 0.3275662198530526,
      "grad_norm": 3.015625,
      "learning_rate": 7.760310423949848e-05,
      "loss": 0.8315,
      "step": 239900
    },
    {
      "epoch": 0.3276344912619424,
      "grad_norm": 7.0625,
      "learning_rate": 7.759397934323132e-05,
      "loss": 0.8693,
      "step": 239950
    },
    {
      "epoch": 0.32770276267083215,
      "grad_norm": 2.984375,
      "learning_rate": 7.75848531252414e-05,
      "loss": 0.76,
      "step": 240000
    },
    {
      "epoch": 0.3277710340797219,
      "grad_norm": 2.796875,
      "learning_rate": 7.75757255859659e-05,
      "loss": 0.7459,
      "step": 240050
    },
    {
      "epoch": 0.3278393054886116,
      "grad_norm": 3.78125,
      "learning_rate": 7.756659672584201e-05,
      "loss": 0.8209,
      "step": 240100
    },
    {
      "epoch": 0.3279075768975014,
      "grad_norm": 3.78125,
      "learning_rate": 7.755746654530697e-05,
      "loss": 0.7885,
      "step": 240150
    },
    {
      "epoch": 0.32797584830639115,
      "grad_norm": 2.9375,
      "learning_rate": 7.754833504479815e-05,
      "loss": 0.7767,
      "step": 240200
    },
    {
      "epoch": 0.3280441197152809,
      "grad_norm": 4.46875,
      "learning_rate": 7.753920222475288e-05,
      "loss": 0.6973,
      "step": 240250
    },
    {
      "epoch": 0.3281123911241707,
      "grad_norm": 3.203125,
      "learning_rate": 7.753006808560866e-05,
      "loss": 0.8667,
      "step": 240300
    },
    {
      "epoch": 0.32818066253306044,
      "grad_norm": 2.328125,
      "learning_rate": 7.752093262780298e-05,
      "loss": 0.7643,
      "step": 240350
    },
    {
      "epoch": 0.3282489339419502,
      "grad_norm": 2.96875,
      "learning_rate": 7.751179585177344e-05,
      "loss": 0.6662,
      "step": 240400
    },
    {
      "epoch": 0.32831720535083997,
      "grad_norm": 3.0625,
      "learning_rate": 7.750265775795767e-05,
      "loss": 0.8639,
      "step": 240450
    },
    {
      "epoch": 0.3283854767597297,
      "grad_norm": 2.984375,
      "learning_rate": 7.749351834679337e-05,
      "loss": 0.7864,
      "step": 240500
    },
    {
      "epoch": 0.32845374816861944,
      "grad_norm": 2.875,
      "learning_rate": 7.748437761871831e-05,
      "loss": 0.7489,
      "step": 240550
    },
    {
      "epoch": 0.3285220195775092,
      "grad_norm": 3.328125,
      "learning_rate": 7.747523557417033e-05,
      "loss": 0.8763,
      "step": 240600
    },
    {
      "epoch": 0.32859029098639897,
      "grad_norm": 2.75,
      "learning_rate": 7.746609221358732e-05,
      "loss": 0.858,
      "step": 240650
    },
    {
      "epoch": 0.32865856239528873,
      "grad_norm": 3.6875,
      "learning_rate": 7.745694753740725e-05,
      "loss": 0.7108,
      "step": 240700
    },
    {
      "epoch": 0.3287268338041785,
      "grad_norm": 2.28125,
      "learning_rate": 7.74478015460681e-05,
      "loss": 0.8471,
      "step": 240750
    },
    {
      "epoch": 0.32879510521306826,
      "grad_norm": 3.75,
      "learning_rate": 7.7438654240008e-05,
      "loss": 0.8387,
      "step": 240800
    },
    {
      "epoch": 0.32886337662195797,
      "grad_norm": 3.03125,
      "learning_rate": 7.742950561966507e-05,
      "loss": 0.7452,
      "step": 240850
    },
    {
      "epoch": 0.32893164803084773,
      "grad_norm": 3.34375,
      "learning_rate": 7.742035568547752e-05,
      "loss": 0.8256,
      "step": 240900
    },
    {
      "epoch": 0.3289999194397375,
      "grad_norm": 7.78125,
      "learning_rate": 7.741120443788365e-05,
      "loss": 0.8344,
      "step": 240950
    },
    {
      "epoch": 0.32906819084862726,
      "grad_norm": 4.4375,
      "learning_rate": 7.740205187732175e-05,
      "loss": 0.7463,
      "step": 241000
    },
    {
      "epoch": 0.329136462257517,
      "grad_norm": 2.3125,
      "learning_rate": 7.739289800423026e-05,
      "loss": 0.8395,
      "step": 241050
    },
    {
      "epoch": 0.3292047336664068,
      "grad_norm": 3.453125,
      "learning_rate": 7.73837428190476e-05,
      "loss": 0.8157,
      "step": 241100
    },
    {
      "epoch": 0.32927300507529655,
      "grad_norm": 7.40625,
      "learning_rate": 7.737458632221233e-05,
      "loss": 0.6869,
      "step": 241150
    },
    {
      "epoch": 0.3293412764841863,
      "grad_norm": 3.703125,
      "learning_rate": 7.736542851416304e-05,
      "loss": 0.9656,
      "step": 241200
    },
    {
      "epoch": 0.329409547893076,
      "grad_norm": 3.296875,
      "learning_rate": 7.735626939533835e-05,
      "loss": 0.6897,
      "step": 241250
    },
    {
      "epoch": 0.3294778193019658,
      "grad_norm": 2.9375,
      "learning_rate": 7.734710896617699e-05,
      "loss": 0.8884,
      "step": 241300
    },
    {
      "epoch": 0.32954609071085555,
      "grad_norm": 4.03125,
      "learning_rate": 7.733794722711771e-05,
      "loss": 0.8211,
      "step": 241350
    },
    {
      "epoch": 0.3296143621197453,
      "grad_norm": 2.46875,
      "learning_rate": 7.732878417859939e-05,
      "loss": 0.7411,
      "step": 241400
    },
    {
      "epoch": 0.3296826335286351,
      "grad_norm": 2.984375,
      "learning_rate": 7.731961982106089e-05,
      "loss": 0.807,
      "step": 241450
    },
    {
      "epoch": 0.32975090493752485,
      "grad_norm": 2.1875,
      "learning_rate": 7.73104541549412e-05,
      "loss": 0.7296,
      "step": 241500
    },
    {
      "epoch": 0.3298191763464146,
      "grad_norm": 3.140625,
      "learning_rate": 7.730128718067934e-05,
      "loss": 0.8647,
      "step": 241550
    },
    {
      "epoch": 0.3298874477553043,
      "grad_norm": 3.375,
      "learning_rate": 7.729211889871439e-05,
      "loss": 0.8219,
      "step": 241600
    },
    {
      "epoch": 0.3299557191641941,
      "grad_norm": 7.1875,
      "learning_rate": 7.728294930948552e-05,
      "loss": 0.8054,
      "step": 241650
    },
    {
      "epoch": 0.33002399057308385,
      "grad_norm": 4.625,
      "learning_rate": 7.72737784134319e-05,
      "loss": 0.9144,
      "step": 241700
    },
    {
      "epoch": 0.3300922619819736,
      "grad_norm": 2.703125,
      "learning_rate": 7.726460621099287e-05,
      "loss": 0.8374,
      "step": 241750
    },
    {
      "epoch": 0.3301605333908634,
      "grad_norm": 3.375,
      "learning_rate": 7.725543270260772e-05,
      "loss": 0.7142,
      "step": 241800
    },
    {
      "epoch": 0.33022880479975314,
      "grad_norm": 4.34375,
      "learning_rate": 7.724625788871586e-05,
      "loss": 0.715,
      "step": 241850
    },
    {
      "epoch": 0.3302970762086429,
      "grad_norm": 2.546875,
      "learning_rate": 7.723708176975678e-05,
      "loss": 0.7391,
      "step": 241900
    },
    {
      "epoch": 0.33036534761753267,
      "grad_norm": 2.453125,
      "learning_rate": 7.722790434616998e-05,
      "loss": 0.9354,
      "step": 241950
    },
    {
      "epoch": 0.3304336190264224,
      "grad_norm": 3.5625,
      "learning_rate": 7.721872561839505e-05,
      "loss": 0.8151,
      "step": 242000
    },
    {
      "epoch": 0.33050189043531214,
      "grad_norm": 3.25,
      "learning_rate": 7.720954558687166e-05,
      "loss": 0.7545,
      "step": 242050
    },
    {
      "epoch": 0.3305701618442019,
      "grad_norm": 2.6875,
      "learning_rate": 7.72003642520395e-05,
      "loss": 0.8628,
      "step": 242100
    },
    {
      "epoch": 0.33063843325309167,
      "grad_norm": 4.625,
      "learning_rate": 7.719118161433836e-05,
      "loss": 0.744,
      "step": 242150
    },
    {
      "epoch": 0.33070670466198143,
      "grad_norm": 2.484375,
      "learning_rate": 7.718199767420808e-05,
      "loss": 0.763,
      "step": 242200
    },
    {
      "epoch": 0.3307749760708712,
      "grad_norm": 7.96875,
      "learning_rate": 7.717281243208856e-05,
      "loss": 0.838,
      "step": 242250
    },
    {
      "epoch": 0.33084324747976096,
      "grad_norm": 3.6875,
      "learning_rate": 7.716362588841974e-05,
      "loss": 0.7333,
      "step": 242300
    },
    {
      "epoch": 0.3309115188886507,
      "grad_norm": 4.3125,
      "learning_rate": 7.71544380436417e-05,
      "loss": 0.863,
      "step": 242350
    },
    {
      "epoch": 0.33097979029754043,
      "grad_norm": 3.390625,
      "learning_rate": 7.714524889819448e-05,
      "loss": 0.8158,
      "step": 242400
    },
    {
      "epoch": 0.3310480617064302,
      "grad_norm": 3.84375,
      "learning_rate": 7.713605845251824e-05,
      "loss": 0.7903,
      "step": 242450
    },
    {
      "epoch": 0.33111633311531996,
      "grad_norm": 3.03125,
      "learning_rate": 7.712686670705322e-05,
      "loss": 0.6633,
      "step": 242500
    },
    {
      "epoch": 0.3311846045242097,
      "grad_norm": 8.125,
      "learning_rate": 7.711767366223965e-05,
      "loss": 1.0044,
      "step": 242550
    },
    {
      "epoch": 0.3312528759330995,
      "grad_norm": 2.796875,
      "learning_rate": 7.71084793185179e-05,
      "loss": 0.8218,
      "step": 242600
    },
    {
      "epoch": 0.33132114734198925,
      "grad_norm": 4.09375,
      "learning_rate": 7.709928367632837e-05,
      "loss": 0.8023,
      "step": 242650
    },
    {
      "epoch": 0.331389418750879,
      "grad_norm": 4.03125,
      "learning_rate": 7.70900867361115e-05,
      "loss": 0.8543,
      "step": 242700
    },
    {
      "epoch": 0.3314576901597687,
      "grad_norm": 2.890625,
      "learning_rate": 7.708088849830782e-05,
      "loss": 0.8322,
      "step": 242750
    },
    {
      "epoch": 0.3315259615686585,
      "grad_norm": 3.625,
      "learning_rate": 7.707168896335793e-05,
      "loss": 0.6207,
      "step": 242800
    },
    {
      "epoch": 0.33159423297754825,
      "grad_norm": 3.484375,
      "learning_rate": 7.706248813170247e-05,
      "loss": 0.6872,
      "step": 242850
    },
    {
      "epoch": 0.331662504386438,
      "grad_norm": 3.578125,
      "learning_rate": 7.705328600378215e-05,
      "loss": 0.9009,
      "step": 242900
    },
    {
      "epoch": 0.3317307757953278,
      "grad_norm": 9.4375,
      "learning_rate": 7.704408258003774e-05,
      "loss": 0.7763,
      "step": 242950
    },
    {
      "epoch": 0.33179904720421755,
      "grad_norm": 2.84375,
      "learning_rate": 7.703487786091008e-05,
      "loss": 0.8564,
      "step": 243000
    },
    {
      "epoch": 0.3318673186131073,
      "grad_norm": 8.625,
      "learning_rate": 7.702567184684006e-05,
      "loss": 0.762,
      "step": 243050
    },
    {
      "epoch": 0.3319355900219971,
      "grad_norm": 3.328125,
      "learning_rate": 7.701646453826865e-05,
      "loss": 0.8833,
      "step": 243100
    },
    {
      "epoch": 0.3320038614308868,
      "grad_norm": 2.390625,
      "learning_rate": 7.700725593563686e-05,
      "loss": 0.7912,
      "step": 243150
    },
    {
      "epoch": 0.33207213283977655,
      "grad_norm": 3.78125,
      "learning_rate": 7.699804603938577e-05,
      "loss": 0.8544,
      "step": 243200
    },
    {
      "epoch": 0.3321404042486663,
      "grad_norm": 8.1875,
      "learning_rate": 7.698883484995652e-05,
      "loss": 0.85,
      "step": 243250
    },
    {
      "epoch": 0.3322086756575561,
      "grad_norm": 3.90625,
      "learning_rate": 7.697962236779034e-05,
      "loss": 0.8147,
      "step": 243300
    },
    {
      "epoch": 0.33227694706644584,
      "grad_norm": 5.0625,
      "learning_rate": 7.697040859332849e-05,
      "loss": 0.7243,
      "step": 243350
    },
    {
      "epoch": 0.3323452184753356,
      "grad_norm": 8.75,
      "learning_rate": 7.696119352701227e-05,
      "loss": 0.9114,
      "step": 243400
    },
    {
      "epoch": 0.33241348988422537,
      "grad_norm": 3.078125,
      "learning_rate": 7.69519771692831e-05,
      "loss": 0.7347,
      "step": 243450
    },
    {
      "epoch": 0.3324817612931151,
      "grad_norm": 7.75,
      "learning_rate": 7.694275952058244e-05,
      "loss": 0.91,
      "step": 243500
    },
    {
      "epoch": 0.33255003270200484,
      "grad_norm": 7.46875,
      "learning_rate": 7.693354058135181e-05,
      "loss": 0.7841,
      "step": 243550
    },
    {
      "epoch": 0.3326183041108946,
      "grad_norm": 8.375,
      "learning_rate": 7.692432035203274e-05,
      "loss": 0.8143,
      "step": 243600
    },
    {
      "epoch": 0.33268657551978437,
      "grad_norm": 2.78125,
      "learning_rate": 7.691509883306693e-05,
      "loss": 0.9238,
      "step": 243650
    },
    {
      "epoch": 0.33275484692867413,
      "grad_norm": 3.359375,
      "learning_rate": 7.690587602489603e-05,
      "loss": 0.8212,
      "step": 243700
    },
    {
      "epoch": 0.3328231183375639,
      "grad_norm": 7.96875,
      "learning_rate": 7.689665192796183e-05,
      "loss": 0.692,
      "step": 243750
    },
    {
      "epoch": 0.33289138974645366,
      "grad_norm": 4.46875,
      "learning_rate": 7.688742654270616e-05,
      "loss": 0.9246,
      "step": 243800
    },
    {
      "epoch": 0.3329596611553434,
      "grad_norm": 2.921875,
      "learning_rate": 7.687819986957089e-05,
      "loss": 0.6927,
      "step": 243850
    },
    {
      "epoch": 0.33302793256423313,
      "grad_norm": 3.390625,
      "learning_rate": 7.686897190899798e-05,
      "loss": 0.7855,
      "step": 243900
    },
    {
      "epoch": 0.3330962039731229,
      "grad_norm": 3.09375,
      "learning_rate": 7.685974266142943e-05,
      "loss": 0.7092,
      "step": 243950
    },
    {
      "epoch": 0.33316447538201266,
      "grad_norm": 4.375,
      "learning_rate": 7.685051212730732e-05,
      "loss": 0.7638,
      "step": 244000
    },
    {
      "epoch": 0.3332327467909024,
      "grad_norm": 3.578125,
      "learning_rate": 7.684128030707378e-05,
      "loss": 0.702,
      "step": 244050
    },
    {
      "epoch": 0.3333010181997922,
      "grad_norm": 3.21875,
      "learning_rate": 7.6832047201171e-05,
      "loss": 0.8391,
      "step": 244100
    },
    {
      "epoch": 0.33336928960868195,
      "grad_norm": 4.0625,
      "learning_rate": 7.682281281004124e-05,
      "loss": 0.766,
      "step": 244150
    },
    {
      "epoch": 0.3334375610175717,
      "grad_norm": 3.03125,
      "learning_rate": 7.681357713412682e-05,
      "loss": 0.7751,
      "step": 244200
    },
    {
      "epoch": 0.3335058324264615,
      "grad_norm": 3.953125,
      "learning_rate": 7.68043401738701e-05,
      "loss": 0.8347,
      "step": 244250
    },
    {
      "epoch": 0.3335741038353512,
      "grad_norm": 3.265625,
      "learning_rate": 7.679510192971357e-05,
      "loss": 0.774,
      "step": 244300
    },
    {
      "epoch": 0.33364237524424095,
      "grad_norm": 5.40625,
      "learning_rate": 7.678586240209967e-05,
      "loss": 0.8128,
      "step": 244350
    },
    {
      "epoch": 0.3337106466531307,
      "grad_norm": 3.328125,
      "learning_rate": 7.677662159147102e-05,
      "loss": 0.7706,
      "step": 244400
    },
    {
      "epoch": 0.3337789180620205,
      "grad_norm": 3.203125,
      "learning_rate": 7.67673794982702e-05,
      "loss": 0.7273,
      "step": 244450
    },
    {
      "epoch": 0.33384718947091024,
      "grad_norm": 3.140625,
      "learning_rate": 7.675813612293989e-05,
      "loss": 0.8107,
      "step": 244500
    },
    {
      "epoch": 0.3339154608798,
      "grad_norm": 2.4375,
      "learning_rate": 7.67488914659229e-05,
      "loss": 0.6568,
      "step": 244550
    },
    {
      "epoch": 0.33398373228868977,
      "grad_norm": 2.96875,
      "learning_rate": 7.6739645527662e-05,
      "loss": 0.7659,
      "step": 244600
    },
    {
      "epoch": 0.3340520036975795,
      "grad_norm": 3.4375,
      "learning_rate": 7.673039830860004e-05,
      "loss": 0.8997,
      "step": 244650
    },
    {
      "epoch": 0.33412027510646924,
      "grad_norm": 3.390625,
      "learning_rate": 7.672114980918001e-05,
      "loss": 0.784,
      "step": 244700
    },
    {
      "epoch": 0.334188546515359,
      "grad_norm": 7.28125,
      "learning_rate": 7.671190002984485e-05,
      "loss": 0.7736,
      "step": 244750
    },
    {
      "epoch": 0.3342568179242488,
      "grad_norm": 3.21875,
      "learning_rate": 7.67026489710376e-05,
      "loss": 0.8731,
      "step": 244800
    },
    {
      "epoch": 0.33432508933313854,
      "grad_norm": 2.796875,
      "learning_rate": 7.669339663320145e-05,
      "loss": 0.9513,
      "step": 244850
    },
    {
      "epoch": 0.3343933607420283,
      "grad_norm": 2.984375,
      "learning_rate": 7.668414301677953e-05,
      "loss": 0.8108,
      "step": 244900
    },
    {
      "epoch": 0.33446163215091806,
      "grad_norm": 3.921875,
      "learning_rate": 7.667488812221508e-05,
      "loss": 0.7574,
      "step": 244950
    },
    {
      "epoch": 0.33452990355980783,
      "grad_norm": 2.984375,
      "learning_rate": 7.666563194995142e-05,
      "loss": 0.6955,
      "step": 245000
    },
    {
      "epoch": 0.33459817496869754,
      "grad_norm": 8.0625,
      "learning_rate": 7.665637450043187e-05,
      "loss": 0.8455,
      "step": 245050
    },
    {
      "epoch": 0.3346664463775873,
      "grad_norm": 2.8125,
      "learning_rate": 7.664711577409989e-05,
      "loss": 0.7757,
      "step": 245100
    },
    {
      "epoch": 0.33473471778647707,
      "grad_norm": 6.34375,
      "learning_rate": 7.663785577139895e-05,
      "loss": 0.8764,
      "step": 245150
    },
    {
      "epoch": 0.33480298919536683,
      "grad_norm": 3.421875,
      "learning_rate": 7.662859449277261e-05,
      "loss": 0.7203,
      "step": 245200
    },
    {
      "epoch": 0.3348712606042566,
      "grad_norm": 3.34375,
      "learning_rate": 7.661933193866444e-05,
      "loss": 0.9295,
      "step": 245250
    },
    {
      "epoch": 0.33493953201314636,
      "grad_norm": 3.71875,
      "learning_rate": 7.661006810951813e-05,
      "loss": 0.6889,
      "step": 245300
    },
    {
      "epoch": 0.3350078034220361,
      "grad_norm": 3.5,
      "learning_rate": 7.660080300577742e-05,
      "loss": 0.6994,
      "step": 245350
    },
    {
      "epoch": 0.33507607483092583,
      "grad_norm": 2.734375,
      "learning_rate": 7.659153662788607e-05,
      "loss": 0.8556,
      "step": 245400
    },
    {
      "epoch": 0.3351443462398156,
      "grad_norm": 2.421875,
      "learning_rate": 7.658226897628796e-05,
      "loss": 0.8125,
      "step": 245450
    },
    {
      "epoch": 0.33521261764870536,
      "grad_norm": 3.234375,
      "learning_rate": 7.657300005142698e-05,
      "loss": 0.6722,
      "step": 245500
    },
    {
      "epoch": 0.3352808890575951,
      "grad_norm": 7.15625,
      "learning_rate": 7.656372985374709e-05,
      "loss": 0.8031,
      "step": 245550
    },
    {
      "epoch": 0.3353491604664849,
      "grad_norm": 3.125,
      "learning_rate": 7.655445838369236e-05,
      "loss": 0.7762,
      "step": 245600
    },
    {
      "epoch": 0.33541743187537465,
      "grad_norm": 7.625,
      "learning_rate": 7.654518564170685e-05,
      "loss": 0.691,
      "step": 245650
    },
    {
      "epoch": 0.3354857032842644,
      "grad_norm": 2.71875,
      "learning_rate": 7.653591162823475e-05,
      "loss": 0.8531,
      "step": 245700
    },
    {
      "epoch": 0.3355539746931542,
      "grad_norm": 3.59375,
      "learning_rate": 7.652663634372022e-05,
      "loss": 0.7929,
      "step": 245750
    },
    {
      "epoch": 0.3356222461020439,
      "grad_norm": 2.28125,
      "learning_rate": 7.651735978860758e-05,
      "loss": 0.6125,
      "step": 245800
    },
    {
      "epoch": 0.33569051751093365,
      "grad_norm": 3.265625,
      "learning_rate": 7.650808196334118e-05,
      "loss": 0.751,
      "step": 245850
    },
    {
      "epoch": 0.3357587889198234,
      "grad_norm": 2.875,
      "learning_rate": 7.649880286836538e-05,
      "loss": 0.7263,
      "step": 245900
    },
    {
      "epoch": 0.3358270603287132,
      "grad_norm": 3.515625,
      "learning_rate": 7.648952250412465e-05,
      "loss": 0.799,
      "step": 245950
    },
    {
      "epoch": 0.33589533173760294,
      "grad_norm": 4.65625,
      "learning_rate": 7.648024087106352e-05,
      "loss": 0.7856,
      "step": 246000
    },
    {
      "epoch": 0.3359636031464927,
      "grad_norm": 3.34375,
      "learning_rate": 7.647095796962655e-05,
      "loss": 0.687,
      "step": 246050
    },
    {
      "epoch": 0.33603187455538247,
      "grad_norm": 3.40625,
      "learning_rate": 7.646167380025841e-05,
      "loss": 0.8499,
      "step": 246100
    },
    {
      "epoch": 0.3361001459642722,
      "grad_norm": 3.0,
      "learning_rate": 7.645238836340378e-05,
      "loss": 0.752,
      "step": 246150
    },
    {
      "epoch": 0.33616841737316194,
      "grad_norm": 3.625,
      "learning_rate": 7.644310165950744e-05,
      "loss": 0.8192,
      "step": 246200
    },
    {
      "epoch": 0.3362366887820517,
      "grad_norm": 3.8125,
      "learning_rate": 7.643381368901422e-05,
      "loss": 0.7986,
      "step": 246250
    },
    {
      "epoch": 0.33630496019094147,
      "grad_norm": 2.921875,
      "learning_rate": 7.642452445236896e-05,
      "loss": 0.7032,
      "step": 246300
    },
    {
      "epoch": 0.33637323159983123,
      "grad_norm": 7.40625,
      "learning_rate": 7.641523395001665e-05,
      "loss": 0.8057,
      "step": 246350
    },
    {
      "epoch": 0.336441503008721,
      "grad_norm": 2.8125,
      "learning_rate": 7.640594218240224e-05,
      "loss": 0.7476,
      "step": 246400
    },
    {
      "epoch": 0.33650977441761076,
      "grad_norm": 2.28125,
      "learning_rate": 7.639664914997087e-05,
      "loss": 0.8092,
      "step": 246450
    },
    {
      "epoch": 0.3365780458265005,
      "grad_norm": 8.5625,
      "learning_rate": 7.638735485316764e-05,
      "loss": 0.8224,
      "step": 246500
    },
    {
      "epoch": 0.33664631723539024,
      "grad_norm": 4.875,
      "learning_rate": 7.63780592924377e-05,
      "loss": 0.9066,
      "step": 246550
    },
    {
      "epoch": 0.33671458864428,
      "grad_norm": 3.59375,
      "learning_rate": 7.636876246822633e-05,
      "loss": 0.7915,
      "step": 246600
    },
    {
      "epoch": 0.33678286005316976,
      "grad_norm": 5.0,
      "learning_rate": 7.635946438097885e-05,
      "loss": 0.7955,
      "step": 246650
    },
    {
      "epoch": 0.3368511314620595,
      "grad_norm": 3.984375,
      "learning_rate": 7.635016503114058e-05,
      "loss": 0.7673,
      "step": 246700
    },
    {
      "epoch": 0.3369194028709493,
      "grad_norm": 2.921875,
      "learning_rate": 7.634086441915703e-05,
      "loss": 0.6619,
      "step": 246750
    },
    {
      "epoch": 0.33698767427983906,
      "grad_norm": 2.90625,
      "learning_rate": 7.63315625454736e-05,
      "loss": 0.6628,
      "step": 246800
    },
    {
      "epoch": 0.3370559456887288,
      "grad_norm": 4.28125,
      "learning_rate": 7.632225941053588e-05,
      "loss": 0.7073,
      "step": 246850
    },
    {
      "epoch": 0.3371242170976186,
      "grad_norm": 4.40625,
      "learning_rate": 7.63129550147895e-05,
      "loss": 0.7993,
      "step": 246900
    },
    {
      "epoch": 0.3371924885065083,
      "grad_norm": 3.09375,
      "learning_rate": 7.630364935868011e-05,
      "loss": 0.8511,
      "step": 246950
    },
    {
      "epoch": 0.33726075991539806,
      "grad_norm": 3.734375,
      "learning_rate": 7.629434244265346e-05,
      "loss": 0.7208,
      "step": 247000
    },
    {
      "epoch": 0.3373290313242878,
      "grad_norm": 3.75,
      "learning_rate": 7.62850342671553e-05,
      "loss": 0.709,
      "step": 247050
    },
    {
      "epoch": 0.3373973027331776,
      "grad_norm": 4.46875,
      "learning_rate": 7.62757248326315e-05,
      "loss": 0.7426,
      "step": 247100
    },
    {
      "epoch": 0.33746557414206735,
      "grad_norm": 3.765625,
      "learning_rate": 7.6266414139528e-05,
      "loss": 0.7767,
      "step": 247150
    },
    {
      "epoch": 0.3375338455509571,
      "grad_norm": 3.3125,
      "learning_rate": 7.625710218829073e-05,
      "loss": 0.9717,
      "step": 247200
    },
    {
      "epoch": 0.3376021169598469,
      "grad_norm": 8.5,
      "learning_rate": 7.624778897936576e-05,
      "loss": 0.7449,
      "step": 247250
    },
    {
      "epoch": 0.3376703883687366,
      "grad_norm": 7.5625,
      "learning_rate": 7.623847451319917e-05,
      "loss": 0.8293,
      "step": 247300
    },
    {
      "epoch": 0.33773865977762635,
      "grad_norm": 7.6875,
      "learning_rate": 7.622915879023708e-05,
      "loss": 0.7635,
      "step": 247350
    },
    {
      "epoch": 0.3378069311865161,
      "grad_norm": 3.4375,
      "learning_rate": 7.621984181092576e-05,
      "loss": 0.8098,
      "step": 247400
    },
    {
      "epoch": 0.3378752025954059,
      "grad_norm": 7.5625,
      "learning_rate": 7.621052357571146e-05,
      "loss": 0.7577,
      "step": 247450
    },
    {
      "epoch": 0.33794347400429564,
      "grad_norm": 3.484375,
      "learning_rate": 7.62012040850405e-05,
      "loss": 0.8544,
      "step": 247500
    },
    {
      "epoch": 0.3380117454131854,
      "grad_norm": 2.9375,
      "learning_rate": 7.619188333935929e-05,
      "loss": 0.7486,
      "step": 247550
    },
    {
      "epoch": 0.33808001682207517,
      "grad_norm": 2.375,
      "learning_rate": 7.618256133911425e-05,
      "loss": 0.7817,
      "step": 247600
    },
    {
      "epoch": 0.33814828823096493,
      "grad_norm": 2.9375,
      "learning_rate": 7.617323808475196e-05,
      "loss": 0.6252,
      "step": 247650
    },
    {
      "epoch": 0.33821655963985464,
      "grad_norm": 7.65625,
      "learning_rate": 7.616391357671895e-05,
      "loss": 0.6273,
      "step": 247700
    },
    {
      "epoch": 0.3382848310487444,
      "grad_norm": 3.90625,
      "learning_rate": 7.615458781546185e-05,
      "loss": 0.6288,
      "step": 247750
    },
    {
      "epoch": 0.33835310245763417,
      "grad_norm": 2.625,
      "learning_rate": 7.61452608014274e-05,
      "loss": 0.6731,
      "step": 247800
    },
    {
      "epoch": 0.33842137386652393,
      "grad_norm": 3.0,
      "learning_rate": 7.613593253506226e-05,
      "loss": 0.6318,
      "step": 247850
    },
    {
      "epoch": 0.3384896452754137,
      "grad_norm": 3.359375,
      "learning_rate": 7.612660301681333e-05,
      "loss": 0.7053,
      "step": 247900
    },
    {
      "epoch": 0.33855791668430346,
      "grad_norm": 2.9375,
      "learning_rate": 7.611727224712747e-05,
      "loss": 0.7663,
      "step": 247950
    },
    {
      "epoch": 0.3386261880931932,
      "grad_norm": 2.90625,
      "learning_rate": 7.61079402264516e-05,
      "loss": 0.6718,
      "step": 248000
    },
    {
      "epoch": 0.33869445950208293,
      "grad_norm": 7.90625,
      "learning_rate": 7.609860695523271e-05,
      "loss": 0.6857,
      "step": 248050
    },
    {
      "epoch": 0.3387627309109727,
      "grad_norm": 8.75,
      "learning_rate": 7.608927243391786e-05,
      "loss": 0.7072,
      "step": 248100
    },
    {
      "epoch": 0.33883100231986246,
      "grad_norm": 3.3125,
      "learning_rate": 7.607993666295415e-05,
      "loss": 0.6736,
      "step": 248150
    },
    {
      "epoch": 0.3388992737287522,
      "grad_norm": 2.671875,
      "learning_rate": 7.607059964278877e-05,
      "loss": 0.6382,
      "step": 248200
    },
    {
      "epoch": 0.338967545137642,
      "grad_norm": 2.921875,
      "learning_rate": 7.606126137386898e-05,
      "loss": 0.7652,
      "step": 248250
    },
    {
      "epoch": 0.33903581654653175,
      "grad_norm": 3.75,
      "learning_rate": 7.605192185664203e-05,
      "loss": 0.664,
      "step": 248300
    },
    {
      "epoch": 0.3391040879554215,
      "grad_norm": 3.703125,
      "learning_rate": 7.604258109155526e-05,
      "loss": 0.6296,
      "step": 248350
    },
    {
      "epoch": 0.3391723593643113,
      "grad_norm": 3.125,
      "learning_rate": 7.603323907905614e-05,
      "loss": 0.6951,
      "step": 248400
    },
    {
      "epoch": 0.339240630773201,
      "grad_norm": 6.78125,
      "learning_rate": 7.60238958195921e-05,
      "loss": 0.744,
      "step": 248450
    },
    {
      "epoch": 0.33930890218209075,
      "grad_norm": 3.015625,
      "learning_rate": 7.601455131361068e-05,
      "loss": 0.7179,
      "step": 248500
    },
    {
      "epoch": 0.3393771735909805,
      "grad_norm": 8.0,
      "learning_rate": 7.60052055615595e-05,
      "loss": 0.7598,
      "step": 248550
    },
    {
      "epoch": 0.3394454449998703,
      "grad_norm": 9.0,
      "learning_rate": 7.599585856388617e-05,
      "loss": 0.7742,
      "step": 248600
    },
    {
      "epoch": 0.33951371640876005,
      "grad_norm": 7.625,
      "learning_rate": 7.598651032103841e-05,
      "loss": 0.7677,
      "step": 248650
    },
    {
      "epoch": 0.3395819878176498,
      "grad_norm": 3.203125,
      "learning_rate": 7.597716083346403e-05,
      "loss": 0.7347,
      "step": 248700
    },
    {
      "epoch": 0.3396502592265396,
      "grad_norm": 3.65625,
      "learning_rate": 7.59678101016108e-05,
      "loss": 0.7963,
      "step": 248750
    },
    {
      "epoch": 0.33971853063542934,
      "grad_norm": 3.8125,
      "learning_rate": 7.595845812592667e-05,
      "loss": 0.7661,
      "step": 248800
    },
    {
      "epoch": 0.33978680204431905,
      "grad_norm": 3.109375,
      "learning_rate": 7.594910490685955e-05,
      "loss": 0.634,
      "step": 248850
    },
    {
      "epoch": 0.3398550734532088,
      "grad_norm": 2.546875,
      "learning_rate": 7.593975044485745e-05,
      "loss": 0.7177,
      "step": 248900
    },
    {
      "epoch": 0.3399233448620986,
      "grad_norm": 2.828125,
      "learning_rate": 7.593039474036847e-05,
      "loss": 0.6855,
      "step": 248950
    },
    {
      "epoch": 0.33999161627098834,
      "grad_norm": 3.34375,
      "learning_rate": 7.592103779384071e-05,
      "loss": 0.7181,
      "step": 249000
    },
    {
      "epoch": 0.3400598876798781,
      "grad_norm": 3.03125,
      "learning_rate": 7.591167960572238e-05,
      "loss": 0.6672,
      "step": 249050
    },
    {
      "epoch": 0.34012815908876787,
      "grad_norm": 3.171875,
      "learning_rate": 7.59023201764617e-05,
      "loss": 0.7177,
      "step": 249100
    },
    {
      "epoch": 0.34019643049765763,
      "grad_norm": 3.109375,
      "learning_rate": 7.589295950650697e-05,
      "loss": 0.7915,
      "step": 249150
    },
    {
      "epoch": 0.34026470190654734,
      "grad_norm": 3.5625,
      "learning_rate": 7.58835975963066e-05,
      "loss": 0.6562,
      "step": 249200
    },
    {
      "epoch": 0.3403329733154371,
      "grad_norm": 3.375,
      "learning_rate": 7.587423444630902e-05,
      "loss": 0.8728,
      "step": 249250
    },
    {
      "epoch": 0.34040124472432687,
      "grad_norm": 3.21875,
      "learning_rate": 7.586487005696265e-05,
      "loss": 0.7868,
      "step": 249300
    },
    {
      "epoch": 0.34046951613321663,
      "grad_norm": 3.28125,
      "learning_rate": 7.585550442871608e-05,
      "loss": 0.7072,
      "step": 249350
    },
    {
      "epoch": 0.3405377875421064,
      "grad_norm": 7.125,
      "learning_rate": 7.584613756201791e-05,
      "loss": 0.7264,
      "step": 249400
    },
    {
      "epoch": 0.34060605895099616,
      "grad_norm": 2.328125,
      "learning_rate": 7.583676945731679e-05,
      "loss": 0.7046,
      "step": 249450
    },
    {
      "epoch": 0.3406743303598859,
      "grad_norm": 3.21875,
      "learning_rate": 7.582740011506146e-05,
      "loss": 0.6871,
      "step": 249500
    },
    {
      "epoch": 0.3407426017687757,
      "grad_norm": 2.34375,
      "learning_rate": 7.581802953570069e-05,
      "loss": 0.5949,
      "step": 249550
    },
    {
      "epoch": 0.3408108731776654,
      "grad_norm": 3.078125,
      "learning_rate": 7.580865771968335e-05,
      "loss": 0.7589,
      "step": 249600
    },
    {
      "epoch": 0.34087914458655516,
      "grad_norm": 3.03125,
      "learning_rate": 7.579928466745829e-05,
      "loss": 0.7329,
      "step": 249650
    },
    {
      "epoch": 0.3409474159954449,
      "grad_norm": 3.0,
      "learning_rate": 7.57899103794745e-05,
      "loss": 0.871,
      "step": 249700
    },
    {
      "epoch": 0.3410156874043347,
      "grad_norm": 6.90625,
      "learning_rate": 7.578053485618097e-05,
      "loss": 0.7999,
      "step": 249750
    },
    {
      "epoch": 0.34108395881322445,
      "grad_norm": 3.828125,
      "learning_rate": 7.577115809802683e-05,
      "loss": 0.7917,
      "step": 249800
    },
    {
      "epoch": 0.3411522302221142,
      "grad_norm": 2.5,
      "learning_rate": 7.576178010546118e-05,
      "loss": 0.6393,
      "step": 249850
    },
    {
      "epoch": 0.341220501631004,
      "grad_norm": 8.5625,
      "learning_rate": 7.575240087893323e-05,
      "loss": 0.7189,
      "step": 249900
    },
    {
      "epoch": 0.3412887730398937,
      "grad_norm": 7.25,
      "learning_rate": 7.574302041889221e-05,
      "loss": 0.7589,
      "step": 249950
    },
    {
      "epoch": 0.34135704444878345,
      "grad_norm": 2.375,
      "learning_rate": 7.573363872578746e-05,
      "loss": 0.6562,
      "step": 250000
    },
    {
      "epoch": 0.3414253158576732,
      "grad_norm": 3.203125,
      "learning_rate": 7.572425580006834e-05,
      "loss": 0.8155,
      "step": 250050
    },
    {
      "epoch": 0.341493587266563,
      "grad_norm": 3.0625,
      "learning_rate": 7.571487164218432e-05,
      "loss": 0.7046,
      "step": 250100
    },
    {
      "epoch": 0.34156185867545275,
      "grad_norm": 2.8125,
      "learning_rate": 7.570548625258482e-05,
      "loss": 0.7043,
      "step": 250150
    },
    {
      "epoch": 0.3416301300843425,
      "grad_norm": 2.78125,
      "learning_rate": 7.569609963171945e-05,
      "loss": 0.7136,
      "step": 250200
    },
    {
      "epoch": 0.3416984014932323,
      "grad_norm": 2.84375,
      "learning_rate": 7.568671178003779e-05,
      "loss": 0.6462,
      "step": 250250
    },
    {
      "epoch": 0.34176667290212204,
      "grad_norm": 3.0625,
      "learning_rate": 7.567732269798953e-05,
      "loss": 0.6945,
      "step": 250300
    },
    {
      "epoch": 0.34183494431101175,
      "grad_norm": 3.609375,
      "learning_rate": 7.566793238602438e-05,
      "loss": 0.6515,
      "step": 250350
    },
    {
      "epoch": 0.3419032157199015,
      "grad_norm": 2.453125,
      "learning_rate": 7.565854084459212e-05,
      "loss": 0.6527,
      "step": 250400
    },
    {
      "epoch": 0.3419714871287913,
      "grad_norm": 3.5625,
      "learning_rate": 7.564914807414261e-05,
      "loss": 0.81,
      "step": 250450
    },
    {
      "epoch": 0.34203975853768104,
      "grad_norm": 7.25,
      "learning_rate": 7.563975407512576e-05,
      "loss": 0.8,
      "step": 250500
    },
    {
      "epoch": 0.3421080299465708,
      "grad_norm": 3.40625,
      "learning_rate": 7.56303588479915e-05,
      "loss": 0.7591,
      "step": 250550
    },
    {
      "epoch": 0.34217630135546057,
      "grad_norm": 3.15625,
      "learning_rate": 7.562096239318989e-05,
      "loss": 0.653,
      "step": 250600
    },
    {
      "epoch": 0.34224457276435033,
      "grad_norm": 3.109375,
      "learning_rate": 7.561156471117102e-05,
      "loss": 0.8132,
      "step": 250650
    },
    {
      "epoch": 0.34231284417324004,
      "grad_norm": 3.671875,
      "learning_rate": 7.560216580238495e-05,
      "loss": 0.6492,
      "step": 250700
    },
    {
      "epoch": 0.3423811155821298,
      "grad_norm": 3.046875,
      "learning_rate": 7.559276566728197e-05,
      "loss": 0.6368,
      "step": 250750
    },
    {
      "epoch": 0.34244938699101957,
      "grad_norm": 8.25,
      "learning_rate": 7.558336430631229e-05,
      "loss": 0.7785,
      "step": 250800
    },
    {
      "epoch": 0.34251765839990933,
      "grad_norm": 3.078125,
      "learning_rate": 7.557396171992623e-05,
      "loss": 0.6931,
      "step": 250850
    },
    {
      "epoch": 0.3425859298087991,
      "grad_norm": 4.09375,
      "learning_rate": 7.556455790857417e-05,
      "loss": 0.8001,
      "step": 250900
    },
    {
      "epoch": 0.34265420121768886,
      "grad_norm": 3.234375,
      "learning_rate": 7.555515287270652e-05,
      "loss": 0.6894,
      "step": 250950
    },
    {
      "epoch": 0.3427224726265786,
      "grad_norm": 2.28125,
      "learning_rate": 7.554574661277383e-05,
      "loss": 0.6033,
      "step": 251000
    },
    {
      "epoch": 0.3427907440354684,
      "grad_norm": 2.859375,
      "learning_rate": 7.553633912922658e-05,
      "loss": 0.7098,
      "step": 251050
    },
    {
      "epoch": 0.3428590154443581,
      "grad_norm": 2.828125,
      "learning_rate": 7.552693042251544e-05,
      "loss": 0.6027,
      "step": 251100
    },
    {
      "epoch": 0.34292728685324786,
      "grad_norm": 3.671875,
      "learning_rate": 7.551752049309103e-05,
      "loss": 0.7744,
      "step": 251150
    },
    {
      "epoch": 0.3429955582621376,
      "grad_norm": 3.15625,
      "learning_rate": 7.550810934140408e-05,
      "loss": 0.8055,
      "step": 251200
    },
    {
      "epoch": 0.3430638296710274,
      "grad_norm": 2.640625,
      "learning_rate": 7.549869696790539e-05,
      "loss": 0.7547,
      "step": 251250
    },
    {
      "epoch": 0.34313210107991715,
      "grad_norm": 2.984375,
      "learning_rate": 7.548928337304582e-05,
      "loss": 0.6611,
      "step": 251300
    },
    {
      "epoch": 0.3432003724888069,
      "grad_norm": 3.546875,
      "learning_rate": 7.547986855727622e-05,
      "loss": 0.7401,
      "step": 251350
    },
    {
      "epoch": 0.3432686438976967,
      "grad_norm": 7.9375,
      "learning_rate": 7.547045252104762e-05,
      "loss": 0.6,
      "step": 251400
    },
    {
      "epoch": 0.34333691530658644,
      "grad_norm": 7.3125,
      "learning_rate": 7.546103526481097e-05,
      "loss": 0.6573,
      "step": 251450
    },
    {
      "epoch": 0.34340518671547615,
      "grad_norm": 3.390625,
      "learning_rate": 7.54516167890174e-05,
      "loss": 0.7341,
      "step": 251500
    },
    {
      "epoch": 0.3434734581243659,
      "grad_norm": 2.859375,
      "learning_rate": 7.544219709411799e-05,
      "loss": 0.7407,
      "step": 251550
    },
    {
      "epoch": 0.3435417295332557,
      "grad_norm": 2.96875,
      "learning_rate": 7.543277618056399e-05,
      "loss": 0.6757,
      "step": 251600
    },
    {
      "epoch": 0.34361000094214544,
      "grad_norm": 3.734375,
      "learning_rate": 7.542335404880663e-05,
      "loss": 0.7098,
      "step": 251650
    },
    {
      "epoch": 0.3436782723510352,
      "grad_norm": 3.21875,
      "learning_rate": 7.54139306992972e-05,
      "loss": 0.7215,
      "step": 251700
    },
    {
      "epoch": 0.34374654375992497,
      "grad_norm": 3.21875,
      "learning_rate": 7.54045061324871e-05,
      "loss": 0.7146,
      "step": 251750
    },
    {
      "epoch": 0.34381481516881474,
      "grad_norm": 3.734375,
      "learning_rate": 7.539508034882774e-05,
      "loss": 0.7545,
      "step": 251800
    },
    {
      "epoch": 0.34388308657770444,
      "grad_norm": 7.25,
      "learning_rate": 7.53856533487706e-05,
      "loss": 0.6169,
      "step": 251850
    },
    {
      "epoch": 0.3439513579865942,
      "grad_norm": 2.765625,
      "learning_rate": 7.537622513276724e-05,
      "loss": 0.6247,
      "step": 251900
    },
    {
      "epoch": 0.344019629395484,
      "grad_norm": 3.171875,
      "learning_rate": 7.536679570126926e-05,
      "loss": 0.6938,
      "step": 251950
    },
    {
      "epoch": 0.34408790080437374,
      "grad_norm": 3.5625,
      "learning_rate": 7.535736505472828e-05,
      "loss": 0.7416,
      "step": 252000
    },
    {
      "epoch": 0.3441561722132635,
      "grad_norm": 2.953125,
      "learning_rate": 7.534793319359608e-05,
      "loss": 0.7333,
      "step": 252050
    },
    {
      "epoch": 0.34422444362215326,
      "grad_norm": 2.90625,
      "learning_rate": 7.53385001183244e-05,
      "loss": 0.643,
      "step": 252100
    },
    {
      "epoch": 0.34429271503104303,
      "grad_norm": 6.8125,
      "learning_rate": 7.53290658293651e-05,
      "loss": 0.707,
      "step": 252150
    },
    {
      "epoch": 0.3443609864399328,
      "grad_norm": 3.609375,
      "learning_rate": 7.531963032717002e-05,
      "loss": 0.8226,
      "step": 252200
    },
    {
      "epoch": 0.3444292578488225,
      "grad_norm": 6.9375,
      "learning_rate": 7.531019361219116e-05,
      "loss": 0.7489,
      "step": 252250
    },
    {
      "epoch": 0.34449752925771226,
      "grad_norm": 2.859375,
      "learning_rate": 7.530075568488052e-05,
      "loss": 0.6988,
      "step": 252300
    },
    {
      "epoch": 0.34456580066660203,
      "grad_norm": 3.40625,
      "learning_rate": 7.529131654569015e-05,
      "loss": 0.7609,
      "step": 252350
    },
    {
      "epoch": 0.3446340720754918,
      "grad_norm": 8.0625,
      "learning_rate": 7.528187619507221e-05,
      "loss": 0.7443,
      "step": 252400
    },
    {
      "epoch": 0.34470234348438156,
      "grad_norm": 3.578125,
      "learning_rate": 7.527243463347883e-05,
      "loss": 0.8256,
      "step": 252450
    },
    {
      "epoch": 0.3447706148932713,
      "grad_norm": 3.40625,
      "learning_rate": 7.526299186136227e-05,
      "loss": 0.6267,
      "step": 252500
    },
    {
      "epoch": 0.3448388863021611,
      "grad_norm": 2.921875,
      "learning_rate": 7.525354787917487e-05,
      "loss": 0.7435,
      "step": 252550
    },
    {
      "epoch": 0.3449071577110508,
      "grad_norm": 3.609375,
      "learning_rate": 7.524410268736894e-05,
      "loss": 0.795,
      "step": 252600
    },
    {
      "epoch": 0.34497542911994056,
      "grad_norm": 3.375,
      "learning_rate": 7.523465628639692e-05,
      "loss": 0.6631,
      "step": 252650
    },
    {
      "epoch": 0.3450437005288303,
      "grad_norm": 8.8125,
      "learning_rate": 7.522520867671126e-05,
      "loss": 0.751,
      "step": 252700
    },
    {
      "epoch": 0.3451119719377201,
      "grad_norm": 4.09375,
      "learning_rate": 7.521575985876451e-05,
      "loss": 0.6715,
      "step": 252750
    },
    {
      "epoch": 0.34518024334660985,
      "grad_norm": 3.078125,
      "learning_rate": 7.520630983300925e-05,
      "loss": 0.8138,
      "step": 252800
    },
    {
      "epoch": 0.3452485147554996,
      "grad_norm": 3.296875,
      "learning_rate": 7.519685859989812e-05,
      "loss": 0.5903,
      "step": 252850
    },
    {
      "epoch": 0.3453167861643894,
      "grad_norm": 3.265625,
      "learning_rate": 7.518740615988384e-05,
      "loss": 0.6804,
      "step": 252900
    },
    {
      "epoch": 0.34538505757327914,
      "grad_norm": 2.9375,
      "learning_rate": 7.517795251341917e-05,
      "loss": 0.7014,
      "step": 252950
    },
    {
      "epoch": 0.34545332898216885,
      "grad_norm": 3.0,
      "learning_rate": 7.516849766095691e-05,
      "loss": 0.7985,
      "step": 253000
    },
    {
      "epoch": 0.3455216003910586,
      "grad_norm": 8.5,
      "learning_rate": 7.515904160294997e-05,
      "loss": 0.7657,
      "step": 253050
    },
    {
      "epoch": 0.3455898717999484,
      "grad_norm": 6.78125,
      "learning_rate": 7.514958433985124e-05,
      "loss": 0.8351,
      "step": 253100
    },
    {
      "epoch": 0.34565814320883814,
      "grad_norm": 3.15625,
      "learning_rate": 7.514012587211376e-05,
      "loss": 0.7093,
      "step": 253150
    },
    {
      "epoch": 0.3457264146177279,
      "grad_norm": 2.640625,
      "learning_rate": 7.513066620019057e-05,
      "loss": 0.7186,
      "step": 253200
    },
    {
      "epoch": 0.34579468602661767,
      "grad_norm": 8.1875,
      "learning_rate": 7.512120532453475e-05,
      "loss": 0.7235,
      "step": 253250
    },
    {
      "epoch": 0.34586295743550743,
      "grad_norm": 3.90625,
      "learning_rate": 7.511174324559949e-05,
      "loss": 0.6551,
      "step": 253300
    },
    {
      "epoch": 0.34593122884439714,
      "grad_norm": 7.59375,
      "learning_rate": 7.5102279963838e-05,
      "loss": 0.6815,
      "step": 253350
    },
    {
      "epoch": 0.3459995002532869,
      "grad_norm": 3.359375,
      "learning_rate": 7.509281547970359e-05,
      "loss": 0.6589,
      "step": 253400
    },
    {
      "epoch": 0.34606777166217667,
      "grad_norm": 7.59375,
      "learning_rate": 7.508334979364957e-05,
      "loss": 0.6372,
      "step": 253450
    },
    {
      "epoch": 0.34613604307106643,
      "grad_norm": 7.90625,
      "learning_rate": 7.507388290612933e-05,
      "loss": 0.6721,
      "step": 253500
    },
    {
      "epoch": 0.3462043144799562,
      "grad_norm": 2.78125,
      "learning_rate": 7.506441481759637e-05,
      "loss": 0.7517,
      "step": 253550
    },
    {
      "epoch": 0.34627258588884596,
      "grad_norm": 3.171875,
      "learning_rate": 7.505494552850414e-05,
      "loss": 0.608,
      "step": 253600
    },
    {
      "epoch": 0.3463408572977357,
      "grad_norm": 3.5625,
      "learning_rate": 7.504547503930624e-05,
      "loss": 0.7117,
      "step": 253650
    },
    {
      "epoch": 0.3464091287066255,
      "grad_norm": 8.1875,
      "learning_rate": 7.503600335045632e-05,
      "loss": 0.7868,
      "step": 253700
    },
    {
      "epoch": 0.3464774001155152,
      "grad_norm": 3.421875,
      "learning_rate": 7.502653046240803e-05,
      "loss": 0.7193,
      "step": 253750
    },
    {
      "epoch": 0.34654567152440496,
      "grad_norm": 2.71875,
      "learning_rate": 7.501705637561512e-05,
      "loss": 0.6889,
      "step": 253800
    },
    {
      "epoch": 0.3466139429332947,
      "grad_norm": 3.734375,
      "learning_rate": 7.500758109053139e-05,
      "loss": 0.631,
      "step": 253850
    },
    {
      "epoch": 0.3466822143421845,
      "grad_norm": 2.875,
      "learning_rate": 7.49981046076107e-05,
      "loss": 0.7002,
      "step": 253900
    },
    {
      "epoch": 0.34675048575107426,
      "grad_norm": 3.625,
      "learning_rate": 7.498862692730696e-05,
      "loss": 0.7295,
      "step": 253950
    },
    {
      "epoch": 0.346818757159964,
      "grad_norm": 3.796875,
      "learning_rate": 7.497914805007413e-05,
      "loss": 0.7143,
      "step": 254000
    },
    {
      "epoch": 0.3468870285688538,
      "grad_norm": 2.65625,
      "learning_rate": 7.496966797636627e-05,
      "loss": 0.5816,
      "step": 254050
    },
    {
      "epoch": 0.34695529997774355,
      "grad_norm": 3.46875,
      "learning_rate": 7.496018670663743e-05,
      "loss": 0.6886,
      "step": 254100
    },
    {
      "epoch": 0.34702357138663326,
      "grad_norm": 2.25,
      "learning_rate": 7.495070424134176e-05,
      "loss": 0.8222,
      "step": 254150
    },
    {
      "epoch": 0.347091842795523,
      "grad_norm": 2.953125,
      "learning_rate": 7.49412205809335e-05,
      "loss": 0.7947,
      "step": 254200
    },
    {
      "epoch": 0.3471601142044128,
      "grad_norm": 2.90625,
      "learning_rate": 7.493173572586684e-05,
      "loss": 0.7259,
      "step": 254250
    },
    {
      "epoch": 0.34722838561330255,
      "grad_norm": 2.5,
      "learning_rate": 7.492224967659616e-05,
      "loss": 0.7776,
      "step": 254300
    },
    {
      "epoch": 0.3472966570221923,
      "grad_norm": 3.1875,
      "learning_rate": 7.491276243357579e-05,
      "loss": 0.7817,
      "step": 254350
    },
    {
      "epoch": 0.3473649284310821,
      "grad_norm": 3.5625,
      "learning_rate": 7.490327399726015e-05,
      "loss": 0.7672,
      "step": 254400
    },
    {
      "epoch": 0.34743319983997184,
      "grad_norm": 3.40625,
      "learning_rate": 7.48937843681038e-05,
      "loss": 0.594,
      "step": 254450
    },
    {
      "epoch": 0.34750147124886155,
      "grad_norm": 3.765625,
      "learning_rate": 7.488429354656119e-05,
      "loss": 0.7221,
      "step": 254500
    },
    {
      "epoch": 0.3475697426577513,
      "grad_norm": 2.71875,
      "learning_rate": 7.487480153308697e-05,
      "loss": 0.6013,
      "step": 254550
    },
    {
      "epoch": 0.3476380140666411,
      "grad_norm": 3.625,
      "learning_rate": 7.486530832813579e-05,
      "loss": 0.6677,
      "step": 254600
    },
    {
      "epoch": 0.34770628547553084,
      "grad_norm": 3.328125,
      "learning_rate": 7.485581393216235e-05,
      "loss": 0.6096,
      "step": 254650
    },
    {
      "epoch": 0.3477745568844206,
      "grad_norm": 4.4375,
      "learning_rate": 7.484631834562145e-05,
      "loss": 0.7203,
      "step": 254700
    },
    {
      "epoch": 0.34784282829331037,
      "grad_norm": 2.421875,
      "learning_rate": 7.483682156896791e-05,
      "loss": 0.7575,
      "step": 254750
    },
    {
      "epoch": 0.34791109970220013,
      "grad_norm": 3.4375,
      "learning_rate": 7.48273236026566e-05,
      "loss": 0.619,
      "step": 254800
    },
    {
      "epoch": 0.3479793711110899,
      "grad_norm": 3.53125,
      "learning_rate": 7.481782444714247e-05,
      "loss": 0.6815,
      "step": 254850
    },
    {
      "epoch": 0.3480476425199796,
      "grad_norm": 7.59375,
      "learning_rate": 7.480832410288053e-05,
      "loss": 0.7811,
      "step": 254900
    },
    {
      "epoch": 0.34811591392886937,
      "grad_norm": 3.59375,
      "learning_rate": 7.479882257032582e-05,
      "loss": 0.8199,
      "step": 254950
    },
    {
      "epoch": 0.34818418533775913,
      "grad_norm": 3.890625,
      "learning_rate": 7.478931984993346e-05,
      "loss": 0.6531,
      "step": 255000
    },
    {
      "epoch": 0.3482524567466489,
      "grad_norm": 2.765625,
      "learning_rate": 7.477981594215862e-05,
      "loss": 0.7076,
      "step": 255050
    },
    {
      "epoch": 0.34832072815553866,
      "grad_norm": 2.8125,
      "learning_rate": 7.477031084745653e-05,
      "loss": 0.7385,
      "step": 255100
    },
    {
      "epoch": 0.3483889995644284,
      "grad_norm": 3.078125,
      "learning_rate": 7.476080456628248e-05,
      "loss": 0.533,
      "step": 255150
    },
    {
      "epoch": 0.3484572709733182,
      "grad_norm": 3.015625,
      "learning_rate": 7.475129709909179e-05,
      "loss": 0.6156,
      "step": 255200
    },
    {
      "epoch": 0.3485255423822079,
      "grad_norm": 3.0625,
      "learning_rate": 7.47417884463399e-05,
      "loss": 0.7417,
      "step": 255250
    },
    {
      "epoch": 0.34859381379109766,
      "grad_norm": 2.671875,
      "learning_rate": 7.473227860848221e-05,
      "loss": 0.7219,
      "step": 255300
    },
    {
      "epoch": 0.3486620851999874,
      "grad_norm": 2.734375,
      "learning_rate": 7.472276758597427e-05,
      "loss": 0.7075,
      "step": 255350
    },
    {
      "epoch": 0.3487303566088772,
      "grad_norm": 3.75,
      "learning_rate": 7.471325537927163e-05,
      "loss": 0.7619,
      "step": 255400
    },
    {
      "epoch": 0.34879862801776695,
      "grad_norm": 3.6875,
      "learning_rate": 7.470374198882991e-05,
      "loss": 0.6374,
      "step": 255450
    },
    {
      "epoch": 0.3488668994266567,
      "grad_norm": 3.09375,
      "learning_rate": 7.469422741510483e-05,
      "loss": 0.7269,
      "step": 255500
    },
    {
      "epoch": 0.3489351708355465,
      "grad_norm": 3.453125,
      "learning_rate": 7.468471165855208e-05,
      "loss": 0.6078,
      "step": 255550
    },
    {
      "epoch": 0.34900344224443625,
      "grad_norm": 3.25,
      "learning_rate": 7.467519471962748e-05,
      "loss": 0.7936,
      "step": 255600
    },
    {
      "epoch": 0.34907171365332595,
      "grad_norm": 4.8125,
      "learning_rate": 7.466567659878688e-05,
      "loss": 0.8946,
      "step": 255650
    },
    {
      "epoch": 0.3491399850622157,
      "grad_norm": 3.4375,
      "learning_rate": 7.465615729648616e-05,
      "loss": 0.6979,
      "step": 255700
    },
    {
      "epoch": 0.3492082564711055,
      "grad_norm": 2.984375,
      "learning_rate": 7.464663681318133e-05,
      "loss": 0.6408,
      "step": 255750
    },
    {
      "epoch": 0.34927652787999525,
      "grad_norm": 2.890625,
      "learning_rate": 7.46371151493284e-05,
      "loss": 0.7588,
      "step": 255800
    },
    {
      "epoch": 0.349344799288885,
      "grad_norm": 7.0,
      "learning_rate": 7.462759230538343e-05,
      "loss": 0.7024,
      "step": 255850
    },
    {
      "epoch": 0.3494130706977748,
      "grad_norm": 3.6875,
      "learning_rate": 7.461806828180254e-05,
      "loss": 0.6974,
      "step": 255900
    },
    {
      "epoch": 0.34948134210666454,
      "grad_norm": 3.296875,
      "learning_rate": 7.460854307904196e-05,
      "loss": 0.6748,
      "step": 255950
    },
    {
      "epoch": 0.3495496135155543,
      "grad_norm": 3.5,
      "learning_rate": 7.459901669755794e-05,
      "loss": 0.6677,
      "step": 256000
    },
    {
      "epoch": 0.349617884924444,
      "grad_norm": 3.234375,
      "learning_rate": 7.458948913780673e-05,
      "loss": 0.6798,
      "step": 256050
    },
    {
      "epoch": 0.3496861563333338,
      "grad_norm": 3.375,
      "learning_rate": 7.457996040024473e-05,
      "loss": 0.6114,
      "step": 256100
    },
    {
      "epoch": 0.34975442774222354,
      "grad_norm": 8.1875,
      "learning_rate": 7.457043048532837e-05,
      "loss": 0.823,
      "step": 256150
    },
    {
      "epoch": 0.3498226991511133,
      "grad_norm": 4.125,
      "learning_rate": 7.456089939351408e-05,
      "loss": 0.7919,
      "step": 256200
    },
    {
      "epoch": 0.34989097056000307,
      "grad_norm": 7.15625,
      "learning_rate": 7.455136712525843e-05,
      "loss": 0.7616,
      "step": 256250
    },
    {
      "epoch": 0.34995924196889283,
      "grad_norm": 3.46875,
      "learning_rate": 7.454183368101798e-05,
      "loss": 0.695,
      "step": 256300
    },
    {
      "epoch": 0.3500275133777826,
      "grad_norm": 2.65625,
      "learning_rate": 7.45322990612494e-05,
      "loss": 0.761,
      "step": 256350
    },
    {
      "epoch": 0.3500957847866723,
      "grad_norm": 3.078125,
      "learning_rate": 7.452276326640933e-05,
      "loss": 0.7016,
      "step": 256400
    },
    {
      "epoch": 0.35016405619556207,
      "grad_norm": 3.234375,
      "learning_rate": 7.451322629695459e-05,
      "loss": 0.6361,
      "step": 256450
    },
    {
      "epoch": 0.35023232760445183,
      "grad_norm": 8.0,
      "learning_rate": 7.450368815334197e-05,
      "loss": 0.7101,
      "step": 256500
    },
    {
      "epoch": 0.3503005990133416,
      "grad_norm": 2.734375,
      "learning_rate": 7.449414883602831e-05,
      "loss": 0.8165,
      "step": 256550
    },
    {
      "epoch": 0.35036887042223136,
      "grad_norm": 2.515625,
      "learning_rate": 7.448460834547057e-05,
      "loss": 0.6954,
      "step": 256600
    },
    {
      "epoch": 0.3504371418311211,
      "grad_norm": 3.1875,
      "learning_rate": 7.447506668212569e-05,
      "loss": 0.6213,
      "step": 256650
    },
    {
      "epoch": 0.3505054132400109,
      "grad_norm": 3.28125,
      "learning_rate": 7.446552384645075e-05,
      "loss": 0.7237,
      "step": 256700
    },
    {
      "epoch": 0.35057368464890065,
      "grad_norm": 2.703125,
      "learning_rate": 7.445597983890282e-05,
      "loss": 0.6877,
      "step": 256750
    },
    {
      "epoch": 0.35064195605779036,
      "grad_norm": 2.59375,
      "learning_rate": 7.444643465993906e-05,
      "loss": 0.7778,
      "step": 256800
    },
    {
      "epoch": 0.3507102274666801,
      "grad_norm": 2.484375,
      "learning_rate": 7.443688831001665e-05,
      "loss": 0.6319,
      "step": 256850
    },
    {
      "epoch": 0.3507784988755699,
      "grad_norm": 3.390625,
      "learning_rate": 7.442734078959286e-05,
      "loss": 0.7077,
      "step": 256900
    },
    {
      "epoch": 0.35084677028445965,
      "grad_norm": 2.96875,
      "learning_rate": 7.441779209912502e-05,
      "loss": 0.7285,
      "step": 256950
    },
    {
      "epoch": 0.3509150416933494,
      "grad_norm": 2.71875,
      "learning_rate": 7.440824223907047e-05,
      "loss": 0.6777,
      "step": 257000
    },
    {
      "epoch": 0.3509833131022392,
      "grad_norm": 2.765625,
      "learning_rate": 7.439869120988669e-05,
      "loss": 0.7259,
      "step": 257050
    },
    {
      "epoch": 0.35105158451112894,
      "grad_norm": 2.921875,
      "learning_rate": 7.438913901203113e-05,
      "loss": 0.6316,
      "step": 257100
    },
    {
      "epoch": 0.35111985592001865,
      "grad_norm": 3.28125,
      "learning_rate": 7.437958564596132e-05,
      "loss": 0.7255,
      "step": 257150
    },
    {
      "epoch": 0.3511881273289084,
      "grad_norm": 3.359375,
      "learning_rate": 7.437003111213489e-05,
      "loss": 0.6666,
      "step": 257200
    },
    {
      "epoch": 0.3512563987377982,
      "grad_norm": 8.25,
      "learning_rate": 7.436047541100946e-05,
      "loss": 0.6597,
      "step": 257250
    },
    {
      "epoch": 0.35132467014668795,
      "grad_norm": 2.390625,
      "learning_rate": 7.435091854304275e-05,
      "loss": 0.6846,
      "step": 257300
    },
    {
      "epoch": 0.3513929415555777,
      "grad_norm": 3.796875,
      "learning_rate": 7.434136050869253e-05,
      "loss": 0.6758,
      "step": 257350
    },
    {
      "epoch": 0.3514612129644675,
      "grad_norm": 3.109375,
      "learning_rate": 7.433180130841661e-05,
      "loss": 0.7316,
      "step": 257400
    },
    {
      "epoch": 0.35152948437335724,
      "grad_norm": 3.640625,
      "learning_rate": 7.432224094267289e-05,
      "loss": 0.7637,
      "step": 257450
    },
    {
      "epoch": 0.351597755782247,
      "grad_norm": 2.828125,
      "learning_rate": 7.431267941191926e-05,
      "loss": 0.7676,
      "step": 257500
    },
    {
      "epoch": 0.3516660271911367,
      "grad_norm": 3.390625,
      "learning_rate": 7.430311671661375e-05,
      "loss": 0.6781,
      "step": 257550
    },
    {
      "epoch": 0.3517342986000265,
      "grad_norm": 2.90625,
      "learning_rate": 7.429355285721438e-05,
      "loss": 0.6749,
      "step": 257600
    },
    {
      "epoch": 0.35180257000891624,
      "grad_norm": 8.3125,
      "learning_rate": 7.428398783417924e-05,
      "loss": 0.7606,
      "step": 257650
    },
    {
      "epoch": 0.351870841417806,
      "grad_norm": 2.75,
      "learning_rate": 7.42744216479665e-05,
      "loss": 0.7453,
      "step": 257700
    },
    {
      "epoch": 0.35193911282669577,
      "grad_norm": 3.75,
      "learning_rate": 7.426485429903435e-05,
      "loss": 0.6935,
      "step": 257750
    },
    {
      "epoch": 0.35200738423558553,
      "grad_norm": 2.921875,
      "learning_rate": 7.42552857878411e-05,
      "loss": 0.6662,
      "step": 257800
    },
    {
      "epoch": 0.3520756556444753,
      "grad_norm": 3.0625,
      "learning_rate": 7.424571611484505e-05,
      "loss": 0.7727,
      "step": 257850
    },
    {
      "epoch": 0.352143927053365,
      "grad_norm": 3.5625,
      "learning_rate": 7.423614528050456e-05,
      "loss": 0.6967,
      "step": 257900
    },
    {
      "epoch": 0.35221219846225477,
      "grad_norm": 2.5,
      "learning_rate": 7.422657328527807e-05,
      "loss": 0.6694,
      "step": 257950
    },
    {
      "epoch": 0.35228046987114453,
      "grad_norm": 6.75,
      "learning_rate": 7.421700012962407e-05,
      "loss": 0.6884,
      "step": 258000
    },
    {
      "epoch": 0.3523487412800343,
      "grad_norm": 2.65625,
      "learning_rate": 7.420742581400111e-05,
      "loss": 0.7605,
      "step": 258050
    },
    {
      "epoch": 0.35241701268892406,
      "grad_norm": 7.6875,
      "learning_rate": 7.41978503388678e-05,
      "loss": 0.7612,
      "step": 258100
    },
    {
      "epoch": 0.3524852840978138,
      "grad_norm": 7.0625,
      "learning_rate": 7.418827370468278e-05,
      "loss": 0.8445,
      "step": 258150
    },
    {
      "epoch": 0.3525535555067036,
      "grad_norm": 3.0,
      "learning_rate": 7.417869591190474e-05,
      "loss": 0.752,
      "step": 258200
    },
    {
      "epoch": 0.35262182691559335,
      "grad_norm": 2.765625,
      "learning_rate": 7.416911696099249e-05,
      "loss": 0.6007,
      "step": 258250
    },
    {
      "epoch": 0.35269009832448306,
      "grad_norm": 3.171875,
      "learning_rate": 7.415953685240484e-05,
      "loss": 0.6005,
      "step": 258300
    },
    {
      "epoch": 0.3527583697333728,
      "grad_norm": 2.765625,
      "learning_rate": 7.414995558660062e-05,
      "loss": 0.6791,
      "step": 258350
    },
    {
      "epoch": 0.3528266411422626,
      "grad_norm": 3.28125,
      "learning_rate": 7.414037316403883e-05,
      "loss": 0.7765,
      "step": 258400
    },
    {
      "epoch": 0.35289491255115235,
      "grad_norm": 3.171875,
      "learning_rate": 7.413078958517843e-05,
      "loss": 0.7022,
      "step": 258450
    },
    {
      "epoch": 0.3529631839600421,
      "grad_norm": 3.0625,
      "learning_rate": 7.412120485047845e-05,
      "loss": 0.6901,
      "step": 258500
    },
    {
      "epoch": 0.3530314553689319,
      "grad_norm": 3.421875,
      "learning_rate": 7.411161896039803e-05,
      "loss": 0.6555,
      "step": 258550
    },
    {
      "epoch": 0.35309972677782164,
      "grad_norm": 2.921875,
      "learning_rate": 7.410203191539626e-05,
      "loss": 0.7275,
      "step": 258600
    },
    {
      "epoch": 0.3531679981867114,
      "grad_norm": 2.8125,
      "learning_rate": 7.40924437159324e-05,
      "loss": 0.684,
      "step": 258650
    },
    {
      "epoch": 0.3532362695956011,
      "grad_norm": 2.671875,
      "learning_rate": 7.408285436246569e-05,
      "loss": 0.7792,
      "step": 258700
    },
    {
      "epoch": 0.3533045410044909,
      "grad_norm": 6.75,
      "learning_rate": 7.407326385545548e-05,
      "loss": 0.6772,
      "step": 258750
    },
    {
      "epoch": 0.35337281241338064,
      "grad_norm": 8.625,
      "learning_rate": 7.40636721953611e-05,
      "loss": 0.7806,
      "step": 258800
    },
    {
      "epoch": 0.3534410838222704,
      "grad_norm": 7.40625,
      "learning_rate": 7.405407938264203e-05,
      "loss": 0.8139,
      "step": 258850
    },
    {
      "epoch": 0.35350935523116017,
      "grad_norm": 3.765625,
      "learning_rate": 7.40444854177577e-05,
      "loss": 0.766,
      "step": 258900
    },
    {
      "epoch": 0.35357762664004994,
      "grad_norm": 7.78125,
      "learning_rate": 7.40348903011677e-05,
      "loss": 0.7062,
      "step": 258950
    },
    {
      "epoch": 0.3536458980489397,
      "grad_norm": 3.40625,
      "learning_rate": 7.40252940333316e-05,
      "loss": 0.7814,
      "step": 259000
    },
    {
      "epoch": 0.3537141694578294,
      "grad_norm": 2.859375,
      "learning_rate": 7.401569661470907e-05,
      "loss": 0.672,
      "step": 259050
    },
    {
      "epoch": 0.35378244086671917,
      "grad_norm": 2.40625,
      "learning_rate": 7.400609804575982e-05,
      "loss": 0.7485,
      "step": 259100
    },
    {
      "epoch": 0.35385071227560894,
      "grad_norm": 3.84375,
      "learning_rate": 7.399649832694357e-05,
      "loss": 0.6517,
      "step": 259150
    },
    {
      "epoch": 0.3539189836844987,
      "grad_norm": 3.390625,
      "learning_rate": 7.398689745872017e-05,
      "loss": 0.6966,
      "step": 259200
    },
    {
      "epoch": 0.35398725509338846,
      "grad_norm": 5.90625,
      "learning_rate": 7.397729544154948e-05,
      "loss": 0.712,
      "step": 259250
    },
    {
      "epoch": 0.35405552650227823,
      "grad_norm": 3.359375,
      "learning_rate": 7.396769227589143e-05,
      "loss": 0.8087,
      "step": 259300
    },
    {
      "epoch": 0.354123797911168,
      "grad_norm": 7.3125,
      "learning_rate": 7.395808796220603e-05,
      "loss": 0.6589,
      "step": 259350
    },
    {
      "epoch": 0.35419206932005776,
      "grad_norm": 7.40625,
      "learning_rate": 7.394848250095326e-05,
      "loss": 0.6508,
      "step": 259400
    },
    {
      "epoch": 0.35426034072894746,
      "grad_norm": 2.484375,
      "learning_rate": 7.393887589259325e-05,
      "loss": 0.637,
      "step": 259450
    },
    {
      "epoch": 0.35432861213783723,
      "grad_norm": 8.0,
      "learning_rate": 7.392926813758613e-05,
      "loss": 0.6936,
      "step": 259500
    },
    {
      "epoch": 0.354396883546727,
      "grad_norm": 7.1875,
      "learning_rate": 7.391965923639211e-05,
      "loss": 0.6467,
      "step": 259550
    },
    {
      "epoch": 0.35446515495561676,
      "grad_norm": 3.359375,
      "learning_rate": 7.391004918947147e-05,
      "loss": 0.7545,
      "step": 259600
    },
    {
      "epoch": 0.3545334263645065,
      "grad_norm": 2.84375,
      "learning_rate": 7.390043799728447e-05,
      "loss": 0.7518,
      "step": 259650
    },
    {
      "epoch": 0.3546016977733963,
      "grad_norm": 3.125,
      "learning_rate": 7.389082566029149e-05,
      "loss": 0.7266,
      "step": 259700
    },
    {
      "epoch": 0.35466996918228605,
      "grad_norm": 3.90625,
      "learning_rate": 7.388121217895299e-05,
      "loss": 0.8046,
      "step": 259750
    },
    {
      "epoch": 0.35473824059117576,
      "grad_norm": 3.296875,
      "learning_rate": 7.387159755372941e-05,
      "loss": 0.6312,
      "step": 259800
    },
    {
      "epoch": 0.3548065120000655,
      "grad_norm": 7.1875,
      "learning_rate": 7.38619817850813e-05,
      "loss": 0.6724,
      "step": 259850
    },
    {
      "epoch": 0.3548747834089553,
      "grad_norm": 3.125,
      "learning_rate": 7.385236487346922e-05,
      "loss": 0.7354,
      "step": 259900
    },
    {
      "epoch": 0.35494305481784505,
      "grad_norm": 3.125,
      "learning_rate": 7.384274681935382e-05,
      "loss": 0.8072,
      "step": 259950
    },
    {
      "epoch": 0.3550113262267348,
      "grad_norm": 2.953125,
      "learning_rate": 7.383312762319581e-05,
      "loss": 0.723,
      "step": 260000
    },
    {
      "epoch": 0.3550795976356246,
      "grad_norm": 9.0,
      "learning_rate": 7.382350728545593e-05,
      "loss": 0.7546,
      "step": 260050
    },
    {
      "epoch": 0.35514786904451434,
      "grad_norm": 2.75,
      "learning_rate": 7.381388580659498e-05,
      "loss": 0.8072,
      "step": 260100
    },
    {
      "epoch": 0.3552161404534041,
      "grad_norm": 3.515625,
      "learning_rate": 7.380426318707383e-05,
      "loss": 0.6702,
      "step": 260150
    },
    {
      "epoch": 0.3552844118622938,
      "grad_norm": 2.84375,
      "learning_rate": 7.379463942735337e-05,
      "loss": 0.7157,
      "step": 260200
    },
    {
      "epoch": 0.3553526832711836,
      "grad_norm": 2.875,
      "learning_rate": 7.378501452789459e-05,
      "loss": 0.7782,
      "step": 260250
    },
    {
      "epoch": 0.35542095468007334,
      "grad_norm": 2.875,
      "learning_rate": 7.37753884891585e-05,
      "loss": 0.7177,
      "step": 260300
    },
    {
      "epoch": 0.3554892260889631,
      "grad_norm": 7.125,
      "learning_rate": 7.376576131160621e-05,
      "loss": 0.743,
      "step": 260350
    },
    {
      "epoch": 0.35555749749785287,
      "grad_norm": 2.4375,
      "learning_rate": 7.37561329956988e-05,
      "loss": 0.7876,
      "step": 260400
    },
    {
      "epoch": 0.35562576890674263,
      "grad_norm": 3.140625,
      "learning_rate": 7.374650354189748e-05,
      "loss": 0.7311,
      "step": 260450
    },
    {
      "epoch": 0.3556940403156324,
      "grad_norm": 3.609375,
      "learning_rate": 7.37368729506635e-05,
      "loss": 0.6782,
      "step": 260500
    },
    {
      "epoch": 0.3557623117245221,
      "grad_norm": 2.953125,
      "learning_rate": 7.372724122245813e-05,
      "loss": 0.7176,
      "step": 260550
    },
    {
      "epoch": 0.35583058313341187,
      "grad_norm": 3.375,
      "learning_rate": 7.371760835774276e-05,
      "loss": 0.7076,
      "step": 260600
    },
    {
      "epoch": 0.35589885454230163,
      "grad_norm": 2.96875,
      "learning_rate": 7.370797435697876e-05,
      "loss": 0.6423,
      "step": 260650
    },
    {
      "epoch": 0.3559671259511914,
      "grad_norm": 5.34375,
      "learning_rate": 7.36983392206276e-05,
      "loss": 0.7677,
      "step": 260700
    },
    {
      "epoch": 0.35603539736008116,
      "grad_norm": 3.6875,
      "learning_rate": 7.36887029491508e-05,
      "loss": 0.7915,
      "step": 260750
    },
    {
      "epoch": 0.3561036687689709,
      "grad_norm": 3.46875,
      "learning_rate": 7.36790655430099e-05,
      "loss": 0.6586,
      "step": 260800
    },
    {
      "epoch": 0.3561719401778607,
      "grad_norm": 2.828125,
      "learning_rate": 7.366942700266654e-05,
      "loss": 0.7237,
      "step": 260850
    },
    {
      "epoch": 0.35624021158675045,
      "grad_norm": 6.4375,
      "learning_rate": 7.365978732858242e-05,
      "loss": 0.7619,
      "step": 260900
    },
    {
      "epoch": 0.35630848299564016,
      "grad_norm": 6.90625,
      "learning_rate": 7.365014652121924e-05,
      "loss": 0.8236,
      "step": 260950
    },
    {
      "epoch": 0.3563767544045299,
      "grad_norm": 4.1875,
      "learning_rate": 7.36405045810388e-05,
      "loss": 0.8072,
      "step": 261000
    },
    {
      "epoch": 0.3564450258134197,
      "grad_norm": 7.8125,
      "learning_rate": 7.363086150850291e-05,
      "loss": 0.6902,
      "step": 261050
    },
    {
      "epoch": 0.35651329722230946,
      "grad_norm": 2.359375,
      "learning_rate": 7.362121730407349e-05,
      "loss": 0.6928,
      "step": 261100
    },
    {
      "epoch": 0.3565815686311992,
      "grad_norm": 3.109375,
      "learning_rate": 7.36115719682125e-05,
      "loss": 0.7304,
      "step": 261150
    },
    {
      "epoch": 0.356649840040089,
      "grad_norm": 3.21875,
      "learning_rate": 7.36019255013819e-05,
      "loss": 0.7706,
      "step": 261200
    },
    {
      "epoch": 0.35671811144897875,
      "grad_norm": 3.828125,
      "learning_rate": 7.359227790404377e-05,
      "loss": 0.8114,
      "step": 261250
    },
    {
      "epoch": 0.3567863828578685,
      "grad_norm": 3.0,
      "learning_rate": 7.358262917666024e-05,
      "loss": 0.6889,
      "step": 261300
    },
    {
      "epoch": 0.3568546542667582,
      "grad_norm": 2.84375,
      "learning_rate": 7.357297931969342e-05,
      "loss": 0.7161,
      "step": 261350
    },
    {
      "epoch": 0.356922925675648,
      "grad_norm": 7.8125,
      "learning_rate": 7.356332833360558e-05,
      "loss": 0.8906,
      "step": 261400
    },
    {
      "epoch": 0.35699119708453775,
      "grad_norm": 7.5625,
      "learning_rate": 7.355367621885898e-05,
      "loss": 0.6617,
      "step": 261450
    },
    {
      "epoch": 0.3570594684934275,
      "grad_norm": 3.1875,
      "learning_rate": 7.354402297591593e-05,
      "loss": 0.7241,
      "step": 261500
    },
    {
      "epoch": 0.3571277399023173,
      "grad_norm": 3.234375,
      "learning_rate": 7.353436860523881e-05,
      "loss": 0.6401,
      "step": 261550
    },
    {
      "epoch": 0.35719601131120704,
      "grad_norm": 3.59375,
      "learning_rate": 7.352471310729007e-05,
      "loss": 0.6072,
      "step": 261600
    },
    {
      "epoch": 0.3572642827200968,
      "grad_norm": 2.875,
      "learning_rate": 7.35150564825322e-05,
      "loss": 0.6439,
      "step": 261650
    },
    {
      "epoch": 0.3573325541289865,
      "grad_norm": 3.5,
      "learning_rate": 7.350539873142773e-05,
      "loss": 0.709,
      "step": 261700
    },
    {
      "epoch": 0.3574008255378763,
      "grad_norm": 2.5,
      "learning_rate": 7.349573985443926e-05,
      "loss": 0.6769,
      "step": 261750
    },
    {
      "epoch": 0.35746909694676604,
      "grad_norm": 4.15625,
      "learning_rate": 7.348607985202942e-05,
      "loss": 0.773,
      "step": 261800
    },
    {
      "epoch": 0.3575373683556558,
      "grad_norm": 3.3125,
      "learning_rate": 7.347641872466094e-05,
      "loss": 0.6476,
      "step": 261850
    },
    {
      "epoch": 0.35760563976454557,
      "grad_norm": 2.859375,
      "learning_rate": 7.34667564727966e-05,
      "loss": 0.6145,
      "step": 261900
    },
    {
      "epoch": 0.35767391117343533,
      "grad_norm": 3.140625,
      "learning_rate": 7.345709309689915e-05,
      "loss": 0.6379,
      "step": 261950
    },
    {
      "epoch": 0.3577421825823251,
      "grad_norm": 2.953125,
      "learning_rate": 7.344742859743152e-05,
      "loss": 0.693,
      "step": 262000
    },
    {
      "epoch": 0.35781045399121486,
      "grad_norm": 2.984375,
      "learning_rate": 7.343776297485657e-05,
      "loss": 0.8118,
      "step": 262050
    },
    {
      "epoch": 0.35787872540010457,
      "grad_norm": 7.28125,
      "learning_rate": 7.342809622963731e-05,
      "loss": 0.6915,
      "step": 262100
    },
    {
      "epoch": 0.35794699680899433,
      "grad_norm": 7.0,
      "learning_rate": 7.341842836223676e-05,
      "loss": 0.785,
      "step": 262150
    },
    {
      "epoch": 0.3580152682178841,
      "grad_norm": 2.90625,
      "learning_rate": 7.3408759373118e-05,
      "loss": 0.7551,
      "step": 262200
    },
    {
      "epoch": 0.35808353962677386,
      "grad_norm": 2.9375,
      "learning_rate": 7.339908926274418e-05,
      "loss": 0.6534,
      "step": 262250
    },
    {
      "epoch": 0.3581518110356636,
      "grad_norm": 2.96875,
      "learning_rate": 7.338941803157845e-05,
      "loss": 0.763,
      "step": 262300
    },
    {
      "epoch": 0.3582200824445534,
      "grad_norm": 3.5,
      "learning_rate": 7.337974568008408e-05,
      "loss": 0.6445,
      "step": 262350
    },
    {
      "epoch": 0.35828835385344315,
      "grad_norm": 3.078125,
      "learning_rate": 7.337007220872438e-05,
      "loss": 0.6109,
      "step": 262400
    },
    {
      "epoch": 0.35835662526233286,
      "grad_norm": 7.375,
      "learning_rate": 7.336039761796265e-05,
      "loss": 0.7406,
      "step": 262450
    },
    {
      "epoch": 0.3584248966712226,
      "grad_norm": 3.625,
      "learning_rate": 7.335072190826233e-05,
      "loss": 0.7192,
      "step": 262500
    },
    {
      "epoch": 0.3584931680801124,
      "grad_norm": 3.15625,
      "learning_rate": 7.334104508008685e-05,
      "loss": 0.7469,
      "step": 262550
    },
    {
      "epoch": 0.35856143948900215,
      "grad_norm": 3.34375,
      "learning_rate": 7.333136713389976e-05,
      "loss": 0.9073,
      "step": 262600
    },
    {
      "epoch": 0.3586297108978919,
      "grad_norm": 2.875,
      "learning_rate": 7.332168807016459e-05,
      "loss": 0.7539,
      "step": 262650
    },
    {
      "epoch": 0.3586979823067817,
      "grad_norm": 2.296875,
      "learning_rate": 7.331200788934499e-05,
      "loss": 0.6559,
      "step": 262700
    },
    {
      "epoch": 0.35876625371567145,
      "grad_norm": 3.046875,
      "learning_rate": 7.330232659190459e-05,
      "loss": 0.6813,
      "step": 262750
    },
    {
      "epoch": 0.3588345251245612,
      "grad_norm": 2.34375,
      "learning_rate": 7.329264417830715e-05,
      "loss": 0.5928,
      "step": 262800
    },
    {
      "epoch": 0.3589027965334509,
      "grad_norm": 3.4375,
      "learning_rate": 7.328296064901641e-05,
      "loss": 0.6743,
      "step": 262850
    },
    {
      "epoch": 0.3589710679423407,
      "grad_norm": 3.15625,
      "learning_rate": 7.327327600449622e-05,
      "loss": 0.6712,
      "step": 262900
    },
    {
      "epoch": 0.35903933935123045,
      "grad_norm": 3.0625,
      "learning_rate": 7.326359024521048e-05,
      "loss": 0.81,
      "step": 262950
    },
    {
      "epoch": 0.3591076107601202,
      "grad_norm": 2.90625,
      "learning_rate": 7.325390337162311e-05,
      "loss": 0.6455,
      "step": 263000
    },
    {
      "epoch": 0.35917588216901,
      "grad_norm": 3.421875,
      "learning_rate": 7.32442153841981e-05,
      "loss": 0.7356,
      "step": 263050
    },
    {
      "epoch": 0.35924415357789974,
      "grad_norm": 3.3125,
      "learning_rate": 7.32345262833995e-05,
      "loss": 0.7118,
      "step": 263100
    },
    {
      "epoch": 0.3593124249867895,
      "grad_norm": 3.3125,
      "learning_rate": 7.32248360696914e-05,
      "loss": 0.6686,
      "step": 263150
    },
    {
      "epoch": 0.35938069639567927,
      "grad_norm": 3.265625,
      "learning_rate": 7.321514474353797e-05,
      "loss": 0.7902,
      "step": 263200
    },
    {
      "epoch": 0.359448967804569,
      "grad_norm": 3.03125,
      "learning_rate": 7.32054523054034e-05,
      "loss": 0.6381,
      "step": 263250
    },
    {
      "epoch": 0.35951723921345874,
      "grad_norm": 7.15625,
      "learning_rate": 7.319575875575195e-05,
      "loss": 0.8109,
      "step": 263300
    },
    {
      "epoch": 0.3595855106223485,
      "grad_norm": 2.40625,
      "learning_rate": 7.318606409504791e-05,
      "loss": 0.6925,
      "step": 263350
    },
    {
      "epoch": 0.35965378203123827,
      "grad_norm": 2.984375,
      "learning_rate": 7.317636832375568e-05,
      "loss": 0.7601,
      "step": 263400
    },
    {
      "epoch": 0.35972205344012803,
      "grad_norm": 3.125,
      "learning_rate": 7.316667144233967e-05,
      "loss": 0.7205,
      "step": 263450
    },
    {
      "epoch": 0.3597903248490178,
      "grad_norm": 8.125,
      "learning_rate": 7.315697345126433e-05,
      "loss": 0.7906,
      "step": 263500
    },
    {
      "epoch": 0.35985859625790756,
      "grad_norm": 2.96875,
      "learning_rate": 7.31472743509942e-05,
      "loss": 0.6886,
      "step": 263550
    },
    {
      "epoch": 0.35992686766679727,
      "grad_norm": 7.40625,
      "learning_rate": 7.313757414199386e-05,
      "loss": 0.7322,
      "step": 263600
    },
    {
      "epoch": 0.35999513907568703,
      "grad_norm": 2.953125,
      "learning_rate": 7.312787282472793e-05,
      "loss": 0.6997,
      "step": 263650
    },
    {
      "epoch": 0.3600634104845768,
      "grad_norm": 3.15625,
      "learning_rate": 7.311817039966108e-05,
      "loss": 0.6495,
      "step": 263700
    },
    {
      "epoch": 0.36013168189346656,
      "grad_norm": 2.671875,
      "learning_rate": 7.310846686725809e-05,
      "loss": 0.6811,
      "step": 263750
    },
    {
      "epoch": 0.3601999533023563,
      "grad_norm": 3.40625,
      "learning_rate": 7.30987622279837e-05,
      "loss": 0.7109,
      "step": 263800
    },
    {
      "epoch": 0.3602682247112461,
      "grad_norm": 3.3125,
      "learning_rate": 7.308905648230278e-05,
      "loss": 0.6243,
      "step": 263850
    },
    {
      "epoch": 0.36033649612013585,
      "grad_norm": 2.953125,
      "learning_rate": 7.307934963068021e-05,
      "loss": 0.822,
      "step": 263900
    },
    {
      "epoch": 0.3604047675290256,
      "grad_norm": 3.1875,
      "learning_rate": 7.306964167358094e-05,
      "loss": 0.7673,
      "step": 263950
    },
    {
      "epoch": 0.3604730389379153,
      "grad_norm": 3.234375,
      "learning_rate": 7.305993261146999e-05,
      "loss": 0.6684,
      "step": 264000
    },
    {
      "epoch": 0.3605413103468051,
      "grad_norm": 7.25,
      "learning_rate": 7.30502224448124e-05,
      "loss": 0.7647,
      "step": 264050
    },
    {
      "epoch": 0.36060958175569485,
      "grad_norm": 2.390625,
      "learning_rate": 7.304051117407328e-05,
      "loss": 0.7294,
      "step": 264100
    },
    {
      "epoch": 0.3606778531645846,
      "grad_norm": 3.484375,
      "learning_rate": 7.303079879971777e-05,
      "loss": 0.7468,
      "step": 264150
    },
    {
      "epoch": 0.3607461245734744,
      "grad_norm": 3.375,
      "learning_rate": 7.302108532221112e-05,
      "loss": 0.682,
      "step": 264200
    },
    {
      "epoch": 0.36081439598236414,
      "grad_norm": 3.15625,
      "learning_rate": 7.301137074201857e-05,
      "loss": 0.6696,
      "step": 264250
    },
    {
      "epoch": 0.3608826673912539,
      "grad_norm": 7.28125,
      "learning_rate": 7.300165505960545e-05,
      "loss": 0.6443,
      "step": 264300
    },
    {
      "epoch": 0.3609509388001436,
      "grad_norm": 2.875,
      "learning_rate": 7.299193827543712e-05,
      "loss": 0.7659,
      "step": 264350
    },
    {
      "epoch": 0.3610192102090334,
      "grad_norm": 2.9375,
      "learning_rate": 7.2982220389979e-05,
      "loss": 0.7706,
      "step": 264400
    },
    {
      "epoch": 0.36108748161792315,
      "grad_norm": 2.9375,
      "learning_rate": 7.297250140369656e-05,
      "loss": 0.6594,
      "step": 264450
    },
    {
      "epoch": 0.3611557530268129,
      "grad_norm": 3.453125,
      "learning_rate": 7.296278131705538e-05,
      "loss": 0.7987,
      "step": 264500
    },
    {
      "epoch": 0.3612240244357027,
      "grad_norm": 2.3125,
      "learning_rate": 7.295306013052098e-05,
      "loss": 0.7183,
      "step": 264550
    },
    {
      "epoch": 0.36129229584459244,
      "grad_norm": 3.015625,
      "learning_rate": 7.294333784455902e-05,
      "loss": 0.6725,
      "step": 264600
    },
    {
      "epoch": 0.3613605672534822,
      "grad_norm": 3.53125,
      "learning_rate": 7.29336144596352e-05,
      "loss": 0.7398,
      "step": 264650
    },
    {
      "epoch": 0.36142883866237197,
      "grad_norm": 2.890625,
      "learning_rate": 7.292388997621525e-05,
      "loss": 0.8283,
      "step": 264700
    },
    {
      "epoch": 0.3614971100712617,
      "grad_norm": 3.40625,
      "learning_rate": 7.291416439476496e-05,
      "loss": 0.7503,
      "step": 264750
    },
    {
      "epoch": 0.36156538148015144,
      "grad_norm": 3.3125,
      "learning_rate": 7.290443771575018e-05,
      "loss": 0.72,
      "step": 264800
    },
    {
      "epoch": 0.3616336528890412,
      "grad_norm": 2.6875,
      "learning_rate": 7.289470993963678e-05,
      "loss": 0.6827,
      "step": 264850
    },
    {
      "epoch": 0.36170192429793097,
      "grad_norm": 3.3125,
      "learning_rate": 7.288498106689075e-05,
      "loss": 0.7498,
      "step": 264900
    },
    {
      "epoch": 0.36177019570682073,
      "grad_norm": 3.484375,
      "learning_rate": 7.287525109797809e-05,
      "loss": 0.6468,
      "step": 264950
    },
    {
      "epoch": 0.3618384671157105,
      "grad_norm": 3.375,
      "learning_rate": 7.286552003336481e-05,
      "loss": 0.6715,
      "step": 265000
    },
    {
      "epoch": 0.36190673852460026,
      "grad_norm": 7.8125,
      "learning_rate": 7.285578787351708e-05,
      "loss": 0.643,
      "step": 265050
    },
    {
      "epoch": 0.36197500993348997,
      "grad_norm": 2.953125,
      "learning_rate": 7.284605461890102e-05,
      "loss": 0.7593,
      "step": 265100
    },
    {
      "epoch": 0.36204328134237973,
      "grad_norm": 3.421875,
      "learning_rate": 7.283632026998283e-05,
      "loss": 0.6503,
      "step": 265150
    },
    {
      "epoch": 0.3621115527512695,
      "grad_norm": 6.71875,
      "learning_rate": 7.282658482722881e-05,
      "loss": 0.7424,
      "step": 265200
    },
    {
      "epoch": 0.36217982416015926,
      "grad_norm": 2.78125,
      "learning_rate": 7.281684829110529e-05,
      "loss": 0.6314,
      "step": 265250
    },
    {
      "epoch": 0.362248095569049,
      "grad_norm": 7.21875,
      "learning_rate": 7.28071106620786e-05,
      "loss": 0.7401,
      "step": 265300
    },
    {
      "epoch": 0.3623163669779388,
      "grad_norm": 2.78125,
      "learning_rate": 7.279737194061518e-05,
      "loss": 0.6973,
      "step": 265350
    },
    {
      "epoch": 0.36238463838682855,
      "grad_norm": 8.625,
      "learning_rate": 7.27876321271815e-05,
      "loss": 0.7888,
      "step": 265400
    },
    {
      "epoch": 0.3624529097957183,
      "grad_norm": 3.203125,
      "learning_rate": 7.277789122224407e-05,
      "loss": 0.6759,
      "step": 265450
    },
    {
      "epoch": 0.362521181204608,
      "grad_norm": 3.09375,
      "learning_rate": 7.276814922626952e-05,
      "loss": 0.7057,
      "step": 265500
    },
    {
      "epoch": 0.3625894526134978,
      "grad_norm": 7.65625,
      "learning_rate": 7.275840613972443e-05,
      "loss": 0.7553,
      "step": 265550
    },
    {
      "epoch": 0.36265772402238755,
      "grad_norm": 2.578125,
      "learning_rate": 7.27486619630755e-05,
      "loss": 0.7712,
      "step": 265600
    },
    {
      "epoch": 0.3627259954312773,
      "grad_norm": 2.734375,
      "learning_rate": 7.273891669678949e-05,
      "loss": 0.6597,
      "step": 265650
    },
    {
      "epoch": 0.3627942668401671,
      "grad_norm": 3.078125,
      "learning_rate": 7.272917034133314e-05,
      "loss": 0.6894,
      "step": 265700
    },
    {
      "epoch": 0.36286253824905684,
      "grad_norm": 7.46875,
      "learning_rate": 7.271942289717334e-05,
      "loss": 0.5664,
      "step": 265750
    },
    {
      "epoch": 0.3629308096579466,
      "grad_norm": 8.0625,
      "learning_rate": 7.270967436477695e-05,
      "loss": 0.7647,
      "step": 265800
    },
    {
      "epoch": 0.36299908106683637,
      "grad_norm": 3.34375,
      "learning_rate": 7.269992474461091e-05,
      "loss": 0.6621,
      "step": 265850
    },
    {
      "epoch": 0.3630673524757261,
      "grad_norm": 3.0625,
      "learning_rate": 7.269017403714225e-05,
      "loss": 0.8094,
      "step": 265900
    },
    {
      "epoch": 0.36313562388461584,
      "grad_norm": 2.625,
      "learning_rate": 7.2680422242838e-05,
      "loss": 0.6837,
      "step": 265950
    },
    {
      "epoch": 0.3632038952935056,
      "grad_norm": 2.90625,
      "learning_rate": 7.267066936216526e-05,
      "loss": 0.6111,
      "step": 266000
    },
    {
      "epoch": 0.36327216670239537,
      "grad_norm": 2.75,
      "learning_rate": 7.266091539559118e-05,
      "loss": 0.7543,
      "step": 266050
    },
    {
      "epoch": 0.36334043811128514,
      "grad_norm": 3.375,
      "learning_rate": 7.265116034358295e-05,
      "loss": 0.6453,
      "step": 266100
    },
    {
      "epoch": 0.3634087095201749,
      "grad_norm": 3.03125,
      "learning_rate": 7.264140420660787e-05,
      "loss": 0.6339,
      "step": 266150
    },
    {
      "epoch": 0.36347698092906466,
      "grad_norm": 7.71875,
      "learning_rate": 7.263164698513321e-05,
      "loss": 0.8638,
      "step": 266200
    },
    {
      "epoch": 0.36354525233795437,
      "grad_norm": 3.125,
      "learning_rate": 7.262188867962634e-05,
      "loss": 0.7334,
      "step": 266250
    },
    {
      "epoch": 0.36361352374684414,
      "grad_norm": 3.3125,
      "learning_rate": 7.261212929055469e-05,
      "loss": 0.6886,
      "step": 266300
    },
    {
      "epoch": 0.3636817951557339,
      "grad_norm": 3.46875,
      "learning_rate": 7.260236881838571e-05,
      "loss": 0.719,
      "step": 266350
    },
    {
      "epoch": 0.36375006656462366,
      "grad_norm": 3.46875,
      "learning_rate": 7.259260726358691e-05,
      "loss": 0.7183,
      "step": 266400
    },
    {
      "epoch": 0.36381833797351343,
      "grad_norm": 2.765625,
      "learning_rate": 7.258284462662587e-05,
      "loss": 0.8067,
      "step": 266450
    },
    {
      "epoch": 0.3638866093824032,
      "grad_norm": 3.328125,
      "learning_rate": 7.25730809079702e-05,
      "loss": 0.6599,
      "step": 266500
    },
    {
      "epoch": 0.36395488079129296,
      "grad_norm": 3.1875,
      "learning_rate": 7.256331610808758e-05,
      "loss": 0.7352,
      "step": 266550
    },
    {
      "epoch": 0.3640231522001827,
      "grad_norm": 3.40625,
      "learning_rate": 7.255355022744574e-05,
      "loss": 0.6931,
      "step": 266600
    },
    {
      "epoch": 0.36409142360907243,
      "grad_norm": 2.703125,
      "learning_rate": 7.254378326651243e-05,
      "loss": 0.6623,
      "step": 266650
    },
    {
      "epoch": 0.3641596950179622,
      "grad_norm": 3.265625,
      "learning_rate": 7.253401522575552e-05,
      "loss": 0.762,
      "step": 266700
    },
    {
      "epoch": 0.36422796642685196,
      "grad_norm": 4.09375,
      "learning_rate": 7.252424610564284e-05,
      "loss": 0.7496,
      "step": 266750
    },
    {
      "epoch": 0.3642962378357417,
      "grad_norm": 2.921875,
      "learning_rate": 7.251447590664236e-05,
      "loss": 0.6949,
      "step": 266800
    },
    {
      "epoch": 0.3643645092446315,
      "grad_norm": 2.28125,
      "learning_rate": 7.250470462922203e-05,
      "loss": 0.7758,
      "step": 266850
    },
    {
      "epoch": 0.36443278065352125,
      "grad_norm": 3.75,
      "learning_rate": 7.249493227384992e-05,
      "loss": 0.6182,
      "step": 266900
    },
    {
      "epoch": 0.364501052062411,
      "grad_norm": 3.34375,
      "learning_rate": 7.248515884099408e-05,
      "loss": 0.6149,
      "step": 266950
    },
    {
      "epoch": 0.3645693234713007,
      "grad_norm": 2.875,
      "learning_rate": 7.247538433112266e-05,
      "loss": 0.7183,
      "step": 267000
    },
    {
      "epoch": 0.3646375948801905,
      "grad_norm": 2.8125,
      "learning_rate": 7.246560874470386e-05,
      "loss": 0.6754,
      "step": 267050
    },
    {
      "epoch": 0.36470586628908025,
      "grad_norm": 2.8125,
      "learning_rate": 7.245583208220591e-05,
      "loss": 0.7341,
      "step": 267100
    },
    {
      "epoch": 0.36477413769797,
      "grad_norm": 7.40625,
      "learning_rate": 7.24460543440971e-05,
      "loss": 0.8118,
      "step": 267150
    },
    {
      "epoch": 0.3648424091068598,
      "grad_norm": 2.4375,
      "learning_rate": 7.243627553084577e-05,
      "loss": 0.6934,
      "step": 267200
    },
    {
      "epoch": 0.36491068051574954,
      "grad_norm": 7.84375,
      "learning_rate": 7.242649564292033e-05,
      "loss": 0.6935,
      "step": 267250
    },
    {
      "epoch": 0.3649789519246393,
      "grad_norm": 3.296875,
      "learning_rate": 7.241671468078923e-05,
      "loss": 0.7497,
      "step": 267300
    },
    {
      "epoch": 0.36504722333352907,
      "grad_norm": 2.96875,
      "learning_rate": 7.240693264492095e-05,
      "loss": 0.7527,
      "step": 267350
    },
    {
      "epoch": 0.3651154947424188,
      "grad_norm": 2.890625,
      "learning_rate": 7.239714953578404e-05,
      "loss": 0.7143,
      "step": 267400
    },
    {
      "epoch": 0.36518376615130854,
      "grad_norm": 2.75,
      "learning_rate": 7.238736535384711e-05,
      "loss": 0.6201,
      "step": 267450
    },
    {
      "epoch": 0.3652520375601983,
      "grad_norm": 7.5625,
      "learning_rate": 7.237758009957881e-05,
      "loss": 0.7149,
      "step": 267500
    },
    {
      "epoch": 0.36532030896908807,
      "grad_norm": 2.859375,
      "learning_rate": 7.236779377344784e-05,
      "loss": 0.6226,
      "step": 267550
    },
    {
      "epoch": 0.36538858037797783,
      "grad_norm": 3.0,
      "learning_rate": 7.235800637592296e-05,
      "loss": 0.8008,
      "step": 267600
    },
    {
      "epoch": 0.3654568517868676,
      "grad_norm": 2.8125,
      "learning_rate": 7.234821790747297e-05,
      "loss": 0.7396,
      "step": 267650
    },
    {
      "epoch": 0.36552512319575736,
      "grad_norm": 8.0,
      "learning_rate": 7.233842836856673e-05,
      "loss": 0.7447,
      "step": 267700
    },
    {
      "epoch": 0.36559339460464707,
      "grad_norm": 2.703125,
      "learning_rate": 7.232863775967315e-05,
      "loss": 0.7072,
      "step": 267750
    },
    {
      "epoch": 0.36566166601353683,
      "grad_norm": 3.5625,
      "learning_rate": 7.231884608126119e-05,
      "loss": 0.6478,
      "step": 267800
    },
    {
      "epoch": 0.3657299374224266,
      "grad_norm": 2.78125,
      "learning_rate": 7.230905333379985e-05,
      "loss": 0.7545,
      "step": 267850
    },
    {
      "epoch": 0.36579820883131636,
      "grad_norm": 2.3125,
      "learning_rate": 7.229925951775822e-05,
      "loss": 0.7017,
      "step": 267900
    },
    {
      "epoch": 0.3658664802402061,
      "grad_norm": 7.8125,
      "learning_rate": 7.228946463360538e-05,
      "loss": 0.7014,
      "step": 267950
    },
    {
      "epoch": 0.3659347516490959,
      "grad_norm": 3.640625,
      "learning_rate": 7.227966868181052e-05,
      "loss": 0.7039,
      "step": 268000
    },
    {
      "epoch": 0.36600302305798565,
      "grad_norm": 2.578125,
      "learning_rate": 7.226987166284285e-05,
      "loss": 0.7138,
      "step": 268050
    },
    {
      "epoch": 0.3660712944668754,
      "grad_norm": 3.609375,
      "learning_rate": 7.226007357717162e-05,
      "loss": 0.7235,
      "step": 268100
    },
    {
      "epoch": 0.3661395658757651,
      "grad_norm": 3.109375,
      "learning_rate": 7.225027442526616e-05,
      "loss": 0.6623,
      "step": 268150
    },
    {
      "epoch": 0.3662078372846549,
      "grad_norm": 2.640625,
      "learning_rate": 7.224047420759584e-05,
      "loss": 0.7174,
      "step": 268200
    },
    {
      "epoch": 0.36627610869354466,
      "grad_norm": 2.640625,
      "learning_rate": 7.22306729246301e-05,
      "loss": 0.6728,
      "step": 268250
    },
    {
      "epoch": 0.3663443801024344,
      "grad_norm": 3.359375,
      "learning_rate": 7.222087057683837e-05,
      "loss": 0.8002,
      "step": 268300
    },
    {
      "epoch": 0.3664126515113242,
      "grad_norm": 3.296875,
      "learning_rate": 7.221106716469022e-05,
      "loss": 0.6373,
      "step": 268350
    },
    {
      "epoch": 0.36648092292021395,
      "grad_norm": 3.234375,
      "learning_rate": 7.220126268865517e-05,
      "loss": 0.625,
      "step": 268400
    },
    {
      "epoch": 0.3665491943291037,
      "grad_norm": 3.453125,
      "learning_rate": 7.219145714920288e-05,
      "loss": 0.6325,
      "step": 268450
    },
    {
      "epoch": 0.3666174657379935,
      "grad_norm": 3.34375,
      "learning_rate": 7.218165054680301e-05,
      "loss": 0.6543,
      "step": 268500
    },
    {
      "epoch": 0.3666857371468832,
      "grad_norm": 7.9375,
      "learning_rate": 7.21718428819253e-05,
      "loss": 0.7359,
      "step": 268550
    },
    {
      "epoch": 0.36675400855577295,
      "grad_norm": 6.90625,
      "learning_rate": 7.216203415503953e-05,
      "loss": 0.8508,
      "step": 268600
    },
    {
      "epoch": 0.3668222799646627,
      "grad_norm": 2.828125,
      "learning_rate": 7.215222436661552e-05,
      "loss": 0.644,
      "step": 268650
    },
    {
      "epoch": 0.3668905513735525,
      "grad_norm": 3.65625,
      "learning_rate": 7.214241351712312e-05,
      "loss": 0.8027,
      "step": 268700
    },
    {
      "epoch": 0.36695882278244224,
      "grad_norm": 7.0625,
      "learning_rate": 7.21326016070323e-05,
      "loss": 0.7674,
      "step": 268750
    },
    {
      "epoch": 0.367027094191332,
      "grad_norm": 2.8125,
      "learning_rate": 7.212278863681302e-05,
      "loss": 0.8203,
      "step": 268800
    },
    {
      "epoch": 0.36709536560022177,
      "grad_norm": 7.65625,
      "learning_rate": 7.211297460693533e-05,
      "loss": 0.7217,
      "step": 268850
    },
    {
      "epoch": 0.3671636370091115,
      "grad_norm": 4.25,
      "learning_rate": 7.210315951786929e-05,
      "loss": 0.6693,
      "step": 268900
    },
    {
      "epoch": 0.36723190841800124,
      "grad_norm": 2.78125,
      "learning_rate": 7.209334337008504e-05,
      "loss": 0.6088,
      "step": 268950
    },
    {
      "epoch": 0.367300179826891,
      "grad_norm": 2.9375,
      "learning_rate": 7.208352616405276e-05,
      "loss": 0.594,
      "step": 269000
    },
    {
      "epoch": 0.36736845123578077,
      "grad_norm": 3.28125,
      "learning_rate": 7.207370790024268e-05,
      "loss": 0.726,
      "step": 269050
    },
    {
      "epoch": 0.36743672264467053,
      "grad_norm": 2.859375,
      "learning_rate": 7.206388857912512e-05,
      "loss": 0.6226,
      "step": 269100
    },
    {
      "epoch": 0.3675049940535603,
      "grad_norm": 3.53125,
      "learning_rate": 7.205406820117036e-05,
      "loss": 0.712,
      "step": 269150
    },
    {
      "epoch": 0.36757326546245006,
      "grad_norm": 3.515625,
      "learning_rate": 7.204424676684883e-05,
      "loss": 0.7011,
      "step": 269200
    },
    {
      "epoch": 0.3676415368713398,
      "grad_norm": 3.34375,
      "learning_rate": 7.203442427663094e-05,
      "loss": 0.6808,
      "step": 269250
    },
    {
      "epoch": 0.36770980828022953,
      "grad_norm": 3.28125,
      "learning_rate": 7.202460073098719e-05,
      "loss": 0.7028,
      "step": 269300
    },
    {
      "epoch": 0.3677780796891193,
      "grad_norm": 2.625,
      "learning_rate": 7.201477613038811e-05,
      "loss": 0.7419,
      "step": 269350
    },
    {
      "epoch": 0.36784635109800906,
      "grad_norm": 3.359375,
      "learning_rate": 7.200495047530431e-05,
      "loss": 0.6569,
      "step": 269400
    },
    {
      "epoch": 0.3679146225068988,
      "grad_norm": 2.46875,
      "learning_rate": 7.199512376620638e-05,
      "loss": 0.7574,
      "step": 269450
    },
    {
      "epoch": 0.3679828939157886,
      "grad_norm": 7.21875,
      "learning_rate": 7.198529600356507e-05,
      "loss": 0.8261,
      "step": 269500
    },
    {
      "epoch": 0.36805116532467835,
      "grad_norm": 7.46875,
      "learning_rate": 7.197546718785107e-05,
      "loss": 0.7209,
      "step": 269550
    },
    {
      "epoch": 0.3681194367335681,
      "grad_norm": 7.625,
      "learning_rate": 7.19656373195352e-05,
      "loss": 0.7082,
      "step": 269600
    },
    {
      "epoch": 0.3681877081424578,
      "grad_norm": 7.6875,
      "learning_rate": 7.19558063990883e-05,
      "loss": 0.7169,
      "step": 269650
    },
    {
      "epoch": 0.3682559795513476,
      "grad_norm": 2.828125,
      "learning_rate": 7.194597442698123e-05,
      "loss": 0.7098,
      "step": 269700
    },
    {
      "epoch": 0.36832425096023735,
      "grad_norm": 7.46875,
      "learning_rate": 7.193614140368496e-05,
      "loss": 0.6312,
      "step": 269750
    },
    {
      "epoch": 0.3683925223691271,
      "grad_norm": 3.125,
      "learning_rate": 7.192630732967048e-05,
      "loss": 0.7689,
      "step": 269800
    },
    {
      "epoch": 0.3684607937780169,
      "grad_norm": 3.203125,
      "learning_rate": 7.191647220540882e-05,
      "loss": 0.6836,
      "step": 269850
    },
    {
      "epoch": 0.36852906518690665,
      "grad_norm": 2.796875,
      "learning_rate": 7.190663603137107e-05,
      "loss": 0.746,
      "step": 269900
    },
    {
      "epoch": 0.3685973365957964,
      "grad_norm": 3.5625,
      "learning_rate": 7.189679880802838e-05,
      "loss": 0.6938,
      "step": 269950
    },
    {
      "epoch": 0.3686656080046862,
      "grad_norm": 3.578125,
      "learning_rate": 7.188696053585196e-05,
      "loss": 0.7253,
      "step": 270000
    },
    {
      "epoch": 0.3687338794135759,
      "grad_norm": 2.984375,
      "learning_rate": 7.1877121215313e-05,
      "loss": 0.7195,
      "step": 270050
    },
    {
      "epoch": 0.36880215082246565,
      "grad_norm": 7.0625,
      "learning_rate": 7.186728084688285e-05,
      "loss": 0.6974,
      "step": 270100
    },
    {
      "epoch": 0.3688704222313554,
      "grad_norm": 2.609375,
      "learning_rate": 7.185743943103285e-05,
      "loss": 0.6257,
      "step": 270150
    },
    {
      "epoch": 0.3689386936402452,
      "grad_norm": 3.15625,
      "learning_rate": 7.184759696823437e-05,
      "loss": 0.7375,
      "step": 270200
    },
    {
      "epoch": 0.36900696504913494,
      "grad_norm": 2.90625,
      "learning_rate": 7.183775345895885e-05,
      "loss": 0.771,
      "step": 270250
    },
    {
      "epoch": 0.3690752364580247,
      "grad_norm": 2.78125,
      "learning_rate": 7.182790890367779e-05,
      "loss": 0.6902,
      "step": 270300
    },
    {
      "epoch": 0.36914350786691447,
      "grad_norm": 2.4375,
      "learning_rate": 7.181806330286273e-05,
      "loss": 0.7735,
      "step": 270350
    },
    {
      "epoch": 0.36921177927580423,
      "grad_norm": 3.3125,
      "learning_rate": 7.180821665698528e-05,
      "loss": 0.616,
      "step": 270400
    },
    {
      "epoch": 0.36928005068469394,
      "grad_norm": 2.90625,
      "learning_rate": 7.179836896651708e-05,
      "loss": 0.6837,
      "step": 270450
    },
    {
      "epoch": 0.3693483220935837,
      "grad_norm": 3.203125,
      "learning_rate": 7.178852023192981e-05,
      "loss": 0.7115,
      "step": 270500
    },
    {
      "epoch": 0.36941659350247347,
      "grad_norm": 3.515625,
      "learning_rate": 7.177867045369522e-05,
      "loss": 0.7776,
      "step": 270550
    },
    {
      "epoch": 0.36948486491136323,
      "grad_norm": 4.0,
      "learning_rate": 7.176881963228512e-05,
      "loss": 0.6213,
      "step": 270600
    },
    {
      "epoch": 0.369553136320253,
      "grad_norm": 7.625,
      "learning_rate": 7.175896776817135e-05,
      "loss": 0.6841,
      "step": 270650
    },
    {
      "epoch": 0.36962140772914276,
      "grad_norm": 2.796875,
      "learning_rate": 7.174911486182577e-05,
      "loss": 0.7356,
      "step": 270700
    },
    {
      "epoch": 0.3696896791380325,
      "grad_norm": 3.125,
      "learning_rate": 7.173926091372037e-05,
      "loss": 0.6691,
      "step": 270750
    },
    {
      "epoch": 0.36975795054692223,
      "grad_norm": 7.5625,
      "learning_rate": 7.172940592432711e-05,
      "loss": 0.6875,
      "step": 270800
    },
    {
      "epoch": 0.369826221955812,
      "grad_norm": 2.71875,
      "learning_rate": 7.171954989411804e-05,
      "loss": 0.6922,
      "step": 270850
    },
    {
      "epoch": 0.36989449336470176,
      "grad_norm": 2.734375,
      "learning_rate": 7.170969282356528e-05,
      "loss": 0.6798,
      "step": 270900
    },
    {
      "epoch": 0.3699627647735915,
      "grad_norm": 6.5,
      "learning_rate": 7.169983471314094e-05,
      "loss": 0.7095,
      "step": 270950
    },
    {
      "epoch": 0.3700310361824813,
      "grad_norm": 3.09375,
      "learning_rate": 7.168997556331723e-05,
      "loss": 0.7092,
      "step": 271000
    },
    {
      "epoch": 0.37009930759137105,
      "grad_norm": 3.4375,
      "learning_rate": 7.168011537456639e-05,
      "loss": 0.6147,
      "step": 271050
    },
    {
      "epoch": 0.3701675790002608,
      "grad_norm": 2.46875,
      "learning_rate": 7.16702541473607e-05,
      "loss": 0.7012,
      "step": 271100
    },
    {
      "epoch": 0.3702358504091506,
      "grad_norm": 2.671875,
      "learning_rate": 7.166039188217255e-05,
      "loss": 0.73,
      "step": 271150
    },
    {
      "epoch": 0.3703041218180403,
      "grad_norm": 2.546875,
      "learning_rate": 7.165052857947426e-05,
      "loss": 0.646,
      "step": 271200
    },
    {
      "epoch": 0.37037239322693005,
      "grad_norm": 2.484375,
      "learning_rate": 7.164066423973833e-05,
      "loss": 0.6763,
      "step": 271250
    },
    {
      "epoch": 0.3704406646358198,
      "grad_norm": 7.625,
      "learning_rate": 7.163079886343722e-05,
      "loss": 0.6086,
      "step": 271300
    },
    {
      "epoch": 0.3705089360447096,
      "grad_norm": 4.5,
      "learning_rate": 7.162093245104348e-05,
      "loss": 0.7989,
      "step": 271350
    },
    {
      "epoch": 0.37057720745359934,
      "grad_norm": 3.390625,
      "learning_rate": 7.161106500302972e-05,
      "loss": 0.6094,
      "step": 271400
    },
    {
      "epoch": 0.3706454788624891,
      "grad_norm": 7.71875,
      "learning_rate": 7.160119651986854e-05,
      "loss": 0.6438,
      "step": 271450
    },
    {
      "epoch": 0.3707137502713789,
      "grad_norm": 2.734375,
      "learning_rate": 7.159132700203266e-05,
      "loss": 0.6453,
      "step": 271500
    },
    {
      "epoch": 0.3707820216802686,
      "grad_norm": 3.203125,
      "learning_rate": 7.158145644999482e-05,
      "loss": 0.6803,
      "step": 271550
    },
    {
      "epoch": 0.37085029308915834,
      "grad_norm": 3.34375,
      "learning_rate": 7.157158486422779e-05,
      "loss": 0.6519,
      "step": 271600
    },
    {
      "epoch": 0.3709185644980481,
      "grad_norm": 7.59375,
      "learning_rate": 7.156171224520444e-05,
      "loss": 0.6635,
      "step": 271650
    },
    {
      "epoch": 0.3709868359069379,
      "grad_norm": 2.390625,
      "learning_rate": 7.155183859339762e-05,
      "loss": 0.7006,
      "step": 271700
    },
    {
      "epoch": 0.37105510731582764,
      "grad_norm": 8.25,
      "learning_rate": 7.15419639092803e-05,
      "loss": 0.7384,
      "step": 271750
    },
    {
      "epoch": 0.3711233787247174,
      "grad_norm": 2.375,
      "learning_rate": 7.153208819332542e-05,
      "loss": 0.7287,
      "step": 271800
    },
    {
      "epoch": 0.37119165013360716,
      "grad_norm": 7.8125,
      "learning_rate": 7.152221144600609e-05,
      "loss": 0.6039,
      "step": 271850
    },
    {
      "epoch": 0.37125992154249693,
      "grad_norm": 3.078125,
      "learning_rate": 7.151233366779533e-05,
      "loss": 0.7337,
      "step": 271900
    },
    {
      "epoch": 0.37132819295138664,
      "grad_norm": 3.453125,
      "learning_rate": 7.150245485916632e-05,
      "loss": 0.6889,
      "step": 271950
    },
    {
      "epoch": 0.3713964643602764,
      "grad_norm": 3.53125,
      "learning_rate": 7.149257502059222e-05,
      "loss": 0.6678,
      "step": 272000
    },
    {
      "epoch": 0.37146473576916617,
      "grad_norm": 8.0,
      "learning_rate": 7.148269415254625e-05,
      "loss": 0.7615,
      "step": 272050
    },
    {
      "epoch": 0.37153300717805593,
      "grad_norm": 2.578125,
      "learning_rate": 7.147281225550173e-05,
      "loss": 0.6176,
      "step": 272100
    },
    {
      "epoch": 0.3716012785869457,
      "grad_norm": 3.359375,
      "learning_rate": 7.146292932993197e-05,
      "loss": 0.7013,
      "step": 272150
    },
    {
      "epoch": 0.37166954999583546,
      "grad_norm": 3.0625,
      "learning_rate": 7.145304537631037e-05,
      "loss": 0.6537,
      "step": 272200
    },
    {
      "epoch": 0.3717378214047252,
      "grad_norm": 2.296875,
      "learning_rate": 7.144316039511032e-05,
      "loss": 0.6836,
      "step": 272250
    },
    {
      "epoch": 0.37180609281361493,
      "grad_norm": 3.46875,
      "learning_rate": 7.143327438680534e-05,
      "loss": 0.7373,
      "step": 272300
    },
    {
      "epoch": 0.3718743642225047,
      "grad_norm": 3.40625,
      "learning_rate": 7.142338735186895e-05,
      "loss": 0.733,
      "step": 272350
    },
    {
      "epoch": 0.37194263563139446,
      "grad_norm": 10.9375,
      "learning_rate": 7.141349929077472e-05,
      "loss": 0.7195,
      "step": 272400
    },
    {
      "epoch": 0.3720109070402842,
      "grad_norm": 2.65625,
      "learning_rate": 7.140361020399631e-05,
      "loss": 0.6043,
      "step": 272450
    },
    {
      "epoch": 0.372079178449174,
      "grad_norm": 7.78125,
      "learning_rate": 7.139372009200734e-05,
      "loss": 0.7564,
      "step": 272500
    },
    {
      "epoch": 0.37214744985806375,
      "grad_norm": 3.171875,
      "learning_rate": 7.138382895528158e-05,
      "loss": 0.7148,
      "step": 272550
    },
    {
      "epoch": 0.3722157212669535,
      "grad_norm": 2.5625,
      "learning_rate": 7.137393679429278e-05,
      "loss": 0.6551,
      "step": 272600
    },
    {
      "epoch": 0.3722839926758433,
      "grad_norm": 3.3125,
      "learning_rate": 7.136404360951478e-05,
      "loss": 0.6935,
      "step": 272650
    },
    {
      "epoch": 0.372352264084733,
      "grad_norm": 3.34375,
      "learning_rate": 7.135414940142147e-05,
      "loss": 0.6142,
      "step": 272700
    },
    {
      "epoch": 0.37242053549362275,
      "grad_norm": 2.671875,
      "learning_rate": 7.134425417048674e-05,
      "loss": 0.8269,
      "step": 272750
    },
    {
      "epoch": 0.3724888069025125,
      "grad_norm": 3.578125,
      "learning_rate": 7.133435791718456e-05,
      "loss": 0.6697,
      "step": 272800
    },
    {
      "epoch": 0.3725570783114023,
      "grad_norm": 8.25,
      "learning_rate": 7.132446064198896e-05,
      "loss": 0.7041,
      "step": 272850
    },
    {
      "epoch": 0.37262534972029204,
      "grad_norm": 3.484375,
      "learning_rate": 7.131456234537403e-05,
      "loss": 0.7212,
      "step": 272900
    },
    {
      "epoch": 0.3726936211291818,
      "grad_norm": 8.375,
      "learning_rate": 7.130466302781387e-05,
      "loss": 0.7475,
      "step": 272950
    },
    {
      "epoch": 0.37276189253807157,
      "grad_norm": 2.78125,
      "learning_rate": 7.129476268978264e-05,
      "loss": 0.6243,
      "step": 273000
    },
    {
      "epoch": 0.37283016394696133,
      "grad_norm": 2.375,
      "learning_rate": 7.128486133175455e-05,
      "loss": 0.5585,
      "step": 273050
    },
    {
      "epoch": 0.37289843535585104,
      "grad_norm": 3.328125,
      "learning_rate": 7.127495895420388e-05,
      "loss": 0.6272,
      "step": 273100
    },
    {
      "epoch": 0.3729667067647408,
      "grad_norm": 7.40625,
      "learning_rate": 7.126505555760496e-05,
      "loss": 0.6993,
      "step": 273150
    },
    {
      "epoch": 0.37303497817363057,
      "grad_norm": 3.859375,
      "learning_rate": 7.125515114243213e-05,
      "loss": 0.6625,
      "step": 273200
    },
    {
      "epoch": 0.37310324958252034,
      "grad_norm": 2.65625,
      "learning_rate": 7.124524570915979e-05,
      "loss": 0.5465,
      "step": 273250
    },
    {
      "epoch": 0.3731715209914101,
      "grad_norm": 3.40625,
      "learning_rate": 7.123533925826242e-05,
      "loss": 0.7143,
      "step": 273300
    },
    {
      "epoch": 0.37323979240029986,
      "grad_norm": 7.84375,
      "learning_rate": 7.122543179021453e-05,
      "loss": 0.8034,
      "step": 273350
    },
    {
      "epoch": 0.3733080638091896,
      "grad_norm": 3.15625,
      "learning_rate": 7.121552330549066e-05,
      "loss": 0.7231,
      "step": 273400
    },
    {
      "epoch": 0.37337633521807934,
      "grad_norm": 7.875,
      "learning_rate": 7.120561380456544e-05,
      "loss": 0.7491,
      "step": 273450
    },
    {
      "epoch": 0.3734446066269691,
      "grad_norm": 3.09375,
      "learning_rate": 7.11957032879135e-05,
      "loss": 0.6828,
      "step": 273500
    },
    {
      "epoch": 0.37351287803585886,
      "grad_norm": 3.5,
      "learning_rate": 7.118579175600954e-05,
      "loss": 0.8436,
      "step": 273550
    },
    {
      "epoch": 0.37358114944474863,
      "grad_norm": 2.703125,
      "learning_rate": 7.117587920932834e-05,
      "loss": 0.7427,
      "step": 273600
    },
    {
      "epoch": 0.3736494208536384,
      "grad_norm": 3.9375,
      "learning_rate": 7.11659656483447e-05,
      "loss": 0.694,
      "step": 273650
    },
    {
      "epoch": 0.37371769226252816,
      "grad_norm": 2.5,
      "learning_rate": 7.115605107353343e-05,
      "loss": 0.6305,
      "step": 273700
    },
    {
      "epoch": 0.3737859636714179,
      "grad_norm": 2.765625,
      "learning_rate": 7.114613548536948e-05,
      "loss": 0.7134,
      "step": 273750
    },
    {
      "epoch": 0.3738542350803077,
      "grad_norm": 7.46875,
      "learning_rate": 7.113621888432775e-05,
      "loss": 0.5856,
      "step": 273800
    },
    {
      "epoch": 0.3739225064891974,
      "grad_norm": 3.078125,
      "learning_rate": 7.112630127088328e-05,
      "loss": 0.6609,
      "step": 273850
    },
    {
      "epoch": 0.37399077789808716,
      "grad_norm": 3.421875,
      "learning_rate": 7.111638264551106e-05,
      "loss": 0.7489,
      "step": 273900
    },
    {
      "epoch": 0.3740590493069769,
      "grad_norm": 3.34375,
      "learning_rate": 7.110646300868622e-05,
      "loss": 0.7292,
      "step": 273950
    },
    {
      "epoch": 0.3741273207158667,
      "grad_norm": 7.375,
      "learning_rate": 7.10965423608839e-05,
      "loss": 0.8108,
      "step": 274000
    },
    {
      "epoch": 0.37419559212475645,
      "grad_norm": 3.453125,
      "learning_rate": 7.108662070257928e-05,
      "loss": 0.7748,
      "step": 274050
    },
    {
      "epoch": 0.3742638635336462,
      "grad_norm": 7.25,
      "learning_rate": 7.107669803424759e-05,
      "loss": 0.7947,
      "step": 274100
    },
    {
      "epoch": 0.374332134942536,
      "grad_norm": 3.421875,
      "learning_rate": 7.10667743563641e-05,
      "loss": 0.7082,
      "step": 274150
    },
    {
      "epoch": 0.3744004063514257,
      "grad_norm": 3.515625,
      "learning_rate": 7.105684966940419e-05,
      "loss": 0.6662,
      "step": 274200
    },
    {
      "epoch": 0.37446867776031545,
      "grad_norm": 2.453125,
      "learning_rate": 7.104692397384322e-05,
      "loss": 0.5966,
      "step": 274250
    },
    {
      "epoch": 0.3745369491692052,
      "grad_norm": 7.0,
      "learning_rate": 7.103699727015661e-05,
      "loss": 0.6801,
      "step": 274300
    },
    {
      "epoch": 0.374605220578095,
      "grad_norm": 2.765625,
      "learning_rate": 7.102706955881984e-05,
      "loss": 0.7793,
      "step": 274350
    },
    {
      "epoch": 0.37467349198698474,
      "grad_norm": 2.328125,
      "learning_rate": 7.101714084030845e-05,
      "loss": 0.8082,
      "step": 274400
    },
    {
      "epoch": 0.3747417633958745,
      "grad_norm": 2.984375,
      "learning_rate": 7.1007211115098e-05,
      "loss": 0.7103,
      "step": 274450
    },
    {
      "epoch": 0.37481003480476427,
      "grad_norm": 2.78125,
      "learning_rate": 7.099728038366415e-05,
      "loss": 0.6639,
      "step": 274500
    },
    {
      "epoch": 0.37487830621365403,
      "grad_norm": 2.96875,
      "learning_rate": 7.098734864648252e-05,
      "loss": 0.6898,
      "step": 274550
    },
    {
      "epoch": 0.37494657762254374,
      "grad_norm": 2.828125,
      "learning_rate": 7.097741590402886e-05,
      "loss": 0.5641,
      "step": 274600
    },
    {
      "epoch": 0.3750148490314335,
      "grad_norm": 2.234375,
      "learning_rate": 7.096748215677893e-05,
      "loss": 0.6482,
      "step": 274650
    },
    {
      "epoch": 0.37508312044032327,
      "grad_norm": 3.078125,
      "learning_rate": 7.095754740520853e-05,
      "loss": 0.595,
      "step": 274700
    },
    {
      "epoch": 0.37515139184921303,
      "grad_norm": 3.46875,
      "learning_rate": 7.094761164979358e-05,
      "loss": 0.656,
      "step": 274750
    },
    {
      "epoch": 0.3752196632581028,
      "grad_norm": 3.515625,
      "learning_rate": 7.093767489100993e-05,
      "loss": 0.8105,
      "step": 274800
    },
    {
      "epoch": 0.37528793466699256,
      "grad_norm": 2.75,
      "learning_rate": 7.092773712933356e-05,
      "loss": 0.7896,
      "step": 274850
    },
    {
      "epoch": 0.3753562060758823,
      "grad_norm": 7.40625,
      "learning_rate": 7.09177983652405e-05,
      "loss": 0.7473,
      "step": 274900
    },
    {
      "epoch": 0.37542447748477203,
      "grad_norm": 2.515625,
      "learning_rate": 7.090785859920676e-05,
      "loss": 0.617,
      "step": 274950
    },
    {
      "epoch": 0.3754927488936618,
      "grad_norm": 2.8125,
      "learning_rate": 7.089791783170851e-05,
      "loss": 0.665,
      "step": 275000
    },
    {
      "epoch": 0.37556102030255156,
      "grad_norm": 3.46875,
      "learning_rate": 7.088797606322185e-05,
      "loss": 0.6678,
      "step": 275050
    },
    {
      "epoch": 0.3756292917114413,
      "grad_norm": 3.375,
      "learning_rate": 7.087803329422299e-05,
      "loss": 0.7105,
      "step": 275100
    },
    {
      "epoch": 0.3756975631203311,
      "grad_norm": 3.3125,
      "learning_rate": 7.086808952518819e-05,
      "loss": 0.6358,
      "step": 275150
    },
    {
      "epoch": 0.37576583452922085,
      "grad_norm": 7.90625,
      "learning_rate": 7.085814475659373e-05,
      "loss": 0.7336,
      "step": 275200
    },
    {
      "epoch": 0.3758341059381106,
      "grad_norm": 3.609375,
      "learning_rate": 7.0848198988916e-05,
      "loss": 0.588,
      "step": 275250
    },
    {
      "epoch": 0.3759023773470004,
      "grad_norm": 3.015625,
      "learning_rate": 7.083825222263133e-05,
      "loss": 0.5853,
      "step": 275300
    },
    {
      "epoch": 0.3759706487558901,
      "grad_norm": 7.46875,
      "learning_rate": 7.082830445821617e-05,
      "loss": 0.6548,
      "step": 275350
    },
    {
      "epoch": 0.37603892016477986,
      "grad_norm": 3.53125,
      "learning_rate": 7.081835569614705e-05,
      "loss": 0.7737,
      "step": 275400
    },
    {
      "epoch": 0.3761071915736696,
      "grad_norm": 3.25,
      "learning_rate": 7.080840593690048e-05,
      "loss": 0.7094,
      "step": 275450
    },
    {
      "epoch": 0.3761754629825594,
      "grad_norm": 3.140625,
      "learning_rate": 7.079845518095304e-05,
      "loss": 0.6358,
      "step": 275500
    },
    {
      "epoch": 0.37624373439144915,
      "grad_norm": 6.625,
      "learning_rate": 7.078850342878136e-05,
      "loss": 0.6648,
      "step": 275550
    },
    {
      "epoch": 0.3763120058003389,
      "grad_norm": 2.34375,
      "learning_rate": 7.07785506808621e-05,
      "loss": 0.6474,
      "step": 275600
    },
    {
      "epoch": 0.3763802772092287,
      "grad_norm": 3.40625,
      "learning_rate": 7.076859693767203e-05,
      "loss": 0.6629,
      "step": 275650
    },
    {
      "epoch": 0.37644854861811844,
      "grad_norm": 2.8125,
      "learning_rate": 7.07586421996879e-05,
      "loss": 0.5706,
      "step": 275700
    },
    {
      "epoch": 0.37651682002700815,
      "grad_norm": 2.78125,
      "learning_rate": 7.074868646738652e-05,
      "loss": 0.6847,
      "step": 275750
    },
    {
      "epoch": 0.3765850914358979,
      "grad_norm": 8.125,
      "learning_rate": 7.07387297412448e-05,
      "loss": 0.7445,
      "step": 275800
    },
    {
      "epoch": 0.3766533628447877,
      "grad_norm": 3.3125,
      "learning_rate": 7.072877202173959e-05,
      "loss": 0.5466,
      "step": 275850
    },
    {
      "epoch": 0.37672163425367744,
      "grad_norm": 3.46875,
      "learning_rate": 7.071881330934793e-05,
      "loss": 0.8032,
      "step": 275900
    },
    {
      "epoch": 0.3767899056625672,
      "grad_norm": 2.9375,
      "learning_rate": 7.070885360454678e-05,
      "loss": 0.8094,
      "step": 275950
    },
    {
      "epoch": 0.37685817707145697,
      "grad_norm": 8.0,
      "learning_rate": 7.06988929078132e-05,
      "loss": 0.6819,
      "step": 276000
    },
    {
      "epoch": 0.37692644848034673,
      "grad_norm": 8.5625,
      "learning_rate": 7.068893121962435e-05,
      "loss": 0.6947,
      "step": 276050
    },
    {
      "epoch": 0.37699471988923644,
      "grad_norm": 2.875,
      "learning_rate": 7.067896854045731e-05,
      "loss": 0.734,
      "step": 276100
    },
    {
      "epoch": 0.3770629912981262,
      "grad_norm": 2.765625,
      "learning_rate": 7.066900487078933e-05,
      "loss": 0.7825,
      "step": 276150
    },
    {
      "epoch": 0.37713126270701597,
      "grad_norm": 3.0,
      "learning_rate": 7.065904021109765e-05,
      "loss": 0.6346,
      "step": 276200
    },
    {
      "epoch": 0.37719953411590573,
      "grad_norm": 3.234375,
      "learning_rate": 7.064907456185957e-05,
      "loss": 0.6685,
      "step": 276250
    },
    {
      "epoch": 0.3772678055247955,
      "grad_norm": 2.46875,
      "learning_rate": 7.063910792355242e-05,
      "loss": 0.6174,
      "step": 276300
    },
    {
      "epoch": 0.37733607693368526,
      "grad_norm": 3.296875,
      "learning_rate": 7.06291402966536e-05,
      "loss": 0.6879,
      "step": 276350
    },
    {
      "epoch": 0.377404348342575,
      "grad_norm": 3.03125,
      "learning_rate": 7.061917168164055e-05,
      "loss": 0.7475,
      "step": 276400
    },
    {
      "epoch": 0.3774726197514648,
      "grad_norm": 3.390625,
      "learning_rate": 7.060920207899075e-05,
      "loss": 0.5706,
      "step": 276450
    },
    {
      "epoch": 0.3775408911603545,
      "grad_norm": 2.890625,
      "learning_rate": 7.059923148918173e-05,
      "loss": 0.6953,
      "step": 276500
    },
    {
      "epoch": 0.37760916256924426,
      "grad_norm": 3.109375,
      "learning_rate": 7.05892599126911e-05,
      "loss": 0.5962,
      "step": 276550
    },
    {
      "epoch": 0.377677433978134,
      "grad_norm": 7.625,
      "learning_rate": 7.057928734999646e-05,
      "loss": 0.7006,
      "step": 276600
    },
    {
      "epoch": 0.3777457053870238,
      "grad_norm": 3.8125,
      "learning_rate": 7.056931380157549e-05,
      "loss": 0.615,
      "step": 276650
    },
    {
      "epoch": 0.37781397679591355,
      "grad_norm": 3.40625,
      "learning_rate": 7.055933926790591e-05,
      "loss": 0.6439,
      "step": 276700
    },
    {
      "epoch": 0.3778822482048033,
      "grad_norm": 3.390625,
      "learning_rate": 7.05493637494655e-05,
      "loss": 0.6092,
      "step": 276750
    },
    {
      "epoch": 0.3779505196136931,
      "grad_norm": 7.6875,
      "learning_rate": 7.053938724673209e-05,
      "loss": 0.764,
      "step": 276800
    },
    {
      "epoch": 0.3780187910225828,
      "grad_norm": 2.75,
      "learning_rate": 7.05294097601835e-05,
      "loss": 0.7425,
      "step": 276850
    },
    {
      "epoch": 0.37808706243147255,
      "grad_norm": 3.546875,
      "learning_rate": 7.051943129029767e-05,
      "loss": 0.6472,
      "step": 276900
    },
    {
      "epoch": 0.3781553338403623,
      "grad_norm": 3.390625,
      "learning_rate": 7.050945183755256e-05,
      "loss": 0.753,
      "step": 276950
    },
    {
      "epoch": 0.3782236052492521,
      "grad_norm": 2.9375,
      "learning_rate": 7.049947140242617e-05,
      "loss": 0.6724,
      "step": 277000
    },
    {
      "epoch": 0.37829187665814185,
      "grad_norm": 2.796875,
      "learning_rate": 7.048948998539657e-05,
      "loss": 0.6501,
      "step": 277050
    },
    {
      "epoch": 0.3783601480670316,
      "grad_norm": 3.265625,
      "learning_rate": 7.047950758694181e-05,
      "loss": 0.5784,
      "step": 277100
    },
    {
      "epoch": 0.3784284194759214,
      "grad_norm": 2.40625,
      "learning_rate": 7.046952420754009e-05,
      "loss": 0.6916,
      "step": 277150
    },
    {
      "epoch": 0.37849669088481114,
      "grad_norm": 3.0,
      "learning_rate": 7.045953984766959e-05,
      "loss": 0.6333,
      "step": 277200
    },
    {
      "epoch": 0.37856496229370085,
      "grad_norm": 2.9375,
      "learning_rate": 7.044955450780853e-05,
      "loss": 0.7122,
      "step": 277250
    },
    {
      "epoch": 0.3786332337025906,
      "grad_norm": 7.78125,
      "learning_rate": 7.04395681884352e-05,
      "loss": 0.6684,
      "step": 277300
    },
    {
      "epoch": 0.3787015051114804,
      "grad_norm": 3.421875,
      "learning_rate": 7.042958089002797e-05,
      "loss": 0.6994,
      "step": 277350
    },
    {
      "epoch": 0.37876977652037014,
      "grad_norm": 3.375,
      "learning_rate": 7.041959261306518e-05,
      "loss": 0.7176,
      "step": 277400
    },
    {
      "epoch": 0.3788380479292599,
      "grad_norm": 2.453125,
      "learning_rate": 7.040960335802527e-05,
      "loss": 0.596,
      "step": 277450
    },
    {
      "epoch": 0.37890631933814967,
      "grad_norm": 3.390625,
      "learning_rate": 7.039961312538673e-05,
      "loss": 0.6944,
      "step": 277500
    },
    {
      "epoch": 0.37897459074703943,
      "grad_norm": 3.25,
      "learning_rate": 7.038962191562805e-05,
      "loss": 0.5972,
      "step": 277550
    },
    {
      "epoch": 0.3790428621559292,
      "grad_norm": 2.9375,
      "learning_rate": 7.037962972922784e-05,
      "loss": 0.5293,
      "step": 277600
    },
    {
      "epoch": 0.3791111335648189,
      "grad_norm": 2.375,
      "learning_rate": 7.036963656666469e-05,
      "loss": 0.6248,
      "step": 277650
    },
    {
      "epoch": 0.37917940497370867,
      "grad_norm": 2.46875,
      "learning_rate": 7.035964242841725e-05,
      "loss": 0.6596,
      "step": 277700
    },
    {
      "epoch": 0.37924767638259843,
      "grad_norm": 3.046875,
      "learning_rate": 7.034964731496424e-05,
      "loss": 0.7003,
      "step": 277750
    },
    {
      "epoch": 0.3793159477914882,
      "grad_norm": 3.5,
      "learning_rate": 7.033965122678446e-05,
      "loss": 0.6658,
      "step": 277800
    },
    {
      "epoch": 0.37938421920037796,
      "grad_norm": 7.21875,
      "learning_rate": 7.032965416435665e-05,
      "loss": 0.7154,
      "step": 277850
    },
    {
      "epoch": 0.3794524906092677,
      "grad_norm": 3.546875,
      "learning_rate": 7.031965612815967e-05,
      "loss": 0.611,
      "step": 277900
    },
    {
      "epoch": 0.3795207620181575,
      "grad_norm": 2.953125,
      "learning_rate": 7.030965711867244e-05,
      "loss": 0.6739,
      "step": 277950
    },
    {
      "epoch": 0.3795890334270472,
      "grad_norm": 2.4375,
      "learning_rate": 7.029965713637388e-05,
      "loss": 0.6134,
      "step": 278000
    },
    {
      "epoch": 0.37965730483593696,
      "grad_norm": 3.0,
      "learning_rate": 7.028965618174299e-05,
      "loss": 0.8545,
      "step": 278050
    },
    {
      "epoch": 0.3797255762448267,
      "grad_norm": 3.375,
      "learning_rate": 7.027965425525881e-05,
      "loss": 0.598,
      "step": 278100
    },
    {
      "epoch": 0.3797938476537165,
      "grad_norm": 3.53125,
      "learning_rate": 7.02696513574004e-05,
      "loss": 0.6243,
      "step": 278150
    },
    {
      "epoch": 0.37986211906260625,
      "grad_norm": 3.46875,
      "learning_rate": 7.025964748864692e-05,
      "loss": 0.7979,
      "step": 278200
    },
    {
      "epoch": 0.379930390471496,
      "grad_norm": 3.46875,
      "learning_rate": 7.024964264947751e-05,
      "loss": 0.6861,
      "step": 278250
    },
    {
      "epoch": 0.3799986618803858,
      "grad_norm": 2.828125,
      "learning_rate": 7.023963684037142e-05,
      "loss": 0.6768,
      "step": 278300
    },
    {
      "epoch": 0.38006693328927554,
      "grad_norm": 3.359375,
      "learning_rate": 7.022963006180791e-05,
      "loss": 0.7042,
      "step": 278350
    },
    {
      "epoch": 0.38013520469816525,
      "grad_norm": 3.0625,
      "learning_rate": 7.021962231426628e-05,
      "loss": 0.6433,
      "step": 278400
    },
    {
      "epoch": 0.380203476107055,
      "grad_norm": 3.515625,
      "learning_rate": 7.02096135982259e-05,
      "loss": 0.591,
      "step": 278450
    },
    {
      "epoch": 0.3802717475159448,
      "grad_norm": 3.765625,
      "learning_rate": 7.019960391416618e-05,
      "loss": 0.5716,
      "step": 278500
    },
    {
      "epoch": 0.38034001892483454,
      "grad_norm": 7.28125,
      "learning_rate": 7.018959326256658e-05,
      "loss": 0.716,
      "step": 278550
    },
    {
      "epoch": 0.3804082903337243,
      "grad_norm": 2.3125,
      "learning_rate": 7.017958164390659e-05,
      "loss": 0.5538,
      "step": 278600
    },
    {
      "epoch": 0.3804765617426141,
      "grad_norm": 2.453125,
      "learning_rate": 7.016956905866575e-05,
      "loss": 0.6751,
      "step": 278650
    },
    {
      "epoch": 0.38054483315150384,
      "grad_norm": 2.796875,
      "learning_rate": 7.015955550732367e-05,
      "loss": 0.5706,
      "step": 278700
    },
    {
      "epoch": 0.38061310456039354,
      "grad_norm": 3.125,
      "learning_rate": 7.014954099035998e-05,
      "loss": 0.523,
      "step": 278750
    },
    {
      "epoch": 0.3806813759692833,
      "grad_norm": 3.15625,
      "learning_rate": 7.013952550825434e-05,
      "loss": 0.5928,
      "step": 278800
    },
    {
      "epoch": 0.3807496473781731,
      "grad_norm": 2.328125,
      "learning_rate": 7.012950906148655e-05,
      "loss": 0.6672,
      "step": 278850
    },
    {
      "epoch": 0.38081791878706284,
      "grad_norm": 3.625,
      "learning_rate": 7.011949165053629e-05,
      "loss": 0.7194,
      "step": 278900
    },
    {
      "epoch": 0.3808861901959526,
      "grad_norm": 2.46875,
      "learning_rate": 7.010947327588347e-05,
      "loss": 0.7625,
      "step": 278950
    },
    {
      "epoch": 0.38095446160484236,
      "grad_norm": 7.53125,
      "learning_rate": 7.00994539380079e-05,
      "loss": 0.6766,
      "step": 279000
    },
    {
      "epoch": 0.38102273301373213,
      "grad_norm": 2.984375,
      "learning_rate": 7.008943363738955e-05,
      "loss": 0.6697,
      "step": 279050
    },
    {
      "epoch": 0.3810910044226219,
      "grad_norm": 3.234375,
      "learning_rate": 7.007941237450835e-05,
      "loss": 0.6803,
      "step": 279100
    },
    {
      "epoch": 0.3811592758315116,
      "grad_norm": 3.015625,
      "learning_rate": 7.006939014984429e-05,
      "loss": 0.6133,
      "step": 279150
    },
    {
      "epoch": 0.38122754724040137,
      "grad_norm": 2.40625,
      "learning_rate": 7.005936696387744e-05,
      "loss": 0.6234,
      "step": 279200
    },
    {
      "epoch": 0.38129581864929113,
      "grad_norm": 7.40625,
      "learning_rate": 7.004934281708793e-05,
      "loss": 0.6698,
      "step": 279250
    },
    {
      "epoch": 0.3813640900581809,
      "grad_norm": 3.375,
      "learning_rate": 7.003931770995586e-05,
      "loss": 0.7263,
      "step": 279300
    },
    {
      "epoch": 0.38143236146707066,
      "grad_norm": 7.0625,
      "learning_rate": 7.002929164296145e-05,
      "loss": 0.7137,
      "step": 279350
    },
    {
      "epoch": 0.3815006328759604,
      "grad_norm": 8.5,
      "learning_rate": 7.001926461658495e-05,
      "loss": 0.6552,
      "step": 279400
    },
    {
      "epoch": 0.3815689042848502,
      "grad_norm": 3.203125,
      "learning_rate": 7.00092366313066e-05,
      "loss": 0.5405,
      "step": 279450
    },
    {
      "epoch": 0.3816371756937399,
      "grad_norm": 3.25,
      "learning_rate": 6.999920768760678e-05,
      "loss": 0.5377,
      "step": 279500
    },
    {
      "epoch": 0.38170544710262966,
      "grad_norm": 3.4375,
      "learning_rate": 6.998917778596582e-05,
      "loss": 0.5915,
      "step": 279550
    },
    {
      "epoch": 0.3817737185115194,
      "grad_norm": 3.25,
      "learning_rate": 6.997914692686416e-05,
      "loss": 0.7005,
      "step": 279600
    },
    {
      "epoch": 0.3818419899204092,
      "grad_norm": 7.625,
      "learning_rate": 6.99691151107823e-05,
      "loss": 0.575,
      "step": 279650
    },
    {
      "epoch": 0.38191026132929895,
      "grad_norm": 6.71875,
      "learning_rate": 6.99590823382007e-05,
      "loss": 0.8519,
      "step": 279700
    },
    {
      "epoch": 0.3819785327381887,
      "grad_norm": 3.265625,
      "learning_rate": 6.994904860959996e-05,
      "loss": 0.5176,
      "step": 279750
    },
    {
      "epoch": 0.3820468041470785,
      "grad_norm": 2.5,
      "learning_rate": 6.993901392546065e-05,
      "loss": 0.6829,
      "step": 279800
    },
    {
      "epoch": 0.38211507555596824,
      "grad_norm": 3.484375,
      "learning_rate": 6.992897828626345e-05,
      "loss": 0.6143,
      "step": 279850
    },
    {
      "epoch": 0.38218334696485795,
      "grad_norm": 3.125,
      "learning_rate": 6.991894169248905e-05,
      "loss": 0.595,
      "step": 279900
    },
    {
      "epoch": 0.3822516183737477,
      "grad_norm": 7.15625,
      "learning_rate": 6.990890414461818e-05,
      "loss": 0.6946,
      "step": 279950
    },
    {
      "epoch": 0.3823198897826375,
      "grad_norm": 3.5625,
      "learning_rate": 6.989886564313165e-05,
      "loss": 0.7201,
      "step": 280000
    },
    {
      "epoch": 0.38238816119152724,
      "grad_norm": 3.6875,
      "learning_rate": 6.988882618851026e-05,
      "loss": 0.5957,
      "step": 280050
    },
    {
      "epoch": 0.382456432600417,
      "grad_norm": 4.1875,
      "learning_rate": 6.987878578123492e-05,
      "loss": 0.5935,
      "step": 280100
    },
    {
      "epoch": 0.38252470400930677,
      "grad_norm": 2.5625,
      "learning_rate": 6.986874442178655e-05,
      "loss": 0.5043,
      "step": 280150
    },
    {
      "epoch": 0.38259297541819653,
      "grad_norm": 2.4375,
      "learning_rate": 6.98587021106461e-05,
      "loss": 0.8758,
      "step": 280200
    },
    {
      "epoch": 0.3826612468270863,
      "grad_norm": 3.203125,
      "learning_rate": 6.984865884829462e-05,
      "loss": 0.6284,
      "step": 280250
    },
    {
      "epoch": 0.382729518235976,
      "grad_norm": 2.828125,
      "learning_rate": 6.983861463521315e-05,
      "loss": 0.634,
      "step": 280300
    },
    {
      "epoch": 0.38279778964486577,
      "grad_norm": 3.390625,
      "learning_rate": 6.982856947188279e-05,
      "loss": 0.7452,
      "step": 280350
    },
    {
      "epoch": 0.38286606105375554,
      "grad_norm": 2.875,
      "learning_rate": 6.981852335878471e-05,
      "loss": 0.5787,
      "step": 280400
    },
    {
      "epoch": 0.3829343324626453,
      "grad_norm": 2.375,
      "learning_rate": 6.98084762964001e-05,
      "loss": 0.6004,
      "step": 280450
    },
    {
      "epoch": 0.38300260387153506,
      "grad_norm": 9.1875,
      "learning_rate": 6.97984282852102e-05,
      "loss": 0.6693,
      "step": 280500
    },
    {
      "epoch": 0.3830708752804248,
      "grad_norm": 2.84375,
      "learning_rate": 6.97883793256963e-05,
      "loss": 0.6762,
      "step": 280550
    },
    {
      "epoch": 0.3831391466893146,
      "grad_norm": 2.328125,
      "learning_rate": 6.977832941833976e-05,
      "loss": 0.6471,
      "step": 280600
    },
    {
      "epoch": 0.3832074180982043,
      "grad_norm": 3.109375,
      "learning_rate": 6.976827856362193e-05,
      "loss": 0.6885,
      "step": 280650
    },
    {
      "epoch": 0.38327568950709406,
      "grad_norm": 3.3125,
      "learning_rate": 6.975822676202424e-05,
      "loss": 0.73,
      "step": 280700
    },
    {
      "epoch": 0.38334396091598383,
      "grad_norm": 3.390625,
      "learning_rate": 6.974817401402817e-05,
      "loss": 0.5922,
      "step": 280750
    },
    {
      "epoch": 0.3834122323248736,
      "grad_norm": 3.421875,
      "learning_rate": 6.973812032011524e-05,
      "loss": 0.5939,
      "step": 280800
    },
    {
      "epoch": 0.38348050373376336,
      "grad_norm": 2.734375,
      "learning_rate": 6.972806568076698e-05,
      "loss": 0.8305,
      "step": 280850
    },
    {
      "epoch": 0.3835487751426531,
      "grad_norm": 8.375,
      "learning_rate": 6.971801009646504e-05,
      "loss": 0.7556,
      "step": 280900
    },
    {
      "epoch": 0.3836170465515429,
      "grad_norm": 2.84375,
      "learning_rate": 6.970795356769105e-05,
      "loss": 0.7191,
      "step": 280950
    },
    {
      "epoch": 0.38368531796043265,
      "grad_norm": 2.9375,
      "learning_rate": 6.96978960949267e-05,
      "loss": 0.6245,
      "step": 281000
    },
    {
      "epoch": 0.38375358936932236,
      "grad_norm": 2.921875,
      "learning_rate": 6.968783767865376e-05,
      "loss": 0.7157,
      "step": 281050
    },
    {
      "epoch": 0.3838218607782121,
      "grad_norm": 3.546875,
      "learning_rate": 6.967777831935398e-05,
      "loss": 0.5619,
      "step": 281100
    },
    {
      "epoch": 0.3838901321871019,
      "grad_norm": 3.5,
      "learning_rate": 6.966771801750921e-05,
      "loss": 0.801,
      "step": 281150
    },
    {
      "epoch": 0.38395840359599165,
      "grad_norm": 9.625,
      "learning_rate": 6.965765677360134e-05,
      "loss": 0.6591,
      "step": 281200
    },
    {
      "epoch": 0.3840266750048814,
      "grad_norm": 3.4375,
      "learning_rate": 6.964759458811229e-05,
      "loss": 0.5896,
      "step": 281250
    },
    {
      "epoch": 0.3840949464137712,
      "grad_norm": 3.5,
      "learning_rate": 6.963753146152401e-05,
      "loss": 0.5995,
      "step": 281300
    },
    {
      "epoch": 0.38416321782266094,
      "grad_norm": 3.3125,
      "learning_rate": 6.962746739431851e-05,
      "loss": 0.6697,
      "step": 281350
    },
    {
      "epoch": 0.38423148923155065,
      "grad_norm": 2.953125,
      "learning_rate": 6.961740238697789e-05,
      "loss": 0.6715,
      "step": 281400
    },
    {
      "epoch": 0.3842997606404404,
      "grad_norm": 3.1875,
      "learning_rate": 6.96073364399842e-05,
      "loss": 0.7004,
      "step": 281450
    },
    {
      "epoch": 0.3843680320493302,
      "grad_norm": 6.40625,
      "learning_rate": 6.959726955381963e-05,
      "loss": 0.5427,
      "step": 281500
    },
    {
      "epoch": 0.38443630345821994,
      "grad_norm": 3.640625,
      "learning_rate": 6.958720172896637e-05,
      "loss": 0.6863,
      "step": 281550
    },
    {
      "epoch": 0.3845045748671097,
      "grad_norm": 7.46875,
      "learning_rate": 6.957713296590661e-05,
      "loss": 0.8048,
      "step": 281600
    },
    {
      "epoch": 0.38457284627599947,
      "grad_norm": 3.046875,
      "learning_rate": 6.95670632651227e-05,
      "loss": 0.6574,
      "step": 281650
    },
    {
      "epoch": 0.38464111768488923,
      "grad_norm": 2.703125,
      "learning_rate": 6.955699262709693e-05,
      "loss": 0.7627,
      "step": 281700
    },
    {
      "epoch": 0.384709389093779,
      "grad_norm": 2.75,
      "learning_rate": 6.954692105231166e-05,
      "loss": 0.6435,
      "step": 281750
    },
    {
      "epoch": 0.3847776605026687,
      "grad_norm": 2.890625,
      "learning_rate": 6.953684854124936e-05,
      "loss": 0.5189,
      "step": 281800
    },
    {
      "epoch": 0.38484593191155847,
      "grad_norm": 3.03125,
      "learning_rate": 6.952677509439243e-05,
      "loss": 0.6428,
      "step": 281850
    },
    {
      "epoch": 0.38491420332044823,
      "grad_norm": 3.453125,
      "learning_rate": 6.951670071222342e-05,
      "loss": 0.6936,
      "step": 281900
    },
    {
      "epoch": 0.384982474729338,
      "grad_norm": 2.609375,
      "learning_rate": 6.950662539522489e-05,
      "loss": 0.6902,
      "step": 281950
    },
    {
      "epoch": 0.38505074613822776,
      "grad_norm": 2.78125,
      "learning_rate": 6.94965491438794e-05,
      "loss": 0.5898,
      "step": 282000
    },
    {
      "epoch": 0.3851190175471175,
      "grad_norm": 4.125,
      "learning_rate": 6.948647195866962e-05,
      "loss": 0.7548,
      "step": 282050
    },
    {
      "epoch": 0.3851872889560073,
      "grad_norm": 3.71875,
      "learning_rate": 6.94763938400782e-05,
      "loss": 0.6178,
      "step": 282100
    },
    {
      "epoch": 0.38525556036489705,
      "grad_norm": 3.234375,
      "learning_rate": 6.946631478858791e-05,
      "loss": 0.7462,
      "step": 282150
    },
    {
      "epoch": 0.38532383177378676,
      "grad_norm": 9.75,
      "learning_rate": 6.945623480468152e-05,
      "loss": 0.7314,
      "step": 282200
    },
    {
      "epoch": 0.3853921031826765,
      "grad_norm": 3.59375,
      "learning_rate": 6.944615388884185e-05,
      "loss": 0.6781,
      "step": 282250
    },
    {
      "epoch": 0.3854603745915663,
      "grad_norm": 3.578125,
      "learning_rate": 6.943607204155175e-05,
      "loss": 0.6535,
      "step": 282300
    },
    {
      "epoch": 0.38552864600045605,
      "grad_norm": 3.328125,
      "learning_rate": 6.942598926329413e-05,
      "loss": 0.7167,
      "step": 282350
    },
    {
      "epoch": 0.3855969174093458,
      "grad_norm": 7.71875,
      "learning_rate": 6.941590555455197e-05,
      "loss": 0.7503,
      "step": 282400
    },
    {
      "epoch": 0.3856651888182356,
      "grad_norm": 3.625,
      "learning_rate": 6.940582091580826e-05,
      "loss": 0.6149,
      "step": 282450
    },
    {
      "epoch": 0.38573346022712535,
      "grad_norm": 4.875,
      "learning_rate": 6.939573534754602e-05,
      "loss": 0.6356,
      "step": 282500
    },
    {
      "epoch": 0.38580173163601506,
      "grad_norm": 3.140625,
      "learning_rate": 6.938564885024837e-05,
      "loss": 0.6229,
      "step": 282550
    },
    {
      "epoch": 0.3858700030449048,
      "grad_norm": 2.890625,
      "learning_rate": 6.937556142439842e-05,
      "loss": 0.6244,
      "step": 282600
    },
    {
      "epoch": 0.3859382744537946,
      "grad_norm": 2.765625,
      "learning_rate": 6.936547307047934e-05,
      "loss": 0.6919,
      "step": 282650
    },
    {
      "epoch": 0.38600654586268435,
      "grad_norm": 3.28125,
      "learning_rate": 6.935538378897439e-05,
      "loss": 0.7669,
      "step": 282700
    },
    {
      "epoch": 0.3860748172715741,
      "grad_norm": 3.28125,
      "learning_rate": 6.934529358036678e-05,
      "loss": 0.6834,
      "step": 282750
    },
    {
      "epoch": 0.3861430886804639,
      "grad_norm": 2.421875,
      "learning_rate": 6.933520244513989e-05,
      "loss": 0.5698,
      "step": 282800
    },
    {
      "epoch": 0.38621136008935364,
      "grad_norm": 2.734375,
      "learning_rate": 6.932511038377702e-05,
      "loss": 0.6593,
      "step": 282850
    },
    {
      "epoch": 0.3862796314982434,
      "grad_norm": 2.96875,
      "learning_rate": 6.931501739676159e-05,
      "loss": 0.6604,
      "step": 282900
    },
    {
      "epoch": 0.3863479029071331,
      "grad_norm": 2.875,
      "learning_rate": 6.930492348457704e-05,
      "loss": 0.7562,
      "step": 282950
    },
    {
      "epoch": 0.3864161743160229,
      "grad_norm": 3.171875,
      "learning_rate": 6.929482864770685e-05,
      "loss": 0.7038,
      "step": 283000
    },
    {
      "epoch": 0.38648444572491264,
      "grad_norm": 3.21875,
      "learning_rate": 6.928473288663457e-05,
      "loss": 0.5814,
      "step": 283050
    },
    {
      "epoch": 0.3865527171338024,
      "grad_norm": 2.671875,
      "learning_rate": 6.927463620184378e-05,
      "loss": 0.62,
      "step": 283100
    },
    {
      "epoch": 0.38662098854269217,
      "grad_norm": 3.390625,
      "learning_rate": 6.926453859381806e-05,
      "loss": 0.665,
      "step": 283150
    },
    {
      "epoch": 0.38668925995158193,
      "grad_norm": 2.359375,
      "learning_rate": 6.92544400630411e-05,
      "loss": 0.5319,
      "step": 283200
    },
    {
      "epoch": 0.3867575313604717,
      "grad_norm": 3.46875,
      "learning_rate": 6.924434060999665e-05,
      "loss": 0.6657,
      "step": 283250
    },
    {
      "epoch": 0.3868258027693614,
      "grad_norm": 2.25,
      "learning_rate": 6.92342402351684e-05,
      "loss": 0.7467,
      "step": 283300
    },
    {
      "epoch": 0.38689407417825117,
      "grad_norm": 2.3125,
      "learning_rate": 6.922413893904016e-05,
      "loss": 0.7218,
      "step": 283350
    },
    {
      "epoch": 0.38696234558714093,
      "grad_norm": 2.40625,
      "learning_rate": 6.921403672209579e-05,
      "loss": 0.5973,
      "step": 283400
    },
    {
      "epoch": 0.3870306169960307,
      "grad_norm": 3.21875,
      "learning_rate": 6.920393358481917e-05,
      "loss": 0.7561,
      "step": 283450
    },
    {
      "epoch": 0.38709888840492046,
      "grad_norm": 2.09375,
      "learning_rate": 6.919382952769424e-05,
      "loss": 0.589,
      "step": 283500
    },
    {
      "epoch": 0.3871671598138102,
      "grad_norm": 3.390625,
      "learning_rate": 6.918372455120495e-05,
      "loss": 0.7881,
      "step": 283550
    },
    {
      "epoch": 0.3872354312227,
      "grad_norm": 3.59375,
      "learning_rate": 6.917361865583535e-05,
      "loss": 0.7225,
      "step": 283600
    },
    {
      "epoch": 0.38730370263158975,
      "grad_norm": 2.53125,
      "learning_rate": 6.916351184206945e-05,
      "loss": 0.5948,
      "step": 283650
    },
    {
      "epoch": 0.38737197404047946,
      "grad_norm": 2.46875,
      "learning_rate": 6.915340411039141e-05,
      "loss": 0.7057,
      "step": 283700
    },
    {
      "epoch": 0.3874402454493692,
      "grad_norm": 2.75,
      "learning_rate": 6.914329546128535e-05,
      "loss": 0.6802,
      "step": 283750
    },
    {
      "epoch": 0.387508516858259,
      "grad_norm": 9.0625,
      "learning_rate": 6.913318589523547e-05,
      "loss": 0.6461,
      "step": 283800
    },
    {
      "epoch": 0.38757678826714875,
      "grad_norm": 3.734375,
      "learning_rate": 6.912307541272603e-05,
      "loss": 0.5181,
      "step": 283850
    },
    {
      "epoch": 0.3876450596760385,
      "grad_norm": 3.328125,
      "learning_rate": 6.911296401424125e-05,
      "loss": 0.597,
      "step": 283900
    },
    {
      "epoch": 0.3877133310849283,
      "grad_norm": 2.3125,
      "learning_rate": 6.910285170026552e-05,
      "loss": 0.6366,
      "step": 283950
    },
    {
      "epoch": 0.38778160249381805,
      "grad_norm": 3.3125,
      "learning_rate": 6.90927384712832e-05,
      "loss": 0.6512,
      "step": 284000
    },
    {
      "epoch": 0.38784987390270775,
      "grad_norm": 2.84375,
      "learning_rate": 6.908262432777867e-05,
      "loss": 0.6569,
      "step": 284050
    },
    {
      "epoch": 0.3879181453115975,
      "grad_norm": 3.3125,
      "learning_rate": 6.90725092702364e-05,
      "loss": 0.6338,
      "step": 284100
    },
    {
      "epoch": 0.3879864167204873,
      "grad_norm": 7.34375,
      "learning_rate": 6.906239329914093e-05,
      "loss": 0.796,
      "step": 284150
    },
    {
      "epoch": 0.38805468812937705,
      "grad_norm": 3.71875,
      "learning_rate": 6.905227641497673e-05,
      "loss": 0.6656,
      "step": 284200
    },
    {
      "epoch": 0.3881229595382668,
      "grad_norm": 3.34375,
      "learning_rate": 6.904215861822845e-05,
      "loss": 0.6166,
      "step": 284250
    },
    {
      "epoch": 0.3881912309471566,
      "grad_norm": 2.296875,
      "learning_rate": 6.903203990938069e-05,
      "loss": 0.665,
      "step": 284300
    },
    {
      "epoch": 0.38825950235604634,
      "grad_norm": 3.328125,
      "learning_rate": 6.902192028891813e-05,
      "loss": 0.7187,
      "step": 284350
    },
    {
      "epoch": 0.3883277737649361,
      "grad_norm": 3.3125,
      "learning_rate": 6.901179975732552e-05,
      "loss": 0.9676,
      "step": 284400
    },
    {
      "epoch": 0.3883960451738258,
      "grad_norm": 2.953125,
      "learning_rate": 6.900167831508756e-05,
      "loss": 0.6489,
      "step": 284450
    },
    {
      "epoch": 0.3884643165827156,
      "grad_norm": 2.328125,
      "learning_rate": 6.899155596268913e-05,
      "loss": 0.6595,
      "step": 284500
    },
    {
      "epoch": 0.38853258799160534,
      "grad_norm": 3.078125,
      "learning_rate": 6.898143270061503e-05,
      "loss": 0.7353,
      "step": 284550
    },
    {
      "epoch": 0.3886008594004951,
      "grad_norm": 3.203125,
      "learning_rate": 6.897130852935015e-05,
      "loss": 0.6237,
      "step": 284600
    },
    {
      "epoch": 0.38866913080938487,
      "grad_norm": 3.109375,
      "learning_rate": 6.896118344937947e-05,
      "loss": 0.7414,
      "step": 284650
    },
    {
      "epoch": 0.38873740221827463,
      "grad_norm": 2.734375,
      "learning_rate": 6.895105746118795e-05,
      "loss": 0.5879,
      "step": 284700
    },
    {
      "epoch": 0.3888056736271644,
      "grad_norm": 7.59375,
      "learning_rate": 6.894093056526059e-05,
      "loss": 0.7122,
      "step": 284750
    },
    {
      "epoch": 0.38887394503605416,
      "grad_norm": 2.375,
      "learning_rate": 6.89308027620825e-05,
      "loss": 0.7965,
      "step": 284800
    },
    {
      "epoch": 0.38894221644494387,
      "grad_norm": 3.609375,
      "learning_rate": 6.892067405213874e-05,
      "loss": 0.836,
      "step": 284850
    },
    {
      "epoch": 0.38901048785383363,
      "grad_norm": 7.3125,
      "learning_rate": 6.891054443591453e-05,
      "loss": 0.6805,
      "step": 284900
    },
    {
      "epoch": 0.3890787592627234,
      "grad_norm": 3.828125,
      "learning_rate": 6.8900413913895e-05,
      "loss": 0.6314,
      "step": 284950
    },
    {
      "epoch": 0.38914703067161316,
      "grad_norm": 3.015625,
      "learning_rate": 6.889028248656544e-05,
      "loss": 0.5659,
      "step": 285000
    },
    {
      "epoch": 0.3892153020805029,
      "grad_norm": 3.28125,
      "learning_rate": 6.888015015441111e-05,
      "loss": 0.6996,
      "step": 285050
    },
    {
      "epoch": 0.3892835734893927,
      "grad_norm": 9.6875,
      "learning_rate": 6.887001691791735e-05,
      "loss": 0.6066,
      "step": 285100
    },
    {
      "epoch": 0.38935184489828245,
      "grad_norm": 4.25,
      "learning_rate": 6.885988277756954e-05,
      "loss": 0.6074,
      "step": 285150
    },
    {
      "epoch": 0.38942011630717216,
      "grad_norm": 3.3125,
      "learning_rate": 6.884974773385307e-05,
      "loss": 0.7622,
      "step": 285200
    },
    {
      "epoch": 0.3894883877160619,
      "grad_norm": 3.015625,
      "learning_rate": 6.88396117872534e-05,
      "loss": 0.7703,
      "step": 285250
    },
    {
      "epoch": 0.3895566591249517,
      "grad_norm": 2.75,
      "learning_rate": 6.882947493825607e-05,
      "loss": 0.5933,
      "step": 285300
    },
    {
      "epoch": 0.38962493053384145,
      "grad_norm": 3.671875,
      "learning_rate": 6.881933718734657e-05,
      "loss": 0.6258,
      "step": 285350
    },
    {
      "epoch": 0.3896932019427312,
      "grad_norm": 3.078125,
      "learning_rate": 6.880919853501053e-05,
      "loss": 0.8136,
      "step": 285400
    },
    {
      "epoch": 0.389761473351621,
      "grad_norm": 7.21875,
      "learning_rate": 6.879905898173355e-05,
      "loss": 0.6605,
      "step": 285450
    },
    {
      "epoch": 0.38982974476051074,
      "grad_norm": 3.25,
      "learning_rate": 6.87889185280013e-05,
      "loss": 0.6639,
      "step": 285500
    },
    {
      "epoch": 0.3898980161694005,
      "grad_norm": 3.0,
      "learning_rate": 6.877877717429956e-05,
      "loss": 0.6,
      "step": 285550
    },
    {
      "epoch": 0.3899662875782902,
      "grad_norm": 7.65625,
      "learning_rate": 6.876863492111403e-05,
      "loss": 0.7648,
      "step": 285600
    },
    {
      "epoch": 0.39003455898718,
      "grad_norm": 7.75,
      "learning_rate": 6.875849176893053e-05,
      "loss": 0.6647,
      "step": 285650
    },
    {
      "epoch": 0.39010283039606974,
      "grad_norm": 2.609375,
      "learning_rate": 6.87483477182349e-05,
      "loss": 0.6292,
      "step": 285700
    },
    {
      "epoch": 0.3901711018049595,
      "grad_norm": 8.0625,
      "learning_rate": 6.873820276951303e-05,
      "loss": 0.7125,
      "step": 285750
    },
    {
      "epoch": 0.39023937321384927,
      "grad_norm": 3.328125,
      "learning_rate": 6.872805692325086e-05,
      "loss": 0.6216,
      "step": 285800
    },
    {
      "epoch": 0.39030764462273904,
      "grad_norm": 7.46875,
      "learning_rate": 6.871791017993436e-05,
      "loss": 0.6052,
      "step": 285850
    },
    {
      "epoch": 0.3903759160316288,
      "grad_norm": 3.125,
      "learning_rate": 6.870776254004955e-05,
      "loss": 0.734,
      "step": 285900
    },
    {
      "epoch": 0.3904441874405185,
      "grad_norm": 3.078125,
      "learning_rate": 6.869761400408252e-05,
      "loss": 0.6311,
      "step": 285950
    },
    {
      "epoch": 0.3905124588494083,
      "grad_norm": 3.609375,
      "learning_rate": 6.868746457251932e-05,
      "loss": 0.6582,
      "step": 286000
    },
    {
      "epoch": 0.39058073025829804,
      "grad_norm": 3.3125,
      "learning_rate": 6.867731424584613e-05,
      "loss": 0.5811,
      "step": 286050
    },
    {
      "epoch": 0.3906490016671878,
      "grad_norm": 7.25,
      "learning_rate": 6.866716302454914e-05,
      "loss": 0.7615,
      "step": 286100
    },
    {
      "epoch": 0.39071727307607756,
      "grad_norm": 3.25,
      "learning_rate": 6.865701090911456e-05,
      "loss": 0.6191,
      "step": 286150
    },
    {
      "epoch": 0.39078554448496733,
      "grad_norm": 2.78125,
      "learning_rate": 6.86468579000287e-05,
      "loss": 0.7367,
      "step": 286200
    },
    {
      "epoch": 0.3908538158938571,
      "grad_norm": 2.71875,
      "learning_rate": 6.863670399777785e-05,
      "loss": 0.6252,
      "step": 286250
    },
    {
      "epoch": 0.39092208730274686,
      "grad_norm": 2.421875,
      "learning_rate": 6.862654920284839e-05,
      "loss": 0.7821,
      "step": 286300
    },
    {
      "epoch": 0.39099035871163657,
      "grad_norm": 3.046875,
      "learning_rate": 6.861639351572671e-05,
      "loss": 0.5729,
      "step": 286350
    },
    {
      "epoch": 0.39105863012052633,
      "grad_norm": 7.3125,
      "learning_rate": 6.860623693689927e-05,
      "loss": 0.7896,
      "step": 286400
    },
    {
      "epoch": 0.3911269015294161,
      "grad_norm": 3.515625,
      "learning_rate": 6.859607946685256e-05,
      "loss": 0.6169,
      "step": 286450
    },
    {
      "epoch": 0.39119517293830586,
      "grad_norm": 2.53125,
      "learning_rate": 6.858592110607307e-05,
      "loss": 0.6627,
      "step": 286500
    },
    {
      "epoch": 0.3912634443471956,
      "grad_norm": 3.796875,
      "learning_rate": 6.857576185504745e-05,
      "loss": 0.729,
      "step": 286550
    },
    {
      "epoch": 0.3913317157560854,
      "grad_norm": 2.734375,
      "learning_rate": 6.856560171426226e-05,
      "loss": 0.6397,
      "step": 286600
    },
    {
      "epoch": 0.39139998716497515,
      "grad_norm": 3.109375,
      "learning_rate": 6.855544068420416e-05,
      "loss": 0.695,
      "step": 286650
    },
    {
      "epoch": 0.39146825857386486,
      "grad_norm": 3.203125,
      "learning_rate": 6.85452787653599e-05,
      "loss": 0.742,
      "step": 286700
    },
    {
      "epoch": 0.3915365299827546,
      "grad_norm": 3.59375,
      "learning_rate": 6.853511595821618e-05,
      "loss": 0.7415,
      "step": 286750
    },
    {
      "epoch": 0.3916048013916444,
      "grad_norm": 2.8125,
      "learning_rate": 6.85249522632598e-05,
      "loss": 0.6346,
      "step": 286800
    },
    {
      "epoch": 0.39167307280053415,
      "grad_norm": 2.921875,
      "learning_rate": 6.851478768097761e-05,
      "loss": 0.6586,
      "step": 286850
    },
    {
      "epoch": 0.3917413442094239,
      "grad_norm": 2.796875,
      "learning_rate": 6.850462221185645e-05,
      "loss": 0.6062,
      "step": 286900
    },
    {
      "epoch": 0.3918096156183137,
      "grad_norm": 3.71875,
      "learning_rate": 6.849445585638327e-05,
      "loss": 0.6792,
      "step": 286950
    },
    {
      "epoch": 0.39187788702720344,
      "grad_norm": 3.1875,
      "learning_rate": 6.848428861504498e-05,
      "loss": 0.6625,
      "step": 287000
    },
    {
      "epoch": 0.3919461584360932,
      "grad_norm": 3.40625,
      "learning_rate": 6.847412048832862e-05,
      "loss": 0.6218,
      "step": 287050
    },
    {
      "epoch": 0.3920144298449829,
      "grad_norm": 3.015625,
      "learning_rate": 6.846395147672125e-05,
      "loss": 0.6442,
      "step": 287100
    },
    {
      "epoch": 0.3920827012538727,
      "grad_norm": 3.671875,
      "learning_rate": 6.845378158070989e-05,
      "loss": 0.6153,
      "step": 287150
    },
    {
      "epoch": 0.39215097266276244,
      "grad_norm": 3.34375,
      "learning_rate": 6.844361080078173e-05,
      "loss": 0.6574,
      "step": 287200
    },
    {
      "epoch": 0.3922192440716522,
      "grad_norm": 2.96875,
      "learning_rate": 6.84334391374239e-05,
      "loss": 0.6826,
      "step": 287250
    },
    {
      "epoch": 0.39228751548054197,
      "grad_norm": 3.3125,
      "learning_rate": 6.842326659112361e-05,
      "loss": 0.5832,
      "step": 287300
    },
    {
      "epoch": 0.39235578688943173,
      "grad_norm": 3.859375,
      "learning_rate": 6.841309316236817e-05,
      "loss": 0.7649,
      "step": 287350
    },
    {
      "epoch": 0.3924240582983215,
      "grad_norm": 3.71875,
      "learning_rate": 6.840291885164481e-05,
      "loss": 0.5842,
      "step": 287400
    },
    {
      "epoch": 0.39249232970721126,
      "grad_norm": 3.15625,
      "learning_rate": 6.839274365944092e-05,
      "loss": 0.7611,
      "step": 287450
    },
    {
      "epoch": 0.39256060111610097,
      "grad_norm": 3.703125,
      "learning_rate": 6.838256758624384e-05,
      "loss": 0.5968,
      "step": 287500
    },
    {
      "epoch": 0.39262887252499074,
      "grad_norm": 7.375,
      "learning_rate": 6.837239063254099e-05,
      "loss": 0.5404,
      "step": 287550
    },
    {
      "epoch": 0.3926971439338805,
      "grad_norm": 3.84375,
      "learning_rate": 6.836221279881989e-05,
      "loss": 0.6227,
      "step": 287600
    },
    {
      "epoch": 0.39276541534277026,
      "grad_norm": 2.8125,
      "learning_rate": 6.835203408556801e-05,
      "loss": 0.5952,
      "step": 287650
    },
    {
      "epoch": 0.39283368675166,
      "grad_norm": 3.0625,
      "learning_rate": 6.834185449327288e-05,
      "loss": 0.6703,
      "step": 287700
    },
    {
      "epoch": 0.3929019581605498,
      "grad_norm": 8.125,
      "learning_rate": 6.833167402242214e-05,
      "loss": 0.8375,
      "step": 287750
    },
    {
      "epoch": 0.39297022956943956,
      "grad_norm": 3.5625,
      "learning_rate": 6.832149267350338e-05,
      "loss": 0.6996,
      "step": 287800
    },
    {
      "epoch": 0.39303850097832926,
      "grad_norm": 3.1875,
      "learning_rate": 6.831131044700432e-05,
      "loss": 0.6453,
      "step": 287850
    },
    {
      "epoch": 0.39310677238721903,
      "grad_norm": 3.515625,
      "learning_rate": 6.830112734341262e-05,
      "loss": 0.6228,
      "step": 287900
    },
    {
      "epoch": 0.3931750437961088,
      "grad_norm": 3.296875,
      "learning_rate": 6.829094336321609e-05,
      "loss": 0.6754,
      "step": 287950
    },
    {
      "epoch": 0.39324331520499856,
      "grad_norm": 3.609375,
      "learning_rate": 6.828075850690251e-05,
      "loss": 0.7725,
      "step": 288000
    },
    {
      "epoch": 0.3933115866138883,
      "grad_norm": 2.6875,
      "learning_rate": 6.827057277495974e-05,
      "loss": 0.7169,
      "step": 288050
    },
    {
      "epoch": 0.3933798580227781,
      "grad_norm": 2.765625,
      "learning_rate": 6.826038616787564e-05,
      "loss": 0.5534,
      "step": 288100
    },
    {
      "epoch": 0.39344812943166785,
      "grad_norm": 7.375,
      "learning_rate": 6.825019868613817e-05,
      "loss": 0.8195,
      "step": 288150
    },
    {
      "epoch": 0.3935164008405576,
      "grad_norm": 3.015625,
      "learning_rate": 6.824001033023527e-05,
      "loss": 0.6073,
      "step": 288200
    },
    {
      "epoch": 0.3935846722494473,
      "grad_norm": 8.5,
      "learning_rate": 6.822982110065497e-05,
      "loss": 0.8102,
      "step": 288250
    },
    {
      "epoch": 0.3936529436583371,
      "grad_norm": 2.4375,
      "learning_rate": 6.821963099788531e-05,
      "loss": 0.5243,
      "step": 288300
    },
    {
      "epoch": 0.39372121506722685,
      "grad_norm": 2.703125,
      "learning_rate": 6.820944002241439e-05,
      "loss": 0.7399,
      "step": 288350
    },
    {
      "epoch": 0.3937894864761166,
      "grad_norm": 2.359375,
      "learning_rate": 6.819924817473036e-05,
      "loss": 0.5408,
      "step": 288400
    },
    {
      "epoch": 0.3938577578850064,
      "grad_norm": 2.984375,
      "learning_rate": 6.818905545532139e-05,
      "loss": 0.5846,
      "step": 288450
    },
    {
      "epoch": 0.39392602929389614,
      "grad_norm": 7.5625,
      "learning_rate": 6.81788618646757e-05,
      "loss": 0.65,
      "step": 288500
    },
    {
      "epoch": 0.3939943007027859,
      "grad_norm": 3.15625,
      "learning_rate": 6.816866740328153e-05,
      "loss": 0.6305,
      "step": 288550
    },
    {
      "epoch": 0.3940625721116756,
      "grad_norm": 3.21875,
      "learning_rate": 6.815847207162723e-05,
      "loss": 0.6647,
      "step": 288600
    },
    {
      "epoch": 0.3941308435205654,
      "grad_norm": 2.671875,
      "learning_rate": 6.81482758702011e-05,
      "loss": 0.6546,
      "step": 288650
    },
    {
      "epoch": 0.39419911492945514,
      "grad_norm": 2.875,
      "learning_rate": 6.813807879949155e-05,
      "loss": 0.6123,
      "step": 288700
    },
    {
      "epoch": 0.3942673863383449,
      "grad_norm": 2.328125,
      "learning_rate": 6.812788085998702e-05,
      "loss": 0.6891,
      "step": 288750
    },
    {
      "epoch": 0.39433565774723467,
      "grad_norm": 2.84375,
      "learning_rate": 6.811768205217597e-05,
      "loss": 0.7288,
      "step": 288800
    },
    {
      "epoch": 0.39440392915612443,
      "grad_norm": 3.15625,
      "learning_rate": 6.81074823765469e-05,
      "loss": 0.8473,
      "step": 288850
    },
    {
      "epoch": 0.3944722005650142,
      "grad_norm": 2.8125,
      "learning_rate": 6.809728183358838e-05,
      "loss": 0.595,
      "step": 288900
    },
    {
      "epoch": 0.39454047197390396,
      "grad_norm": 7.0625,
      "learning_rate": 6.8087080423789e-05,
      "loss": 0.7668,
      "step": 288950
    },
    {
      "epoch": 0.39460874338279367,
      "grad_norm": 3.171875,
      "learning_rate": 6.80768781476374e-05,
      "loss": 0.6772,
      "step": 289000
    },
    {
      "epoch": 0.39467701479168343,
      "grad_norm": 3.078125,
      "learning_rate": 6.806667500562225e-05,
      "loss": 0.5654,
      "step": 289050
    },
    {
      "epoch": 0.3947452862005732,
      "grad_norm": 3.59375,
      "learning_rate": 6.805647099823226e-05,
      "loss": 0.6892,
      "step": 289100
    },
    {
      "epoch": 0.39481355760946296,
      "grad_norm": 2.78125,
      "learning_rate": 6.804626612595622e-05,
      "loss": 0.6531,
      "step": 289150
    },
    {
      "epoch": 0.3948818290183527,
      "grad_norm": 2.421875,
      "learning_rate": 6.803606038928291e-05,
      "loss": 0.7065,
      "step": 289200
    },
    {
      "epoch": 0.3949501004272425,
      "grad_norm": 3.09375,
      "learning_rate": 6.802585378870121e-05,
      "loss": 0.6135,
      "step": 289250
    },
    {
      "epoch": 0.39501837183613225,
      "grad_norm": 2.5,
      "learning_rate": 6.801564632469996e-05,
      "loss": 0.7257,
      "step": 289300
    },
    {
      "epoch": 0.395086643245022,
      "grad_norm": 3.28125,
      "learning_rate": 6.800543799776808e-05,
      "loss": 0.5551,
      "step": 289350
    },
    {
      "epoch": 0.3951549146539117,
      "grad_norm": 3.6875,
      "learning_rate": 6.79952288083946e-05,
      "loss": 0.5425,
      "step": 289400
    },
    {
      "epoch": 0.3952231860628015,
      "grad_norm": 9.9375,
      "learning_rate": 6.798501875706847e-05,
      "loss": 0.5446,
      "step": 289450
    },
    {
      "epoch": 0.39529145747169125,
      "grad_norm": 7.4375,
      "learning_rate": 6.797480784427879e-05,
      "loss": 0.7529,
      "step": 289500
    },
    {
      "epoch": 0.395359728880581,
      "grad_norm": 6.90625,
      "learning_rate": 6.796459607051459e-05,
      "loss": 0.7736,
      "step": 289550
    },
    {
      "epoch": 0.3954280002894708,
      "grad_norm": 3.375,
      "learning_rate": 6.795438343626506e-05,
      "loss": 0.8897,
      "step": 289600
    },
    {
      "epoch": 0.39549627169836055,
      "grad_norm": 3.28125,
      "learning_rate": 6.794416994201936e-05,
      "loss": 0.7807,
      "step": 289650
    },
    {
      "epoch": 0.3955645431072503,
      "grad_norm": 7.53125,
      "learning_rate": 6.793395558826668e-05,
      "loss": 0.671,
      "step": 289700
    },
    {
      "epoch": 0.39563281451614,
      "grad_norm": 2.546875,
      "learning_rate": 6.79237403754963e-05,
      "loss": 0.5169,
      "step": 289750
    },
    {
      "epoch": 0.3957010859250298,
      "grad_norm": 2.734375,
      "learning_rate": 6.791352430419752e-05,
      "loss": 0.5995,
      "step": 289800
    },
    {
      "epoch": 0.39576935733391955,
      "grad_norm": 8.25,
      "learning_rate": 6.790330737485966e-05,
      "loss": 0.8998,
      "step": 289850
    },
    {
      "epoch": 0.3958376287428093,
      "grad_norm": 3.375,
      "learning_rate": 6.789308958797213e-05,
      "loss": 0.7556,
      "step": 289900
    },
    {
      "epoch": 0.3959059001516991,
      "grad_norm": 3.28125,
      "learning_rate": 6.788287094402432e-05,
      "loss": 0.6329,
      "step": 289950
    },
    {
      "epoch": 0.39597417156058884,
      "grad_norm": 2.96875,
      "learning_rate": 6.787265144350572e-05,
      "loss": 0.6966,
      "step": 290000
    },
    {
      "epoch": 0.3960424429694786,
      "grad_norm": 2.984375,
      "learning_rate": 6.786243108690582e-05,
      "loss": 0.7059,
      "step": 290050
    },
    {
      "epoch": 0.39611071437836837,
      "grad_norm": 3.609375,
      "learning_rate": 6.785220987471415e-05,
      "loss": 0.6845,
      "step": 290100
    },
    {
      "epoch": 0.3961789857872581,
      "grad_norm": 2.90625,
      "learning_rate": 6.784198780742031e-05,
      "loss": 0.5817,
      "step": 290150
    },
    {
      "epoch": 0.39624725719614784,
      "grad_norm": 2.875,
      "learning_rate": 6.783176488551394e-05,
      "loss": 0.6737,
      "step": 290200
    },
    {
      "epoch": 0.3963155286050376,
      "grad_norm": 8.875,
      "learning_rate": 6.78215411094847e-05,
      "loss": 0.6968,
      "step": 290250
    },
    {
      "epoch": 0.39638380001392737,
      "grad_norm": 3.078125,
      "learning_rate": 6.781131647982227e-05,
      "loss": 0.59,
      "step": 290300
    },
    {
      "epoch": 0.39645207142281713,
      "grad_norm": 2.875,
      "learning_rate": 6.780109099701641e-05,
      "loss": 0.6953,
      "step": 290350
    },
    {
      "epoch": 0.3965203428317069,
      "grad_norm": 8.0625,
      "learning_rate": 6.779086466155695e-05,
      "loss": 0.6348,
      "step": 290400
    },
    {
      "epoch": 0.39658861424059666,
      "grad_norm": 3.9375,
      "learning_rate": 6.778063747393368e-05,
      "loss": 0.6991,
      "step": 290450
    },
    {
      "epoch": 0.39665688564948637,
      "grad_norm": 2.75,
      "learning_rate": 6.777040943463649e-05,
      "loss": 0.5633,
      "step": 290500
    },
    {
      "epoch": 0.39672515705837613,
      "grad_norm": 3.0,
      "learning_rate": 6.776018054415528e-05,
      "loss": 0.7036,
      "step": 290550
    },
    {
      "epoch": 0.3967934284672659,
      "grad_norm": 2.71875,
      "learning_rate": 6.774995080298001e-05,
      "loss": 0.6261,
      "step": 290600
    },
    {
      "epoch": 0.39686169987615566,
      "grad_norm": 2.4375,
      "learning_rate": 6.773972021160067e-05,
      "loss": 0.7924,
      "step": 290650
    },
    {
      "epoch": 0.3969299712850454,
      "grad_norm": 2.78125,
      "learning_rate": 6.772948877050729e-05,
      "loss": 0.7544,
      "step": 290700
    },
    {
      "epoch": 0.3969982426939352,
      "grad_norm": 2.484375,
      "learning_rate": 6.771925648018996e-05,
      "loss": 0.7514,
      "step": 290750
    },
    {
      "epoch": 0.39706651410282495,
      "grad_norm": 3.34375,
      "learning_rate": 6.77090233411388e-05,
      "loss": 0.5876,
      "step": 290800
    },
    {
      "epoch": 0.3971347855117147,
      "grad_norm": 2.328125,
      "learning_rate": 6.769878935384394e-05,
      "loss": 0.6555,
      "step": 290850
    },
    {
      "epoch": 0.3972030569206044,
      "grad_norm": 7.90625,
      "learning_rate": 6.768855451879558e-05,
      "loss": 0.6188,
      "step": 290900
    },
    {
      "epoch": 0.3972713283294942,
      "grad_norm": 2.453125,
      "learning_rate": 6.767831883648399e-05,
      "loss": 0.652,
      "step": 290950
    },
    {
      "epoch": 0.39733959973838395,
      "grad_norm": 7.25,
      "learning_rate": 6.766808230739942e-05,
      "loss": 0.6484,
      "step": 291000
    },
    {
      "epoch": 0.3974078711472737,
      "grad_norm": 3.25,
      "learning_rate": 6.765784493203221e-05,
      "loss": 0.8792,
      "step": 291050
    },
    {
      "epoch": 0.3974761425561635,
      "grad_norm": 3.515625,
      "learning_rate": 6.764760671087269e-05,
      "loss": 0.6956,
      "step": 291100
    },
    {
      "epoch": 0.39754441396505324,
      "grad_norm": 3.109375,
      "learning_rate": 6.763736764441128e-05,
      "loss": 0.7701,
      "step": 291150
    },
    {
      "epoch": 0.397612685373943,
      "grad_norm": 3.28125,
      "learning_rate": 6.762712773313843e-05,
      "loss": 0.6858,
      "step": 291200
    },
    {
      "epoch": 0.3976809567828327,
      "grad_norm": 2.703125,
      "learning_rate": 6.76168869775446e-05,
      "loss": 0.5556,
      "step": 291250
    },
    {
      "epoch": 0.3977492281917225,
      "grad_norm": 2.40625,
      "learning_rate": 6.760664537812033e-05,
      "loss": 0.7051,
      "step": 291300
    },
    {
      "epoch": 0.39781749960061225,
      "grad_norm": 3.046875,
      "learning_rate": 6.759640293535616e-05,
      "loss": 0.6345,
      "step": 291350
    },
    {
      "epoch": 0.397885771009502,
      "grad_norm": 3.140625,
      "learning_rate": 6.75861596497427e-05,
      "loss": 0.6622,
      "step": 291400
    },
    {
      "epoch": 0.3979540424183918,
      "grad_norm": 2.296875,
      "learning_rate": 6.757591552177061e-05,
      "loss": 0.8059,
      "step": 291450
    },
    {
      "epoch": 0.39802231382728154,
      "grad_norm": 3.015625,
      "learning_rate": 6.756567055193054e-05,
      "loss": 0.669,
      "step": 291500
    },
    {
      "epoch": 0.3980905852361713,
      "grad_norm": 2.625,
      "learning_rate": 6.755542474071326e-05,
      "loss": 0.6472,
      "step": 291550
    },
    {
      "epoch": 0.39815885664506107,
      "grad_norm": 6.875,
      "learning_rate": 6.754517808860951e-05,
      "loss": 0.6784,
      "step": 291600
    },
    {
      "epoch": 0.3982271280539508,
      "grad_norm": 3.34375,
      "learning_rate": 6.753493059611005e-05,
      "loss": 0.6385,
      "step": 291650
    },
    {
      "epoch": 0.39829539946284054,
      "grad_norm": 3.21875,
      "learning_rate": 6.75246822637058e-05,
      "loss": 0.7295,
      "step": 291700
    },
    {
      "epoch": 0.3983636708717303,
      "grad_norm": 2.84375,
      "learning_rate": 6.751443309188761e-05,
      "loss": 0.7315,
      "step": 291750
    },
    {
      "epoch": 0.39843194228062007,
      "grad_norm": 3.46875,
      "learning_rate": 6.75041830811464e-05,
      "loss": 0.6959,
      "step": 291800
    },
    {
      "epoch": 0.39850021368950983,
      "grad_norm": 3.265625,
      "learning_rate": 6.749393223197313e-05,
      "loss": 0.6066,
      "step": 291850
    },
    {
      "epoch": 0.3985684850983996,
      "grad_norm": 3.515625,
      "learning_rate": 6.748368054485882e-05,
      "loss": 0.5889,
      "step": 291900
    },
    {
      "epoch": 0.39863675650728936,
      "grad_norm": 3.25,
      "learning_rate": 6.747342802029451e-05,
      "loss": 0.6676,
      "step": 291950
    },
    {
      "epoch": 0.3987050279161791,
      "grad_norm": 3.515625,
      "learning_rate": 6.746317465877128e-05,
      "loss": 0.654,
      "step": 292000
    },
    {
      "epoch": 0.39877329932506883,
      "grad_norm": 3.5625,
      "learning_rate": 6.745292046078027e-05,
      "loss": 0.6614,
      "step": 292050
    },
    {
      "epoch": 0.3988415707339586,
      "grad_norm": 3.59375,
      "learning_rate": 6.744266542681262e-05,
      "loss": 0.6794,
      "step": 292100
    },
    {
      "epoch": 0.39890984214284836,
      "grad_norm": 2.984375,
      "learning_rate": 6.743240955735957e-05,
      "loss": 0.6682,
      "step": 292150
    },
    {
      "epoch": 0.3989781135517381,
      "grad_norm": 3.234375,
      "learning_rate": 6.742215285291233e-05,
      "loss": 0.71,
      "step": 292200
    },
    {
      "epoch": 0.3990463849606279,
      "grad_norm": 2.40625,
      "learning_rate": 6.741189531396219e-05,
      "loss": 0.6256,
      "step": 292250
    },
    {
      "epoch": 0.39911465636951765,
      "grad_norm": 3.765625,
      "learning_rate": 6.74016369410005e-05,
      "loss": 0.647,
      "step": 292300
    },
    {
      "epoch": 0.3991829277784074,
      "grad_norm": 2.859375,
      "learning_rate": 6.739137773451862e-05,
      "loss": 0.6805,
      "step": 292350
    },
    {
      "epoch": 0.3992511991872971,
      "grad_norm": 2.4375,
      "learning_rate": 6.738111769500794e-05,
      "loss": 0.6141,
      "step": 292400
    },
    {
      "epoch": 0.3993194705961869,
      "grad_norm": 7.875,
      "learning_rate": 6.73708568229599e-05,
      "loss": 0.7759,
      "step": 292450
    },
    {
      "epoch": 0.39938774200507665,
      "grad_norm": 3.203125,
      "learning_rate": 6.7360595118866e-05,
      "loss": 0.6589,
      "step": 292500
    },
    {
      "epoch": 0.3994560134139664,
      "grad_norm": 2.921875,
      "learning_rate": 6.735033258321779e-05,
      "loss": 0.6645,
      "step": 292550
    },
    {
      "epoch": 0.3995242848228562,
      "grad_norm": 7.53125,
      "learning_rate": 6.734006921650678e-05,
      "loss": 0.7306,
      "step": 292600
    },
    {
      "epoch": 0.39959255623174594,
      "grad_norm": 3.03125,
      "learning_rate": 6.732980501922461e-05,
      "loss": 0.6827,
      "step": 292650
    },
    {
      "epoch": 0.3996608276406357,
      "grad_norm": 8.25,
      "learning_rate": 6.731953999186291e-05,
      "loss": 0.6437,
      "step": 292700
    },
    {
      "epoch": 0.39972909904952547,
      "grad_norm": 2.796875,
      "learning_rate": 6.730927413491337e-05,
      "loss": 0.6398,
      "step": 292750
    },
    {
      "epoch": 0.3997973704584152,
      "grad_norm": 2.84375,
      "learning_rate": 6.729900744886773e-05,
      "loss": 0.5663,
      "step": 292800
    },
    {
      "epoch": 0.39986564186730494,
      "grad_norm": 2.53125,
      "learning_rate": 6.728873993421772e-05,
      "loss": 0.5794,
      "step": 292850
    },
    {
      "epoch": 0.3999339132761947,
      "grad_norm": 3.5625,
      "learning_rate": 6.727847159145517e-05,
      "loss": 0.5942,
      "step": 292900
    },
    {
      "epoch": 0.40000218468508447,
      "grad_norm": 3.546875,
      "learning_rate": 6.72682024210719e-05,
      "loss": 0.6051,
      "step": 292950
    },
    {
      "epoch": 0.40007045609397424,
      "grad_norm": 6.75,
      "learning_rate": 6.725793242355981e-05,
      "loss": 0.7067,
      "step": 293000
    },
    {
      "epoch": 0.400138727502864,
      "grad_norm": 7.75,
      "learning_rate": 6.724766159941082e-05,
      "loss": 0.6096,
      "step": 293050
    },
    {
      "epoch": 0.40020699891175376,
      "grad_norm": 3.515625,
      "learning_rate": 6.723738994911691e-05,
      "loss": 0.608,
      "step": 293100
    },
    {
      "epoch": 0.4002752703206435,
      "grad_norm": 3.234375,
      "learning_rate": 6.722711747317004e-05,
      "loss": 0.6123,
      "step": 293150
    },
    {
      "epoch": 0.40034354172953324,
      "grad_norm": 7.46875,
      "learning_rate": 6.721684417206224e-05,
      "loss": 0.6394,
      "step": 293200
    },
    {
      "epoch": 0.400411813138423,
      "grad_norm": 2.34375,
      "learning_rate": 6.720657004628568e-05,
      "loss": 0.6505,
      "step": 293250
    },
    {
      "epoch": 0.40048008454731276,
      "grad_norm": 3.25,
      "learning_rate": 6.719629509633238e-05,
      "loss": 0.621,
      "step": 293300
    },
    {
      "epoch": 0.40054835595620253,
      "grad_norm": 6.65625,
      "learning_rate": 6.718601932269456e-05,
      "loss": 0.708,
      "step": 293350
    },
    {
      "epoch": 0.4006166273650923,
      "grad_norm": 3.234375,
      "learning_rate": 6.71757427258644e-05,
      "loss": 0.7545,
      "step": 293400
    },
    {
      "epoch": 0.40068489877398206,
      "grad_norm": 3.40625,
      "learning_rate": 6.716546530633412e-05,
      "loss": 0.685,
      "step": 293450
    },
    {
      "epoch": 0.4007531701828718,
      "grad_norm": 2.796875,
      "learning_rate": 6.715518706459605e-05,
      "loss": 0.7144,
      "step": 293500
    },
    {
      "epoch": 0.40082144159176153,
      "grad_norm": 2.953125,
      "learning_rate": 6.714490800114246e-05,
      "loss": 0.5382,
      "step": 293550
    },
    {
      "epoch": 0.4008897130006513,
      "grad_norm": 2.375,
      "learning_rate": 6.713462811646571e-05,
      "loss": 0.4937,
      "step": 293600
    },
    {
      "epoch": 0.40095798440954106,
      "grad_norm": 2.84375,
      "learning_rate": 6.712434741105822e-05,
      "loss": 0.7273,
      "step": 293650
    },
    {
      "epoch": 0.4010262558184308,
      "grad_norm": 2.84375,
      "learning_rate": 6.71140658854124e-05,
      "loss": 0.6413,
      "step": 293700
    },
    {
      "epoch": 0.4010945272273206,
      "grad_norm": 7.0625,
      "learning_rate": 6.710378354002073e-05,
      "loss": 0.6741,
      "step": 293750
    },
    {
      "epoch": 0.40116279863621035,
      "grad_norm": 8.125,
      "learning_rate": 6.709350037537573e-05,
      "loss": 0.8306,
      "step": 293800
    },
    {
      "epoch": 0.4012310700451001,
      "grad_norm": 2.859375,
      "learning_rate": 6.708321639196994e-05,
      "loss": 0.532,
      "step": 293850
    },
    {
      "epoch": 0.4012993414539898,
      "grad_norm": 7.1875,
      "learning_rate": 6.707293159029599e-05,
      "loss": 0.742,
      "step": 293900
    },
    {
      "epoch": 0.4013676128628796,
      "grad_norm": 3.53125,
      "learning_rate": 6.706264597084646e-05,
      "loss": 0.6357,
      "step": 293950
    },
    {
      "epoch": 0.40143588427176935,
      "grad_norm": 3.515625,
      "learning_rate": 6.705235953411406e-05,
      "loss": 0.6049,
      "step": 294000
    },
    {
      "epoch": 0.4015041556806591,
      "grad_norm": 2.265625,
      "learning_rate": 6.704207228059148e-05,
      "loss": 0.5391,
      "step": 294050
    },
    {
      "epoch": 0.4015724270895489,
      "grad_norm": 2.984375,
      "learning_rate": 6.703178421077146e-05,
      "loss": 0.7039,
      "step": 294100
    },
    {
      "epoch": 0.40164069849843864,
      "grad_norm": 2.875,
      "learning_rate": 6.702149532514682e-05,
      "loss": 0.6845,
      "step": 294150
    },
    {
      "epoch": 0.4017089699073284,
      "grad_norm": 2.96875,
      "learning_rate": 6.701120562421037e-05,
      "loss": 0.7777,
      "step": 294200
    },
    {
      "epoch": 0.40177724131621817,
      "grad_norm": 2.328125,
      "learning_rate": 6.700091510845494e-05,
      "loss": 0.5177,
      "step": 294250
    },
    {
      "epoch": 0.4018455127251079,
      "grad_norm": 3.671875,
      "learning_rate": 6.69906237783735e-05,
      "loss": 0.5434,
      "step": 294300
    },
    {
      "epoch": 0.40191378413399764,
      "grad_norm": 2.453125,
      "learning_rate": 6.698033163445895e-05,
      "loss": 0.6569,
      "step": 294350
    },
    {
      "epoch": 0.4019820555428874,
      "grad_norm": 3.109375,
      "learning_rate": 6.697003867720429e-05,
      "loss": 0.6558,
      "step": 294400
    },
    {
      "epoch": 0.40205032695177717,
      "grad_norm": 3.359375,
      "learning_rate": 6.695974490710253e-05,
      "loss": 0.6055,
      "step": 294450
    },
    {
      "epoch": 0.40211859836066693,
      "grad_norm": 7.5,
      "learning_rate": 6.694945032464674e-05,
      "loss": 0.5714,
      "step": 294500
    },
    {
      "epoch": 0.4021868697695567,
      "grad_norm": 2.484375,
      "learning_rate": 6.693915493033003e-05,
      "loss": 0.65,
      "step": 294550
    },
    {
      "epoch": 0.40225514117844646,
      "grad_norm": 2.296875,
      "learning_rate": 6.69288587246455e-05,
      "loss": 0.5165,
      "step": 294600
    },
    {
      "epoch": 0.4023234125873362,
      "grad_norm": 3.8125,
      "learning_rate": 6.691856170808637e-05,
      "loss": 0.6026,
      "step": 294650
    },
    {
      "epoch": 0.40239168399622594,
      "grad_norm": 7.75,
      "learning_rate": 6.690826388114585e-05,
      "loss": 0.7781,
      "step": 294700
    },
    {
      "epoch": 0.4024599554051157,
      "grad_norm": 2.875,
      "learning_rate": 6.689796524431717e-05,
      "loss": 0.6851,
      "step": 294750
    },
    {
      "epoch": 0.40252822681400546,
      "grad_norm": 3.75,
      "learning_rate": 6.688766579809364e-05,
      "loss": 0.5101,
      "step": 294800
    },
    {
      "epoch": 0.4025964982228952,
      "grad_norm": 3.203125,
      "learning_rate": 6.687736554296859e-05,
      "loss": 0.6745,
      "step": 294850
    },
    {
      "epoch": 0.402664769631785,
      "grad_norm": 3.125,
      "learning_rate": 6.68670644794354e-05,
      "loss": 0.619,
      "step": 294900
    },
    {
      "epoch": 0.40273304104067476,
      "grad_norm": 3.265625,
      "learning_rate": 6.685676260798747e-05,
      "loss": 0.5703,
      "step": 294950
    },
    {
      "epoch": 0.4028013124495645,
      "grad_norm": 3.140625,
      "learning_rate": 6.684645992911825e-05,
      "loss": 0.7329,
      "step": 295000
    },
    {
      "epoch": 0.4028695838584542,
      "grad_norm": 2.765625,
      "learning_rate": 6.683615644332124e-05,
      "loss": 0.5952,
      "step": 295050
    },
    {
      "epoch": 0.402937855267344,
      "grad_norm": 3.53125,
      "learning_rate": 6.682585215108994e-05,
      "loss": 0.6069,
      "step": 295100
    },
    {
      "epoch": 0.40300612667623376,
      "grad_norm": 7.0,
      "learning_rate": 6.681554705291794e-05,
      "loss": 0.6317,
      "step": 295150
    },
    {
      "epoch": 0.4030743980851235,
      "grad_norm": 2.359375,
      "learning_rate": 6.680524114929885e-05,
      "loss": 0.6009,
      "step": 295200
    },
    {
      "epoch": 0.4031426694940133,
      "grad_norm": 3.21875,
      "learning_rate": 6.679493444072626e-05,
      "loss": 0.6116,
      "step": 295250
    },
    {
      "epoch": 0.40321094090290305,
      "grad_norm": 3.8125,
      "learning_rate": 6.678462692769391e-05,
      "loss": 0.6403,
      "step": 295300
    },
    {
      "epoch": 0.4032792123117928,
      "grad_norm": 2.484375,
      "learning_rate": 6.677431861069549e-05,
      "loss": 0.8706,
      "step": 295350
    },
    {
      "epoch": 0.4033474837206826,
      "grad_norm": 2.59375,
      "learning_rate": 6.676400949022477e-05,
      "loss": 0.6496,
      "step": 295400
    },
    {
      "epoch": 0.4034157551295723,
      "grad_norm": 2.3125,
      "learning_rate": 6.675369956677552e-05,
      "loss": 0.5948,
      "step": 295450
    },
    {
      "epoch": 0.40348402653846205,
      "grad_norm": 2.390625,
      "learning_rate": 6.674338884084163e-05,
      "loss": 0.7594,
      "step": 295500
    },
    {
      "epoch": 0.4035522979473518,
      "grad_norm": 3.171875,
      "learning_rate": 6.67330773129169e-05,
      "loss": 0.581,
      "step": 295550
    },
    {
      "epoch": 0.4036205693562416,
      "grad_norm": 7.53125,
      "learning_rate": 6.67227649834953e-05,
      "loss": 0.6656,
      "step": 295600
    },
    {
      "epoch": 0.40368884076513134,
      "grad_norm": 8.625,
      "learning_rate": 6.671245185307074e-05,
      "loss": 0.5896,
      "step": 295650
    },
    {
      "epoch": 0.4037571121740211,
      "grad_norm": 2.625,
      "learning_rate": 6.670213792213725e-05,
      "loss": 0.6923,
      "step": 295700
    },
    {
      "epoch": 0.40382538358291087,
      "grad_norm": 3.25,
      "learning_rate": 6.669182319118881e-05,
      "loss": 0.6527,
      "step": 295750
    },
    {
      "epoch": 0.4038936549918006,
      "grad_norm": 3.234375,
      "learning_rate": 6.668150766071953e-05,
      "loss": 0.6064,
      "step": 295800
    },
    {
      "epoch": 0.40396192640069034,
      "grad_norm": 2.484375,
      "learning_rate": 6.667119133122347e-05,
      "loss": 0.7087,
      "step": 295850
    },
    {
      "epoch": 0.4040301978095801,
      "grad_norm": 2.96875,
      "learning_rate": 6.66608742031948e-05,
      "loss": 0.5972,
      "step": 295900
    },
    {
      "epoch": 0.40409846921846987,
      "grad_norm": 3.171875,
      "learning_rate": 6.66505562771277e-05,
      "loss": 0.5641,
      "step": 295950
    },
    {
      "epoch": 0.40416674062735963,
      "grad_norm": 3.890625,
      "learning_rate": 6.664023755351637e-05,
      "loss": 0.5718,
      "step": 296000
    },
    {
      "epoch": 0.4042350120362494,
      "grad_norm": 3.53125,
      "learning_rate": 6.662991803285507e-05,
      "loss": 0.625,
      "step": 296050
    },
    {
      "epoch": 0.40430328344513916,
      "grad_norm": 8.6875,
      "learning_rate": 6.66195977156381e-05,
      "loss": 0.6609,
      "step": 296100
    },
    {
      "epoch": 0.4043715548540289,
      "grad_norm": 3.0625,
      "learning_rate": 6.66092766023598e-05,
      "loss": 0.5886,
      "step": 296150
    },
    {
      "epoch": 0.40443982626291863,
      "grad_norm": 2.671875,
      "learning_rate": 6.659895469351454e-05,
      "loss": 0.7609,
      "step": 296200
    },
    {
      "epoch": 0.4045080976718084,
      "grad_norm": 7.875,
      "learning_rate": 6.658863198959672e-05,
      "loss": 0.6523,
      "step": 296250
    },
    {
      "epoch": 0.40457636908069816,
      "grad_norm": 3.875,
      "learning_rate": 6.657830849110076e-05,
      "loss": 0.6532,
      "step": 296300
    },
    {
      "epoch": 0.4046446404895879,
      "grad_norm": 7.6875,
      "learning_rate": 6.65679841985212e-05,
      "loss": 0.6791,
      "step": 296350
    },
    {
      "epoch": 0.4047129118984777,
      "grad_norm": 2.921875,
      "learning_rate": 6.655765911235253e-05,
      "loss": 0.5712,
      "step": 296400
    },
    {
      "epoch": 0.40478118330736745,
      "grad_norm": 2.578125,
      "learning_rate": 6.654733323308933e-05,
      "loss": 0.7967,
      "step": 296450
    },
    {
      "epoch": 0.4048494547162572,
      "grad_norm": 2.4375,
      "learning_rate": 6.653700656122616e-05,
      "loss": 0.5412,
      "step": 296500
    },
    {
      "epoch": 0.404917726125147,
      "grad_norm": 7.5,
      "learning_rate": 6.65266790972577e-05,
      "loss": 0.6702,
      "step": 296550
    },
    {
      "epoch": 0.4049859975340367,
      "grad_norm": 7.5625,
      "learning_rate": 6.65163508416786e-05,
      "loss": 0.7357,
      "step": 296600
    },
    {
      "epoch": 0.40505426894292645,
      "grad_norm": 3.453125,
      "learning_rate": 6.650602179498357e-05,
      "loss": 0.7703,
      "step": 296650
    },
    {
      "epoch": 0.4051225403518162,
      "grad_norm": 2.984375,
      "learning_rate": 6.64956919576674e-05,
      "loss": 0.5771,
      "step": 296700
    },
    {
      "epoch": 0.405190811760706,
      "grad_norm": 2.765625,
      "learning_rate": 6.648536133022483e-05,
      "loss": 0.5649,
      "step": 296750
    },
    {
      "epoch": 0.40525908316959575,
      "grad_norm": 3.625,
      "learning_rate": 6.64750299131507e-05,
      "loss": 0.8439,
      "step": 296800
    },
    {
      "epoch": 0.4053273545784855,
      "grad_norm": 3.6875,
      "learning_rate": 6.646469770693988e-05,
      "loss": 0.707,
      "step": 296850
    },
    {
      "epoch": 0.4053956259873753,
      "grad_norm": 3.46875,
      "learning_rate": 6.645436471208726e-05,
      "loss": 0.7115,
      "step": 296900
    },
    {
      "epoch": 0.405463897396265,
      "grad_norm": 7.03125,
      "learning_rate": 6.644403092908783e-05,
      "loss": 0.651,
      "step": 296950
    },
    {
      "epoch": 0.40553216880515475,
      "grad_norm": 2.90625,
      "learning_rate": 6.643369635843648e-05,
      "loss": 0.6487,
      "step": 297000
    },
    {
      "epoch": 0.4056004402140445,
      "grad_norm": 2.421875,
      "learning_rate": 6.642336100062829e-05,
      "loss": 0.6788,
      "step": 297050
    },
    {
      "epoch": 0.4056687116229343,
      "grad_norm": 2.6875,
      "learning_rate": 6.64130248561583e-05,
      "loss": 0.6075,
      "step": 297100
    },
    {
      "epoch": 0.40573698303182404,
      "grad_norm": 2.8125,
      "learning_rate": 6.64026879255216e-05,
      "loss": 0.689,
      "step": 297150
    },
    {
      "epoch": 0.4058052544407138,
      "grad_norm": 2.796875,
      "learning_rate": 6.63923502092133e-05,
      "loss": 0.5662,
      "step": 297200
    },
    {
      "epoch": 0.40587352584960357,
      "grad_norm": 2.859375,
      "learning_rate": 6.63820117077286e-05,
      "loss": 0.5735,
      "step": 297250
    },
    {
      "epoch": 0.40594179725849333,
      "grad_norm": 2.9375,
      "learning_rate": 6.637167242156266e-05,
      "loss": 0.5856,
      "step": 297300
    },
    {
      "epoch": 0.40601006866738304,
      "grad_norm": 7.46875,
      "learning_rate": 6.636133235121076e-05,
      "loss": 0.7254,
      "step": 297350
    },
    {
      "epoch": 0.4060783400762728,
      "grad_norm": 3.4375,
      "learning_rate": 6.635099149716814e-05,
      "loss": 0.605,
      "step": 297400
    },
    {
      "epoch": 0.40614661148516257,
      "grad_norm": 3.453125,
      "learning_rate": 6.634064985993017e-05,
      "loss": 0.6306,
      "step": 297450
    },
    {
      "epoch": 0.40621488289405233,
      "grad_norm": 2.53125,
      "learning_rate": 6.633030743999216e-05,
      "loss": 0.5431,
      "step": 297500
    },
    {
      "epoch": 0.4062831543029421,
      "grad_norm": 2.90625,
      "learning_rate": 6.631996423784952e-05,
      "loss": 0.6635,
      "step": 297550
    },
    {
      "epoch": 0.40635142571183186,
      "grad_norm": 3.703125,
      "learning_rate": 6.630962025399766e-05,
      "loss": 0.5041,
      "step": 297600
    },
    {
      "epoch": 0.4064196971207216,
      "grad_norm": 3.59375,
      "learning_rate": 6.629927548893206e-05,
      "loss": 0.6751,
      "step": 297650
    },
    {
      "epoch": 0.40648796852961133,
      "grad_norm": 2.6875,
      "learning_rate": 6.628892994314824e-05,
      "loss": 0.5446,
      "step": 297700
    },
    {
      "epoch": 0.4065562399385011,
      "grad_norm": 2.6875,
      "learning_rate": 6.62785836171417e-05,
      "loss": 0.6569,
      "step": 297750
    },
    {
      "epoch": 0.40662451134739086,
      "grad_norm": 3.046875,
      "learning_rate": 6.626823651140806e-05,
      "loss": 0.5828,
      "step": 297800
    },
    {
      "epoch": 0.4066927827562806,
      "grad_norm": 8.375,
      "learning_rate": 6.62578886264429e-05,
      "loss": 0.5936,
      "step": 297850
    },
    {
      "epoch": 0.4067610541651704,
      "grad_norm": 2.9375,
      "learning_rate": 6.62475399627419e-05,
      "loss": 0.6342,
      "step": 297900
    },
    {
      "epoch": 0.40682932557406015,
      "grad_norm": 3.203125,
      "learning_rate": 6.623719052080072e-05,
      "loss": 0.5586,
      "step": 297950
    },
    {
      "epoch": 0.4068975969829499,
      "grad_norm": 2.890625,
      "learning_rate": 6.622684030111513e-05,
      "loss": 0.7174,
      "step": 298000
    },
    {
      "epoch": 0.4069658683918397,
      "grad_norm": 3.640625,
      "learning_rate": 6.621648930418088e-05,
      "loss": 0.7177,
      "step": 298050
    },
    {
      "epoch": 0.4070341398007294,
      "grad_norm": 3.328125,
      "learning_rate": 6.620613753049372e-05,
      "loss": 0.6631,
      "step": 298100
    },
    {
      "epoch": 0.40710241120961915,
      "grad_norm": 2.5625,
      "learning_rate": 6.619578498054957e-05,
      "loss": 0.7541,
      "step": 298150
    },
    {
      "epoch": 0.4071706826185089,
      "grad_norm": 2.875,
      "learning_rate": 6.618543165484425e-05,
      "loss": 0.6929,
      "step": 298200
    },
    {
      "epoch": 0.4072389540273987,
      "grad_norm": 2.625,
      "learning_rate": 6.61750775538737e-05,
      "loss": 0.646,
      "step": 298250
    },
    {
      "epoch": 0.40730722543628844,
      "grad_norm": 3.3125,
      "learning_rate": 6.616472267813387e-05,
      "loss": 0.6619,
      "step": 298300
    },
    {
      "epoch": 0.4073754968451782,
      "grad_norm": 3.65625,
      "learning_rate": 6.615436702812072e-05,
      "loss": 0.5335,
      "step": 298350
    },
    {
      "epoch": 0.407443768254068,
      "grad_norm": 2.515625,
      "learning_rate": 6.61440106043303e-05,
      "loss": 0.5652,
      "step": 298400
    },
    {
      "epoch": 0.4075120396629577,
      "grad_norm": 2.484375,
      "learning_rate": 6.613365340725869e-05,
      "loss": 0.6283,
      "step": 298450
    },
    {
      "epoch": 0.40758031107184745,
      "grad_norm": 3.328125,
      "learning_rate": 6.612329543740195e-05,
      "loss": 0.6782,
      "step": 298500
    },
    {
      "epoch": 0.4076485824807372,
      "grad_norm": 3.0625,
      "learning_rate": 6.611293669525624e-05,
      "loss": 0.6189,
      "step": 298550
    },
    {
      "epoch": 0.407716853889627,
      "grad_norm": 3.4375,
      "learning_rate": 6.610257718131771e-05,
      "loss": 0.5899,
      "step": 298600
    },
    {
      "epoch": 0.40778512529851674,
      "grad_norm": 8.25,
      "learning_rate": 6.609221689608259e-05,
      "loss": 0.9123,
      "step": 298650
    },
    {
      "epoch": 0.4078533967074065,
      "grad_norm": 3.34375,
      "learning_rate": 6.608185584004713e-05,
      "loss": 0.7689,
      "step": 298700
    },
    {
      "epoch": 0.40792166811629627,
      "grad_norm": 3.0625,
      "learning_rate": 6.60714940137076e-05,
      "loss": 0.9948,
      "step": 298750
    },
    {
      "epoch": 0.40798993952518603,
      "grad_norm": 3.296875,
      "learning_rate": 6.606113141756032e-05,
      "loss": 0.7064,
      "step": 298800
    },
    {
      "epoch": 0.40805821093407574,
      "grad_norm": 2.828125,
      "learning_rate": 6.605076805210166e-05,
      "loss": 0.8265,
      "step": 298850
    },
    {
      "epoch": 0.4081264823429655,
      "grad_norm": 3.46875,
      "learning_rate": 6.6040403917828e-05,
      "loss": 0.6039,
      "step": 298900
    },
    {
      "epoch": 0.40819475375185527,
      "grad_norm": 2.953125,
      "learning_rate": 6.603003901523579e-05,
      "loss": 0.6447,
      "step": 298950
    },
    {
      "epoch": 0.40826302516074503,
      "grad_norm": 2.234375,
      "learning_rate": 6.601967334482148e-05,
      "loss": 0.5373,
      "step": 299000
    },
    {
      "epoch": 0.4083312965696348,
      "grad_norm": 2.703125,
      "learning_rate": 6.600930690708159e-05,
      "loss": 0.5858,
      "step": 299050
    },
    {
      "epoch": 0.40839956797852456,
      "grad_norm": 2.75,
      "learning_rate": 6.599893970251264e-05,
      "loss": 0.6627,
      "step": 299100
    },
    {
      "epoch": 0.4084678393874143,
      "grad_norm": 3.265625,
      "learning_rate": 6.598857173161124e-05,
      "loss": 0.5605,
      "step": 299150
    },
    {
      "epoch": 0.4085361107963041,
      "grad_norm": 2.46875,
      "learning_rate": 6.597820299487396e-05,
      "loss": 0.6048,
      "step": 299200
    },
    {
      "epoch": 0.4086043822051938,
      "grad_norm": 2.40625,
      "learning_rate": 6.596783349279749e-05,
      "loss": 0.7305,
      "step": 299250
    },
    {
      "epoch": 0.40867265361408356,
      "grad_norm": 2.390625,
      "learning_rate": 6.595746322587852e-05,
      "loss": 0.6907,
      "step": 299300
    },
    {
      "epoch": 0.4087409250229733,
      "grad_norm": 8.375,
      "learning_rate": 6.594709219461376e-05,
      "loss": 0.757,
      "step": 299350
    },
    {
      "epoch": 0.4088091964318631,
      "grad_norm": 7.03125,
      "learning_rate": 6.593672039949997e-05,
      "loss": 0.9243,
      "step": 299400
    },
    {
      "epoch": 0.40887746784075285,
      "grad_norm": 2.921875,
      "learning_rate": 6.592634784103394e-05,
      "loss": 0.6204,
      "step": 299450
    },
    {
      "epoch": 0.4089457392496426,
      "grad_norm": 3.59375,
      "learning_rate": 6.591597451971251e-05,
      "loss": 0.8125,
      "step": 299500
    },
    {
      "epoch": 0.4090140106585324,
      "grad_norm": 3.71875,
      "learning_rate": 6.590560043603257e-05,
      "loss": 0.7227,
      "step": 299550
    },
    {
      "epoch": 0.4090822820674221,
      "grad_norm": 3.375,
      "learning_rate": 6.589522559049102e-05,
      "loss": 0.8248,
      "step": 299600
    },
    {
      "epoch": 0.40915055347631185,
      "grad_norm": 7.9375,
      "learning_rate": 6.588484998358479e-05,
      "loss": 0.6926,
      "step": 299650
    },
    {
      "epoch": 0.4092188248852016,
      "grad_norm": 3.296875,
      "learning_rate": 6.587447361581086e-05,
      "loss": 0.6486,
      "step": 299700
    },
    {
      "epoch": 0.4092870962940914,
      "grad_norm": 2.5625,
      "learning_rate": 6.586409648766628e-05,
      "loss": 0.5736,
      "step": 299750
    },
    {
      "epoch": 0.40935536770298114,
      "grad_norm": 2.828125,
      "learning_rate": 6.585371859964806e-05,
      "loss": 0.5433,
      "step": 299800
    },
    {
      "epoch": 0.4094236391118709,
      "grad_norm": 2.5625,
      "learning_rate": 6.584333995225332e-05,
      "loss": 0.682,
      "step": 299850
    },
    {
      "epoch": 0.40949191052076067,
      "grad_norm": 2.671875,
      "learning_rate": 6.583296054597916e-05,
      "loss": 0.6364,
      "step": 299900
    },
    {
      "epoch": 0.40956018192965044,
      "grad_norm": 3.65625,
      "learning_rate": 6.582258038132279e-05,
      "loss": 0.5941,
      "step": 299950
    },
    {
      "epoch": 0.40962845333854014,
      "grad_norm": 2.5,
      "learning_rate": 6.581219945878136e-05,
      "loss": 0.7675,
      "step": 300000
    },
    {
      "epoch": 0.4096967247474299,
      "grad_norm": 8.625,
      "learning_rate": 6.580181777885214e-05,
      "loss": 0.8167,
      "step": 300050
    },
    {
      "epoch": 0.40976499615631967,
      "grad_norm": 3.078125,
      "learning_rate": 6.579143534203237e-05,
      "loss": 0.7189,
      "step": 300100
    },
    {
      "epoch": 0.40983326756520944,
      "grad_norm": 2.8125,
      "learning_rate": 6.578105214881937e-05,
      "loss": 0.7367,
      "step": 300150
    },
    {
      "epoch": 0.4099015389740992,
      "grad_norm": 3.515625,
      "learning_rate": 6.577066819971049e-05,
      "loss": 0.7653,
      "step": 300200
    },
    {
      "epoch": 0.40996981038298896,
      "grad_norm": 3.28125,
      "learning_rate": 6.576028349520311e-05,
      "loss": 0.7264,
      "step": 300250
    },
    {
      "epoch": 0.41003808179187873,
      "grad_norm": 2.390625,
      "learning_rate": 6.574989803579465e-05,
      "loss": 0.7262,
      "step": 300300
    },
    {
      "epoch": 0.41010635320076844,
      "grad_norm": 3.390625,
      "learning_rate": 6.573951182198256e-05,
      "loss": 0.6951,
      "step": 300350
    },
    {
      "epoch": 0.4101746246096582,
      "grad_norm": 3.609375,
      "learning_rate": 6.572912485426432e-05,
      "loss": 0.7992,
      "step": 300400
    },
    {
      "epoch": 0.41024289601854796,
      "grad_norm": 7.90625,
      "learning_rate": 6.571873713313744e-05,
      "loss": 0.5322,
      "step": 300450
    },
    {
      "epoch": 0.41031116742743773,
      "grad_norm": 2.78125,
      "learning_rate": 6.570834865909952e-05,
      "loss": 0.5796,
      "step": 300500
    },
    {
      "epoch": 0.4103794388363275,
      "grad_norm": 3.828125,
      "learning_rate": 6.569795943264815e-05,
      "loss": 0.5991,
      "step": 300550
    },
    {
      "epoch": 0.41044771024521726,
      "grad_norm": 3.125,
      "learning_rate": 6.568756945428094e-05,
      "loss": 0.864,
      "step": 300600
    },
    {
      "epoch": 0.410515981654107,
      "grad_norm": 8.1875,
      "learning_rate": 6.567717872449557e-05,
      "loss": 0.7975,
      "step": 300650
    },
    {
      "epoch": 0.4105842530629968,
      "grad_norm": 3.5625,
      "learning_rate": 6.566678724378973e-05,
      "loss": 0.6497,
      "step": 300700
    },
    {
      "epoch": 0.4106525244718865,
      "grad_norm": 3.5,
      "learning_rate": 6.56563950126612e-05,
      "loss": 0.8657,
      "step": 300750
    },
    {
      "epoch": 0.41072079588077626,
      "grad_norm": 2.40625,
      "learning_rate": 6.564600203160773e-05,
      "loss": 0.6425,
      "step": 300800
    },
    {
      "epoch": 0.410789067289666,
      "grad_norm": 7.59375,
      "learning_rate": 6.563560830112713e-05,
      "loss": 0.7784,
      "step": 300850
    },
    {
      "epoch": 0.4108573386985558,
      "grad_norm": 3.640625,
      "learning_rate": 6.562521382171726e-05,
      "loss": 0.7848,
      "step": 300900
    },
    {
      "epoch": 0.41092561010744555,
      "grad_norm": 2.984375,
      "learning_rate": 6.561481859387599e-05,
      "loss": 0.6233,
      "step": 300950
    },
    {
      "epoch": 0.4109938815163353,
      "grad_norm": 2.984375,
      "learning_rate": 6.560442261810126e-05,
      "loss": 0.5646,
      "step": 301000
    },
    {
      "epoch": 0.4110621529252251,
      "grad_norm": 3.703125,
      "learning_rate": 6.5594025894891e-05,
      "loss": 0.6515,
      "step": 301050
    },
    {
      "epoch": 0.4111304243341148,
      "grad_norm": 3.140625,
      "learning_rate": 6.558362842474326e-05,
      "loss": 0.7684,
      "step": 301100
    },
    {
      "epoch": 0.41119869574300455,
      "grad_norm": 3.890625,
      "learning_rate": 6.5573230208156e-05,
      "loss": 0.6162,
      "step": 301150
    },
    {
      "epoch": 0.4112669671518943,
      "grad_norm": 2.71875,
      "learning_rate": 6.55628312456273e-05,
      "loss": 0.6786,
      "step": 301200
    },
    {
      "epoch": 0.4113352385607841,
      "grad_norm": 8.8125,
      "learning_rate": 6.555243153765529e-05,
      "loss": 0.6931,
      "step": 301250
    },
    {
      "epoch": 0.41140350996967384,
      "grad_norm": 3.4375,
      "learning_rate": 6.554203108473806e-05,
      "loss": 0.6686,
      "step": 301300
    },
    {
      "epoch": 0.4114717813785636,
      "grad_norm": 2.921875,
      "learning_rate": 6.553162988737385e-05,
      "loss": 0.5968,
      "step": 301350
    },
    {
      "epoch": 0.41154005278745337,
      "grad_norm": 2.828125,
      "learning_rate": 6.552122794606079e-05,
      "loss": 0.9998,
      "step": 301400
    },
    {
      "epoch": 0.41160832419634313,
      "grad_norm": 3.390625,
      "learning_rate": 6.551082526129715e-05,
      "loss": 0.7064,
      "step": 301450
    },
    {
      "epoch": 0.41167659560523284,
      "grad_norm": 3.234375,
      "learning_rate": 6.550042183358123e-05,
      "loss": 0.6383,
      "step": 301500
    },
    {
      "epoch": 0.4117448670141226,
      "grad_norm": 3.765625,
      "learning_rate": 6.549001766341131e-05,
      "loss": 0.6088,
      "step": 301550
    },
    {
      "epoch": 0.41181313842301237,
      "grad_norm": 3.390625,
      "learning_rate": 6.547961275128577e-05,
      "loss": 0.6396,
      "step": 301600
    },
    {
      "epoch": 0.41188140983190213,
      "grad_norm": 2.390625,
      "learning_rate": 6.546920709770298e-05,
      "loss": 0.9244,
      "step": 301650
    },
    {
      "epoch": 0.4119496812407919,
      "grad_norm": 3.265625,
      "learning_rate": 6.545880070316135e-05,
      "loss": 0.6538,
      "step": 301700
    },
    {
      "epoch": 0.41201795264968166,
      "grad_norm": 2.765625,
      "learning_rate": 6.544839356815935e-05,
      "loss": 0.7856,
      "step": 301750
    },
    {
      "epoch": 0.4120862240585714,
      "grad_norm": 2.96875,
      "learning_rate": 6.543798569319546e-05,
      "loss": 0.602,
      "step": 301800
    },
    {
      "epoch": 0.4121544954674612,
      "grad_norm": 3.28125,
      "learning_rate": 6.54275770787682e-05,
      "loss": 0.7116,
      "step": 301850
    },
    {
      "epoch": 0.4122227668763509,
      "grad_norm": 3.734375,
      "learning_rate": 6.541716772537618e-05,
      "loss": 0.5354,
      "step": 301900
    },
    {
      "epoch": 0.41229103828524066,
      "grad_norm": 3.984375,
      "learning_rate": 6.540675763351792e-05,
      "loss": 0.7166,
      "step": 301950
    },
    {
      "epoch": 0.4123593096941304,
      "grad_norm": 3.203125,
      "learning_rate": 6.539634680369211e-05,
      "loss": 0.627,
      "step": 302000
    },
    {
      "epoch": 0.4124275811030202,
      "grad_norm": 7.0625,
      "learning_rate": 6.53859352363974e-05,
      "loss": 0.6228,
      "step": 302050
    },
    {
      "epoch": 0.41249585251190996,
      "grad_norm": 2.28125,
      "learning_rate": 6.537552293213251e-05,
      "loss": 0.6512,
      "step": 302100
    },
    {
      "epoch": 0.4125641239207997,
      "grad_norm": 3.078125,
      "learning_rate": 6.536510989139614e-05,
      "loss": 0.6539,
      "step": 302150
    },
    {
      "epoch": 0.4126323953296895,
      "grad_norm": 3.578125,
      "learning_rate": 6.535469611468709e-05,
      "loss": 0.5899,
      "step": 302200
    },
    {
      "epoch": 0.4127006667385792,
      "grad_norm": 2.8125,
      "learning_rate": 6.534428160250416e-05,
      "loss": 0.6043,
      "step": 302250
    },
    {
      "epoch": 0.41276893814746896,
      "grad_norm": 3.03125,
      "learning_rate": 6.53338663553462e-05,
      "loss": 0.6461,
      "step": 302300
    },
    {
      "epoch": 0.4128372095563587,
      "grad_norm": 8.8125,
      "learning_rate": 6.532345037371212e-05,
      "loss": 0.6057,
      "step": 302350
    },
    {
      "epoch": 0.4129054809652485,
      "grad_norm": 8.4375,
      "learning_rate": 6.531303365810078e-05,
      "loss": 0.7443,
      "step": 302400
    },
    {
      "epoch": 0.41297375237413825,
      "grad_norm": 3.609375,
      "learning_rate": 6.530261620901115e-05,
      "loss": 0.8045,
      "step": 302450
    },
    {
      "epoch": 0.413042023783028,
      "grad_norm": 2.828125,
      "learning_rate": 6.529219802694221e-05,
      "loss": 0.5334,
      "step": 302500
    },
    {
      "epoch": 0.4131102951919178,
      "grad_norm": 3.515625,
      "learning_rate": 6.528177911239301e-05,
      "loss": 0.5843,
      "step": 302550
    },
    {
      "epoch": 0.41317856660080754,
      "grad_norm": 3.78125,
      "learning_rate": 6.527135946586256e-05,
      "loss": 0.6945,
      "step": 302600
    },
    {
      "epoch": 0.41324683800969725,
      "grad_norm": 2.34375,
      "learning_rate": 6.526093908785e-05,
      "loss": 0.6689,
      "step": 302650
    },
    {
      "epoch": 0.413315109418587,
      "grad_norm": 2.21875,
      "learning_rate": 6.52505179788544e-05,
      "loss": 0.6041,
      "step": 302700
    },
    {
      "epoch": 0.4133833808274768,
      "grad_norm": 3.015625,
      "learning_rate": 6.524009613937498e-05,
      "loss": 0.6194,
      "step": 302750
    },
    {
      "epoch": 0.41345165223636654,
      "grad_norm": 3.375,
      "learning_rate": 6.522967356991087e-05,
      "loss": 0.7868,
      "step": 302800
    },
    {
      "epoch": 0.4135199236452563,
      "grad_norm": 9.3125,
      "learning_rate": 6.521925027096136e-05,
      "loss": 0.6906,
      "step": 302850
    },
    {
      "epoch": 0.41358819505414607,
      "grad_norm": 9.5,
      "learning_rate": 6.520882624302569e-05,
      "loss": 1.0707,
      "step": 302900
    },
    {
      "epoch": 0.41365646646303583,
      "grad_norm": 2.5625,
      "learning_rate": 6.519840148660314e-05,
      "loss": 0.6443,
      "step": 302950
    },
    {
      "epoch": 0.41372473787192554,
      "grad_norm": 2.75,
      "learning_rate": 6.518797600219307e-05,
      "loss": 0.6732,
      "step": 303000
    },
    {
      "epoch": 0.4137930092808153,
      "grad_norm": 2.296875,
      "learning_rate": 6.517754979029485e-05,
      "loss": 0.7075,
      "step": 303050
    },
    {
      "epoch": 0.41386128068970507,
      "grad_norm": 3.578125,
      "learning_rate": 6.516712285140787e-05,
      "loss": 0.6777,
      "step": 303100
    },
    {
      "epoch": 0.41392955209859483,
      "grad_norm": 2.921875,
      "learning_rate": 6.515669518603161e-05,
      "loss": 0.4924,
      "step": 303150
    },
    {
      "epoch": 0.4139978235074846,
      "grad_norm": 3.0625,
      "learning_rate": 6.514626679466548e-05,
      "loss": 0.7245,
      "step": 303200
    },
    {
      "epoch": 0.41406609491637436,
      "grad_norm": 3.828125,
      "learning_rate": 6.513583767780903e-05,
      "loss": 0.6086,
      "step": 303250
    },
    {
      "epoch": 0.4141343663252641,
      "grad_norm": 7.9375,
      "learning_rate": 6.512540783596179e-05,
      "loss": 0.8056,
      "step": 303300
    },
    {
      "epoch": 0.4142026377341539,
      "grad_norm": 3.28125,
      "learning_rate": 6.511497726962334e-05,
      "loss": 0.6549,
      "step": 303350
    },
    {
      "epoch": 0.4142709091430436,
      "grad_norm": 2.90625,
      "learning_rate": 6.510454597929332e-05,
      "loss": 0.5503,
      "step": 303400
    },
    {
      "epoch": 0.41433918055193336,
      "grad_norm": 8.6875,
      "learning_rate": 6.509411396547133e-05,
      "loss": 0.7557,
      "step": 303450
    },
    {
      "epoch": 0.4144074519608231,
      "grad_norm": 3.359375,
      "learning_rate": 6.50836812286571e-05,
      "loss": 0.7121,
      "step": 303500
    },
    {
      "epoch": 0.4144757233697129,
      "grad_norm": 3.015625,
      "learning_rate": 6.50732477693503e-05,
      "loss": 0.6699,
      "step": 303550
    },
    {
      "epoch": 0.41454399477860265,
      "grad_norm": 2.6875,
      "learning_rate": 6.506281358805073e-05,
      "loss": 0.5133,
      "step": 303600
    },
    {
      "epoch": 0.4146122661874924,
      "grad_norm": 3.28125,
      "learning_rate": 6.505237868525815e-05,
      "loss": 0.5853,
      "step": 303650
    },
    {
      "epoch": 0.4146805375963822,
      "grad_norm": 3.640625,
      "learning_rate": 6.504194306147237e-05,
      "loss": 0.6576,
      "step": 303700
    },
    {
      "epoch": 0.41474880900527195,
      "grad_norm": 3.546875,
      "learning_rate": 6.503150671719326e-05,
      "loss": 0.6027,
      "step": 303750
    },
    {
      "epoch": 0.41481708041416165,
      "grad_norm": 6.9375,
      "learning_rate": 6.502106965292072e-05,
      "loss": 0.7428,
      "step": 303800
    },
    {
      "epoch": 0.4148853518230514,
      "grad_norm": 2.453125,
      "learning_rate": 6.501063186915464e-05,
      "loss": 0.7159,
      "step": 303850
    },
    {
      "epoch": 0.4149536232319412,
      "grad_norm": 2.9375,
      "learning_rate": 6.500019336639503e-05,
      "loss": 0.6414,
      "step": 303900
    },
    {
      "epoch": 0.41502189464083095,
      "grad_norm": 3.21875,
      "learning_rate": 6.498975414514184e-05,
      "loss": 0.7617,
      "step": 303950
    },
    {
      "epoch": 0.4150901660497207,
      "grad_norm": 3.875,
      "learning_rate": 6.497931420589512e-05,
      "loss": 0.5627,
      "step": 304000
    },
    {
      "epoch": 0.4151584374586105,
      "grad_norm": 2.25,
      "learning_rate": 6.496887354915493e-05,
      "loss": 0.5858,
      "step": 304050
    },
    {
      "epoch": 0.41522670886750024,
      "grad_norm": 3.34375,
      "learning_rate": 6.495843217542136e-05,
      "loss": 0.5153,
      "step": 304100
    },
    {
      "epoch": 0.41529498027638995,
      "grad_norm": 2.875,
      "learning_rate": 6.494799008519455e-05,
      "loss": 0.6647,
      "step": 304150
    },
    {
      "epoch": 0.4153632516852797,
      "grad_norm": 2.734375,
      "learning_rate": 6.493754727897464e-05,
      "loss": 0.5444,
      "step": 304200
    },
    {
      "epoch": 0.4154315230941695,
      "grad_norm": 2.359375,
      "learning_rate": 6.492710375726185e-05,
      "loss": 0.6026,
      "step": 304250
    },
    {
      "epoch": 0.41549979450305924,
      "grad_norm": 3.28125,
      "learning_rate": 6.491665952055643e-05,
      "loss": 0.6958,
      "step": 304300
    },
    {
      "epoch": 0.415568065911949,
      "grad_norm": 3.265625,
      "learning_rate": 6.49062145693586e-05,
      "loss": 0.7264,
      "step": 304350
    },
    {
      "epoch": 0.41563633732083877,
      "grad_norm": 3.859375,
      "learning_rate": 6.489576890416872e-05,
      "loss": 0.7977,
      "step": 304400
    },
    {
      "epoch": 0.41570460872972853,
      "grad_norm": 3.171875,
      "learning_rate": 6.488532252548708e-05,
      "loss": 0.7546,
      "step": 304450
    },
    {
      "epoch": 0.4157728801386183,
      "grad_norm": 3.09375,
      "learning_rate": 6.487487543381408e-05,
      "loss": 0.6684,
      "step": 304500
    },
    {
      "epoch": 0.415841151547508,
      "grad_norm": 2.390625,
      "learning_rate": 6.486442762965011e-05,
      "loss": 0.6519,
      "step": 304550
    },
    {
      "epoch": 0.41590942295639777,
      "grad_norm": 2.96875,
      "learning_rate": 6.485397911349561e-05,
      "loss": 0.5734,
      "step": 304600
    },
    {
      "epoch": 0.41597769436528753,
      "grad_norm": 3.0625,
      "learning_rate": 6.484352988585106e-05,
      "loss": 0.6195,
      "step": 304650
    },
    {
      "epoch": 0.4160459657741773,
      "grad_norm": 2.84375,
      "learning_rate": 6.483307994721697e-05,
      "loss": 0.6408,
      "step": 304700
    },
    {
      "epoch": 0.41611423718306706,
      "grad_norm": 2.890625,
      "learning_rate": 6.482262929809386e-05,
      "loss": 0.6057,
      "step": 304750
    },
    {
      "epoch": 0.4161825085919568,
      "grad_norm": 3.109375,
      "learning_rate": 6.481217793898232e-05,
      "loss": 0.6298,
      "step": 304800
    },
    {
      "epoch": 0.4162507800008466,
      "grad_norm": 2.828125,
      "learning_rate": 6.480172587038296e-05,
      "loss": 0.6313,
      "step": 304850
    },
    {
      "epoch": 0.4163190514097363,
      "grad_norm": 2.796875,
      "learning_rate": 6.479127309279642e-05,
      "loss": 0.6802,
      "step": 304900
    },
    {
      "epoch": 0.41638732281862606,
      "grad_norm": 2.34375,
      "learning_rate": 6.478081960672339e-05,
      "loss": 0.7805,
      "step": 304950
    },
    {
      "epoch": 0.4164555942275158,
      "grad_norm": 3.375,
      "learning_rate": 6.477036541266457e-05,
      "loss": 0.5441,
      "step": 305000
    },
    {
      "epoch": 0.4165238656364056,
      "grad_norm": 2.890625,
      "learning_rate": 6.475991051112068e-05,
      "loss": 0.543,
      "step": 305050
    },
    {
      "epoch": 0.41659213704529535,
      "grad_norm": 2.859375,
      "learning_rate": 6.474945490259254e-05,
      "loss": 0.7361,
      "step": 305100
    },
    {
      "epoch": 0.4166604084541851,
      "grad_norm": 8.625,
      "learning_rate": 6.473899858758094e-05,
      "loss": 0.7054,
      "step": 305150
    },
    {
      "epoch": 0.4167286798630749,
      "grad_norm": 2.171875,
      "learning_rate": 6.472854156658674e-05,
      "loss": 0.7885,
      "step": 305200
    },
    {
      "epoch": 0.41679695127196464,
      "grad_norm": 2.609375,
      "learning_rate": 6.471808384011081e-05,
      "loss": 0.6138,
      "step": 305250
    },
    {
      "epoch": 0.41686522268085435,
      "grad_norm": 3.9375,
      "learning_rate": 6.470762540865407e-05,
      "loss": 0.7332,
      "step": 305300
    },
    {
      "epoch": 0.4169334940897441,
      "grad_norm": 3.15625,
      "learning_rate": 6.469716627271746e-05,
      "loss": 0.5822,
      "step": 305350
    },
    {
      "epoch": 0.4170017654986339,
      "grad_norm": 2.46875,
      "learning_rate": 6.468670643280196e-05,
      "loss": 0.5646,
      "step": 305400
    },
    {
      "epoch": 0.41707003690752364,
      "grad_norm": 3.640625,
      "learning_rate": 6.467624588940861e-05,
      "loss": 0.8652,
      "step": 305450
    },
    {
      "epoch": 0.4171383083164134,
      "grad_norm": 3.265625,
      "learning_rate": 6.466578464303843e-05,
      "loss": 0.6827,
      "step": 305500
    },
    {
      "epoch": 0.4172065797253032,
      "grad_norm": 3.28125,
      "learning_rate": 6.46553226941925e-05,
      "loss": 0.606,
      "step": 305550
    },
    {
      "epoch": 0.41727485113419294,
      "grad_norm": 3.3125,
      "learning_rate": 6.464486004337197e-05,
      "loss": 0.7812,
      "step": 305600
    },
    {
      "epoch": 0.41734312254308265,
      "grad_norm": 3.390625,
      "learning_rate": 6.463439669107795e-05,
      "loss": 0.6789,
      "step": 305650
    },
    {
      "epoch": 0.4174113939519724,
      "grad_norm": 2.609375,
      "learning_rate": 6.462393263781167e-05,
      "loss": 0.5404,
      "step": 305700
    },
    {
      "epoch": 0.4174796653608622,
      "grad_norm": 3.28125,
      "learning_rate": 6.461346788407431e-05,
      "loss": 0.6455,
      "step": 305750
    },
    {
      "epoch": 0.41754793676975194,
      "grad_norm": 2.75,
      "learning_rate": 6.460300243036714e-05,
      "loss": 0.6855,
      "step": 305800
    },
    {
      "epoch": 0.4176162081786417,
      "grad_norm": 8.8125,
      "learning_rate": 6.459253627719142e-05,
      "loss": 0.711,
      "step": 305850
    },
    {
      "epoch": 0.41768447958753147,
      "grad_norm": 2.671875,
      "learning_rate": 6.458206942504847e-05,
      "loss": 0.6873,
      "step": 305900
    },
    {
      "epoch": 0.41775275099642123,
      "grad_norm": 3.375,
      "learning_rate": 6.45716018744397e-05,
      "loss": 0.6731,
      "step": 305950
    },
    {
      "epoch": 0.417821022405311,
      "grad_norm": 8.125,
      "learning_rate": 6.456113362586642e-05,
      "loss": 0.7168,
      "step": 306000
    },
    {
      "epoch": 0.4178892938142007,
      "grad_norm": 3.125,
      "learning_rate": 6.455066467983008e-05,
      "loss": 0.6617,
      "step": 306050
    },
    {
      "epoch": 0.41795756522309047,
      "grad_norm": 8.875,
      "learning_rate": 6.454019503683213e-05,
      "loss": 0.7857,
      "step": 306100
    },
    {
      "epoch": 0.41802583663198023,
      "grad_norm": 2.46875,
      "learning_rate": 6.452972469737406e-05,
      "loss": 0.5666,
      "step": 306150
    },
    {
      "epoch": 0.41809410804087,
      "grad_norm": 3.8125,
      "learning_rate": 6.451925366195738e-05,
      "loss": 0.6839,
      "step": 306200
    },
    {
      "epoch": 0.41816237944975976,
      "grad_norm": 3.109375,
      "learning_rate": 6.450878193108364e-05,
      "loss": 0.6754,
      "step": 306250
    },
    {
      "epoch": 0.4182306508586495,
      "grad_norm": 8.5625,
      "learning_rate": 6.449830950525442e-05,
      "loss": 0.6038,
      "step": 306300
    },
    {
      "epoch": 0.4182989222675393,
      "grad_norm": 2.375,
      "learning_rate": 6.448783638497137e-05,
      "loss": 0.6848,
      "step": 306350
    },
    {
      "epoch": 0.41836719367642905,
      "grad_norm": 3.265625,
      "learning_rate": 6.447736257073612e-05,
      "loss": 0.7121,
      "step": 306400
    },
    {
      "epoch": 0.41843546508531876,
      "grad_norm": 2.75,
      "learning_rate": 6.446688806305032e-05,
      "loss": 0.659,
      "step": 306450
    },
    {
      "epoch": 0.4185037364942085,
      "grad_norm": 3.640625,
      "learning_rate": 6.445641286241576e-05,
      "loss": 0.6734,
      "step": 306500
    },
    {
      "epoch": 0.4185720079030983,
      "grad_norm": 8.25,
      "learning_rate": 6.444593696933415e-05,
      "loss": 0.6632,
      "step": 306550
    },
    {
      "epoch": 0.41864027931198805,
      "grad_norm": 2.296875,
      "learning_rate": 6.443546038430726e-05,
      "loss": 0.7067,
      "step": 306600
    },
    {
      "epoch": 0.4187085507208778,
      "grad_norm": 7.5,
      "learning_rate": 6.442498310783691e-05,
      "loss": 0.7768,
      "step": 306650
    },
    {
      "epoch": 0.4187768221297676,
      "grad_norm": 2.265625,
      "learning_rate": 6.4414505140425e-05,
      "loss": 0.7159,
      "step": 306700
    },
    {
      "epoch": 0.41884509353865734,
      "grad_norm": 3.421875,
      "learning_rate": 6.440402648257337e-05,
      "loss": 0.5917,
      "step": 306750
    },
    {
      "epoch": 0.41891336494754705,
      "grad_norm": 2.359375,
      "learning_rate": 6.439354713478392e-05,
      "loss": 0.4874,
      "step": 306800
    },
    {
      "epoch": 0.4189816363564368,
      "grad_norm": 3.28125,
      "learning_rate": 6.438306709755865e-05,
      "loss": 0.6813,
      "step": 306850
    },
    {
      "epoch": 0.4190499077653266,
      "grad_norm": 2.421875,
      "learning_rate": 6.437258637139951e-05,
      "loss": 0.5877,
      "step": 306900
    },
    {
      "epoch": 0.41911817917421634,
      "grad_norm": 2.21875,
      "learning_rate": 6.436210495680854e-05,
      "loss": 0.5732,
      "step": 306950
    },
    {
      "epoch": 0.4191864505831061,
      "grad_norm": 4.34375,
      "learning_rate": 6.435162285428775e-05,
      "loss": 0.7258,
      "step": 307000
    },
    {
      "epoch": 0.41925472199199587,
      "grad_norm": 2.828125,
      "learning_rate": 6.434114006433926e-05,
      "loss": 0.5299,
      "step": 307050
    },
    {
      "epoch": 0.41932299340088564,
      "grad_norm": 8.125,
      "learning_rate": 6.433065658746516e-05,
      "loss": 0.8649,
      "step": 307100
    },
    {
      "epoch": 0.4193912648097754,
      "grad_norm": 3.0,
      "learning_rate": 6.432017242416762e-05,
      "loss": 0.5988,
      "step": 307150
    },
    {
      "epoch": 0.4194595362186651,
      "grad_norm": 3.515625,
      "learning_rate": 6.430968757494878e-05,
      "loss": 0.7577,
      "step": 307200
    },
    {
      "epoch": 0.41952780762755487,
      "grad_norm": 3.328125,
      "learning_rate": 6.429920204031092e-05,
      "loss": 0.7043,
      "step": 307250
    },
    {
      "epoch": 0.41959607903644464,
      "grad_norm": 3.921875,
      "learning_rate": 6.428871582075622e-05,
      "loss": 0.5426,
      "step": 307300
    },
    {
      "epoch": 0.4196643504453344,
      "grad_norm": 3.59375,
      "learning_rate": 6.427822891678699e-05,
      "loss": 0.6238,
      "step": 307350
    },
    {
      "epoch": 0.41973262185422416,
      "grad_norm": 2.28125,
      "learning_rate": 6.426774132890553e-05,
      "loss": 0.7175,
      "step": 307400
    },
    {
      "epoch": 0.41980089326311393,
      "grad_norm": 2.734375,
      "learning_rate": 6.42572530576142e-05,
      "loss": 0.6802,
      "step": 307450
    },
    {
      "epoch": 0.4198691646720037,
      "grad_norm": 2.25,
      "learning_rate": 6.424676410341538e-05,
      "loss": 0.697,
      "step": 307500
    },
    {
      "epoch": 0.4199374360808934,
      "grad_norm": 8.4375,
      "learning_rate": 6.423627446681145e-05,
      "loss": 0.7488,
      "step": 307550
    },
    {
      "epoch": 0.42000570748978316,
      "grad_norm": 3.375,
      "learning_rate": 6.422578414830489e-05,
      "loss": 0.5938,
      "step": 307600
    },
    {
      "epoch": 0.42007397889867293,
      "grad_norm": 3.015625,
      "learning_rate": 6.421529314839814e-05,
      "loss": 0.6152,
      "step": 307650
    },
    {
      "epoch": 0.4201422503075627,
      "grad_norm": 3.265625,
      "learning_rate": 6.420480146759373e-05,
      "loss": 0.638,
      "step": 307700
    },
    {
      "epoch": 0.42021052171645246,
      "grad_norm": 3.015625,
      "learning_rate": 6.41943091063942e-05,
      "loss": 0.6641,
      "step": 307750
    },
    {
      "epoch": 0.4202787931253422,
      "grad_norm": 7.09375,
      "learning_rate": 6.418381606530212e-05,
      "loss": 0.6725,
      "step": 307800
    },
    {
      "epoch": 0.420347064534232,
      "grad_norm": 3.671875,
      "learning_rate": 6.417332234482009e-05,
      "loss": 0.6241,
      "step": 307850
    },
    {
      "epoch": 0.42041533594312175,
      "grad_norm": 3.5,
      "learning_rate": 6.416282794545074e-05,
      "loss": 0.618,
      "step": 307900
    },
    {
      "epoch": 0.42048360735201146,
      "grad_norm": 2.90625,
      "learning_rate": 6.415233286769678e-05,
      "loss": 0.5251,
      "step": 307950
    },
    {
      "epoch": 0.4205518787609012,
      "grad_norm": 3.046875,
      "learning_rate": 6.414183711206087e-05,
      "loss": 0.5962,
      "step": 308000
    },
    {
      "epoch": 0.420620150169791,
      "grad_norm": 2.234375,
      "learning_rate": 6.413134067904576e-05,
      "loss": 0.5309,
      "step": 308050
    },
    {
      "epoch": 0.42068842157868075,
      "grad_norm": 3.0,
      "learning_rate": 6.412084356915422e-05,
      "loss": 0.7994,
      "step": 308100
    },
    {
      "epoch": 0.4207566929875705,
      "grad_norm": 4.09375,
      "learning_rate": 6.411034578288906e-05,
      "loss": 0.7806,
      "step": 308150
    },
    {
      "epoch": 0.4208249643964603,
      "grad_norm": 7.03125,
      "learning_rate": 6.40998473207531e-05,
      "loss": 0.8942,
      "step": 308200
    },
    {
      "epoch": 0.42089323580535004,
      "grad_norm": 7.96875,
      "learning_rate": 6.40893481832492e-05,
      "loss": 0.6415,
      "step": 308250
    },
    {
      "epoch": 0.4209615072142398,
      "grad_norm": 3.765625,
      "learning_rate": 6.407884837088028e-05,
      "loss": 0.6345,
      "step": 308300
    },
    {
      "epoch": 0.4210297786231295,
      "grad_norm": 2.984375,
      "learning_rate": 6.406834788414925e-05,
      "loss": 0.7909,
      "step": 308350
    },
    {
      "epoch": 0.4210980500320193,
      "grad_norm": 3.609375,
      "learning_rate": 6.405784672355908e-05,
      "loss": 0.5677,
      "step": 308400
    },
    {
      "epoch": 0.42116632144090904,
      "grad_norm": 3.0,
      "learning_rate": 6.404734488961276e-05,
      "loss": 0.673,
      "step": 308450
    },
    {
      "epoch": 0.4212345928497988,
      "grad_norm": 2.984375,
      "learning_rate": 6.403684238281333e-05,
      "loss": 0.5568,
      "step": 308500
    },
    {
      "epoch": 0.42130286425868857,
      "grad_norm": 3.46875,
      "learning_rate": 6.402633920366384e-05,
      "loss": 0.5311,
      "step": 308550
    },
    {
      "epoch": 0.42137113566757833,
      "grad_norm": 2.265625,
      "learning_rate": 6.401583535266737e-05,
      "loss": 0.4941,
      "step": 308600
    },
    {
      "epoch": 0.4214394070764681,
      "grad_norm": 3.34375,
      "learning_rate": 6.400533083032708e-05,
      "loss": 0.667,
      "step": 308650
    },
    {
      "epoch": 0.4215076784853578,
      "grad_norm": 2.828125,
      "learning_rate": 6.399482563714606e-05,
      "loss": 0.6344,
      "step": 308700
    },
    {
      "epoch": 0.42157594989424757,
      "grad_norm": 7.09375,
      "learning_rate": 6.398431977362756e-05,
      "loss": 0.7323,
      "step": 308750
    },
    {
      "epoch": 0.42164422130313733,
      "grad_norm": 7.78125,
      "learning_rate": 6.397381324027478e-05,
      "loss": 0.6922,
      "step": 308800
    },
    {
      "epoch": 0.4217124927120271,
      "grad_norm": 3.03125,
      "learning_rate": 6.396330603759098e-05,
      "loss": 0.5363,
      "step": 308850
    },
    {
      "epoch": 0.42178076412091686,
      "grad_norm": 2.34375,
      "learning_rate": 6.395279816607941e-05,
      "loss": 0.7571,
      "step": 308900
    },
    {
      "epoch": 0.4218490355298066,
      "grad_norm": 2.96875,
      "learning_rate": 6.394228962624342e-05,
      "loss": 0.6639,
      "step": 308950
    },
    {
      "epoch": 0.4219173069386964,
      "grad_norm": 8.3125,
      "learning_rate": 6.393178041858634e-05,
      "loss": 0.6901,
      "step": 309000
    },
    {
      "epoch": 0.42198557834758615,
      "grad_norm": 8.5,
      "learning_rate": 6.392127054361158e-05,
      "loss": 0.5742,
      "step": 309050
    },
    {
      "epoch": 0.42205384975647586,
      "grad_norm": 2.921875,
      "learning_rate": 6.39107600018225e-05,
      "loss": 0.6119,
      "step": 309100
    },
    {
      "epoch": 0.4221221211653656,
      "grad_norm": 2.328125,
      "learning_rate": 6.39002487937226e-05,
      "loss": 0.6201,
      "step": 309150
    },
    {
      "epoch": 0.4221903925742554,
      "grad_norm": 7.4375,
      "learning_rate": 6.388973691981531e-05,
      "loss": 0.7119,
      "step": 309200
    },
    {
      "epoch": 0.42225866398314515,
      "grad_norm": 3.421875,
      "learning_rate": 6.387922438060416e-05,
      "loss": 0.7437,
      "step": 309250
    },
    {
      "epoch": 0.4223269353920349,
      "grad_norm": 10.6875,
      "learning_rate": 6.38687111765927e-05,
      "loss": 0.5718,
      "step": 309300
    },
    {
      "epoch": 0.4223952068009247,
      "grad_norm": 8.8125,
      "learning_rate": 6.38581973082845e-05,
      "loss": 0.8365,
      "step": 309350
    },
    {
      "epoch": 0.42246347820981445,
      "grad_norm": 3.75,
      "learning_rate": 6.384768277618313e-05,
      "loss": 0.5537,
      "step": 309400
    },
    {
      "epoch": 0.42253174961870416,
      "grad_norm": 2.4375,
      "learning_rate": 6.383716758079224e-05,
      "loss": 0.7036,
      "step": 309450
    },
    {
      "epoch": 0.4226000210275939,
      "grad_norm": 3.75,
      "learning_rate": 6.382665172261551e-05,
      "loss": 0.7663,
      "step": 309500
    },
    {
      "epoch": 0.4226682924364837,
      "grad_norm": 3.296875,
      "learning_rate": 6.381613520215665e-05,
      "loss": 0.877,
      "step": 309550
    },
    {
      "epoch": 0.42273656384537345,
      "grad_norm": 2.734375,
      "learning_rate": 6.380561801991936e-05,
      "loss": 0.6435,
      "step": 309600
    },
    {
      "epoch": 0.4228048352542632,
      "grad_norm": 3.515625,
      "learning_rate": 6.379510017640742e-05,
      "loss": 0.7506,
      "step": 309650
    },
    {
      "epoch": 0.422873106663153,
      "grad_norm": 2.796875,
      "learning_rate": 6.37845816721246e-05,
      "loss": 0.7227,
      "step": 309700
    },
    {
      "epoch": 0.42294137807204274,
      "grad_norm": 2.671875,
      "learning_rate": 6.377406250757476e-05,
      "loss": 0.7325,
      "step": 309750
    },
    {
      "epoch": 0.4230096494809325,
      "grad_norm": 3.078125,
      "learning_rate": 6.376354268326175e-05,
      "loss": 0.5462,
      "step": 309800
    },
    {
      "epoch": 0.4230779208898222,
      "grad_norm": 3.25,
      "learning_rate": 6.375302219968944e-05,
      "loss": 0.5102,
      "step": 309850
    },
    {
      "epoch": 0.423146192298712,
      "grad_norm": 3.390625,
      "learning_rate": 6.374250105736175e-05,
      "loss": 0.7915,
      "step": 309900
    },
    {
      "epoch": 0.42321446370760174,
      "grad_norm": 2.5,
      "learning_rate": 6.373197925678265e-05,
      "loss": 0.6196,
      "step": 309950
    },
    {
      "epoch": 0.4232827351164915,
      "grad_norm": 2.96875,
      "learning_rate": 6.37214567984561e-05,
      "loss": 0.5709,
      "step": 310000
    },
    {
      "epoch": 0.42335100652538127,
      "grad_norm": 2.796875,
      "learning_rate": 6.371093368288614e-05,
      "loss": 0.7241,
      "step": 310050
    },
    {
      "epoch": 0.42341927793427103,
      "grad_norm": 2.234375,
      "learning_rate": 6.370040991057683e-05,
      "loss": 0.6951,
      "step": 310100
    },
    {
      "epoch": 0.4234875493431608,
      "grad_norm": 3.3125,
      "learning_rate": 6.368988548203219e-05,
      "loss": 0.6559,
      "step": 310150
    },
    {
      "epoch": 0.4235558207520505,
      "grad_norm": 3.484375,
      "learning_rate": 6.367936039775637e-05,
      "loss": 0.7433,
      "step": 310200
    },
    {
      "epoch": 0.42362409216094027,
      "grad_norm": 3.234375,
      "learning_rate": 6.366883465825351e-05,
      "loss": 0.6314,
      "step": 310250
    },
    {
      "epoch": 0.42369236356983003,
      "grad_norm": 2.328125,
      "learning_rate": 6.365830826402777e-05,
      "loss": 0.6747,
      "step": 310300
    },
    {
      "epoch": 0.4237606349787198,
      "grad_norm": 3.28125,
      "learning_rate": 6.364778121558336e-05,
      "loss": 0.671,
      "step": 310350
    },
    {
      "epoch": 0.42382890638760956,
      "grad_norm": 2.328125,
      "learning_rate": 6.363725351342451e-05,
      "loss": 0.5888,
      "step": 310400
    },
    {
      "epoch": 0.4238971777964993,
      "grad_norm": 2.640625,
      "learning_rate": 6.362672515805547e-05,
      "loss": 0.8059,
      "step": 310450
    },
    {
      "epoch": 0.4239654492053891,
      "grad_norm": 8.125,
      "learning_rate": 6.361619614998057e-05,
      "loss": 0.8001,
      "step": 310500
    },
    {
      "epoch": 0.42403372061427885,
      "grad_norm": 8.375,
      "learning_rate": 6.360566648970414e-05,
      "loss": 0.8115,
      "step": 310550
    },
    {
      "epoch": 0.42410199202316856,
      "grad_norm": 3.171875,
      "learning_rate": 6.359513617773051e-05,
      "loss": 0.7613,
      "step": 310600
    },
    {
      "epoch": 0.4241702634320583,
      "grad_norm": 3.6875,
      "learning_rate": 6.35846052145641e-05,
      "loss": 0.6499,
      "step": 310650
    },
    {
      "epoch": 0.4242385348409481,
      "grad_norm": 3.4375,
      "learning_rate": 6.357407360070929e-05,
      "loss": 0.7013,
      "step": 310700
    },
    {
      "epoch": 0.42430680624983785,
      "grad_norm": 4.03125,
      "learning_rate": 6.356354133667057e-05,
      "loss": 0.7361,
      "step": 310750
    },
    {
      "epoch": 0.4243750776587276,
      "grad_norm": 3.15625,
      "learning_rate": 6.355300842295242e-05,
      "loss": 0.6195,
      "step": 310800
    },
    {
      "epoch": 0.4244433490676174,
      "grad_norm": 2.984375,
      "learning_rate": 6.354247486005936e-05,
      "loss": 0.7113,
      "step": 310850
    },
    {
      "epoch": 0.42451162047650715,
      "grad_norm": 8.25,
      "learning_rate": 6.353194064849592e-05,
      "loss": 0.6708,
      "step": 310900
    },
    {
      "epoch": 0.4245798918853969,
      "grad_norm": 3.109375,
      "learning_rate": 6.352140578876667e-05,
      "loss": 0.5669,
      "step": 310950
    },
    {
      "epoch": 0.4246481632942866,
      "grad_norm": 3.5,
      "learning_rate": 6.351087028137624e-05,
      "loss": 0.6612,
      "step": 311000
    },
    {
      "epoch": 0.4247164347031764,
      "grad_norm": 3.34375,
      "learning_rate": 6.350033412682927e-05,
      "loss": 0.6979,
      "step": 311050
    },
    {
      "epoch": 0.42478470611206615,
      "grad_norm": 8.375,
      "learning_rate": 6.348979732563043e-05,
      "loss": 0.6903,
      "step": 311100
    },
    {
      "epoch": 0.4248529775209559,
      "grad_norm": 8.6875,
      "learning_rate": 6.34792598782844e-05,
      "loss": 0.6563,
      "step": 311150
    },
    {
      "epoch": 0.4249212489298457,
      "grad_norm": 3.609375,
      "learning_rate": 6.346872178529593e-05,
      "loss": 0.722,
      "step": 311200
    },
    {
      "epoch": 0.42498952033873544,
      "grad_norm": 2.390625,
      "learning_rate": 6.345818304716979e-05,
      "loss": 0.7021,
      "step": 311250
    },
    {
      "epoch": 0.4250577917476252,
      "grad_norm": 3.234375,
      "learning_rate": 6.344764366441076e-05,
      "loss": 0.6666,
      "step": 311300
    },
    {
      "epoch": 0.4251260631565149,
      "grad_norm": 2.234375,
      "learning_rate": 6.343710363752368e-05,
      "loss": 0.5974,
      "step": 311350
    },
    {
      "epoch": 0.4251943345654047,
      "grad_norm": 3.46875,
      "learning_rate": 6.342656296701339e-05,
      "loss": 0.5523,
      "step": 311400
    },
    {
      "epoch": 0.42526260597429444,
      "grad_norm": 3.765625,
      "learning_rate": 6.341602165338478e-05,
      "loss": 0.5261,
      "step": 311450
    },
    {
      "epoch": 0.4253308773831842,
      "grad_norm": 3.5625,
      "learning_rate": 6.340547969714277e-05,
      "loss": 0.5499,
      "step": 311500
    },
    {
      "epoch": 0.42539914879207397,
      "grad_norm": 8.3125,
      "learning_rate": 6.339493709879233e-05,
      "loss": 0.772,
      "step": 311550
    },
    {
      "epoch": 0.42546742020096373,
      "grad_norm": 2.359375,
      "learning_rate": 6.338439385883842e-05,
      "loss": 0.7427,
      "step": 311600
    },
    {
      "epoch": 0.4255356916098535,
      "grad_norm": 3.484375,
      "learning_rate": 6.337384997778604e-05,
      "loss": 0.5737,
      "step": 311650
    },
    {
      "epoch": 0.42560396301874326,
      "grad_norm": 7.71875,
      "learning_rate": 6.336330545614024e-05,
      "loss": 0.6752,
      "step": 311700
    },
    {
      "epoch": 0.42567223442763297,
      "grad_norm": 8.0,
      "learning_rate": 6.33527602944061e-05,
      "loss": 0.7239,
      "step": 311750
    },
    {
      "epoch": 0.42574050583652273,
      "grad_norm": 3.25,
      "learning_rate": 6.334221449308871e-05,
      "loss": 0.7333,
      "step": 311800
    },
    {
      "epoch": 0.4258087772454125,
      "grad_norm": 2.703125,
      "learning_rate": 6.333166805269322e-05,
      "loss": 0.6689,
      "step": 311850
    },
    {
      "epoch": 0.42587704865430226,
      "grad_norm": 3.015625,
      "learning_rate": 6.332112097372478e-05,
      "loss": 0.5627,
      "step": 311900
    },
    {
      "epoch": 0.425945320063192,
      "grad_norm": 2.8125,
      "learning_rate": 6.331057325668858e-05,
      "loss": 0.6659,
      "step": 311950
    },
    {
      "epoch": 0.4260135914720818,
      "grad_norm": 3.328125,
      "learning_rate": 6.330002490208985e-05,
      "loss": 0.6921,
      "step": 312000
    },
    {
      "epoch": 0.42608186288097155,
      "grad_norm": 3.8125,
      "learning_rate": 6.328947591043385e-05,
      "loss": 0.7945,
      "step": 312050
    },
    {
      "epoch": 0.42615013428986126,
      "grad_norm": 2.4375,
      "learning_rate": 6.327892628222586e-05,
      "loss": 0.7171,
      "step": 312100
    },
    {
      "epoch": 0.426218405698751,
      "grad_norm": 2.421875,
      "learning_rate": 6.32683760179712e-05,
      "loss": 0.6739,
      "step": 312150
    },
    {
      "epoch": 0.4262866771076408,
      "grad_norm": 2.3125,
      "learning_rate": 6.325782511817522e-05,
      "loss": 0.5113,
      "step": 312200
    },
    {
      "epoch": 0.42635494851653055,
      "grad_norm": 2.875,
      "learning_rate": 6.324727358334328e-05,
      "loss": 0.6967,
      "step": 312250
    },
    {
      "epoch": 0.4264232199254203,
      "grad_norm": 2.171875,
      "learning_rate": 6.32367214139808e-05,
      "loss": 0.6472,
      "step": 312300
    },
    {
      "epoch": 0.4264914913343101,
      "grad_norm": 2.6875,
      "learning_rate": 6.322616861059321e-05,
      "loss": 0.5402,
      "step": 312350
    },
    {
      "epoch": 0.42655976274319984,
      "grad_norm": 2.9375,
      "learning_rate": 6.321561517368601e-05,
      "loss": 0.6533,
      "step": 312400
    },
    {
      "epoch": 0.4266280341520896,
      "grad_norm": 2.921875,
      "learning_rate": 6.320506110376467e-05,
      "loss": 0.8912,
      "step": 312450
    },
    {
      "epoch": 0.4266963055609793,
      "grad_norm": 2.921875,
      "learning_rate": 6.31945064013347e-05,
      "loss": 0.733,
      "step": 312500
    },
    {
      "epoch": 0.4267645769698691,
      "grad_norm": 3.5625,
      "learning_rate": 6.318395106690169e-05,
      "loss": 0.6343,
      "step": 312550
    },
    {
      "epoch": 0.42683284837875884,
      "grad_norm": 2.28125,
      "learning_rate": 6.317339510097123e-05,
      "loss": 0.7379,
      "step": 312600
    },
    {
      "epoch": 0.4269011197876486,
      "grad_norm": 3.0,
      "learning_rate": 6.316283850404893e-05,
      "loss": 0.5508,
      "step": 312650
    },
    {
      "epoch": 0.4269693911965384,
      "grad_norm": 3.046875,
      "learning_rate": 6.315228127664043e-05,
      "loss": 0.5953,
      "step": 312700
    },
    {
      "epoch": 0.42703766260542814,
      "grad_norm": 2.578125,
      "learning_rate": 6.314172341925143e-05,
      "loss": 0.6497,
      "step": 312750
    },
    {
      "epoch": 0.4271059340143179,
      "grad_norm": 3.015625,
      "learning_rate": 6.313116493238761e-05,
      "loss": 0.7196,
      "step": 312800
    },
    {
      "epoch": 0.4271742054232076,
      "grad_norm": 3.46875,
      "learning_rate": 6.312060581655476e-05,
      "loss": 0.5762,
      "step": 312850
    },
    {
      "epoch": 0.4272424768320974,
      "grad_norm": 2.734375,
      "learning_rate": 6.311004607225862e-05,
      "loss": 0.6147,
      "step": 312900
    },
    {
      "epoch": 0.42731074824098714,
      "grad_norm": 8.1875,
      "learning_rate": 6.3099485700005e-05,
      "loss": 0.6853,
      "step": 312950
    },
    {
      "epoch": 0.4273790196498769,
      "grad_norm": 2.390625,
      "learning_rate": 6.30889247002997e-05,
      "loss": 0.6633,
      "step": 313000
    },
    {
      "epoch": 0.42744729105876667,
      "grad_norm": 3.25,
      "learning_rate": 6.30783630736486e-05,
      "loss": 0.6177,
      "step": 313050
    },
    {
      "epoch": 0.42751556246765643,
      "grad_norm": 3.0625,
      "learning_rate": 6.306780082055761e-05,
      "loss": 0.621,
      "step": 313100
    },
    {
      "epoch": 0.4275838338765462,
      "grad_norm": 3.484375,
      "learning_rate": 6.305723794153265e-05,
      "loss": 0.5397,
      "step": 313150
    },
    {
      "epoch": 0.42765210528543596,
      "grad_norm": 2.796875,
      "learning_rate": 6.304667443707965e-05,
      "loss": 0.6331,
      "step": 313200
    },
    {
      "epoch": 0.42772037669432567,
      "grad_norm": 2.90625,
      "learning_rate": 6.303611030770459e-05,
      "loss": 0.7852,
      "step": 313250
    },
    {
      "epoch": 0.42778864810321543,
      "grad_norm": 7.40625,
      "learning_rate": 6.302554555391349e-05,
      "loss": 0.7165,
      "step": 313300
    },
    {
      "epoch": 0.4278569195121052,
      "grad_norm": 2.28125,
      "learning_rate": 6.301498017621237e-05,
      "loss": 0.9031,
      "step": 313350
    },
    {
      "epoch": 0.42792519092099496,
      "grad_norm": 2.40625,
      "learning_rate": 6.300441417510736e-05,
      "loss": 0.6582,
      "step": 313400
    },
    {
      "epoch": 0.4279934623298847,
      "grad_norm": 3.359375,
      "learning_rate": 6.29938475511045e-05,
      "loss": 0.5942,
      "step": 313450
    },
    {
      "epoch": 0.4280617337387745,
      "grad_norm": 3.59375,
      "learning_rate": 6.298328030470995e-05,
      "loss": 0.5295,
      "step": 313500
    },
    {
      "epoch": 0.42813000514766425,
      "grad_norm": 3.1875,
      "learning_rate": 6.297271243642984e-05,
      "loss": 0.7613,
      "step": 313550
    },
    {
      "epoch": 0.428198276556554,
      "grad_norm": 4.3125,
      "learning_rate": 6.29621439467704e-05,
      "loss": 0.7778,
      "step": 313600
    },
    {
      "epoch": 0.4282665479654437,
      "grad_norm": 2.890625,
      "learning_rate": 6.295157483623783e-05,
      "loss": 0.6964,
      "step": 313650
    },
    {
      "epoch": 0.4283348193743335,
      "grad_norm": 15.0625,
      "learning_rate": 6.294100510533837e-05,
      "loss": 0.6918,
      "step": 313700
    },
    {
      "epoch": 0.42840309078322325,
      "grad_norm": 2.984375,
      "learning_rate": 6.293043475457831e-05,
      "loss": 0.6271,
      "step": 313750
    },
    {
      "epoch": 0.428471362192113,
      "grad_norm": 3.0625,
      "learning_rate": 6.291986378446394e-05,
      "loss": 0.7762,
      "step": 313800
    },
    {
      "epoch": 0.4285396336010028,
      "grad_norm": 3.046875,
      "learning_rate": 6.290929219550164e-05,
      "loss": 0.8241,
      "step": 313850
    },
    {
      "epoch": 0.42860790500989254,
      "grad_norm": 8.9375,
      "learning_rate": 6.289871998819776e-05,
      "loss": 0.86,
      "step": 313900
    },
    {
      "epoch": 0.4286761764187823,
      "grad_norm": 3.546875,
      "learning_rate": 6.288814716305867e-05,
      "loss": 0.6058,
      "step": 313950
    },
    {
      "epoch": 0.428744447827672,
      "grad_norm": 2.953125,
      "learning_rate": 6.287757372059084e-05,
      "loss": 0.6949,
      "step": 314000
    },
    {
      "epoch": 0.4288127192365618,
      "grad_norm": 2.671875,
      "learning_rate": 6.286699966130068e-05,
      "loss": 0.6588,
      "step": 314050
    },
    {
      "epoch": 0.42888099064545154,
      "grad_norm": 3.140625,
      "learning_rate": 6.285642498569472e-05,
      "loss": 0.8458,
      "step": 314100
    },
    {
      "epoch": 0.4289492620543413,
      "grad_norm": 3.328125,
      "learning_rate": 6.284584969427944e-05,
      "loss": 0.6377,
      "step": 314150
    },
    {
      "epoch": 0.42901753346323107,
      "grad_norm": 2.46875,
      "learning_rate": 6.283527378756143e-05,
      "loss": 0.6146,
      "step": 314200
    },
    {
      "epoch": 0.42908580487212084,
      "grad_norm": 3.34375,
      "learning_rate": 6.282469726604722e-05,
      "loss": 0.6411,
      "step": 314250
    },
    {
      "epoch": 0.4291540762810106,
      "grad_norm": 2.234375,
      "learning_rate": 6.281412013024344e-05,
      "loss": 0.7525,
      "step": 314300
    },
    {
      "epoch": 0.42922234768990036,
      "grad_norm": 4.40625,
      "learning_rate": 6.28035423806567e-05,
      "loss": 0.6466,
      "step": 314350
    },
    {
      "epoch": 0.42929061909879007,
      "grad_norm": 2.875,
      "learning_rate": 6.27929640177937e-05,
      "loss": 0.6652,
      "step": 314400
    },
    {
      "epoch": 0.42935889050767984,
      "grad_norm": 2.65625,
      "learning_rate": 6.278238504216112e-05,
      "loss": 0.5584,
      "step": 314450
    },
    {
      "epoch": 0.4294271619165696,
      "grad_norm": 2.390625,
      "learning_rate": 6.277180545426565e-05,
      "loss": 0.5681,
      "step": 314500
    },
    {
      "epoch": 0.42949543332545936,
      "grad_norm": 3.375,
      "learning_rate": 6.276122525461407e-05,
      "loss": 0.6324,
      "step": 314550
    },
    {
      "epoch": 0.4295637047343491,
      "grad_norm": 2.890625,
      "learning_rate": 6.275064444371315e-05,
      "loss": 0.5657,
      "step": 314600
    },
    {
      "epoch": 0.4296319761432389,
      "grad_norm": 3.046875,
      "learning_rate": 6.274006302206971e-05,
      "loss": 0.6214,
      "step": 314650
    },
    {
      "epoch": 0.42970024755212866,
      "grad_norm": 2.734375,
      "learning_rate": 6.27294809901906e-05,
      "loss": 0.7092,
      "step": 314700
    },
    {
      "epoch": 0.42976851896101836,
      "grad_norm": 2.375,
      "learning_rate": 6.271889834858266e-05,
      "loss": 0.625,
      "step": 314750
    },
    {
      "epoch": 0.42983679036990813,
      "grad_norm": 2.390625,
      "learning_rate": 6.270831509775279e-05,
      "loss": 0.6442,
      "step": 314800
    },
    {
      "epoch": 0.4299050617787979,
      "grad_norm": 2.84375,
      "learning_rate": 6.269773123820794e-05,
      "loss": 0.5901,
      "step": 314850
    },
    {
      "epoch": 0.42997333318768766,
      "grad_norm": 3.03125,
      "learning_rate": 6.268714677045505e-05,
      "loss": 0.6009,
      "step": 314900
    },
    {
      "epoch": 0.4300416045965774,
      "grad_norm": 3.375,
      "learning_rate": 6.26765616950011e-05,
      "loss": 0.6124,
      "step": 314950
    },
    {
      "epoch": 0.4301098760054672,
      "grad_norm": 2.3125,
      "learning_rate": 6.266597601235312e-05,
      "loss": 0.6764,
      "step": 315000
    },
    {
      "epoch": 0.43017814741435695,
      "grad_norm": 3.59375,
      "learning_rate": 6.265538972301813e-05,
      "loss": 0.6583,
      "step": 315050
    },
    {
      "epoch": 0.4302464188232467,
      "grad_norm": 2.4375,
      "learning_rate": 6.264480282750323e-05,
      "loss": 0.6717,
      "step": 315100
    },
    {
      "epoch": 0.4303146902321364,
      "grad_norm": 2.875,
      "learning_rate": 6.263421532631549e-05,
      "loss": 0.6944,
      "step": 315150
    },
    {
      "epoch": 0.4303829616410262,
      "grad_norm": 3.546875,
      "learning_rate": 6.262362721996208e-05,
      "loss": 0.6658,
      "step": 315200
    },
    {
      "epoch": 0.43045123304991595,
      "grad_norm": 3.546875,
      "learning_rate": 6.261303850895013e-05,
      "loss": 0.6702,
      "step": 315250
    },
    {
      "epoch": 0.4305195044588057,
      "grad_norm": 3.328125,
      "learning_rate": 6.260244919378684e-05,
      "loss": 0.6097,
      "step": 315300
    },
    {
      "epoch": 0.4305877758676955,
      "grad_norm": 3.859375,
      "learning_rate": 6.25918592749794e-05,
      "loss": 0.6106,
      "step": 315350
    },
    {
      "epoch": 0.43065604727658524,
      "grad_norm": 3.25,
      "learning_rate": 6.258126875303509e-05,
      "loss": 0.8155,
      "step": 315400
    },
    {
      "epoch": 0.430724318685475,
      "grad_norm": 3.28125,
      "learning_rate": 6.257067762846119e-05,
      "loss": 0.8751,
      "step": 315450
    },
    {
      "epoch": 0.43079259009436477,
      "grad_norm": 3.5,
      "learning_rate": 6.256008590176497e-05,
      "loss": 0.6781,
      "step": 315500
    },
    {
      "epoch": 0.4308608615032545,
      "grad_norm": 3.65625,
      "learning_rate": 6.254949357345378e-05,
      "loss": 0.5402,
      "step": 315550
    },
    {
      "epoch": 0.43092913291214424,
      "grad_norm": 3.765625,
      "learning_rate": 6.2538900644035e-05,
      "loss": 0.6808,
      "step": 315600
    },
    {
      "epoch": 0.430997404321034,
      "grad_norm": 2.25,
      "learning_rate": 6.252830711401598e-05,
      "loss": 0.6634,
      "step": 315650
    },
    {
      "epoch": 0.43106567572992377,
      "grad_norm": 2.390625,
      "learning_rate": 6.251771298390416e-05,
      "loss": 0.5861,
      "step": 315700
    },
    {
      "epoch": 0.43113394713881353,
      "grad_norm": 2.25,
      "learning_rate": 6.250711825420701e-05,
      "loss": 0.5966,
      "step": 315750
    },
    {
      "epoch": 0.4312022185477033,
      "grad_norm": 6.03125,
      "learning_rate": 6.249652292543197e-05,
      "loss": 0.7459,
      "step": 315800
    },
    {
      "epoch": 0.43127048995659306,
      "grad_norm": 2.875,
      "learning_rate": 6.248592699808655e-05,
      "loss": 0.7181,
      "step": 315850
    },
    {
      "epoch": 0.43133876136548277,
      "grad_norm": 2.578125,
      "learning_rate": 6.24753304726783e-05,
      "loss": 0.723,
      "step": 315900
    },
    {
      "epoch": 0.43140703277437253,
      "grad_norm": 8.5,
      "learning_rate": 6.246473334971479e-05,
      "loss": 0.8536,
      "step": 315950
    },
    {
      "epoch": 0.4314753041832623,
      "grad_norm": 3.421875,
      "learning_rate": 6.245413562970359e-05,
      "loss": 0.8521,
      "step": 316000
    },
    {
      "epoch": 0.43154357559215206,
      "grad_norm": 2.765625,
      "learning_rate": 6.244353731315232e-05,
      "loss": 0.6516,
      "step": 316050
    },
    {
      "epoch": 0.4316118470010418,
      "grad_norm": 8.0625,
      "learning_rate": 6.243293840056864e-05,
      "loss": 0.7355,
      "step": 316100
    },
    {
      "epoch": 0.4316801184099316,
      "grad_norm": 2.5625,
      "learning_rate": 6.242233889246022e-05,
      "loss": 0.6957,
      "step": 316150
    },
    {
      "epoch": 0.43174838981882135,
      "grad_norm": 7.78125,
      "learning_rate": 6.241173878933476e-05,
      "loss": 0.6976,
      "step": 316200
    },
    {
      "epoch": 0.4318166612277111,
      "grad_norm": 3.640625,
      "learning_rate": 6.240113809170002e-05,
      "loss": 0.5915,
      "step": 316250
    },
    {
      "epoch": 0.4318849326366008,
      "grad_norm": 3.4375,
      "learning_rate": 6.239053680006374e-05,
      "loss": 0.6552,
      "step": 316300
    },
    {
      "epoch": 0.4319532040454906,
      "grad_norm": 2.84375,
      "learning_rate": 6.23799349149337e-05,
      "loss": 0.6044,
      "step": 316350
    },
    {
      "epoch": 0.43202147545438035,
      "grad_norm": 3.15625,
      "learning_rate": 6.236933243681774e-05,
      "loss": 0.6907,
      "step": 316400
    },
    {
      "epoch": 0.4320897468632701,
      "grad_norm": 2.875,
      "learning_rate": 6.23587293662237e-05,
      "loss": 0.7875,
      "step": 316450
    },
    {
      "epoch": 0.4321580182721599,
      "grad_norm": 4.1875,
      "learning_rate": 6.234812570365947e-05,
      "loss": 0.6151,
      "step": 316500
    },
    {
      "epoch": 0.43222628968104965,
      "grad_norm": 3.953125,
      "learning_rate": 6.233752144963293e-05,
      "loss": 0.4965,
      "step": 316550
    },
    {
      "epoch": 0.4322945610899394,
      "grad_norm": 2.5625,
      "learning_rate": 6.232691660465201e-05,
      "loss": 0.5782,
      "step": 316600
    },
    {
      "epoch": 0.4323628324988291,
      "grad_norm": 2.203125,
      "learning_rate": 6.231631116922471e-05,
      "loss": 0.6605,
      "step": 316650
    },
    {
      "epoch": 0.4324311039077189,
      "grad_norm": 8.3125,
      "learning_rate": 6.230570514385899e-05,
      "loss": 0.8115,
      "step": 316700
    },
    {
      "epoch": 0.43249937531660865,
      "grad_norm": 3.671875,
      "learning_rate": 6.229509852906285e-05,
      "loss": 0.5774,
      "step": 316750
    },
    {
      "epoch": 0.4325676467254984,
      "grad_norm": 2.78125,
      "learning_rate": 6.228449132534438e-05,
      "loss": 0.6416,
      "step": 316800
    },
    {
      "epoch": 0.4326359181343882,
      "grad_norm": 8.5625,
      "learning_rate": 6.227388353321163e-05,
      "loss": 0.8467,
      "step": 316850
    },
    {
      "epoch": 0.43270418954327794,
      "grad_norm": 2.90625,
      "learning_rate": 6.226327515317269e-05,
      "loss": 0.6227,
      "step": 316900
    },
    {
      "epoch": 0.4327724609521677,
      "grad_norm": 2.78125,
      "learning_rate": 6.225266618573571e-05,
      "loss": 0.6054,
      "step": 316950
    },
    {
      "epoch": 0.43284073236105747,
      "grad_norm": 2.859375,
      "learning_rate": 6.224205663140885e-05,
      "loss": 0.653,
      "step": 317000
    },
    {
      "epoch": 0.4329090037699472,
      "grad_norm": 2.78125,
      "learning_rate": 6.223144649070028e-05,
      "loss": 0.8037,
      "step": 317050
    },
    {
      "epoch": 0.43297727517883694,
      "grad_norm": 2.40625,
      "learning_rate": 6.222083576411823e-05,
      "loss": 0.6064,
      "step": 317100
    },
    {
      "epoch": 0.4330455465877267,
      "grad_norm": 3.40625,
      "learning_rate": 6.221022445217094e-05,
      "loss": 0.6679,
      "step": 317150
    },
    {
      "epoch": 0.43311381799661647,
      "grad_norm": 8.375,
      "learning_rate": 6.219961255536667e-05,
      "loss": 0.7815,
      "step": 317200
    },
    {
      "epoch": 0.43318208940550623,
      "grad_norm": 7.5,
      "learning_rate": 6.218900007421373e-05,
      "loss": 0.707,
      "step": 317250
    },
    {
      "epoch": 0.433250360814396,
      "grad_norm": 3.328125,
      "learning_rate": 6.217838700922045e-05,
      "loss": 0.7795,
      "step": 317300
    },
    {
      "epoch": 0.43331863222328576,
      "grad_norm": 3.6875,
      "learning_rate": 6.216777336089516e-05,
      "loss": 0.6245,
      "step": 317350
    },
    {
      "epoch": 0.43338690363217547,
      "grad_norm": 2.28125,
      "learning_rate": 6.215715912974625e-05,
      "loss": 0.6939,
      "step": 317400
    },
    {
      "epoch": 0.43345517504106523,
      "grad_norm": 2.765625,
      "learning_rate": 6.214654431628216e-05,
      "loss": 0.8052,
      "step": 317450
    },
    {
      "epoch": 0.433523446449955,
      "grad_norm": 2.984375,
      "learning_rate": 6.21359289210113e-05,
      "loss": 0.6154,
      "step": 317500
    },
    {
      "epoch": 0.43359171785884476,
      "grad_norm": 3.234375,
      "learning_rate": 6.212531294444216e-05,
      "loss": 0.8135,
      "step": 317550
    },
    {
      "epoch": 0.4336599892677345,
      "grad_norm": 3.09375,
      "learning_rate": 6.211469638708322e-05,
      "loss": 0.7588,
      "step": 317600
    },
    {
      "epoch": 0.4337282606766243,
      "grad_norm": 2.84375,
      "learning_rate": 6.210407924944299e-05,
      "loss": 0.81,
      "step": 317650
    },
    {
      "epoch": 0.43379653208551405,
      "grad_norm": 2.5,
      "learning_rate": 6.209346153203002e-05,
      "loss": 0.773,
      "step": 317700
    },
    {
      "epoch": 0.4338648034944038,
      "grad_norm": 2.4375,
      "learning_rate": 6.208284323535291e-05,
      "loss": 0.5564,
      "step": 317750
    },
    {
      "epoch": 0.4339330749032935,
      "grad_norm": 4.6875,
      "learning_rate": 6.207222435992026e-05,
      "loss": 0.8601,
      "step": 317800
    },
    {
      "epoch": 0.4340013463121833,
      "grad_norm": 3.109375,
      "learning_rate": 6.20616049062407e-05,
      "loss": 0.7826,
      "step": 317850
    },
    {
      "epoch": 0.43406961772107305,
      "grad_norm": 3.171875,
      "learning_rate": 6.205098487482287e-05,
      "loss": 0.7046,
      "step": 317900
    },
    {
      "epoch": 0.4341378891299628,
      "grad_norm": 3.0625,
      "learning_rate": 6.204036426617549e-05,
      "loss": 0.8127,
      "step": 317950
    },
    {
      "epoch": 0.4342061605388526,
      "grad_norm": 3.03125,
      "learning_rate": 6.202974308080725e-05,
      "loss": 0.6336,
      "step": 318000
    },
    {
      "epoch": 0.43427443194774235,
      "grad_norm": 3.5,
      "learning_rate": 6.201912131922693e-05,
      "loss": 0.8329,
      "step": 318050
    },
    {
      "epoch": 0.4343427033566321,
      "grad_norm": 9.0625,
      "learning_rate": 6.200849898194325e-05,
      "loss": 0.7072,
      "step": 318100
    },
    {
      "epoch": 0.4344109747655219,
      "grad_norm": 2.921875,
      "learning_rate": 6.199787606946506e-05,
      "loss": 0.7087,
      "step": 318150
    },
    {
      "epoch": 0.4344792461744116,
      "grad_norm": 6.1875,
      "learning_rate": 6.198725258230113e-05,
      "loss": 0.8732,
      "step": 318200
    },
    {
      "epoch": 0.43454751758330135,
      "grad_norm": 2.921875,
      "learning_rate": 6.197662852096038e-05,
      "loss": 0.5148,
      "step": 318250
    },
    {
      "epoch": 0.4346157889921911,
      "grad_norm": 2.28125,
      "learning_rate": 6.196600388595166e-05,
      "loss": 0.6452,
      "step": 318300
    },
    {
      "epoch": 0.4346840604010809,
      "grad_norm": 2.375,
      "learning_rate": 6.195537867778384e-05,
      "loss": 0.5806,
      "step": 318350
    },
    {
      "epoch": 0.43475233180997064,
      "grad_norm": 2.234375,
      "learning_rate": 6.194475289696592e-05,
      "loss": 0.6492,
      "step": 318400
    },
    {
      "epoch": 0.4348206032188604,
      "grad_norm": 2.953125,
      "learning_rate": 6.193412654400683e-05,
      "loss": 0.8078,
      "step": 318450
    },
    {
      "epoch": 0.43488887462775017,
      "grad_norm": 2.765625,
      "learning_rate": 6.192349961941557e-05,
      "loss": 0.682,
      "step": 318500
    },
    {
      "epoch": 0.4349571460366399,
      "grad_norm": 2.890625,
      "learning_rate": 6.191287212370116e-05,
      "loss": 0.6712,
      "step": 318550
    },
    {
      "epoch": 0.43502541744552964,
      "grad_norm": 3.53125,
      "learning_rate": 6.190224405737262e-05,
      "loss": 0.7837,
      "step": 318600
    },
    {
      "epoch": 0.4350936888544194,
      "grad_norm": 3.421875,
      "learning_rate": 6.189161542093907e-05,
      "loss": 0.8858,
      "step": 318650
    },
    {
      "epoch": 0.43516196026330917,
      "grad_norm": 3.546875,
      "learning_rate": 6.188098621490958e-05,
      "loss": 0.7407,
      "step": 318700
    },
    {
      "epoch": 0.43523023167219893,
      "grad_norm": 3.765625,
      "learning_rate": 6.187035643979328e-05,
      "loss": 0.6626,
      "step": 318750
    },
    {
      "epoch": 0.4352985030810887,
      "grad_norm": 9.0625,
      "learning_rate": 6.185972609609933e-05,
      "loss": 0.651,
      "step": 318800
    },
    {
      "epoch": 0.43536677448997846,
      "grad_norm": 3.84375,
      "learning_rate": 6.184909518433693e-05,
      "loss": 0.7033,
      "step": 318850
    },
    {
      "epoch": 0.4354350458988682,
      "grad_norm": 13.5,
      "learning_rate": 6.183846370501525e-05,
      "loss": 0.6549,
      "step": 318900
    },
    {
      "epoch": 0.43550331730775793,
      "grad_norm": 2.921875,
      "learning_rate": 6.182783165864354e-05,
      "loss": 0.5543,
      "step": 318950
    },
    {
      "epoch": 0.4355715887166477,
      "grad_norm": 2.421875,
      "learning_rate": 6.181719904573109e-05,
      "loss": 0.6795,
      "step": 319000
    },
    {
      "epoch": 0.43563986012553746,
      "grad_norm": 3.75,
      "learning_rate": 6.180656586678717e-05,
      "loss": 0.8164,
      "step": 319050
    },
    {
      "epoch": 0.4357081315344272,
      "grad_norm": 2.53125,
      "learning_rate": 6.17959321223211e-05,
      "loss": 0.6546,
      "step": 319100
    },
    {
      "epoch": 0.435776402943317,
      "grad_norm": 3.953125,
      "learning_rate": 6.178529781284221e-05,
      "loss": 0.6515,
      "step": 319150
    },
    {
      "epoch": 0.43584467435220675,
      "grad_norm": 2.359375,
      "learning_rate": 6.17746629388599e-05,
      "loss": 0.6932,
      "step": 319200
    },
    {
      "epoch": 0.4359129457610965,
      "grad_norm": 8.625,
      "learning_rate": 6.176402750088357e-05,
      "loss": 0.6957,
      "step": 319250
    },
    {
      "epoch": 0.4359812171699862,
      "grad_norm": 8.375,
      "learning_rate": 6.175339149942263e-05,
      "loss": 0.6731,
      "step": 319300
    },
    {
      "epoch": 0.436049488578876,
      "grad_norm": 8.875,
      "learning_rate": 6.174275493498652e-05,
      "loss": 0.9491,
      "step": 319350
    },
    {
      "epoch": 0.43611775998776575,
      "grad_norm": 4.0,
      "learning_rate": 6.173211780808475e-05,
      "loss": 0.7208,
      "step": 319400
    },
    {
      "epoch": 0.4361860313966555,
      "grad_norm": 8.5,
      "learning_rate": 6.172148011922682e-05,
      "loss": 0.7587,
      "step": 319450
    },
    {
      "epoch": 0.4362543028055453,
      "grad_norm": 2.75,
      "learning_rate": 6.171084186892225e-05,
      "loss": 0.6211,
      "step": 319500
    },
    {
      "epoch": 0.43632257421443504,
      "grad_norm": 3.484375,
      "learning_rate": 6.170020305768061e-05,
      "loss": 0.6679,
      "step": 319550
    },
    {
      "epoch": 0.4363908456233248,
      "grad_norm": 3.53125,
      "learning_rate": 6.16895636860115e-05,
      "loss": 0.5968,
      "step": 319600
    },
    {
      "epoch": 0.43645911703221457,
      "grad_norm": 3.71875,
      "learning_rate": 6.167892375442452e-05,
      "loss": 0.6428,
      "step": 319650
    },
    {
      "epoch": 0.4365273884411043,
      "grad_norm": 3.5625,
      "learning_rate": 6.16682832634293e-05,
      "loss": 0.7239,
      "step": 319700
    },
    {
      "epoch": 0.43659565984999404,
      "grad_norm": 3.046875,
      "learning_rate": 6.165764221353552e-05,
      "loss": 0.7026,
      "step": 319750
    },
    {
      "epoch": 0.4366639312588838,
      "grad_norm": 3.078125,
      "learning_rate": 6.16470006052529e-05,
      "loss": 0.5893,
      "step": 319800
    },
    {
      "epoch": 0.4367322026677736,
      "grad_norm": 8.9375,
      "learning_rate": 6.163635843909113e-05,
      "loss": 0.8509,
      "step": 319850
    },
    {
      "epoch": 0.43680047407666334,
      "grad_norm": 2.4375,
      "learning_rate": 6.162571571555996e-05,
      "loss": 0.5586,
      "step": 319900
    },
    {
      "epoch": 0.4368687454855531,
      "grad_norm": 2.78125,
      "learning_rate": 6.161507243516919e-05,
      "loss": 0.6656,
      "step": 319950
    },
    {
      "epoch": 0.43693701689444286,
      "grad_norm": 3.96875,
      "learning_rate": 6.160442859842859e-05,
      "loss": 0.7586,
      "step": 320000
    },
    {
      "epoch": 0.4370052883033326,
      "grad_norm": 3.390625,
      "learning_rate": 6.159378420584801e-05,
      "loss": 0.6801,
      "step": 320050
    },
    {
      "epoch": 0.43707355971222234,
      "grad_norm": 7.8125,
      "learning_rate": 6.15831392579373e-05,
      "loss": 0.6995,
      "step": 320100
    },
    {
      "epoch": 0.4371418311211121,
      "grad_norm": 8.8125,
      "learning_rate": 6.157249375520636e-05,
      "loss": 0.7378,
      "step": 320150
    },
    {
      "epoch": 0.43721010253000187,
      "grad_norm": 3.25,
      "learning_rate": 6.156184769816504e-05,
      "loss": 0.7524,
      "step": 320200
    },
    {
      "epoch": 0.43727837393889163,
      "grad_norm": 2.34375,
      "learning_rate": 6.155120108732334e-05,
      "loss": 0.6457,
      "step": 320250
    },
    {
      "epoch": 0.4373466453477814,
      "grad_norm": 8.75,
      "learning_rate": 6.154055392319121e-05,
      "loss": 0.7159,
      "step": 320300
    },
    {
      "epoch": 0.43741491675667116,
      "grad_norm": 2.890625,
      "learning_rate": 6.152990620627861e-05,
      "loss": 0.7483,
      "step": 320350
    },
    {
      "epoch": 0.4374831881655609,
      "grad_norm": 3.234375,
      "learning_rate": 6.151925793709557e-05,
      "loss": 0.7186,
      "step": 320400
    },
    {
      "epoch": 0.43755145957445063,
      "grad_norm": 3.625,
      "learning_rate": 6.150860911615211e-05,
      "loss": 0.6124,
      "step": 320450
    },
    {
      "epoch": 0.4376197309833404,
      "grad_norm": 2.859375,
      "learning_rate": 6.149795974395834e-05,
      "loss": 0.6679,
      "step": 320500
    },
    {
      "epoch": 0.43768800239223016,
      "grad_norm": 2.203125,
      "learning_rate": 6.148730982102432e-05,
      "loss": 0.6079,
      "step": 320550
    },
    {
      "epoch": 0.4377562738011199,
      "grad_norm": 3.875,
      "learning_rate": 6.14766593478602e-05,
      "loss": 0.6364,
      "step": 320600
    },
    {
      "epoch": 0.4378245452100097,
      "grad_norm": 3.953125,
      "learning_rate": 6.146600832497608e-05,
      "loss": 0.8929,
      "step": 320650
    },
    {
      "epoch": 0.43789281661889945,
      "grad_norm": 2.421875,
      "learning_rate": 6.145535675288219e-05,
      "loss": 0.6647,
      "step": 320700
    },
    {
      "epoch": 0.4379610880277892,
      "grad_norm": 11.5,
      "learning_rate": 6.144470463208868e-05,
      "loss": 0.7304,
      "step": 320750
    },
    {
      "epoch": 0.438029359436679,
      "grad_norm": 3.359375,
      "learning_rate": 6.14340519631058e-05,
      "loss": 0.5177,
      "step": 320800
    },
    {
      "epoch": 0.4380976308455687,
      "grad_norm": 3.6875,
      "learning_rate": 6.142339874644381e-05,
      "loss": 0.9084,
      "step": 320850
    },
    {
      "epoch": 0.43816590225445845,
      "grad_norm": 3.734375,
      "learning_rate": 6.141274498261295e-05,
      "loss": 0.7896,
      "step": 320900
    },
    {
      "epoch": 0.4382341736633482,
      "grad_norm": 2.828125,
      "learning_rate": 6.140209067212357e-05,
      "loss": 0.7231,
      "step": 320950
    },
    {
      "epoch": 0.438302445072238,
      "grad_norm": 2.859375,
      "learning_rate": 6.139143581548596e-05,
      "loss": 0.6495,
      "step": 321000
    },
    {
      "epoch": 0.43837071648112774,
      "grad_norm": 2.859375,
      "learning_rate": 6.138078041321052e-05,
      "loss": 0.6097,
      "step": 321050
    },
    {
      "epoch": 0.4384389878900175,
      "grad_norm": 2.46875,
      "learning_rate": 6.13701244658076e-05,
      "loss": 0.6067,
      "step": 321100
    },
    {
      "epoch": 0.43850725929890727,
      "grad_norm": 2.9375,
      "learning_rate": 6.13594679737876e-05,
      "loss": 0.723,
      "step": 321150
    },
    {
      "epoch": 0.438575530707797,
      "grad_norm": 2.3125,
      "learning_rate": 6.1348810937661e-05,
      "loss": 0.5836,
      "step": 321200
    },
    {
      "epoch": 0.43864380211668674,
      "grad_norm": 3.265625,
      "learning_rate": 6.133815335793821e-05,
      "loss": 0.7258,
      "step": 321250
    },
    {
      "epoch": 0.4387120735255765,
      "grad_norm": 2.375,
      "learning_rate": 6.132749523512975e-05,
      "loss": 0.5329,
      "step": 321300
    },
    {
      "epoch": 0.43878034493446627,
      "grad_norm": 2.28125,
      "learning_rate": 6.131683656974611e-05,
      "loss": 0.6677,
      "step": 321350
    },
    {
      "epoch": 0.43884861634335603,
      "grad_norm": 3.25,
      "learning_rate": 6.130617736229786e-05,
      "loss": 0.7539,
      "step": 321400
    },
    {
      "epoch": 0.4389168877522458,
      "grad_norm": 2.625,
      "learning_rate": 6.129551761329556e-05,
      "loss": 0.6601,
      "step": 321450
    },
    {
      "epoch": 0.43898515916113556,
      "grad_norm": 3.046875,
      "learning_rate": 6.128485732324975e-05,
      "loss": 0.7079,
      "step": 321500
    },
    {
      "epoch": 0.4390534305700253,
      "grad_norm": 12.375,
      "learning_rate": 6.12741964926711e-05,
      "loss": 0.7158,
      "step": 321550
    },
    {
      "epoch": 0.43912170197891504,
      "grad_norm": 10.8125,
      "learning_rate": 6.126353512207023e-05,
      "loss": 0.7361,
      "step": 321600
    },
    {
      "epoch": 0.4391899733878048,
      "grad_norm": 3.6875,
      "learning_rate": 6.125287321195782e-05,
      "loss": 0.7268,
      "step": 321650
    },
    {
      "epoch": 0.43925824479669456,
      "grad_norm": 8.1875,
      "learning_rate": 6.124221076284458e-05,
      "loss": 0.7066,
      "step": 321700
    },
    {
      "epoch": 0.4393265162055843,
      "grad_norm": 2.578125,
      "learning_rate": 6.123154777524118e-05,
      "loss": 0.7867,
      "step": 321750
    },
    {
      "epoch": 0.4393947876144741,
      "grad_norm": 2.875,
      "learning_rate": 6.12208842496584e-05,
      "loss": 0.5605,
      "step": 321800
    },
    {
      "epoch": 0.43946305902336386,
      "grad_norm": 2.46875,
      "learning_rate": 6.121022018660703e-05,
      "loss": 0.5926,
      "step": 321850
    },
    {
      "epoch": 0.4395313304322536,
      "grad_norm": 3.5625,
      "learning_rate": 6.119955558659784e-05,
      "loss": 0.6054,
      "step": 321900
    },
    {
      "epoch": 0.43959960184114333,
      "grad_norm": 2.953125,
      "learning_rate": 6.118889045014164e-05,
      "loss": 0.6054,
      "step": 321950
    },
    {
      "epoch": 0.4396678732500331,
      "grad_norm": 2.53125,
      "learning_rate": 6.11782247777493e-05,
      "loss": 0.6355,
      "step": 322000
    },
    {
      "epoch": 0.43973614465892286,
      "grad_norm": 5.03125,
      "learning_rate": 6.116755856993169e-05,
      "loss": 0.7626,
      "step": 322050
    },
    {
      "epoch": 0.4398044160678126,
      "grad_norm": 2.796875,
      "learning_rate": 6.115689182719972e-05,
      "loss": 0.6846,
      "step": 322100
    },
    {
      "epoch": 0.4398726874767024,
      "grad_norm": 2.953125,
      "learning_rate": 6.114622455006431e-05,
      "loss": 0.5947,
      "step": 322150
    },
    {
      "epoch": 0.43994095888559215,
      "grad_norm": 3.96875,
      "learning_rate": 6.11355567390364e-05,
      "loss": 0.7267,
      "step": 322200
    },
    {
      "epoch": 0.4400092302944819,
      "grad_norm": 2.46875,
      "learning_rate": 6.112488839462698e-05,
      "loss": 0.7448,
      "step": 322250
    },
    {
      "epoch": 0.4400775017033717,
      "grad_norm": 3.515625,
      "learning_rate": 6.111421951734705e-05,
      "loss": 0.6919,
      "step": 322300
    },
    {
      "epoch": 0.4401457731122614,
      "grad_norm": 2.75,
      "learning_rate": 6.110355010770762e-05,
      "loss": 0.6582,
      "step": 322350
    },
    {
      "epoch": 0.44021404452115115,
      "grad_norm": 3.828125,
      "learning_rate": 6.109288016621979e-05,
      "loss": 0.6907,
      "step": 322400
    },
    {
      "epoch": 0.4402823159300409,
      "grad_norm": 3.28125,
      "learning_rate": 6.10822096933946e-05,
      "loss": 0.6448,
      "step": 322450
    },
    {
      "epoch": 0.4403505873389307,
      "grad_norm": 2.75,
      "learning_rate": 6.107153868974315e-05,
      "loss": 0.6124,
      "step": 322500
    },
    {
      "epoch": 0.44041885874782044,
      "grad_norm": 2.96875,
      "learning_rate": 6.106086715577659e-05,
      "loss": 0.5736,
      "step": 322550
    },
    {
      "epoch": 0.4404871301567102,
      "grad_norm": 2.421875,
      "learning_rate": 6.105019509200607e-05,
      "loss": 0.7486,
      "step": 322600
    },
    {
      "epoch": 0.44055540156559997,
      "grad_norm": 2.921875,
      "learning_rate": 6.103952249894276e-05,
      "loss": 0.821,
      "step": 322650
    },
    {
      "epoch": 0.44062367297448973,
      "grad_norm": 3.640625,
      "learning_rate": 6.10288493770979e-05,
      "loss": 0.739,
      "step": 322700
    },
    {
      "epoch": 0.44069194438337944,
      "grad_norm": 9.25,
      "learning_rate": 6.101817572698267e-05,
      "loss": 0.7329,
      "step": 322750
    },
    {
      "epoch": 0.4407602157922692,
      "grad_norm": 2.734375,
      "learning_rate": 6.100750154910836e-05,
      "loss": 0.5641,
      "step": 322800
    },
    {
      "epoch": 0.44082848720115897,
      "grad_norm": 2.96875,
      "learning_rate": 6.0996826843986254e-05,
      "loss": 0.7664,
      "step": 322850
    },
    {
      "epoch": 0.44089675861004873,
      "grad_norm": 7.78125,
      "learning_rate": 6.098615161212765e-05,
      "loss": 0.5665,
      "step": 322900
    },
    {
      "epoch": 0.4409650300189385,
      "grad_norm": 8.1875,
      "learning_rate": 6.097547585404387e-05,
      "loss": 0.78,
      "step": 322950
    },
    {
      "epoch": 0.44103330142782826,
      "grad_norm": 2.765625,
      "learning_rate": 6.09647995702463e-05,
      "loss": 0.7357,
      "step": 323000
    },
    {
      "epoch": 0.441101572836718,
      "grad_norm": 9.5,
      "learning_rate": 6.095412276124629e-05,
      "loss": 0.8328,
      "step": 323050
    },
    {
      "epoch": 0.44116984424560773,
      "grad_norm": 3.125,
      "learning_rate": 6.094344542755527e-05,
      "loss": 0.7634,
      "step": 323100
    },
    {
      "epoch": 0.4412381156544975,
      "grad_norm": 3.671875,
      "learning_rate": 6.093276756968466e-05,
      "loss": 0.7087,
      "step": 323150
    },
    {
      "epoch": 0.44130638706338726,
      "grad_norm": 2.375,
      "learning_rate": 6.0922089188145934e-05,
      "loss": 0.6345,
      "step": 323200
    },
    {
      "epoch": 0.441374658472277,
      "grad_norm": 2.578125,
      "learning_rate": 6.0911410283450565e-05,
      "loss": 0.6412,
      "step": 323250
    },
    {
      "epoch": 0.4414429298811668,
      "grad_norm": 2.90625,
      "learning_rate": 6.090073085611006e-05,
      "loss": 0.5299,
      "step": 323300
    },
    {
      "epoch": 0.44151120129005655,
      "grad_norm": 2.46875,
      "learning_rate": 6.089005090663596e-05,
      "loss": 0.6161,
      "step": 323350
    },
    {
      "epoch": 0.4415794726989463,
      "grad_norm": 3.65625,
      "learning_rate": 6.08793704355398e-05,
      "loss": 0.6487,
      "step": 323400
    },
    {
      "epoch": 0.4416477441078361,
      "grad_norm": 3.484375,
      "learning_rate": 6.08686894433332e-05,
      "loss": 0.6313,
      "step": 323450
    },
    {
      "epoch": 0.4417160155167258,
      "grad_norm": 3.671875,
      "learning_rate": 6.085800793052775e-05,
      "loss": 0.8359,
      "step": 323500
    },
    {
      "epoch": 0.44178428692561555,
      "grad_norm": 2.328125,
      "learning_rate": 6.0847325897635086e-05,
      "loss": 0.7774,
      "step": 323550
    },
    {
      "epoch": 0.4418525583345053,
      "grad_norm": 2.703125,
      "learning_rate": 6.0836643345166845e-05,
      "loss": 0.6347,
      "step": 323600
    },
    {
      "epoch": 0.4419208297433951,
      "grad_norm": 2.578125,
      "learning_rate": 6.082596027363473e-05,
      "loss": 0.6052,
      "step": 323650
    },
    {
      "epoch": 0.44198910115228485,
      "grad_norm": 7.3125,
      "learning_rate": 6.0815276683550474e-05,
      "loss": 0.649,
      "step": 323700
    },
    {
      "epoch": 0.4420573725611746,
      "grad_norm": 8.4375,
      "learning_rate": 6.0804592575425756e-05,
      "loss": 0.5352,
      "step": 323750
    },
    {
      "epoch": 0.4421256439700644,
      "grad_norm": 2.6875,
      "learning_rate": 6.079390794977238e-05,
      "loss": 0.6022,
      "step": 323800
    },
    {
      "epoch": 0.4421939153789541,
      "grad_norm": 2.40625,
      "learning_rate": 6.078322280710209e-05,
      "loss": 0.7605,
      "step": 323850
    },
    {
      "epoch": 0.44226218678784385,
      "grad_norm": 3.875,
      "learning_rate": 6.0772537147926724e-05,
      "loss": 0.7197,
      "step": 323900
    },
    {
      "epoch": 0.4423304581967336,
      "grad_norm": 7.125,
      "learning_rate": 6.0761850972758104e-05,
      "loss": 0.6246,
      "step": 323950
    },
    {
      "epoch": 0.4423987296056234,
      "grad_norm": 3.140625,
      "learning_rate": 6.0751164282108074e-05,
      "loss": 0.6709,
      "step": 324000
    },
    {
      "epoch": 0.44246700101451314,
      "grad_norm": 3.0625,
      "learning_rate": 6.0740477076488535e-05,
      "loss": 0.8352,
      "step": 324050
    },
    {
      "epoch": 0.4425352724234029,
      "grad_norm": 2.515625,
      "learning_rate": 6.072978935641138e-05,
      "loss": 0.819,
      "step": 324100
    },
    {
      "epoch": 0.44260354383229267,
      "grad_norm": 2.71875,
      "learning_rate": 6.0719101122388545e-05,
      "loss": 0.5561,
      "step": 324150
    },
    {
      "epoch": 0.44267181524118243,
      "grad_norm": 8.6875,
      "learning_rate": 6.0708412374932e-05,
      "loss": 0.6201,
      "step": 324200
    },
    {
      "epoch": 0.44274008665007214,
      "grad_norm": 2.140625,
      "learning_rate": 6.0697723114553694e-05,
      "loss": 0.713,
      "step": 324250
    },
    {
      "epoch": 0.4428083580589619,
      "grad_norm": 2.671875,
      "learning_rate": 6.0687033341765645e-05,
      "loss": 0.5559,
      "step": 324300
    },
    {
      "epoch": 0.44287662946785167,
      "grad_norm": 2.859375,
      "learning_rate": 6.0676343057079875e-05,
      "loss": 0.7751,
      "step": 324350
    },
    {
      "epoch": 0.44294490087674143,
      "grad_norm": 2.703125,
      "learning_rate": 6.0665652261008466e-05,
      "loss": 0.5023,
      "step": 324400
    },
    {
      "epoch": 0.4430131722856312,
      "grad_norm": 2.171875,
      "learning_rate": 6.0654960954063466e-05,
      "loss": 0.5006,
      "step": 324450
    },
    {
      "epoch": 0.44308144369452096,
      "grad_norm": 2.21875,
      "learning_rate": 6.064426913675699e-05,
      "loss": 0.5017,
      "step": 324500
    },
    {
      "epoch": 0.4431497151034107,
      "grad_norm": 2.65625,
      "learning_rate": 6.0633576809601155e-05,
      "loss": 0.6052,
      "step": 324550
    },
    {
      "epoch": 0.44321798651230043,
      "grad_norm": 3.765625,
      "learning_rate": 6.062288397310812e-05,
      "loss": 0.5541,
      "step": 324600
    },
    {
      "epoch": 0.4432862579211902,
      "grad_norm": 3.046875,
      "learning_rate": 6.0612190627790065e-05,
      "loss": 0.5778,
      "step": 324650
    },
    {
      "epoch": 0.44335452933007996,
      "grad_norm": 8.6875,
      "learning_rate": 6.060149677415918e-05,
      "loss": 0.6405,
      "step": 324700
    },
    {
      "epoch": 0.4434228007389697,
      "grad_norm": 8.0,
      "learning_rate": 6.05908024127277e-05,
      "loss": 0.7047,
      "step": 324750
    },
    {
      "epoch": 0.4434910721478595,
      "grad_norm": 3.625,
      "learning_rate": 6.058010754400787e-05,
      "loss": 0.6743,
      "step": 324800
    },
    {
      "epoch": 0.44355934355674925,
      "grad_norm": 3.5,
      "learning_rate": 6.056941216851195e-05,
      "loss": 0.6227,
      "step": 324850
    },
    {
      "epoch": 0.443627614965639,
      "grad_norm": 3.859375,
      "learning_rate": 6.055871628675225e-05,
      "loss": 0.628,
      "step": 324900
    },
    {
      "epoch": 0.4436958863745288,
      "grad_norm": 3.640625,
      "learning_rate": 6.0548019899241106e-05,
      "loss": 0.7314,
      "step": 324950
    },
    {
      "epoch": 0.4437641577834185,
      "grad_norm": 2.546875,
      "learning_rate": 6.053732300649083e-05,
      "loss": 0.6481,
      "step": 325000
    },
    {
      "epoch": 0.44383242919230825,
      "grad_norm": 9.1875,
      "learning_rate": 6.052662560901381e-05,
      "loss": 0.6233,
      "step": 325050
    },
    {
      "epoch": 0.443900700601198,
      "grad_norm": 3.90625,
      "learning_rate": 6.0515927707322454e-05,
      "loss": 0.6268,
      "step": 325100
    },
    {
      "epoch": 0.4439689720100878,
      "grad_norm": 3.703125,
      "learning_rate": 6.050522930192915e-05,
      "loss": 0.6028,
      "step": 325150
    },
    {
      "epoch": 0.44403724341897755,
      "grad_norm": 3.28125,
      "learning_rate": 6.049453039334635e-05,
      "loss": 0.6246,
      "step": 325200
    },
    {
      "epoch": 0.4441055148278673,
      "grad_norm": 2.96875,
      "learning_rate": 6.048383098208655e-05,
      "loss": 0.8007,
      "step": 325250
    },
    {
      "epoch": 0.4441737862367571,
      "grad_norm": 2.90625,
      "learning_rate": 6.0473131068662205e-05,
      "loss": 0.564,
      "step": 325300
    },
    {
      "epoch": 0.44424205764564684,
      "grad_norm": 2.90625,
      "learning_rate": 6.0462430653585856e-05,
      "loss": 0.6488,
      "step": 325350
    },
    {
      "epoch": 0.44431032905453655,
      "grad_norm": 3.453125,
      "learning_rate": 6.045172973737e-05,
      "loss": 0.72,
      "step": 325400
    },
    {
      "epoch": 0.4443786004634263,
      "grad_norm": 2.703125,
      "learning_rate": 6.044102832052725e-05,
      "loss": 0.6754,
      "step": 325450
    },
    {
      "epoch": 0.4444468718723161,
      "grad_norm": 8.6875,
      "learning_rate": 6.043032640357017e-05,
      "loss": 0.661,
      "step": 325500
    },
    {
      "epoch": 0.44451514328120584,
      "grad_norm": 7.9375,
      "learning_rate": 6.0419623987011365e-05,
      "loss": 0.5877,
      "step": 325550
    },
    {
      "epoch": 0.4445834146900956,
      "grad_norm": 2.953125,
      "learning_rate": 6.0408921071363476e-05,
      "loss": 0.8231,
      "step": 325600
    },
    {
      "epoch": 0.44465168609898537,
      "grad_norm": 4.03125,
      "learning_rate": 6.039821765713916e-05,
      "loss": 0.6484,
      "step": 325650
    },
    {
      "epoch": 0.44471995750787513,
      "grad_norm": 3.515625,
      "learning_rate": 6.038751374485109e-05,
      "loss": 0.601,
      "step": 325700
    },
    {
      "epoch": 0.44478822891676484,
      "grad_norm": 7.5,
      "learning_rate": 6.0376809335012e-05,
      "loss": 0.8675,
      "step": 325750
    },
    {
      "epoch": 0.4448565003256546,
      "grad_norm": 2.890625,
      "learning_rate": 6.0366104428134594e-05,
      "loss": 0.573,
      "step": 325800
    },
    {
      "epoch": 0.44492477173454437,
      "grad_norm": 3.09375,
      "learning_rate": 6.035539902473164e-05,
      "loss": 0.5941,
      "step": 325850
    },
    {
      "epoch": 0.44499304314343413,
      "grad_norm": 3.109375,
      "learning_rate": 6.03446931253159e-05,
      "loss": 0.5885,
      "step": 325900
    },
    {
      "epoch": 0.4450613145523239,
      "grad_norm": 3.96875,
      "learning_rate": 6.033398673040018e-05,
      "loss": 0.6158,
      "step": 325950
    },
    {
      "epoch": 0.44512958596121366,
      "grad_norm": 2.375,
      "learning_rate": 6.032327984049734e-05,
      "loss": 0.5994,
      "step": 326000
    },
    {
      "epoch": 0.4451978573701034,
      "grad_norm": 7.8125,
      "learning_rate": 6.0312572456120174e-05,
      "loss": 0.8132,
      "step": 326050
    },
    {
      "epoch": 0.4452661287789932,
      "grad_norm": 8.6875,
      "learning_rate": 6.0301864577781584e-05,
      "loss": 0.8299,
      "step": 326100
    },
    {
      "epoch": 0.4453344001878829,
      "grad_norm": 2.671875,
      "learning_rate": 6.029115620599446e-05,
      "loss": 0.6358,
      "step": 326150
    },
    {
      "epoch": 0.44540267159677266,
      "grad_norm": 2.34375,
      "learning_rate": 6.028044734127173e-05,
      "loss": 0.6747,
      "step": 326200
    },
    {
      "epoch": 0.4454709430056624,
      "grad_norm": 3.6875,
      "learning_rate": 6.026973798412634e-05,
      "loss": 0.5814,
      "step": 326250
    },
    {
      "epoch": 0.4455392144145522,
      "grad_norm": 8.625,
      "learning_rate": 6.0259028135071225e-05,
      "loss": 0.749,
      "step": 326300
    },
    {
      "epoch": 0.44560748582344195,
      "grad_norm": 11.5,
      "learning_rate": 6.024831779461941e-05,
      "loss": 0.7062,
      "step": 326350
    },
    {
      "epoch": 0.4456757572323317,
      "grad_norm": 8.0625,
      "learning_rate": 6.02376069632839e-05,
      "loss": 0.7422,
      "step": 326400
    },
    {
      "epoch": 0.4457440286412215,
      "grad_norm": 3.78125,
      "learning_rate": 6.022689564157773e-05,
      "loss": 0.728,
      "step": 326450
    },
    {
      "epoch": 0.4458123000501112,
      "grad_norm": 3.390625,
      "learning_rate": 6.021618383001396e-05,
      "loss": 0.6284,
      "step": 326500
    },
    {
      "epoch": 0.44588057145900095,
      "grad_norm": 8.625,
      "learning_rate": 6.020547152910568e-05,
      "loss": 0.7861,
      "step": 326550
    },
    {
      "epoch": 0.4459488428678907,
      "grad_norm": 2.390625,
      "learning_rate": 6.0194758739365986e-05,
      "loss": 0.7399,
      "step": 326600
    },
    {
      "epoch": 0.4460171142767805,
      "grad_norm": 2.84375,
      "learning_rate": 6.018404546130802e-05,
      "loss": 0.8313,
      "step": 326650
    },
    {
      "epoch": 0.44608538568567024,
      "grad_norm": 4.21875,
      "learning_rate": 6.0173331695444936e-05,
      "loss": 0.7706,
      "step": 326700
    },
    {
      "epoch": 0.44615365709456,
      "grad_norm": 3.609375,
      "learning_rate": 6.0162617442289914e-05,
      "loss": 0.5808,
      "step": 326750
    },
    {
      "epoch": 0.44622192850344977,
      "grad_norm": 3.078125,
      "learning_rate": 6.015190270235616e-05,
      "loss": 0.6455,
      "step": 326800
    },
    {
      "epoch": 0.44629019991233954,
      "grad_norm": 3.0625,
      "learning_rate": 6.014118747615687e-05,
      "loss": 0.7824,
      "step": 326850
    },
    {
      "epoch": 0.44635847132122924,
      "grad_norm": 2.765625,
      "learning_rate": 6.013047176420533e-05,
      "loss": 0.7171,
      "step": 326900
    },
    {
      "epoch": 0.446426742730119,
      "grad_norm": 2.859375,
      "learning_rate": 6.011975556701477e-05,
      "loss": 0.5327,
      "step": 326950
    },
    {
      "epoch": 0.4464950141390088,
      "grad_norm": 3.046875,
      "learning_rate": 6.010903888509852e-05,
      "loss": 0.5788,
      "step": 327000
    },
    {
      "epoch": 0.44656328554789854,
      "grad_norm": 2.421875,
      "learning_rate": 6.0098321718969905e-05,
      "loss": 0.7533,
      "step": 327050
    },
    {
      "epoch": 0.4466315569567883,
      "grad_norm": 2.53125,
      "learning_rate": 6.008760406914224e-05,
      "loss": 0.6691,
      "step": 327100
    },
    {
      "epoch": 0.44669982836567806,
      "grad_norm": 2.78125,
      "learning_rate": 6.0076885936128894e-05,
      "loss": 0.5219,
      "step": 327150
    },
    {
      "epoch": 0.44676809977456783,
      "grad_norm": 3.453125,
      "learning_rate": 6.0066167320443244e-05,
      "loss": 0.7017,
      "step": 327200
    },
    {
      "epoch": 0.44683637118345754,
      "grad_norm": 3.03125,
      "learning_rate": 6.005544822259872e-05,
      "loss": 0.5266,
      "step": 327250
    },
    {
      "epoch": 0.4469046425923473,
      "grad_norm": 2.890625,
      "learning_rate": 6.0044728643108764e-05,
      "loss": 0.7003,
      "step": 327300
    },
    {
      "epoch": 0.44697291400123706,
      "grad_norm": 3.1875,
      "learning_rate": 6.00340085824868e-05,
      "loss": 0.7455,
      "step": 327350
    },
    {
      "epoch": 0.44704118541012683,
      "grad_norm": 2.5625,
      "learning_rate": 6.002328804124635e-05,
      "loss": 0.5855,
      "step": 327400
    },
    {
      "epoch": 0.4471094568190166,
      "grad_norm": 3.578125,
      "learning_rate": 6.0012567019900855e-05,
      "loss": 0.7899,
      "step": 327450
    },
    {
      "epoch": 0.44717772822790636,
      "grad_norm": 3.1875,
      "learning_rate": 6.000184551896391e-05,
      "loss": 0.6409,
      "step": 327500
    },
    {
      "epoch": 0.4472459996367961,
      "grad_norm": 3.03125,
      "learning_rate": 5.9991123538949024e-05,
      "loss": 0.7199,
      "step": 327550
    },
    {
      "epoch": 0.4473142710456859,
      "grad_norm": 4.28125,
      "learning_rate": 5.9980401080369775e-05,
      "loss": 0.7707,
      "step": 327600
    },
    {
      "epoch": 0.4473825424545756,
      "grad_norm": 3.109375,
      "learning_rate": 5.996967814373976e-05,
      "loss": 0.6211,
      "step": 327650
    },
    {
      "epoch": 0.44745081386346536,
      "grad_norm": 3.890625,
      "learning_rate": 5.995895472957258e-05,
      "loss": 0.746,
      "step": 327700
    },
    {
      "epoch": 0.4475190852723551,
      "grad_norm": 3.59375,
      "learning_rate": 5.99482308383819e-05,
      "loss": 0.7147,
      "step": 327750
    },
    {
      "epoch": 0.4475873566812449,
      "grad_norm": 2.375,
      "learning_rate": 5.993750647068139e-05,
      "loss": 0.516,
      "step": 327800
    },
    {
      "epoch": 0.44765562809013465,
      "grad_norm": 3.0,
      "learning_rate": 5.992678162698471e-05,
      "loss": 0.5946,
      "step": 327850
    },
    {
      "epoch": 0.4477238994990244,
      "grad_norm": 8.125,
      "learning_rate": 5.9916056307805566e-05,
      "loss": 0.7649,
      "step": 327900
    },
    {
      "epoch": 0.4477921709079142,
      "grad_norm": 3.640625,
      "learning_rate": 5.990533051365772e-05,
      "loss": 0.6983,
      "step": 327950
    },
    {
      "epoch": 0.44786044231680394,
      "grad_norm": 2.828125,
      "learning_rate": 5.98946042450549e-05,
      "loss": 0.644,
      "step": 328000
    },
    {
      "epoch": 0.44792871372569365,
      "grad_norm": 7.875,
      "learning_rate": 5.9883877502510897e-05,
      "loss": 0.7306,
      "step": 328050
    },
    {
      "epoch": 0.4479969851345834,
      "grad_norm": 3.5625,
      "learning_rate": 5.98731502865395e-05,
      "loss": 0.6687,
      "step": 328100
    },
    {
      "epoch": 0.4480652565434732,
      "grad_norm": 2.59375,
      "learning_rate": 5.986242259765453e-05,
      "loss": 0.7538,
      "step": 328150
    },
    {
      "epoch": 0.44813352795236294,
      "grad_norm": 3.109375,
      "learning_rate": 5.985169443636985e-05,
      "loss": 0.597,
      "step": 328200
    },
    {
      "epoch": 0.4482017993612527,
      "grad_norm": 8.9375,
      "learning_rate": 5.9840965803199314e-05,
      "loss": 0.6057,
      "step": 328250
    },
    {
      "epoch": 0.44827007077014247,
      "grad_norm": 22.5,
      "learning_rate": 5.983023669865682e-05,
      "loss": 0.9038,
      "step": 328300
    },
    {
      "epoch": 0.44833834217903223,
      "grad_norm": 3.015625,
      "learning_rate": 5.981950712325627e-05,
      "loss": 0.6228,
      "step": 328350
    },
    {
      "epoch": 0.44840661358792194,
      "grad_norm": 2.421875,
      "learning_rate": 5.9808777077511605e-05,
      "loss": 0.8439,
      "step": 328400
    },
    {
      "epoch": 0.4484748849968117,
      "grad_norm": 2.328125,
      "learning_rate": 5.9798046561936794e-05,
      "loss": 0.6531,
      "step": 328450
    },
    {
      "epoch": 0.44854315640570147,
      "grad_norm": 3.328125,
      "learning_rate": 5.978731557704578e-05,
      "loss": 0.6018,
      "step": 328500
    },
    {
      "epoch": 0.44861142781459123,
      "grad_norm": 8.1875,
      "learning_rate": 5.977658412335262e-05,
      "loss": 0.848,
      "step": 328550
    },
    {
      "epoch": 0.448679699223481,
      "grad_norm": 8.9375,
      "learning_rate": 5.97658522013713e-05,
      "loss": 0.6892,
      "step": 328600
    },
    {
      "epoch": 0.44874797063237076,
      "grad_norm": 2.65625,
      "learning_rate": 5.9755119811615876e-05,
      "loss": 0.5867,
      "step": 328650
    },
    {
      "epoch": 0.4488162420412605,
      "grad_norm": 3.765625,
      "learning_rate": 5.974438695460043e-05,
      "loss": 0.7276,
      "step": 328700
    },
    {
      "epoch": 0.4488845134501503,
      "grad_norm": 2.421875,
      "learning_rate": 5.973365363083903e-05,
      "loss": 0.6955,
      "step": 328750
    },
    {
      "epoch": 0.44895278485904,
      "grad_norm": 8.125,
      "learning_rate": 5.9722919840845814e-05,
      "loss": 0.7108,
      "step": 328800
    },
    {
      "epoch": 0.44902105626792976,
      "grad_norm": 3.140625,
      "learning_rate": 5.971218558513494e-05,
      "loss": 0.6982,
      "step": 328850
    },
    {
      "epoch": 0.4490893276768195,
      "grad_norm": 2.890625,
      "learning_rate": 5.970145086422051e-05,
      "loss": 0.7262,
      "step": 328900
    },
    {
      "epoch": 0.4491575990857093,
      "grad_norm": 2.921875,
      "learning_rate": 5.969071567861676e-05,
      "loss": 0.7022,
      "step": 328950
    },
    {
      "epoch": 0.44922587049459906,
      "grad_norm": 8.8125,
      "learning_rate": 5.9679980028837836e-05,
      "loss": 0.8612,
      "step": 329000
    },
    {
      "epoch": 0.4492941419034888,
      "grad_norm": 2.625,
      "learning_rate": 5.966924391539802e-05,
      "loss": 0.6625,
      "step": 329050
    },
    {
      "epoch": 0.4493624133123786,
      "grad_norm": 3.1875,
      "learning_rate": 5.9658507338811557e-05,
      "loss": 0.5661,
      "step": 329100
    },
    {
      "epoch": 0.4494306847212683,
      "grad_norm": 2.578125,
      "learning_rate": 5.964777029959267e-05,
      "loss": 0.7263,
      "step": 329150
    },
    {
      "epoch": 0.44949895613015806,
      "grad_norm": 2.546875,
      "learning_rate": 5.963703279825571e-05,
      "loss": 0.6615,
      "step": 329200
    },
    {
      "epoch": 0.4495672275390478,
      "grad_norm": 2.5,
      "learning_rate": 5.962629483531493e-05,
      "loss": 0.6571,
      "step": 329250
    },
    {
      "epoch": 0.4496354989479376,
      "grad_norm": 3.28125,
      "learning_rate": 5.961555641128472e-05,
      "loss": 0.7245,
      "step": 329300
    },
    {
      "epoch": 0.44970377035682735,
      "grad_norm": 2.84375,
      "learning_rate": 5.960481752667944e-05,
      "loss": 0.5484,
      "step": 329350
    },
    {
      "epoch": 0.4497720417657171,
      "grad_norm": 2.96875,
      "learning_rate": 5.959407818201343e-05,
      "loss": 0.5865,
      "step": 329400
    },
    {
      "epoch": 0.4498403131746069,
      "grad_norm": 3.140625,
      "learning_rate": 5.958333837780112e-05,
      "loss": 0.6654,
      "step": 329450
    },
    {
      "epoch": 0.44990858458349664,
      "grad_norm": 3.078125,
      "learning_rate": 5.9572598114556924e-05,
      "loss": 0.6508,
      "step": 329500
    },
    {
      "epoch": 0.44997685599238635,
      "grad_norm": 9.3125,
      "learning_rate": 5.956185739279529e-05,
      "loss": 0.6203,
      "step": 329550
    },
    {
      "epoch": 0.4500451274012761,
      "grad_norm": 3.640625,
      "learning_rate": 5.955111621303072e-05,
      "loss": 0.7285,
      "step": 329600
    },
    {
      "epoch": 0.4501133988101659,
      "grad_norm": 7.875,
      "learning_rate": 5.954037457577766e-05,
      "loss": 0.6148,
      "step": 329650
    },
    {
      "epoch": 0.45018167021905564,
      "grad_norm": 3.796875,
      "learning_rate": 5.9529632481550646e-05,
      "loss": 0.7463,
      "step": 329700
    },
    {
      "epoch": 0.4502499416279454,
      "grad_norm": 3.640625,
      "learning_rate": 5.9518889930864205e-05,
      "loss": 0.6233,
      "step": 329750
    },
    {
      "epoch": 0.45031821303683517,
      "grad_norm": 8.25,
      "learning_rate": 5.95081469242329e-05,
      "loss": 0.6691,
      "step": 329800
    },
    {
      "epoch": 0.45038648444572493,
      "grad_norm": 2.359375,
      "learning_rate": 5.949740346217132e-05,
      "loss": 0.6897,
      "step": 329850
    },
    {
      "epoch": 0.4504547558546147,
      "grad_norm": 3.296875,
      "learning_rate": 5.9486659545194046e-05,
      "loss": 0.7128,
      "step": 329900
    },
    {
      "epoch": 0.4505230272635044,
      "grad_norm": 2.953125,
      "learning_rate": 5.94759151738157e-05,
      "loss": 0.691,
      "step": 329950
    },
    {
      "epoch": 0.45059129867239417,
      "grad_norm": 2.4375,
      "learning_rate": 5.9465170348550947e-05,
      "loss": 0.5667,
      "step": 330000
    },
    {
      "epoch": 0.45065957008128393,
      "grad_norm": 8.0625,
      "learning_rate": 5.9454425069914424e-05,
      "loss": 0.8003,
      "step": 330050
    },
    {
      "epoch": 0.4507278414901737,
      "grad_norm": 2.578125,
      "learning_rate": 5.944367933842086e-05,
      "loss": 0.5788,
      "step": 330100
    },
    {
      "epoch": 0.45079611289906346,
      "grad_norm": 3.375,
      "learning_rate": 5.943293315458491e-05,
      "loss": 0.6698,
      "step": 330150
    },
    {
      "epoch": 0.4508643843079532,
      "grad_norm": 3.40625,
      "learning_rate": 5.9422186518921355e-05,
      "loss": 0.6552,
      "step": 330200
    },
    {
      "epoch": 0.450932655716843,
      "grad_norm": 2.71875,
      "learning_rate": 5.941143943194492e-05,
      "loss": 0.7364,
      "step": 330250
    },
    {
      "epoch": 0.4510009271257327,
      "grad_norm": 2.375,
      "learning_rate": 5.940069189417037e-05,
      "loss": 0.6207,
      "step": 330300
    },
    {
      "epoch": 0.45106919853462246,
      "grad_norm": 8.0625,
      "learning_rate": 5.9389943906112536e-05,
      "loss": 0.6031,
      "step": 330350
    },
    {
      "epoch": 0.4511374699435122,
      "grad_norm": 3.5,
      "learning_rate": 5.9379195468286206e-05,
      "loss": 0.8488,
      "step": 330400
    },
    {
      "epoch": 0.451205741352402,
      "grad_norm": 3.65625,
      "learning_rate": 5.936844658120623e-05,
      "loss": 0.7458,
      "step": 330450
    },
    {
      "epoch": 0.45127401276129175,
      "grad_norm": 2.6875,
      "learning_rate": 5.935769724538748e-05,
      "loss": 0.6104,
      "step": 330500
    },
    {
      "epoch": 0.4513422841701815,
      "grad_norm": 8.0625,
      "learning_rate": 5.934694746134479e-05,
      "loss": 0.7599,
      "step": 330550
    },
    {
      "epoch": 0.4514105555790713,
      "grad_norm": 3.78125,
      "learning_rate": 5.933619722959313e-05,
      "loss": 0.6106,
      "step": 330600
    },
    {
      "epoch": 0.45147882698796105,
      "grad_norm": 2.546875,
      "learning_rate": 5.932544655064739e-05,
      "loss": 0.6172,
      "step": 330650
    },
    {
      "epoch": 0.45154709839685075,
      "grad_norm": 2.53125,
      "learning_rate": 5.9314695425022515e-05,
      "loss": 0.612,
      "step": 330700
    },
    {
      "epoch": 0.4516153698057405,
      "grad_norm": 3.265625,
      "learning_rate": 5.9303943853233477e-05,
      "loss": 0.5307,
      "step": 330750
    },
    {
      "epoch": 0.4516836412146303,
      "grad_norm": 2.375,
      "learning_rate": 5.929319183579526e-05,
      "loss": 0.6786,
      "step": 330800
    },
    {
      "epoch": 0.45175191262352005,
      "grad_norm": 8.4375,
      "learning_rate": 5.928243937322289e-05,
      "loss": 0.7613,
      "step": 330850
    },
    {
      "epoch": 0.4518201840324098,
      "grad_norm": 2.25,
      "learning_rate": 5.927168646603139e-05,
      "loss": 0.8009,
      "step": 330900
    },
    {
      "epoch": 0.4518884554412996,
      "grad_norm": 2.859375,
      "learning_rate": 5.9260933114735794e-05,
      "loss": 0.6831,
      "step": 330950
    },
    {
      "epoch": 0.45195672685018934,
      "grad_norm": 3.4375,
      "learning_rate": 5.9250179319851215e-05,
      "loss": 0.6856,
      "step": 331000
    },
    {
      "epoch": 0.45202499825907905,
      "grad_norm": 3.765625,
      "learning_rate": 5.92394250818927e-05,
      "loss": 0.6299,
      "step": 331050
    },
    {
      "epoch": 0.4520932696679688,
      "grad_norm": 2.59375,
      "learning_rate": 5.922867040137541e-05,
      "loss": 0.6958,
      "step": 331100
    },
    {
      "epoch": 0.4521615410768586,
      "grad_norm": 2.875,
      "learning_rate": 5.9217915278814476e-05,
      "loss": 0.6721,
      "step": 331150
    },
    {
      "epoch": 0.45222981248574834,
      "grad_norm": 3.671875,
      "learning_rate": 5.9207159714725024e-05,
      "loss": 0.6588,
      "step": 331200
    },
    {
      "epoch": 0.4522980838946381,
      "grad_norm": 3.75,
      "learning_rate": 5.9196403709622285e-05,
      "loss": 0.7082,
      "step": 331250
    },
    {
      "epoch": 0.45236635530352787,
      "grad_norm": 2.953125,
      "learning_rate": 5.91856472640214e-05,
      "loss": 0.6865,
      "step": 331300
    },
    {
      "epoch": 0.45243462671241763,
      "grad_norm": 3.109375,
      "learning_rate": 5.917489037843764e-05,
      "loss": 0.551,
      "step": 331350
    },
    {
      "epoch": 0.4525028981213074,
      "grad_norm": 2.703125,
      "learning_rate": 5.916413305338624e-05,
      "loss": 0.7541,
      "step": 331400
    },
    {
      "epoch": 0.4525711695301971,
      "grad_norm": 3.03125,
      "learning_rate": 5.915337528938245e-05,
      "loss": 0.6478,
      "step": 331450
    },
    {
      "epoch": 0.45263944093908687,
      "grad_norm": 2.890625,
      "learning_rate": 5.9142617086941554e-05,
      "loss": 0.6428,
      "step": 331500
    },
    {
      "epoch": 0.45270771234797663,
      "grad_norm": 2.875,
      "learning_rate": 5.913185844657889e-05,
      "loss": 0.6414,
      "step": 331550
    },
    {
      "epoch": 0.4527759837568664,
      "grad_norm": 7.59375,
      "learning_rate": 5.912109936880974e-05,
      "loss": 0.7506,
      "step": 331600
    },
    {
      "epoch": 0.45284425516575616,
      "grad_norm": 2.90625,
      "learning_rate": 5.911033985414949e-05,
      "loss": 0.571,
      "step": 331650
    },
    {
      "epoch": 0.4529125265746459,
      "grad_norm": 4.0,
      "learning_rate": 5.909957990311349e-05,
      "loss": 0.8566,
      "step": 331700
    },
    {
      "epoch": 0.4529807979835357,
      "grad_norm": 2.453125,
      "learning_rate": 5.908881951621713e-05,
      "loss": 0.8798,
      "step": 331750
    },
    {
      "epoch": 0.4530490693924254,
      "grad_norm": 3.09375,
      "learning_rate": 5.9078058693975847e-05,
      "loss": 0.652,
      "step": 331800
    },
    {
      "epoch": 0.45311734080131516,
      "grad_norm": 2.484375,
      "learning_rate": 5.906729743690502e-05,
      "loss": 0.771,
      "step": 331850
    },
    {
      "epoch": 0.4531856122102049,
      "grad_norm": 8.4375,
      "learning_rate": 5.905653574552017e-05,
      "loss": 0.6813,
      "step": 331900
    },
    {
      "epoch": 0.4532538836190947,
      "grad_norm": 3.328125,
      "learning_rate": 5.904577362033672e-05,
      "loss": 0.6732,
      "step": 331950
    },
    {
      "epoch": 0.45332215502798445,
      "grad_norm": 9.3125,
      "learning_rate": 5.903501106187017e-05,
      "loss": 0.7453,
      "step": 332000
    },
    {
      "epoch": 0.4533904264368742,
      "grad_norm": 2.1875,
      "learning_rate": 5.902424807063607e-05,
      "loss": 0.6051,
      "step": 332050
    },
    {
      "epoch": 0.453458697845764,
      "grad_norm": 2.53125,
      "learning_rate": 5.90134846471499e-05,
      "loss": 0.7858,
      "step": 332100
    },
    {
      "epoch": 0.45352696925465374,
      "grad_norm": 3.578125,
      "learning_rate": 5.900272079192728e-05,
      "loss": 0.682,
      "step": 332150
    },
    {
      "epoch": 0.45359524066354345,
      "grad_norm": 2.4375,
      "learning_rate": 5.899195650548374e-05,
      "loss": 0.7242,
      "step": 332200
    },
    {
      "epoch": 0.4536635120724332,
      "grad_norm": 9.5625,
      "learning_rate": 5.898119178833489e-05,
      "loss": 0.5195,
      "step": 332250
    },
    {
      "epoch": 0.453731783481323,
      "grad_norm": 2.765625,
      "learning_rate": 5.8970426640996355e-05,
      "loss": 0.694,
      "step": 332300
    },
    {
      "epoch": 0.45380005489021275,
      "grad_norm": 3.9375,
      "learning_rate": 5.895966106398376e-05,
      "loss": 0.7006,
      "step": 332350
    },
    {
      "epoch": 0.4538683262991025,
      "grad_norm": 2.984375,
      "learning_rate": 5.8948895057812804e-05,
      "loss": 0.6581,
      "step": 332400
    },
    {
      "epoch": 0.4539365977079923,
      "grad_norm": 2.578125,
      "learning_rate": 5.893812862299912e-05,
      "loss": 0.6017,
      "step": 332450
    },
    {
      "epoch": 0.45400486911688204,
      "grad_norm": 3.109375,
      "learning_rate": 5.892736176005844e-05,
      "loss": 0.5672,
      "step": 332500
    },
    {
      "epoch": 0.4540731405257718,
      "grad_norm": 3.609375,
      "learning_rate": 5.891659446950647e-05,
      "loss": 0.6931,
      "step": 332550
    },
    {
      "epoch": 0.4541414119346615,
      "grad_norm": 2.859375,
      "learning_rate": 5.890582675185895e-05,
      "loss": 0.7546,
      "step": 332600
    },
    {
      "epoch": 0.4542096833435513,
      "grad_norm": 7.96875,
      "learning_rate": 5.889505860763165e-05,
      "loss": 0.6795,
      "step": 332650
    },
    {
      "epoch": 0.45427795475244104,
      "grad_norm": 8.875,
      "learning_rate": 5.8884290037340364e-05,
      "loss": 0.7781,
      "step": 332700
    },
    {
      "epoch": 0.4543462261613308,
      "grad_norm": 2.5,
      "learning_rate": 5.8873521041500876e-05,
      "loss": 0.858,
      "step": 332750
    },
    {
      "epoch": 0.45441449757022057,
      "grad_norm": 2.75,
      "learning_rate": 5.886275162062902e-05,
      "loss": 0.6761,
      "step": 332800
    },
    {
      "epoch": 0.45448276897911033,
      "grad_norm": 10.75,
      "learning_rate": 5.8851981775240616e-05,
      "loss": 0.7882,
      "step": 332850
    },
    {
      "epoch": 0.4545510403880001,
      "grad_norm": 2.578125,
      "learning_rate": 5.884121150585157e-05,
      "loss": 0.8602,
      "step": 332900
    },
    {
      "epoch": 0.4546193117968898,
      "grad_norm": 3.40625,
      "learning_rate": 5.883044081297775e-05,
      "loss": 0.5524,
      "step": 332950
    },
    {
      "epoch": 0.45468758320577957,
      "grad_norm": 9.6875,
      "learning_rate": 5.8819669697135035e-05,
      "loss": 0.687,
      "step": 333000
    },
    {
      "epoch": 0.45475585461466933,
      "grad_norm": 3.296875,
      "learning_rate": 5.88088981588394e-05,
      "loss": 0.5777,
      "step": 333050
    },
    {
      "epoch": 0.4548241260235591,
      "grad_norm": 3.40625,
      "learning_rate": 5.879812619860674e-05,
      "loss": 0.7501,
      "step": 333100
    },
    {
      "epoch": 0.45489239743244886,
      "grad_norm": 9.25,
      "learning_rate": 5.878735381695303e-05,
      "loss": 0.8103,
      "step": 333150
    },
    {
      "epoch": 0.4549606688413386,
      "grad_norm": 2.78125,
      "learning_rate": 5.877658101439429e-05,
      "loss": 0.6196,
      "step": 333200
    },
    {
      "epoch": 0.4550289402502284,
      "grad_norm": 8.1875,
      "learning_rate": 5.87658077914465e-05,
      "loss": 0.7625,
      "step": 333250
    },
    {
      "epoch": 0.45509721165911815,
      "grad_norm": 2.609375,
      "learning_rate": 5.8755034148625695e-05,
      "loss": 0.6543,
      "step": 333300
    },
    {
      "epoch": 0.45516548306800786,
      "grad_norm": 2.359375,
      "learning_rate": 5.874426008644791e-05,
      "loss": 0.6502,
      "step": 333350
    },
    {
      "epoch": 0.4552337544768976,
      "grad_norm": 2.734375,
      "learning_rate": 5.8733485605429215e-05,
      "loss": 0.6784,
      "step": 333400
    },
    {
      "epoch": 0.4553020258857874,
      "grad_norm": 8.5625,
      "learning_rate": 5.8722710706085716e-05,
      "loss": 0.7272,
      "step": 333450
    },
    {
      "epoch": 0.45537029729467715,
      "grad_norm": 3.328125,
      "learning_rate": 5.871193538893348e-05,
      "loss": 0.7409,
      "step": 333500
    },
    {
      "epoch": 0.4554385687035669,
      "grad_norm": 3.671875,
      "learning_rate": 5.870115965448867e-05,
      "loss": 0.7248,
      "step": 333550
    },
    {
      "epoch": 0.4555068401124567,
      "grad_norm": 2.71875,
      "learning_rate": 5.869038350326742e-05,
      "loss": 0.8881,
      "step": 333600
    },
    {
      "epoch": 0.45557511152134644,
      "grad_norm": 2.40625,
      "learning_rate": 5.867960693578588e-05,
      "loss": 0.5758,
      "step": 333650
    },
    {
      "epoch": 0.45564338293023615,
      "grad_norm": 3.265625,
      "learning_rate": 5.8668829952560265e-05,
      "loss": 0.6665,
      "step": 333700
    },
    {
      "epoch": 0.4557116543391259,
      "grad_norm": 2.265625,
      "learning_rate": 5.865805255410677e-05,
      "loss": 0.5428,
      "step": 333750
    },
    {
      "epoch": 0.4557799257480157,
      "grad_norm": 2.375,
      "learning_rate": 5.86472747409416e-05,
      "loss": 0.5494,
      "step": 333800
    },
    {
      "epoch": 0.45584819715690544,
      "grad_norm": 3.21875,
      "learning_rate": 5.863649651358105e-05,
      "loss": 0.6021,
      "step": 333850
    },
    {
      "epoch": 0.4559164685657952,
      "grad_norm": 2.96875,
      "learning_rate": 5.862571787254132e-05,
      "loss": 0.627,
      "step": 333900
    },
    {
      "epoch": 0.45598473997468497,
      "grad_norm": 2.546875,
      "learning_rate": 5.861493881833876e-05,
      "loss": 0.6077,
      "step": 333950
    },
    {
      "epoch": 0.45605301138357474,
      "grad_norm": 3.265625,
      "learning_rate": 5.860415935148963e-05,
      "loss": 0.6742,
      "step": 334000
    },
    {
      "epoch": 0.4561212827924645,
      "grad_norm": 4.21875,
      "learning_rate": 5.859337947251028e-05,
      "loss": 0.7524,
      "step": 334050
    },
    {
      "epoch": 0.4561895542013542,
      "grad_norm": 3.78125,
      "learning_rate": 5.858259918191705e-05,
      "loss": 0.7495,
      "step": 334100
    },
    {
      "epoch": 0.45625782561024397,
      "grad_norm": 2.984375,
      "learning_rate": 5.857181848022628e-05,
      "loss": 0.7664,
      "step": 334150
    },
    {
      "epoch": 0.45632609701913374,
      "grad_norm": 2.953125,
      "learning_rate": 5.85610373679544e-05,
      "loss": 0.6061,
      "step": 334200
    },
    {
      "epoch": 0.4563943684280235,
      "grad_norm": 8.0625,
      "learning_rate": 5.8550255845617776e-05,
      "loss": 0.8238,
      "step": 334250
    },
    {
      "epoch": 0.45646263983691326,
      "grad_norm": 2.9375,
      "learning_rate": 5.8539473913732845e-05,
      "loss": 0.8279,
      "step": 334300
    },
    {
      "epoch": 0.45653091124580303,
      "grad_norm": 8.3125,
      "learning_rate": 5.852869157281606e-05,
      "loss": 0.713,
      "step": 334350
    },
    {
      "epoch": 0.4565991826546928,
      "grad_norm": 9.0,
      "learning_rate": 5.851790882338385e-05,
      "loss": 0.6998,
      "step": 334400
    },
    {
      "epoch": 0.4566674540635825,
      "grad_norm": 2.265625,
      "learning_rate": 5.8507125665952735e-05,
      "loss": 0.8289,
      "step": 334450
    },
    {
      "epoch": 0.45673572547247226,
      "grad_norm": 2.84375,
      "learning_rate": 5.8496342101039226e-05,
      "loss": 0.5077,
      "step": 334500
    },
    {
      "epoch": 0.45680399688136203,
      "grad_norm": 2.625,
      "learning_rate": 5.848555812915979e-05,
      "loss": 0.791,
      "step": 334550
    },
    {
      "epoch": 0.4568722682902518,
      "grad_norm": 2.734375,
      "learning_rate": 5.847477375083102e-05,
      "loss": 0.6545,
      "step": 334600
    },
    {
      "epoch": 0.45694053969914156,
      "grad_norm": 2.578125,
      "learning_rate": 5.846398896656945e-05,
      "loss": 0.5807,
      "step": 334650
    },
    {
      "epoch": 0.4570088111080313,
      "grad_norm": 4.0625,
      "learning_rate": 5.845320377689165e-05,
      "loss": 0.7423,
      "step": 334700
    },
    {
      "epoch": 0.4570770825169211,
      "grad_norm": 3.640625,
      "learning_rate": 5.8442418182314264e-05,
      "loss": 0.8053,
      "step": 334750
    },
    {
      "epoch": 0.45714535392581085,
      "grad_norm": 9.0,
      "learning_rate": 5.843163218335387e-05,
      "loss": 0.6317,
      "step": 334800
    },
    {
      "epoch": 0.45721362533470056,
      "grad_norm": 2.40625,
      "learning_rate": 5.842084578052712e-05,
      "loss": 0.6391,
      "step": 334850
    },
    {
      "epoch": 0.4572818967435903,
      "grad_norm": 2.515625,
      "learning_rate": 5.841005897435067e-05,
      "loss": 0.7936,
      "step": 334900
    },
    {
      "epoch": 0.4573501681524801,
      "grad_norm": 2.828125,
      "learning_rate": 5.839927176534118e-05,
      "loss": 0.6634,
      "step": 334950
    },
    {
      "epoch": 0.45741843956136985,
      "grad_norm": 3.1875,
      "learning_rate": 5.8388484154015386e-05,
      "loss": 0.8211,
      "step": 335000
    },
    {
      "epoch": 0.4574867109702596,
      "grad_norm": 4.28125,
      "learning_rate": 5.837769614088997e-05,
      "loss": 0.5761,
      "step": 335050
    },
    {
      "epoch": 0.4575549823791494,
      "grad_norm": 3.546875,
      "learning_rate": 5.836690772648169e-05,
      "loss": 0.7493,
      "step": 335100
    },
    {
      "epoch": 0.45762325378803914,
      "grad_norm": 2.515625,
      "learning_rate": 5.835611891130727e-05,
      "loss": 0.7564,
      "step": 335150
    },
    {
      "epoch": 0.4576915251969289,
      "grad_norm": 3.296875,
      "learning_rate": 5.834532969588349e-05,
      "loss": 0.8001,
      "step": 335200
    },
    {
      "epoch": 0.4577597966058186,
      "grad_norm": 8.625,
      "learning_rate": 5.8334540080727164e-05,
      "loss": 0.551,
      "step": 335250
    },
    {
      "epoch": 0.4578280680147084,
      "grad_norm": 2.765625,
      "learning_rate": 5.8323750066355086e-05,
      "loss": 0.7632,
      "step": 335300
    },
    {
      "epoch": 0.45789633942359814,
      "grad_norm": 2.734375,
      "learning_rate": 5.831295965328409e-05,
      "loss": 0.6999,
      "step": 335350
    },
    {
      "epoch": 0.4579646108324879,
      "grad_norm": 9.375,
      "learning_rate": 5.8302168842031046e-05,
      "loss": 0.6669,
      "step": 335400
    },
    {
      "epoch": 0.45803288224137767,
      "grad_norm": 3.96875,
      "learning_rate": 5.829137763311278e-05,
      "loss": 0.8245,
      "step": 335450
    },
    {
      "epoch": 0.45810115365026743,
      "grad_norm": 8.8125,
      "learning_rate": 5.828058602704622e-05,
      "loss": 1.0131,
      "step": 335500
    },
    {
      "epoch": 0.4581694250591572,
      "grad_norm": 3.125,
      "learning_rate": 5.826979402434823e-05,
      "loss": 0.6169,
      "step": 335550
    },
    {
      "epoch": 0.4582376964680469,
      "grad_norm": 3.609375,
      "learning_rate": 5.825900162553578e-05,
      "loss": 0.6887,
      "step": 335600
    },
    {
      "epoch": 0.45830596787693667,
      "grad_norm": 2.921875,
      "learning_rate": 5.8248208831125795e-05,
      "loss": 0.7996,
      "step": 335650
    },
    {
      "epoch": 0.45837423928582643,
      "grad_norm": 3.0,
      "learning_rate": 5.823741564163523e-05,
      "loss": 0.669,
      "step": 335700
    },
    {
      "epoch": 0.4584425106947162,
      "grad_norm": 2.828125,
      "learning_rate": 5.822662205758108e-05,
      "loss": 0.7206,
      "step": 335750
    },
    {
      "epoch": 0.45851078210360596,
      "grad_norm": 2.828125,
      "learning_rate": 5.821582807948035e-05,
      "loss": 0.8304,
      "step": 335800
    },
    {
      "epoch": 0.4585790535124957,
      "grad_norm": 2.859375,
      "learning_rate": 5.8205033707850045e-05,
      "loss": 0.5514,
      "step": 335850
    },
    {
      "epoch": 0.4586473249213855,
      "grad_norm": 2.515625,
      "learning_rate": 5.8194238943207226e-05,
      "loss": 0.5915,
      "step": 335900
    },
    {
      "epoch": 0.45871559633027525,
      "grad_norm": 3.390625,
      "learning_rate": 5.81834437860689e-05,
      "loss": 0.8333,
      "step": 335950
    },
    {
      "epoch": 0.45878386773916496,
      "grad_norm": 3.984375,
      "learning_rate": 5.817264823695222e-05,
      "loss": 0.7883,
      "step": 336000
    },
    {
      "epoch": 0.4588521391480547,
      "grad_norm": 3.046875,
      "learning_rate": 5.816185229637423e-05,
      "loss": 0.6178,
      "step": 336050
    },
    {
      "epoch": 0.4589204105569445,
      "grad_norm": 3.546875,
      "learning_rate": 5.8151055964852055e-05,
      "loss": 0.6903,
      "step": 336100
    },
    {
      "epoch": 0.45898868196583426,
      "grad_norm": 2.9375,
      "learning_rate": 5.8140259242902836e-05,
      "loss": 0.6307,
      "step": 336150
    },
    {
      "epoch": 0.459056953374724,
      "grad_norm": 3.1875,
      "learning_rate": 5.812946213104371e-05,
      "loss": 0.7203,
      "step": 336200
    },
    {
      "epoch": 0.4591252247836138,
      "grad_norm": 3.609375,
      "learning_rate": 5.8118664629791844e-05,
      "loss": 0.9032,
      "step": 336250
    },
    {
      "epoch": 0.45919349619250355,
      "grad_norm": 2.96875,
      "learning_rate": 5.810786673966446e-05,
      "loss": 0.7325,
      "step": 336300
    },
    {
      "epoch": 0.45926176760139326,
      "grad_norm": 2.984375,
      "learning_rate": 5.809706846117874e-05,
      "loss": 0.5842,
      "step": 336350
    },
    {
      "epoch": 0.459330039010283,
      "grad_norm": 4.28125,
      "learning_rate": 5.8086269794851925e-05,
      "loss": 0.8787,
      "step": 336400
    },
    {
      "epoch": 0.4593983104191728,
      "grad_norm": 8.0625,
      "learning_rate": 5.807547074120122e-05,
      "loss": 0.8624,
      "step": 336450
    },
    {
      "epoch": 0.45946658182806255,
      "grad_norm": 7.6875,
      "learning_rate": 5.806467130074392e-05,
      "loss": 0.6721,
      "step": 336500
    },
    {
      "epoch": 0.4595348532369523,
      "grad_norm": 3.859375,
      "learning_rate": 5.805387147399734e-05,
      "loss": 0.9254,
      "step": 336550
    },
    {
      "epoch": 0.4596031246458421,
      "grad_norm": 8.75,
      "learning_rate": 5.804307126147871e-05,
      "loss": 0.8297,
      "step": 336600
    },
    {
      "epoch": 0.45967139605473184,
      "grad_norm": 2.75,
      "learning_rate": 5.803227066370541e-05,
      "loss": 0.6148,
      "step": 336650
    },
    {
      "epoch": 0.4597396674636216,
      "grad_norm": 4.5,
      "learning_rate": 5.8021469681194727e-05,
      "loss": 0.7349,
      "step": 336700
    },
    {
      "epoch": 0.4598079388725113,
      "grad_norm": 2.578125,
      "learning_rate": 5.801066831446405e-05,
      "loss": 0.6973,
      "step": 336750
    },
    {
      "epoch": 0.4598762102814011,
      "grad_norm": 2.515625,
      "learning_rate": 5.799986656403075e-05,
      "loss": 0.6837,
      "step": 336800
    },
    {
      "epoch": 0.45994448169029084,
      "grad_norm": 2.9375,
      "learning_rate": 5.798906443041221e-05,
      "loss": 0.6163,
      "step": 336850
    },
    {
      "epoch": 0.4600127530991806,
      "grad_norm": 2.59375,
      "learning_rate": 5.797826191412585e-05,
      "loss": 0.682,
      "step": 336900
    },
    {
      "epoch": 0.46008102450807037,
      "grad_norm": 8.0625,
      "learning_rate": 5.796745901568909e-05,
      "loss": 0.6913,
      "step": 336950
    },
    {
      "epoch": 0.46014929591696013,
      "grad_norm": 9.125,
      "learning_rate": 5.795665573561936e-05,
      "loss": 0.63,
      "step": 337000
    },
    {
      "epoch": 0.4602175673258499,
      "grad_norm": 2.640625,
      "learning_rate": 5.794585207443417e-05,
      "loss": 0.7176,
      "step": 337050
    },
    {
      "epoch": 0.46028583873473966,
      "grad_norm": 3.09375,
      "learning_rate": 5.7935048032650984e-05,
      "loss": 0.7671,
      "step": 337100
    },
    {
      "epoch": 0.46035411014362937,
      "grad_norm": 2.9375,
      "learning_rate": 5.792424361078729e-05,
      "loss": 0.7657,
      "step": 337150
    },
    {
      "epoch": 0.46042238155251913,
      "grad_norm": 8.8125,
      "learning_rate": 5.791343880936063e-05,
      "loss": 0.8327,
      "step": 337200
    },
    {
      "epoch": 0.4604906529614089,
      "grad_norm": 3.1875,
      "learning_rate": 5.7902633628888516e-05,
      "loss": 0.8945,
      "step": 337250
    },
    {
      "epoch": 0.46055892437029866,
      "grad_norm": 2.5625,
      "learning_rate": 5.789182806988854e-05,
      "loss": 0.5951,
      "step": 337300
    },
    {
      "epoch": 0.4606271957791884,
      "grad_norm": 2.828125,
      "learning_rate": 5.788102213287825e-05,
      "loss": 0.6204,
      "step": 337350
    },
    {
      "epoch": 0.4606954671880782,
      "grad_norm": 9.25,
      "learning_rate": 5.787021581837525e-05,
      "loss": 0.6801,
      "step": 337400
    },
    {
      "epoch": 0.46076373859696795,
      "grad_norm": 2.875,
      "learning_rate": 5.785940912689716e-05,
      "loss": 0.8215,
      "step": 337450
    },
    {
      "epoch": 0.46083201000585766,
      "grad_norm": 8.0625,
      "learning_rate": 5.784860205896156e-05,
      "loss": 0.7252,
      "step": 337500
    },
    {
      "epoch": 0.4609002814147474,
      "grad_norm": 2.21875,
      "learning_rate": 5.783779461508617e-05,
      "loss": 0.6767,
      "step": 337550
    },
    {
      "epoch": 0.4609685528236372,
      "grad_norm": 3.5625,
      "learning_rate": 5.7826986795788615e-05,
      "loss": 0.6999,
      "step": 337600
    },
    {
      "epoch": 0.46103682423252695,
      "grad_norm": 3.140625,
      "learning_rate": 5.781617860158658e-05,
      "loss": 0.6467,
      "step": 337650
    },
    {
      "epoch": 0.4611050956414167,
      "grad_norm": 2.640625,
      "learning_rate": 5.780537003299777e-05,
      "loss": 0.6096,
      "step": 337700
    },
    {
      "epoch": 0.4611733670503065,
      "grad_norm": 7.5625,
      "learning_rate": 5.77945610905399e-05,
      "loss": 0.9196,
      "step": 337750
    },
    {
      "epoch": 0.46124163845919625,
      "grad_norm": 2.890625,
      "learning_rate": 5.778375177473072e-05,
      "loss": 0.7822,
      "step": 337800
    },
    {
      "epoch": 0.461309909868086,
      "grad_norm": 3.328125,
      "learning_rate": 5.777294208608797e-05,
      "loss": 0.6641,
      "step": 337850
    },
    {
      "epoch": 0.4613781812769757,
      "grad_norm": 3.53125,
      "learning_rate": 5.776213202512942e-05,
      "loss": 0.7339,
      "step": 337900
    },
    {
      "epoch": 0.4614464526858655,
      "grad_norm": 2.40625,
      "learning_rate": 5.7751321592372886e-05,
      "loss": 0.5897,
      "step": 337950
    },
    {
      "epoch": 0.46151472409475525,
      "grad_norm": 3.09375,
      "learning_rate": 5.7740510788336154e-05,
      "loss": 0.6161,
      "step": 338000
    },
    {
      "epoch": 0.461582995503645,
      "grad_norm": 8.75,
      "learning_rate": 5.7729699613537034e-05,
      "loss": 0.6503,
      "step": 338050
    },
    {
      "epoch": 0.4616512669125348,
      "grad_norm": 2.796875,
      "learning_rate": 5.771888806849342e-05,
      "loss": 0.7238,
      "step": 338100
    },
    {
      "epoch": 0.46171953832142454,
      "grad_norm": 2.859375,
      "learning_rate": 5.7708076153723136e-05,
      "loss": 0.7187,
      "step": 338150
    },
    {
      "epoch": 0.4617878097303143,
      "grad_norm": 2.640625,
      "learning_rate": 5.7697263869744075e-05,
      "loss": 0.7051,
      "step": 338200
    },
    {
      "epoch": 0.461856081139204,
      "grad_norm": 3.0,
      "learning_rate": 5.768645121707413e-05,
      "loss": 0.7943,
      "step": 338250
    },
    {
      "epoch": 0.4619243525480938,
      "grad_norm": 3.0625,
      "learning_rate": 5.76756381962312e-05,
      "loss": 0.5376,
      "step": 338300
    },
    {
      "epoch": 0.46199262395698354,
      "grad_norm": 2.34375,
      "learning_rate": 5.766482480773325e-05,
      "loss": 0.5432,
      "step": 338350
    },
    {
      "epoch": 0.4620608953658733,
      "grad_norm": 3.671875,
      "learning_rate": 5.765401105209821e-05,
      "loss": 0.9107,
      "step": 338400
    },
    {
      "epoch": 0.46212916677476307,
      "grad_norm": 2.296875,
      "learning_rate": 5.764319692984406e-05,
      "loss": 0.8499,
      "step": 338450
    },
    {
      "epoch": 0.46219743818365283,
      "grad_norm": 8.9375,
      "learning_rate": 5.763238244148876e-05,
      "loss": 0.6641,
      "step": 338500
    },
    {
      "epoch": 0.4622657095925426,
      "grad_norm": 3.25,
      "learning_rate": 5.762156758755033e-05,
      "loss": 0.7266,
      "step": 338550
    },
    {
      "epoch": 0.46233398100143236,
      "grad_norm": 3.0,
      "learning_rate": 5.7610752368546796e-05,
      "loss": 0.6065,
      "step": 338600
    },
    {
      "epoch": 0.46240225241032207,
      "grad_norm": 7.9375,
      "learning_rate": 5.7599936784996175e-05,
      "loss": 0.7351,
      "step": 338650
    },
    {
      "epoch": 0.46247052381921183,
      "grad_norm": 4.34375,
      "learning_rate": 5.7589120837416564e-05,
      "loss": 0.7285,
      "step": 338700
    },
    {
      "epoch": 0.4625387952281016,
      "grad_norm": 2.34375,
      "learning_rate": 5.757830452632599e-05,
      "loss": 0.7391,
      "step": 338750
    },
    {
      "epoch": 0.46260706663699136,
      "grad_norm": 3.75,
      "learning_rate": 5.7567487852242544e-05,
      "loss": 0.6147,
      "step": 338800
    },
    {
      "epoch": 0.4626753380458811,
      "grad_norm": 3.59375,
      "learning_rate": 5.755667081568437e-05,
      "loss": 0.7385,
      "step": 338850
    },
    {
      "epoch": 0.4627436094547709,
      "grad_norm": 3.96875,
      "learning_rate": 5.754585341716956e-05,
      "loss": 0.7301,
      "step": 338900
    },
    {
      "epoch": 0.46281188086366065,
      "grad_norm": 3.796875,
      "learning_rate": 5.753503565721627e-05,
      "loss": 0.7197,
      "step": 338950
    },
    {
      "epoch": 0.46288015227255036,
      "grad_norm": 3.71875,
      "learning_rate": 5.752421753634267e-05,
      "loss": 0.8052,
      "step": 339000
    },
    {
      "epoch": 0.4629484236814401,
      "grad_norm": 2.625,
      "learning_rate": 5.751339905506691e-05,
      "loss": 0.7679,
      "step": 339050
    },
    {
      "epoch": 0.4630166950903299,
      "grad_norm": 2.75,
      "learning_rate": 5.7502580213907206e-05,
      "loss": 0.6369,
      "step": 339100
    },
    {
      "epoch": 0.46308496649921965,
      "grad_norm": 2.875,
      "learning_rate": 5.749176101338176e-05,
      "loss": 0.5988,
      "step": 339150
    },
    {
      "epoch": 0.4631532379081094,
      "grad_norm": 3.828125,
      "learning_rate": 5.7480941454008805e-05,
      "loss": 0.7192,
      "step": 339200
    },
    {
      "epoch": 0.4632215093169992,
      "grad_norm": 4.15625,
      "learning_rate": 5.747012153630659e-05,
      "loss": 0.7295,
      "step": 339250
    },
    {
      "epoch": 0.46328978072588894,
      "grad_norm": 8.25,
      "learning_rate": 5.7459301260793343e-05,
      "loss": 0.7852,
      "step": 339300
    },
    {
      "epoch": 0.4633580521347787,
      "grad_norm": 4.1875,
      "learning_rate": 5.74484806279874e-05,
      "loss": 0.8593,
      "step": 339350
    },
    {
      "epoch": 0.4634263235436684,
      "grad_norm": 3.5,
      "learning_rate": 5.743765963840701e-05,
      "loss": 0.7757,
      "step": 339400
    },
    {
      "epoch": 0.4634945949525582,
      "grad_norm": 4.125,
      "learning_rate": 5.742683829257053e-05,
      "loss": 0.6317,
      "step": 339450
    },
    {
      "epoch": 0.46356286636144794,
      "grad_norm": 2.203125,
      "learning_rate": 5.741601659099626e-05,
      "loss": 0.8105,
      "step": 339500
    },
    {
      "epoch": 0.4636311377703377,
      "grad_norm": 3.0,
      "learning_rate": 5.7405194534202545e-05,
      "loss": 0.677,
      "step": 339550
    },
    {
      "epoch": 0.4636994091792275,
      "grad_norm": 4.3125,
      "learning_rate": 5.7394372122707777e-05,
      "loss": 0.9908,
      "step": 339600
    },
    {
      "epoch": 0.46376768058811724,
      "grad_norm": 3.96875,
      "learning_rate": 5.73835493570303e-05,
      "loss": 0.8556,
      "step": 339650
    },
    {
      "epoch": 0.463835951997007,
      "grad_norm": 8.4375,
      "learning_rate": 5.737272623768854e-05,
      "loss": 0.8429,
      "step": 339700
    },
    {
      "epoch": 0.46390422340589677,
      "grad_norm": 3.046875,
      "learning_rate": 5.7361902765200934e-05,
      "loss": 0.7257,
      "step": 339750
    },
    {
      "epoch": 0.4639724948147865,
      "grad_norm": 3.28125,
      "learning_rate": 5.735107894008588e-05,
      "loss": 0.8106,
      "step": 339800
    },
    {
      "epoch": 0.46404076622367624,
      "grad_norm": 4.21875,
      "learning_rate": 5.7340254762861824e-05,
      "loss": 0.7061,
      "step": 339850
    },
    {
      "epoch": 0.464109037632566,
      "grad_norm": 8.125,
      "learning_rate": 5.7329430234047254e-05,
      "loss": 0.7967,
      "step": 339900
    },
    {
      "epoch": 0.46417730904145577,
      "grad_norm": 3.421875,
      "learning_rate": 5.731860535416065e-05,
      "loss": 0.7086,
      "step": 339950
    },
    {
      "epoch": 0.46424558045034553,
      "grad_norm": 2.75,
      "learning_rate": 5.730778012372051e-05,
      "loss": 0.7049,
      "step": 340000
    },
    {
      "epoch": 0.4643138518592353,
      "grad_norm": 2.984375,
      "learning_rate": 5.729695454324534e-05,
      "loss": 0.6613,
      "step": 340050
    },
    {
      "epoch": 0.46438212326812506,
      "grad_norm": 2.328125,
      "learning_rate": 5.728612861325369e-05,
      "loss": 0.7885,
      "step": 340100
    },
    {
      "epoch": 0.46445039467701477,
      "grad_norm": 2.984375,
      "learning_rate": 5.72753023342641e-05,
      "loss": 0.5995,
      "step": 340150
    },
    {
      "epoch": 0.46451866608590453,
      "grad_norm": 2.9375,
      "learning_rate": 5.726447570679515e-05,
      "loss": 0.7288,
      "step": 340200
    },
    {
      "epoch": 0.4645869374947943,
      "grad_norm": 8.5625,
      "learning_rate": 5.7253648731365416e-05,
      "loss": 0.7899,
      "step": 340250
    },
    {
      "epoch": 0.46465520890368406,
      "grad_norm": 3.4375,
      "learning_rate": 5.7242821408493495e-05,
      "loss": 0.6699,
      "step": 340300
    },
    {
      "epoch": 0.4647234803125738,
      "grad_norm": 3.671875,
      "learning_rate": 5.7231993738698e-05,
      "loss": 0.6983,
      "step": 340350
    },
    {
      "epoch": 0.4647917517214636,
      "grad_norm": 3.953125,
      "learning_rate": 5.722116572249758e-05,
      "loss": 0.8026,
      "step": 340400
    },
    {
      "epoch": 0.46486002313035335,
      "grad_norm": 3.90625,
      "learning_rate": 5.7210337360410884e-05,
      "loss": 0.888,
      "step": 340450
    },
    {
      "epoch": 0.4649282945392431,
      "grad_norm": 3.375,
      "learning_rate": 5.719950865295658e-05,
      "loss": 0.7121,
      "step": 340500
    },
    {
      "epoch": 0.4649965659481328,
      "grad_norm": 2.859375,
      "learning_rate": 5.7188679600653336e-05,
      "loss": 0.6362,
      "step": 340550
    },
    {
      "epoch": 0.4650648373570226,
      "grad_norm": 2.90625,
      "learning_rate": 5.717785020401984e-05,
      "loss": 0.8712,
      "step": 340600
    },
    {
      "epoch": 0.46513310876591235,
      "grad_norm": 2.4375,
      "learning_rate": 5.716702046357487e-05,
      "loss": 0.7461,
      "step": 340650
    },
    {
      "epoch": 0.4652013801748021,
      "grad_norm": 2.625,
      "learning_rate": 5.7156190379837105e-05,
      "loss": 0.6146,
      "step": 340700
    },
    {
      "epoch": 0.4652696515836919,
      "grad_norm": 3.546875,
      "learning_rate": 5.7145359953325314e-05,
      "loss": 0.6389,
      "step": 340750
    },
    {
      "epoch": 0.46533792299258164,
      "grad_norm": 9.3125,
      "learning_rate": 5.713452918455826e-05,
      "loss": 0.922,
      "step": 340800
    },
    {
      "epoch": 0.4654061944014714,
      "grad_norm": 9.3125,
      "learning_rate": 5.71236980740547e-05,
      "loss": 0.7402,
      "step": 340850
    },
    {
      "epoch": 0.4654744658103611,
      "grad_norm": 2.59375,
      "learning_rate": 5.7112866622333484e-05,
      "loss": 0.8136,
      "step": 340900
    },
    {
      "epoch": 0.4655427372192509,
      "grad_norm": 2.40625,
      "learning_rate": 5.71020348299134e-05,
      "loss": 0.5086,
      "step": 340950
    },
    {
      "epoch": 0.46561100862814064,
      "grad_norm": 2.15625,
      "learning_rate": 5.709120269731326e-05,
      "loss": 0.8095,
      "step": 341000
    },
    {
      "epoch": 0.4656792800370304,
      "grad_norm": 3.5625,
      "learning_rate": 5.708037022505196e-05,
      "loss": 0.7007,
      "step": 341050
    },
    {
      "epoch": 0.46574755144592017,
      "grad_norm": 2.78125,
      "learning_rate": 5.7069537413648324e-05,
      "loss": 0.7083,
      "step": 341100
    },
    {
      "epoch": 0.46581582285480994,
      "grad_norm": 8.875,
      "learning_rate": 5.705870426362123e-05,
      "loss": 0.6513,
      "step": 341150
    },
    {
      "epoch": 0.4658840942636997,
      "grad_norm": 2.90625,
      "learning_rate": 5.70478707754896e-05,
      "loss": 0.7444,
      "step": 341200
    },
    {
      "epoch": 0.46595236567258946,
      "grad_norm": 2.6875,
      "learning_rate": 5.703703694977234e-05,
      "loss": 0.6268,
      "step": 341250
    },
    {
      "epoch": 0.46602063708147917,
      "grad_norm": 3.734375,
      "learning_rate": 5.702620278698837e-05,
      "loss": 0.6529,
      "step": 341300
    },
    {
      "epoch": 0.46608890849036894,
      "grad_norm": 3.640625,
      "learning_rate": 5.7015368287656647e-05,
      "loss": 0.8748,
      "step": 341350
    },
    {
      "epoch": 0.4661571798992587,
      "grad_norm": 2.796875,
      "learning_rate": 5.70045334522961e-05,
      "loss": 0.6568,
      "step": 341400
    },
    {
      "epoch": 0.46622545130814846,
      "grad_norm": 2.765625,
      "learning_rate": 5.699369828142576e-05,
      "loss": 0.608,
      "step": 341450
    },
    {
      "epoch": 0.46629372271703823,
      "grad_norm": 8.125,
      "learning_rate": 5.698286277556457e-05,
      "loss": 0.8205,
      "step": 341500
    },
    {
      "epoch": 0.466361994125928,
      "grad_norm": 3.890625,
      "learning_rate": 5.697202693523158e-05,
      "loss": 0.6538,
      "step": 341550
    },
    {
      "epoch": 0.46643026553481776,
      "grad_norm": 2.9375,
      "learning_rate": 5.6961190760945796e-05,
      "loss": 0.7942,
      "step": 341600
    },
    {
      "epoch": 0.4664985369437075,
      "grad_norm": 9.25,
      "learning_rate": 5.695035425322624e-05,
      "loss": 0.849,
      "step": 341650
    },
    {
      "epoch": 0.46656680835259723,
      "grad_norm": 3.984375,
      "learning_rate": 5.6939517412592004e-05,
      "loss": 0.8742,
      "step": 341700
    },
    {
      "epoch": 0.466635079761487,
      "grad_norm": 3.96875,
      "learning_rate": 5.6928680239562135e-05,
      "loss": 0.7292,
      "step": 341750
    },
    {
      "epoch": 0.46670335117037676,
      "grad_norm": 3.625,
      "learning_rate": 5.6917842734655745e-05,
      "loss": 0.7076,
      "step": 341800
    },
    {
      "epoch": 0.4667716225792665,
      "grad_norm": 2.765625,
      "learning_rate": 5.690700489839192e-05,
      "loss": 0.6465,
      "step": 341850
    },
    {
      "epoch": 0.4668398939881563,
      "grad_norm": 7.15625,
      "learning_rate": 5.689616673128979e-05,
      "loss": 0.7905,
      "step": 341900
    },
    {
      "epoch": 0.46690816539704605,
      "grad_norm": 3.9375,
      "learning_rate": 5.688532823386849e-05,
      "loss": 0.6409,
      "step": 341950
    },
    {
      "epoch": 0.4669764368059358,
      "grad_norm": 3.703125,
      "learning_rate": 5.687448940664718e-05,
      "loss": 0.6777,
      "step": 342000
    },
    {
      "epoch": 0.4670447082148255,
      "grad_norm": 3.8125,
      "learning_rate": 5.686365025014503e-05,
      "loss": 0.9361,
      "step": 342050
    },
    {
      "epoch": 0.4671129796237153,
      "grad_norm": 2.65625,
      "learning_rate": 5.685281076488121e-05,
      "loss": 0.6916,
      "step": 342100
    },
    {
      "epoch": 0.46718125103260505,
      "grad_norm": 3.125,
      "learning_rate": 5.684197095137489e-05,
      "loss": 0.8025,
      "step": 342150
    },
    {
      "epoch": 0.4672495224414948,
      "grad_norm": 3.859375,
      "learning_rate": 5.683113081014536e-05,
      "loss": 0.8831,
      "step": 342200
    },
    {
      "epoch": 0.4673177938503846,
      "grad_norm": 4.8125,
      "learning_rate": 5.6820290341711815e-05,
      "loss": 0.7032,
      "step": 342250
    },
    {
      "epoch": 0.46738606525927434,
      "grad_norm": 2.640625,
      "learning_rate": 5.6809449546593484e-05,
      "loss": 0.6256,
      "step": 342300
    },
    {
      "epoch": 0.4674543366681641,
      "grad_norm": 2.78125,
      "learning_rate": 5.679860842530965e-05,
      "loss": 0.7063,
      "step": 342350
    },
    {
      "epoch": 0.46752260807705387,
      "grad_norm": 8.1875,
      "learning_rate": 5.678776697837959e-05,
      "loss": 0.7889,
      "step": 342400
    },
    {
      "epoch": 0.4675908794859436,
      "grad_norm": 2.453125,
      "learning_rate": 5.677692520632259e-05,
      "loss": 0.7189,
      "step": 342450
    },
    {
      "epoch": 0.46765915089483334,
      "grad_norm": 2.5,
      "learning_rate": 5.6766083109657975e-05,
      "loss": 0.6607,
      "step": 342500
    },
    {
      "epoch": 0.4677274223037231,
      "grad_norm": 3.203125,
      "learning_rate": 5.675524068890507e-05,
      "loss": 0.8636,
      "step": 342550
    },
    {
      "epoch": 0.46779569371261287,
      "grad_norm": 2.53125,
      "learning_rate": 5.6744397944583174e-05,
      "loss": 0.7322,
      "step": 342600
    },
    {
      "epoch": 0.46786396512150263,
      "grad_norm": 2.828125,
      "learning_rate": 5.673355487721169e-05,
      "loss": 0.7775,
      "step": 342650
    },
    {
      "epoch": 0.4679322365303924,
      "grad_norm": 3.03125,
      "learning_rate": 5.6722711487309976e-05,
      "loss": 0.6403,
      "step": 342700
    },
    {
      "epoch": 0.46800050793928216,
      "grad_norm": 2.515625,
      "learning_rate": 5.671186777539741e-05,
      "loss": 0.596,
      "step": 342750
    },
    {
      "epoch": 0.46806877934817187,
      "grad_norm": 3.03125,
      "learning_rate": 5.670102374199341e-05,
      "loss": 0.6901,
      "step": 342800
    },
    {
      "epoch": 0.46813705075706163,
      "grad_norm": 4.03125,
      "learning_rate": 5.669017938761739e-05,
      "loss": 0.8194,
      "step": 342850
    },
    {
      "epoch": 0.4682053221659514,
      "grad_norm": 2.421875,
      "learning_rate": 5.6679334712788767e-05,
      "loss": 0.7919,
      "step": 342900
    },
    {
      "epoch": 0.46827359357484116,
      "grad_norm": 8.6875,
      "learning_rate": 5.666848971802701e-05,
      "loss": 0.8006,
      "step": 342950
    },
    {
      "epoch": 0.4683418649837309,
      "grad_norm": 2.640625,
      "learning_rate": 5.6657644403851565e-05,
      "loss": 0.8339,
      "step": 343000
    },
    {
      "epoch": 0.4684101363926207,
      "grad_norm": 2.953125,
      "learning_rate": 5.664679877078192e-05,
      "loss": 0.8421,
      "step": 343050
    },
    {
      "epoch": 0.46847840780151045,
      "grad_norm": 3.71875,
      "learning_rate": 5.663595281933759e-05,
      "loss": 0.6401,
      "step": 343100
    },
    {
      "epoch": 0.4685466792104002,
      "grad_norm": 2.96875,
      "learning_rate": 5.662510655003804e-05,
      "loss": 0.7059,
      "step": 343150
    },
    {
      "epoch": 0.4686149506192899,
      "grad_norm": 4.09375,
      "learning_rate": 5.6614259963402825e-05,
      "loss": 0.8378,
      "step": 343200
    },
    {
      "epoch": 0.4686832220281797,
      "grad_norm": 4.03125,
      "learning_rate": 5.660341305995149e-05,
      "loss": 0.7548,
      "step": 343250
    },
    {
      "epoch": 0.46875149343706946,
      "grad_norm": 2.484375,
      "learning_rate": 5.659256584020357e-05,
      "loss": 0.8359,
      "step": 343300
    },
    {
      "epoch": 0.4688197648459592,
      "grad_norm": 2.75,
      "learning_rate": 5.658171830467866e-05,
      "loss": 0.877,
      "step": 343350
    },
    {
      "epoch": 0.468888036254849,
      "grad_norm": 2.375,
      "learning_rate": 5.6570870453896315e-05,
      "loss": 0.7544,
      "step": 343400
    },
    {
      "epoch": 0.46895630766373875,
      "grad_norm": 2.59375,
      "learning_rate": 5.6560022288376156e-05,
      "loss": 0.6767,
      "step": 343450
    },
    {
      "epoch": 0.4690245790726285,
      "grad_norm": 3.875,
      "learning_rate": 5.65491738086378e-05,
      "loss": 0.6479,
      "step": 343500
    },
    {
      "epoch": 0.4690928504815182,
      "grad_norm": 8.5625,
      "learning_rate": 5.653832501520087e-05,
      "loss": 0.6747,
      "step": 343550
    },
    {
      "epoch": 0.469161121890408,
      "grad_norm": 2.734375,
      "learning_rate": 5.652747590858502e-05,
      "loss": 0.6036,
      "step": 343600
    },
    {
      "epoch": 0.46922939329929775,
      "grad_norm": 2.890625,
      "learning_rate": 5.65166264893099e-05,
      "loss": 0.7335,
      "step": 343650
    },
    {
      "epoch": 0.4692976647081875,
      "grad_norm": 3.734375,
      "learning_rate": 5.650577675789517e-05,
      "loss": 0.6505,
      "step": 343700
    },
    {
      "epoch": 0.4693659361170773,
      "grad_norm": 8.625,
      "learning_rate": 5.6494926714860576e-05,
      "loss": 0.8244,
      "step": 343750
    },
    {
      "epoch": 0.46943420752596704,
      "grad_norm": 2.6875,
      "learning_rate": 5.648407636072577e-05,
      "loss": 0.7797,
      "step": 343800
    },
    {
      "epoch": 0.4695024789348568,
      "grad_norm": 8.375,
      "learning_rate": 5.64732256960105e-05,
      "loss": 0.7244,
      "step": 343850
    },
    {
      "epoch": 0.46957075034374657,
      "grad_norm": 3.75,
      "learning_rate": 5.646237472123449e-05,
      "loss": 0.8251,
      "step": 343900
    },
    {
      "epoch": 0.4696390217526363,
      "grad_norm": 4.3125,
      "learning_rate": 5.6451523436917486e-05,
      "loss": 0.8148,
      "step": 343950
    },
    {
      "epoch": 0.46970729316152604,
      "grad_norm": 2.671875,
      "learning_rate": 5.644067184357927e-05,
      "loss": 0.7371,
      "step": 344000
    },
    {
      "epoch": 0.4697755645704158,
      "grad_norm": 9.4375,
      "learning_rate": 5.642981994173961e-05,
      "loss": 0.7301,
      "step": 344050
    },
    {
      "epoch": 0.46984383597930557,
      "grad_norm": 2.96875,
      "learning_rate": 5.641896773191832e-05,
      "loss": 0.7528,
      "step": 344100
    },
    {
      "epoch": 0.46991210738819533,
      "grad_norm": 2.859375,
      "learning_rate": 5.640811521463518e-05,
      "loss": 0.809,
      "step": 344150
    },
    {
      "epoch": 0.4699803787970851,
      "grad_norm": 4.3125,
      "learning_rate": 5.639726239041002e-05,
      "loss": 0.6955,
      "step": 344200
    },
    {
      "epoch": 0.47004865020597486,
      "grad_norm": 2.765625,
      "learning_rate": 5.6386409259762695e-05,
      "loss": 0.748,
      "step": 344250
    },
    {
      "epoch": 0.4701169216148646,
      "grad_norm": 2.953125,
      "learning_rate": 5.6375555823213046e-05,
      "loss": 0.72,
      "step": 344300
    },
    {
      "epoch": 0.47018519302375433,
      "grad_norm": 3.890625,
      "learning_rate": 5.6364702081280954e-05,
      "loss": 0.8983,
      "step": 344350
    },
    {
      "epoch": 0.4702534644326441,
      "grad_norm": 3.78125,
      "learning_rate": 5.635384803448629e-05,
      "loss": 0.8723,
      "step": 344400
    },
    {
      "epoch": 0.47032173584153386,
      "grad_norm": 4.0,
      "learning_rate": 5.6342993683348946e-05,
      "loss": 0.6964,
      "step": 344450
    },
    {
      "epoch": 0.4703900072504236,
      "grad_norm": 4.21875,
      "learning_rate": 5.633213902838884e-05,
      "loss": 0.8588,
      "step": 344500
    },
    {
      "epoch": 0.4704582786593134,
      "grad_norm": 3.0,
      "learning_rate": 5.6321284070125914e-05,
      "loss": 0.615,
      "step": 344550
    },
    {
      "epoch": 0.47052655006820315,
      "grad_norm": 2.859375,
      "learning_rate": 5.631042880908008e-05,
      "loss": 0.6224,
      "step": 344600
    },
    {
      "epoch": 0.4705948214770929,
      "grad_norm": 10.5,
      "learning_rate": 5.629957324577133e-05,
      "loss": 0.8837,
      "step": 344650
    },
    {
      "epoch": 0.4706630928859826,
      "grad_norm": 2.59375,
      "learning_rate": 5.6288717380719614e-05,
      "loss": 0.6726,
      "step": 344700
    },
    {
      "epoch": 0.4707313642948724,
      "grad_norm": 2.765625,
      "learning_rate": 5.62778612144449e-05,
      "loss": 0.6698,
      "step": 344750
    },
    {
      "epoch": 0.47079963570376215,
      "grad_norm": 2.4375,
      "learning_rate": 5.626700474746721e-05,
      "loss": 0.6719,
      "step": 344800
    },
    {
      "epoch": 0.4708679071126519,
      "grad_norm": 3.6875,
      "learning_rate": 5.625614798030655e-05,
      "loss": 0.8077,
      "step": 344850
    },
    {
      "epoch": 0.4709361785215417,
      "grad_norm": 2.84375,
      "learning_rate": 5.624529091348296e-05,
      "loss": 0.6696,
      "step": 344900
    },
    {
      "epoch": 0.47100444993043145,
      "grad_norm": 4.3125,
      "learning_rate": 5.623443354751646e-05,
      "loss": 0.7546,
      "step": 344950
    },
    {
      "epoch": 0.4710727213393212,
      "grad_norm": 2.703125,
      "learning_rate": 5.622357588292713e-05,
      "loss": 0.7979,
      "step": 345000
    },
    {
      "epoch": 0.471140992748211,
      "grad_norm": 4.0,
      "learning_rate": 5.6212717920235016e-05,
      "loss": 0.7924,
      "step": 345050
    },
    {
      "epoch": 0.4712092641571007,
      "grad_norm": 2.625,
      "learning_rate": 5.620185965996021e-05,
      "loss": 0.7785,
      "step": 345100
    },
    {
      "epoch": 0.47127753556599045,
      "grad_norm": 3.921875,
      "learning_rate": 5.619100110262284e-05,
      "loss": 0.722,
      "step": 345150
    },
    {
      "epoch": 0.4713458069748802,
      "grad_norm": 2.5625,
      "learning_rate": 5.618014224874297e-05,
      "loss": 0.8364,
      "step": 345200
    },
    {
      "epoch": 0.47141407838377,
      "grad_norm": 2.859375,
      "learning_rate": 5.6169283098840774e-05,
      "loss": 0.8878,
      "step": 345250
    },
    {
      "epoch": 0.47148234979265974,
      "grad_norm": 8.375,
      "learning_rate": 5.615842365343637e-05,
      "loss": 0.9382,
      "step": 345300
    },
    {
      "epoch": 0.4715506212015495,
      "grad_norm": 2.71875,
      "learning_rate": 5.6147563913049905e-05,
      "loss": 0.7463,
      "step": 345350
    },
    {
      "epoch": 0.47161889261043927,
      "grad_norm": 2.890625,
      "learning_rate": 5.613670387820158e-05,
      "loss": 0.7342,
      "step": 345400
    },
    {
      "epoch": 0.471687164019329,
      "grad_norm": 2.640625,
      "learning_rate": 5.612584354941155e-05,
      "loss": 0.8371,
      "step": 345450
    },
    {
      "epoch": 0.47175543542821874,
      "grad_norm": 3.59375,
      "learning_rate": 5.611498292720001e-05,
      "loss": 0.8004,
      "step": 345500
    },
    {
      "epoch": 0.4718237068371085,
      "grad_norm": 3.625,
      "learning_rate": 5.610412201208721e-05,
      "loss": 0.7504,
      "step": 345550
    },
    {
      "epoch": 0.47189197824599827,
      "grad_norm": 2.796875,
      "learning_rate": 5.609326080459335e-05,
      "loss": 0.7236,
      "step": 345600
    },
    {
      "epoch": 0.47196024965488803,
      "grad_norm": 2.75,
      "learning_rate": 5.608239930523868e-05,
      "loss": 0.7194,
      "step": 345650
    },
    {
      "epoch": 0.4720285210637778,
      "grad_norm": 8.4375,
      "learning_rate": 5.607153751454344e-05,
      "loss": 0.9068,
      "step": 345700
    },
    {
      "epoch": 0.47209679247266756,
      "grad_norm": 8.8125,
      "learning_rate": 5.606067543302791e-05,
      "loss": 0.7761,
      "step": 345750
    },
    {
      "epoch": 0.4721650638815573,
      "grad_norm": 3.140625,
      "learning_rate": 5.604981306121236e-05,
      "loss": 0.77,
      "step": 345800
    },
    {
      "epoch": 0.47223333529044703,
      "grad_norm": 3.921875,
      "learning_rate": 5.603895039961709e-05,
      "loss": 0.8625,
      "step": 345850
    },
    {
      "epoch": 0.4723016066993368,
      "grad_norm": 3.703125,
      "learning_rate": 5.6028087448762444e-05,
      "loss": 0.7725,
      "step": 345900
    },
    {
      "epoch": 0.47236987810822656,
      "grad_norm": 2.578125,
      "learning_rate": 5.60172242091687e-05,
      "loss": 0.8825,
      "step": 345950
    },
    {
      "epoch": 0.4724381495171163,
      "grad_norm": 8.125,
      "learning_rate": 5.600636068135622e-05,
      "loss": 0.72,
      "step": 346000
    },
    {
      "epoch": 0.4725064209260061,
      "grad_norm": 2.71875,
      "learning_rate": 5.5995496865845344e-05,
      "loss": 0.7622,
      "step": 346050
    },
    {
      "epoch": 0.47257469233489585,
      "grad_norm": 2.859375,
      "learning_rate": 5.5984632763156445e-05,
      "loss": 0.7053,
      "step": 346100
    },
    {
      "epoch": 0.4726429637437856,
      "grad_norm": 2.84375,
      "learning_rate": 5.59737683738099e-05,
      "loss": 0.5638,
      "step": 346150
    },
    {
      "epoch": 0.4727112351526753,
      "grad_norm": 3.625,
      "learning_rate": 5.5962903698326095e-05,
      "loss": 0.9598,
      "step": 346200
    },
    {
      "epoch": 0.4727795065615651,
      "grad_norm": 8.1875,
      "learning_rate": 5.595203873722545e-05,
      "loss": 0.7363,
      "step": 346250
    },
    {
      "epoch": 0.47284777797045485,
      "grad_norm": 2.90625,
      "learning_rate": 5.594117349102837e-05,
      "loss": 0.7067,
      "step": 346300
    },
    {
      "epoch": 0.4729160493793446,
      "grad_norm": 7.6875,
      "learning_rate": 5.59303079602553e-05,
      "loss": 0.7714,
      "step": 346350
    },
    {
      "epoch": 0.4729843207882344,
      "grad_norm": 2.671875,
      "learning_rate": 5.59194421454267e-05,
      "loss": 0.7391,
      "step": 346400
    },
    {
      "epoch": 0.47305259219712414,
      "grad_norm": 2.765625,
      "learning_rate": 5.590857604706301e-05,
      "loss": 0.768,
      "step": 346450
    },
    {
      "epoch": 0.4731208636060139,
      "grad_norm": 3.703125,
      "learning_rate": 5.589770966568471e-05,
      "loss": 0.7972,
      "step": 346500
    },
    {
      "epoch": 0.4731891350149037,
      "grad_norm": 4.5625,
      "learning_rate": 5.588684300181227e-05,
      "loss": 0.8059,
      "step": 346550
    },
    {
      "epoch": 0.4732574064237934,
      "grad_norm": 2.75,
      "learning_rate": 5.587597605596623e-05,
      "loss": 0.6895,
      "step": 346600
    },
    {
      "epoch": 0.47332567783268314,
      "grad_norm": 2.859375,
      "learning_rate": 5.586510882866708e-05,
      "loss": 0.7085,
      "step": 346650
    },
    {
      "epoch": 0.4733939492415729,
      "grad_norm": 2.5,
      "learning_rate": 5.5854241320435366e-05,
      "loss": 0.7161,
      "step": 346700
    },
    {
      "epoch": 0.4734622206504627,
      "grad_norm": 7.625,
      "learning_rate": 5.584337353179161e-05,
      "loss": 0.6622,
      "step": 346750
    },
    {
      "epoch": 0.47353049205935244,
      "grad_norm": 2.875,
      "learning_rate": 5.583250546325637e-05,
      "loss": 0.7721,
      "step": 346800
    },
    {
      "epoch": 0.4735987634682422,
      "grad_norm": 2.8125,
      "learning_rate": 5.582163711535022e-05,
      "loss": 0.7802,
      "step": 346850
    },
    {
      "epoch": 0.47366703487713196,
      "grad_norm": 2.4375,
      "learning_rate": 5.5810768488593754e-05,
      "loss": 0.8575,
      "step": 346900
    },
    {
      "epoch": 0.47373530628602173,
      "grad_norm": 4.21875,
      "learning_rate": 5.579989958350758e-05,
      "loss": 0.7641,
      "step": 346950
    },
    {
      "epoch": 0.47380357769491144,
      "grad_norm": 9.125,
      "learning_rate": 5.5789030400612255e-05,
      "loss": 0.802,
      "step": 347000
    },
    {
      "epoch": 0.4738718491038012,
      "grad_norm": 7.65625,
      "learning_rate": 5.577816094042844e-05,
      "loss": 0.8314,
      "step": 347050
    },
    {
      "epoch": 0.47394012051269097,
      "grad_norm": 2.859375,
      "learning_rate": 5.576729120347677e-05,
      "loss": 0.6353,
      "step": 347100
    },
    {
      "epoch": 0.47400839192158073,
      "grad_norm": 4.21875,
      "learning_rate": 5.575642119027787e-05,
      "loss": 0.7184,
      "step": 347150
    },
    {
      "epoch": 0.4740766633304705,
      "grad_norm": 4.0,
      "learning_rate": 5.574555090135244e-05,
      "loss": 0.8402,
      "step": 347200
    },
    {
      "epoch": 0.47414493473936026,
      "grad_norm": 3.03125,
      "learning_rate": 5.573468033722112e-05,
      "loss": 0.787,
      "step": 347250
    },
    {
      "epoch": 0.47421320614825,
      "grad_norm": 15.25,
      "learning_rate": 5.572380949840462e-05,
      "loss": 0.9385,
      "step": 347300
    },
    {
      "epoch": 0.47428147755713973,
      "grad_norm": 2.4375,
      "learning_rate": 5.5712938385423644e-05,
      "loss": 0.8919,
      "step": 347350
    },
    {
      "epoch": 0.4743497489660295,
      "grad_norm": 2.59375,
      "learning_rate": 5.570206699879887e-05,
      "loss": 0.6943,
      "step": 347400
    },
    {
      "epoch": 0.47441802037491926,
      "grad_norm": 2.5625,
      "learning_rate": 5.5691195339051086e-05,
      "loss": 0.7282,
      "step": 347450
    },
    {
      "epoch": 0.474486291783809,
      "grad_norm": 2.46875,
      "learning_rate": 5.5680323406700985e-05,
      "loss": 0.7054,
      "step": 347500
    },
    {
      "epoch": 0.4745545631926988,
      "grad_norm": 2.40625,
      "learning_rate": 5.566945120226934e-05,
      "loss": 0.7572,
      "step": 347550
    },
    {
      "epoch": 0.47462283460158855,
      "grad_norm": 2.734375,
      "learning_rate": 5.565857872627691e-05,
      "loss": 0.6119,
      "step": 347600
    },
    {
      "epoch": 0.4746911060104783,
      "grad_norm": 8.75,
      "learning_rate": 5.564770597924449e-05,
      "loss": 0.9214,
      "step": 347650
    },
    {
      "epoch": 0.4747593774193681,
      "grad_norm": 3.296875,
      "learning_rate": 5.5636832961692866e-05,
      "loss": 0.9167,
      "step": 347700
    },
    {
      "epoch": 0.4748276488282578,
      "grad_norm": 3.359375,
      "learning_rate": 5.562595967414284e-05,
      "loss": 0.7359,
      "step": 347750
    },
    {
      "epoch": 0.47489592023714755,
      "grad_norm": 4.09375,
      "learning_rate": 5.5615086117115224e-05,
      "loss": 0.653,
      "step": 347800
    },
    {
      "epoch": 0.4749641916460373,
      "grad_norm": 2.78125,
      "learning_rate": 5.560421229113087e-05,
      "loss": 0.7172,
      "step": 347850
    },
    {
      "epoch": 0.4750324630549271,
      "grad_norm": 2.703125,
      "learning_rate": 5.55933381967106e-05,
      "loss": 0.7443,
      "step": 347900
    },
    {
      "epoch": 0.47510073446381684,
      "grad_norm": 2.796875,
      "learning_rate": 5.55824638343753e-05,
      "loss": 0.6001,
      "step": 347950
    },
    {
      "epoch": 0.4751690058727066,
      "grad_norm": 8.9375,
      "learning_rate": 5.5571589204645815e-05,
      "loss": 0.7267,
      "step": 348000
    },
    {
      "epoch": 0.47523727728159637,
      "grad_norm": 2.84375,
      "learning_rate": 5.5560714308043037e-05,
      "loss": 0.7913,
      "step": 348050
    },
    {
      "epoch": 0.4753055486904861,
      "grad_norm": 2.8125,
      "learning_rate": 5.5549839145087855e-05,
      "loss": 0.6731,
      "step": 348100
    },
    {
      "epoch": 0.47537382009937584,
      "grad_norm": 3.75,
      "learning_rate": 5.5538963716301195e-05,
      "loss": 0.9065,
      "step": 348150
    },
    {
      "epoch": 0.4754420915082656,
      "grad_norm": 2.703125,
      "learning_rate": 5.552808802220398e-05,
      "loss": 0.7475,
      "step": 348200
    },
    {
      "epoch": 0.47551036291715537,
      "grad_norm": 2.796875,
      "learning_rate": 5.5517212063317126e-05,
      "loss": 0.6519,
      "step": 348250
    },
    {
      "epoch": 0.47557863432604514,
      "grad_norm": 3.828125,
      "learning_rate": 5.550633584016158e-05,
      "loss": 0.6428,
      "step": 348300
    },
    {
      "epoch": 0.4756469057349349,
      "grad_norm": 3.46875,
      "learning_rate": 5.5495459353258315e-05,
      "loss": 0.7124,
      "step": 348350
    },
    {
      "epoch": 0.47571517714382466,
      "grad_norm": 4.75,
      "learning_rate": 5.54845826031283e-05,
      "loss": 0.8568,
      "step": 348400
    },
    {
      "epoch": 0.4757834485527144,
      "grad_norm": 3.8125,
      "learning_rate": 5.5473705590292515e-05,
      "loss": 0.7465,
      "step": 348450
    },
    {
      "epoch": 0.47585171996160414,
      "grad_norm": 3.96875,
      "learning_rate": 5.5462828315271975e-05,
      "loss": 0.6065,
      "step": 348500
    },
    {
      "epoch": 0.4759199913704939,
      "grad_norm": 2.546875,
      "learning_rate": 5.545195077858766e-05,
      "loss": 0.9092,
      "step": 348550
    },
    {
      "epoch": 0.47598826277938366,
      "grad_norm": 2.671875,
      "learning_rate": 5.544107298076061e-05,
      "loss": 0.8244,
      "step": 348600
    },
    {
      "epoch": 0.47605653418827343,
      "grad_norm": 3.640625,
      "learning_rate": 5.543019492231186e-05,
      "loss": 0.9283,
      "step": 348650
    },
    {
      "epoch": 0.4761248055971632,
      "grad_norm": 2.984375,
      "learning_rate": 5.541931660376245e-05,
      "loss": 0.6665,
      "step": 348700
    },
    {
      "epoch": 0.47619307700605296,
      "grad_norm": 8.5625,
      "learning_rate": 5.540843802563347e-05,
      "loss": 0.8011,
      "step": 348750
    },
    {
      "epoch": 0.4762613484149427,
      "grad_norm": 2.78125,
      "learning_rate": 5.5397559188445946e-05,
      "loss": 0.9732,
      "step": 348800
    },
    {
      "epoch": 0.4763296198238325,
      "grad_norm": 8.6875,
      "learning_rate": 5.538668009272099e-05,
      "loss": 0.7412,
      "step": 348850
    },
    {
      "epoch": 0.4763978912327222,
      "grad_norm": 3.796875,
      "learning_rate": 5.537580073897969e-05,
      "loss": 0.9508,
      "step": 348900
    },
    {
      "epoch": 0.47646616264161196,
      "grad_norm": 3.140625,
      "learning_rate": 5.5364921127743166e-05,
      "loss": 0.8663,
      "step": 348950
    },
    {
      "epoch": 0.4765344340505017,
      "grad_norm": 4.0625,
      "learning_rate": 5.535404125953254e-05,
      "loss": 0.7672,
      "step": 349000
    },
    {
      "epoch": 0.4766027054593915,
      "grad_norm": 2.578125,
      "learning_rate": 5.534316113486894e-05,
      "loss": 0.8948,
      "step": 349050
    },
    {
      "epoch": 0.47667097686828125,
      "grad_norm": 2.859375,
      "learning_rate": 5.53322807542735e-05,
      "loss": 0.7892,
      "step": 349100
    },
    {
      "epoch": 0.476739248277171,
      "grad_norm": 8.5,
      "learning_rate": 5.53214001182674e-05,
      "loss": 0.8448,
      "step": 349150
    },
    {
      "epoch": 0.4768075196860608,
      "grad_norm": 2.71875,
      "learning_rate": 5.53105192273718e-05,
      "loss": 0.8583,
      "step": 349200
    },
    {
      "epoch": 0.4768757910949505,
      "grad_norm": 2.859375,
      "learning_rate": 5.529963808210791e-05,
      "loss": 0.7846,
      "step": 349250
    },
    {
      "epoch": 0.47694406250384025,
      "grad_norm": 3.71875,
      "learning_rate": 5.5288756682996877e-05,
      "loss": 0.6958,
      "step": 349300
    },
    {
      "epoch": 0.47701233391273,
      "grad_norm": 3.171875,
      "learning_rate": 5.527787503055993e-05,
      "loss": 0.9871,
      "step": 349350
    },
    {
      "epoch": 0.4770806053216198,
      "grad_norm": 3.0,
      "learning_rate": 5.52669931253183e-05,
      "loss": 0.7564,
      "step": 349400
    },
    {
      "epoch": 0.47714887673050954,
      "grad_norm": 6.65625,
      "learning_rate": 5.5256110967793217e-05,
      "loss": 0.8127,
      "step": 349450
    },
    {
      "epoch": 0.4772171481393993,
      "grad_norm": 2.984375,
      "learning_rate": 5.5245228558505927e-05,
      "loss": 0.729,
      "step": 349500
    },
    {
      "epoch": 0.47728541954828907,
      "grad_norm": 2.921875,
      "learning_rate": 5.5234345897977666e-05,
      "loss": 0.8491,
      "step": 349550
    },
    {
      "epoch": 0.47735369095717883,
      "grad_norm": 4.21875,
      "learning_rate": 5.5223462986729714e-05,
      "loss": 0.7641,
      "step": 349600
    },
    {
      "epoch": 0.47742196236606854,
      "grad_norm": 4.21875,
      "learning_rate": 5.5212579825283353e-05,
      "loss": 0.8793,
      "step": 349650
    },
    {
      "epoch": 0.4774902337749583,
      "grad_norm": 8.3125,
      "learning_rate": 5.520169641415986e-05,
      "loss": 0.8976,
      "step": 349700
    },
    {
      "epoch": 0.47755850518384807,
      "grad_norm": 2.8125,
      "learning_rate": 5.519081275388058e-05,
      "loss": 0.7823,
      "step": 349750
    },
    {
      "epoch": 0.47762677659273783,
      "grad_norm": 4.15625,
      "learning_rate": 5.517992884496679e-05,
      "loss": 0.805,
      "step": 349800
    },
    {
      "epoch": 0.4776950480016276,
      "grad_norm": 4.46875,
      "learning_rate": 5.516904468793982e-05,
      "loss": 0.8158,
      "step": 349850
    },
    {
      "epoch": 0.47776331941051736,
      "grad_norm": 9.5625,
      "learning_rate": 5.515816028332102e-05,
      "loss": 0.7672,
      "step": 349900
    },
    {
      "epoch": 0.4778315908194071,
      "grad_norm": 3.3125,
      "learning_rate": 5.514727563163175e-05,
      "loss": 0.6128,
      "step": 349950
    },
    {
      "epoch": 0.47789986222829683,
      "grad_norm": 3.0625,
      "learning_rate": 5.513639073339336e-05,
      "loss": 0.6007,
      "step": 350000
    },
    {
      "epoch": 0.4779681336371866,
      "grad_norm": 3.328125,
      "learning_rate": 5.512550558912724e-05,
      "loss": 0.8303,
      "step": 350050
    },
    {
      "epoch": 0.47803640504607636,
      "grad_norm": 2.71875,
      "learning_rate": 5.511462019935475e-05,
      "loss": 0.8975,
      "step": 350100
    },
    {
      "epoch": 0.4781046764549661,
      "grad_norm": 3.40625,
      "learning_rate": 5.510373456459731e-05,
      "loss": 0.8003,
      "step": 350150
    },
    {
      "epoch": 0.4781729478638559,
      "grad_norm": 3.515625,
      "learning_rate": 5.5092848685376316e-05,
      "loss": 0.786,
      "step": 350200
    },
    {
      "epoch": 0.47824121927274565,
      "grad_norm": 4.0,
      "learning_rate": 5.508196256221321e-05,
      "loss": 0.8427,
      "step": 350250
    },
    {
      "epoch": 0.4783094906816354,
      "grad_norm": 3.5625,
      "learning_rate": 5.5071076195629425e-05,
      "loss": 0.6809,
      "step": 350300
    },
    {
      "epoch": 0.4783777620905252,
      "grad_norm": 2.859375,
      "learning_rate": 5.506018958614638e-05,
      "loss": 0.9664,
      "step": 350350
    },
    {
      "epoch": 0.4784460334994149,
      "grad_norm": 2.921875,
      "learning_rate": 5.504930273428557e-05,
      "loss": 0.8129,
      "step": 350400
    },
    {
      "epoch": 0.47851430490830466,
      "grad_norm": 8.5625,
      "learning_rate": 5.503841564056842e-05,
      "loss": 0.7092,
      "step": 350450
    },
    {
      "epoch": 0.4785825763171944,
      "grad_norm": 3.21875,
      "learning_rate": 5.502752830551644e-05,
      "loss": 0.8085,
      "step": 350500
    },
    {
      "epoch": 0.4786508477260842,
      "grad_norm": 4.625,
      "learning_rate": 5.5016640729651135e-05,
      "loss": 0.7036,
      "step": 350550
    },
    {
      "epoch": 0.47871911913497395,
      "grad_norm": 5.90625,
      "learning_rate": 5.500575291349397e-05,
      "loss": 0.6528,
      "step": 350600
    },
    {
      "epoch": 0.4787873905438637,
      "grad_norm": 2.640625,
      "learning_rate": 5.499486485756647e-05,
      "loss": 0.8097,
      "step": 350650
    },
    {
      "epoch": 0.4788556619527535,
      "grad_norm": 4.28125,
      "learning_rate": 5.49839765623902e-05,
      "loss": 0.6426,
      "step": 350700
    },
    {
      "epoch": 0.4789239333616432,
      "grad_norm": 8.6875,
      "learning_rate": 5.4973088028486644e-05,
      "loss": 0.6778,
      "step": 350750
    },
    {
      "epoch": 0.47899220477053295,
      "grad_norm": 2.703125,
      "learning_rate": 5.496219925637739e-05,
      "loss": 0.8572,
      "step": 350800
    },
    {
      "epoch": 0.4790604761794227,
      "grad_norm": 6.96875,
      "learning_rate": 5.4951310246583974e-05,
      "loss": 0.8243,
      "step": 350850
    },
    {
      "epoch": 0.4791287475883125,
      "grad_norm": 2.84375,
      "learning_rate": 5.494042099962799e-05,
      "loss": 0.7552,
      "step": 350900
    },
    {
      "epoch": 0.47919701899720224,
      "grad_norm": 3.875,
      "learning_rate": 5.4929531516031e-05,
      "loss": 0.6064,
      "step": 350950
    },
    {
      "epoch": 0.479265290406092,
      "grad_norm": 3.90625,
      "learning_rate": 5.4918641796314605e-05,
      "loss": 0.7451,
      "step": 351000
    },
    {
      "epoch": 0.47933356181498177,
      "grad_norm": 4.09375,
      "learning_rate": 5.4907751841000435e-05,
      "loss": 0.7154,
      "step": 351050
    },
    {
      "epoch": 0.47940183322387153,
      "grad_norm": 4.15625,
      "learning_rate": 5.489686165061008e-05,
      "loss": 0.6634,
      "step": 351100
    },
    {
      "epoch": 0.47947010463276124,
      "grad_norm": 3.671875,
      "learning_rate": 5.4885971225665166e-05,
      "loss": 0.5692,
      "step": 351150
    },
    {
      "epoch": 0.479538376041651,
      "grad_norm": 4.21875,
      "learning_rate": 5.487508056668734e-05,
      "loss": 0.6149,
      "step": 351200
    },
    {
      "epoch": 0.47960664745054077,
      "grad_norm": 2.6875,
      "learning_rate": 5.486418967419827e-05,
      "loss": 0.7117,
      "step": 351250
    },
    {
      "epoch": 0.47967491885943053,
      "grad_norm": 2.90625,
      "learning_rate": 5.485329854871961e-05,
      "loss": 0.7051,
      "step": 351300
    },
    {
      "epoch": 0.4797431902683203,
      "grad_norm": 2.859375,
      "learning_rate": 5.4842407190773024e-05,
      "loss": 0.8549,
      "step": 351350
    },
    {
      "epoch": 0.47981146167721006,
      "grad_norm": 3.203125,
      "learning_rate": 5.483151560088019e-05,
      "loss": 0.747,
      "step": 351400
    },
    {
      "epoch": 0.4798797330860998,
      "grad_norm": 2.9375,
      "learning_rate": 5.482062377956283e-05,
      "loss": 0.727,
      "step": 351450
    },
    {
      "epoch": 0.4799480044949896,
      "grad_norm": 7.53125,
      "learning_rate": 5.480973172734263e-05,
      "loss": 0.8365,
      "step": 351500
    },
    {
      "epoch": 0.4800162759038793,
      "grad_norm": 3.390625,
      "learning_rate": 5.479883944474131e-05,
      "loss": 0.7991,
      "step": 351550
    },
    {
      "epoch": 0.48008454731276906,
      "grad_norm": 3.84375,
      "learning_rate": 5.478794693228061e-05,
      "loss": 0.827,
      "step": 351600
    },
    {
      "epoch": 0.4801528187216588,
      "grad_norm": 2.859375,
      "learning_rate": 5.4777054190482255e-05,
      "loss": 0.6878,
      "step": 351650
    },
    {
      "epoch": 0.4802210901305486,
      "grad_norm": 3.828125,
      "learning_rate": 5.4766161219868006e-05,
      "loss": 0.6478,
      "step": 351700
    },
    {
      "epoch": 0.48028936153943835,
      "grad_norm": 3.640625,
      "learning_rate": 5.475526802095961e-05,
      "loss": 0.6682,
      "step": 351750
    },
    {
      "epoch": 0.4803576329483281,
      "grad_norm": 3.984375,
      "learning_rate": 5.474437459427888e-05,
      "loss": 0.8047,
      "step": 351800
    },
    {
      "epoch": 0.4804259043572179,
      "grad_norm": 8.0,
      "learning_rate": 5.473348094034756e-05,
      "loss": 0.7471,
      "step": 351850
    },
    {
      "epoch": 0.4804941757661076,
      "grad_norm": 4.1875,
      "learning_rate": 5.472258705968746e-05,
      "loss": 0.6659,
      "step": 351900
    },
    {
      "epoch": 0.48056244717499735,
      "grad_norm": 7.4375,
      "learning_rate": 5.471169295282037e-05,
      "loss": 0.816,
      "step": 351950
    },
    {
      "epoch": 0.4806307185838871,
      "grad_norm": 2.78125,
      "learning_rate": 5.4700798620268124e-05,
      "loss": 0.6838,
      "step": 352000
    },
    {
      "epoch": 0.4806989899927769,
      "grad_norm": 2.484375,
      "learning_rate": 5.468990406255255e-05,
      "loss": 0.6613,
      "step": 352050
    },
    {
      "epoch": 0.48076726140166665,
      "grad_norm": 2.984375,
      "learning_rate": 5.467900928019547e-05,
      "loss": 0.5995,
      "step": 352100
    },
    {
      "epoch": 0.4808355328105564,
      "grad_norm": 8.6875,
      "learning_rate": 5.466811427371875e-05,
      "loss": 0.8041,
      "step": 352150
    },
    {
      "epoch": 0.4809038042194462,
      "grad_norm": 2.609375,
      "learning_rate": 5.4657219043644234e-05,
      "loss": 0.697,
      "step": 352200
    },
    {
      "epoch": 0.48097207562833594,
      "grad_norm": 9.4375,
      "learning_rate": 5.4646323590493795e-05,
      "loss": 0.8346,
      "step": 352250
    },
    {
      "epoch": 0.48104034703722565,
      "grad_norm": 3.328125,
      "learning_rate": 5.4635427914789324e-05,
      "loss": 0.786,
      "step": 352300
    },
    {
      "epoch": 0.4811086184461154,
      "grad_norm": 3.34375,
      "learning_rate": 5.4624532017052724e-05,
      "loss": 0.5977,
      "step": 352350
    },
    {
      "epoch": 0.4811768898550052,
      "grad_norm": 2.953125,
      "learning_rate": 5.461363589780586e-05,
      "loss": 0.6529,
      "step": 352400
    },
    {
      "epoch": 0.48124516126389494,
      "grad_norm": 3.6875,
      "learning_rate": 5.460273955757067e-05,
      "loss": 0.7246,
      "step": 352450
    },
    {
      "epoch": 0.4813134326727847,
      "grad_norm": 3.5625,
      "learning_rate": 5.459184299686907e-05,
      "loss": 0.7659,
      "step": 352500
    },
    {
      "epoch": 0.48138170408167447,
      "grad_norm": 3.25,
      "learning_rate": 5.4580946216223005e-05,
      "loss": 0.7148,
      "step": 352550
    },
    {
      "epoch": 0.48144997549056423,
      "grad_norm": 3.8125,
      "learning_rate": 5.457004921615441e-05,
      "loss": 0.7041,
      "step": 352600
    },
    {
      "epoch": 0.48151824689945394,
      "grad_norm": 2.71875,
      "learning_rate": 5.4559151997185235e-05,
      "loss": 0.9473,
      "step": 352650
    },
    {
      "epoch": 0.4815865183083437,
      "grad_norm": 3.46875,
      "learning_rate": 5.454825455983744e-05,
      "loss": 0.6969,
      "step": 352700
    },
    {
      "epoch": 0.48165478971723347,
      "grad_norm": 2.90625,
      "learning_rate": 5.453735690463302e-05,
      "loss": 0.7247,
      "step": 352750
    },
    {
      "epoch": 0.48172306112612323,
      "grad_norm": 3.1875,
      "learning_rate": 5.452645903209396e-05,
      "loss": 0.7715,
      "step": 352800
    },
    {
      "epoch": 0.481791332535013,
      "grad_norm": 5.1875,
      "learning_rate": 5.451556094274225e-05,
      "loss": 0.7606,
      "step": 352850
    },
    {
      "epoch": 0.48185960394390276,
      "grad_norm": 3.21875,
      "learning_rate": 5.450466263709989e-05,
      "loss": 0.6047,
      "step": 352900
    },
    {
      "epoch": 0.4819278753527925,
      "grad_norm": 3.90625,
      "learning_rate": 5.4493764115688896e-05,
      "loss": 0.8286,
      "step": 352950
    },
    {
      "epoch": 0.4819961467616823,
      "grad_norm": 3.796875,
      "learning_rate": 5.448286537903131e-05,
      "loss": 0.8076,
      "step": 353000
    },
    {
      "epoch": 0.482064418170572,
      "grad_norm": 2.8125,
      "learning_rate": 5.447196642764917e-05,
      "loss": 0.758,
      "step": 353050
    },
    {
      "epoch": 0.48213268957946176,
      "grad_norm": 5.09375,
      "learning_rate": 5.4461067262064515e-05,
      "loss": 0.7954,
      "step": 353100
    },
    {
      "epoch": 0.4822009609883515,
      "grad_norm": 3.390625,
      "learning_rate": 5.445016788279941e-05,
      "loss": 0.748,
      "step": 353150
    },
    {
      "epoch": 0.4822692323972413,
      "grad_norm": 5.03125,
      "learning_rate": 5.443926829037591e-05,
      "loss": 0.7734,
      "step": 353200
    },
    {
      "epoch": 0.48233750380613105,
      "grad_norm": 9.3125,
      "learning_rate": 5.442836848531611e-05,
      "loss": 0.8365,
      "step": 353250
    },
    {
      "epoch": 0.4824057752150208,
      "grad_norm": 3.875,
      "learning_rate": 5.4417468468142084e-05,
      "loss": 0.801,
      "step": 353300
    },
    {
      "epoch": 0.4824740466239106,
      "grad_norm": 3.953125,
      "learning_rate": 5.4406568239375964e-05,
      "loss": 0.7279,
      "step": 353350
    },
    {
      "epoch": 0.4825423180328003,
      "grad_norm": 2.75,
      "learning_rate": 5.439566779953983e-05,
      "loss": 0.8923,
      "step": 353400
    },
    {
      "epoch": 0.48261058944169005,
      "grad_norm": 2.953125,
      "learning_rate": 5.4384767149155805e-05,
      "loss": 0.7675,
      "step": 353450
    },
    {
      "epoch": 0.4826788608505798,
      "grad_norm": 2.890625,
      "learning_rate": 5.437386628874601e-05,
      "loss": 0.6498,
      "step": 353500
    },
    {
      "epoch": 0.4827471322594696,
      "grad_norm": 3.546875,
      "learning_rate": 5.436296521883261e-05,
      "loss": 0.8292,
      "step": 353550
    },
    {
      "epoch": 0.48281540366835934,
      "grad_norm": 2.953125,
      "learning_rate": 5.4352063939937747e-05,
      "loss": 0.7074,
      "step": 353600
    },
    {
      "epoch": 0.4828836750772491,
      "grad_norm": 2.84375,
      "learning_rate": 5.434116245258356e-05,
      "loss": 0.7778,
      "step": 353650
    },
    {
      "epoch": 0.48295194648613887,
      "grad_norm": 3.90625,
      "learning_rate": 5.4330260757292254e-05,
      "loss": 0.799,
      "step": 353700
    },
    {
      "epoch": 0.48302021789502864,
      "grad_norm": 2.890625,
      "learning_rate": 5.4319358854585966e-05,
      "loss": 0.8892,
      "step": 353750
    },
    {
      "epoch": 0.48308848930391834,
      "grad_norm": 3.109375,
      "learning_rate": 5.430845674498693e-05,
      "loss": 0.7852,
      "step": 353800
    },
    {
      "epoch": 0.4831567607128081,
      "grad_norm": 3.078125,
      "learning_rate": 5.4297554429017317e-05,
      "loss": 0.7079,
      "step": 353850
    },
    {
      "epoch": 0.4832250321216979,
      "grad_norm": 2.984375,
      "learning_rate": 5.428665190719935e-05,
      "loss": 0.7696,
      "step": 353900
    },
    {
      "epoch": 0.48329330353058764,
      "grad_norm": 2.65625,
      "learning_rate": 5.4275749180055224e-05,
      "loss": 0.7028,
      "step": 353950
    },
    {
      "epoch": 0.4833615749394774,
      "grad_norm": 8.125,
      "learning_rate": 5.42648462481072e-05,
      "loss": 0.8128,
      "step": 354000
    },
    {
      "epoch": 0.48342984634836716,
      "grad_norm": 7.5625,
      "learning_rate": 5.4253943111877504e-05,
      "loss": 0.76,
      "step": 354050
    },
    {
      "epoch": 0.48349811775725693,
      "grad_norm": 4.5625,
      "learning_rate": 5.424303977188838e-05,
      "loss": 0.7262,
      "step": 354100
    },
    {
      "epoch": 0.4835663891661467,
      "grad_norm": 3.09375,
      "learning_rate": 5.423213622866211e-05,
      "loss": 0.7874,
      "step": 354150
    },
    {
      "epoch": 0.4836346605750364,
      "grad_norm": 3.8125,
      "learning_rate": 5.422123248272093e-05,
      "loss": 0.7906,
      "step": 354200
    },
    {
      "epoch": 0.48370293198392617,
      "grad_norm": 2.828125,
      "learning_rate": 5.4210328534587126e-05,
      "loss": 0.9421,
      "step": 354250
    },
    {
      "epoch": 0.48377120339281593,
      "grad_norm": 3.515625,
      "learning_rate": 5.419942438478299e-05,
      "loss": 0.6288,
      "step": 354300
    },
    {
      "epoch": 0.4838394748017057,
      "grad_norm": 3.5625,
      "learning_rate": 5.418852003383083e-05,
      "loss": 0.6748,
      "step": 354350
    },
    {
      "epoch": 0.48390774621059546,
      "grad_norm": 2.828125,
      "learning_rate": 5.417761548225295e-05,
      "loss": 0.913,
      "step": 354400
    },
    {
      "epoch": 0.4839760176194852,
      "grad_norm": 2.765625,
      "learning_rate": 5.416671073057165e-05,
      "loss": 0.6762,
      "step": 354450
    },
    {
      "epoch": 0.484044289028375,
      "grad_norm": 3.015625,
      "learning_rate": 5.415580577930926e-05,
      "loss": 0.7195,
      "step": 354500
    },
    {
      "epoch": 0.4841125604372647,
      "grad_norm": 3.421875,
      "learning_rate": 5.414490062898814e-05,
      "loss": 0.6711,
      "step": 354550
    },
    {
      "epoch": 0.48418083184615446,
      "grad_norm": 8.8125,
      "learning_rate": 5.41339952801306e-05,
      "loss": 0.7461,
      "step": 354600
    },
    {
      "epoch": 0.4842491032550442,
      "grad_norm": 3.65625,
      "learning_rate": 5.4123089733259035e-05,
      "loss": 0.7132,
      "step": 354650
    },
    {
      "epoch": 0.484317374663934,
      "grad_norm": 2.828125,
      "learning_rate": 5.4112183988895774e-05,
      "loss": 0.6806,
      "step": 354700
    },
    {
      "epoch": 0.48438564607282375,
      "grad_norm": 8.25,
      "learning_rate": 5.410127804756319e-05,
      "loss": 0.9267,
      "step": 354750
    },
    {
      "epoch": 0.4844539174817135,
      "grad_norm": 2.875,
      "learning_rate": 5.409037190978369e-05,
      "loss": 0.846,
      "step": 354800
    },
    {
      "epoch": 0.4845221888906033,
      "grad_norm": 2.734375,
      "learning_rate": 5.407946557607966e-05,
      "loss": 0.6813,
      "step": 354850
    },
    {
      "epoch": 0.48459046029949304,
      "grad_norm": 2.6875,
      "learning_rate": 5.40685590469735e-05,
      "loss": 0.7676,
      "step": 354900
    },
    {
      "epoch": 0.48465873170838275,
      "grad_norm": 2.71875,
      "learning_rate": 5.405765232298762e-05,
      "loss": 0.751,
      "step": 354950
    },
    {
      "epoch": 0.4847270031172725,
      "grad_norm": 2.890625,
      "learning_rate": 5.4046745404644426e-05,
      "loss": 0.8095,
      "step": 355000
    },
    {
      "epoch": 0.4847952745261623,
      "grad_norm": 3.125,
      "learning_rate": 5.403583829246637e-05,
      "loss": 0.8872,
      "step": 355050
    },
    {
      "epoch": 0.48486354593505204,
      "grad_norm": 2.4375,
      "learning_rate": 5.402493098697588e-05,
      "loss": 0.7849,
      "step": 355100
    },
    {
      "epoch": 0.4849318173439418,
      "grad_norm": 3.09375,
      "learning_rate": 5.401402348869542e-05,
      "loss": 0.7095,
      "step": 355150
    },
    {
      "epoch": 0.48500008875283157,
      "grad_norm": 3.828125,
      "learning_rate": 5.400311579814743e-05,
      "loss": 0.7957,
      "step": 355200
    },
    {
      "epoch": 0.48506836016172133,
      "grad_norm": 2.78125,
      "learning_rate": 5.3992207915854375e-05,
      "loss": 0.7888,
      "step": 355250
    },
    {
      "epoch": 0.48513663157061104,
      "grad_norm": 3.703125,
      "learning_rate": 5.398129984233875e-05,
      "loss": 0.6045,
      "step": 355300
    },
    {
      "epoch": 0.4852049029795008,
      "grad_norm": 3.59375,
      "learning_rate": 5.397039157812302e-05,
      "loss": 0.7133,
      "step": 355350
    },
    {
      "epoch": 0.48527317438839057,
      "grad_norm": 4.0,
      "learning_rate": 5.3959483123729705e-05,
      "loss": 0.8022,
      "step": 355400
    },
    {
      "epoch": 0.48534144579728034,
      "grad_norm": 3.265625,
      "learning_rate": 5.3948574479681266e-05,
      "loss": 0.8113,
      "step": 355450
    },
    {
      "epoch": 0.4854097172061701,
      "grad_norm": 4.3125,
      "learning_rate": 5.3937665646500256e-05,
      "loss": 0.7278,
      "step": 355500
    },
    {
      "epoch": 0.48547798861505986,
      "grad_norm": 3.75,
      "learning_rate": 5.392675662470919e-05,
      "loss": 0.8149,
      "step": 355550
    },
    {
      "epoch": 0.4855462600239496,
      "grad_norm": 2.890625,
      "learning_rate": 5.3915847414830576e-05,
      "loss": 0.7387,
      "step": 355600
    },
    {
      "epoch": 0.4856145314328394,
      "grad_norm": 3.671875,
      "learning_rate": 5.390493801738699e-05,
      "loss": 0.7869,
      "step": 355650
    },
    {
      "epoch": 0.4856828028417291,
      "grad_norm": 4.28125,
      "learning_rate": 5.3894028432900934e-05,
      "loss": 0.6986,
      "step": 355700
    },
    {
      "epoch": 0.48575107425061886,
      "grad_norm": 2.84375,
      "learning_rate": 5.3883118661895006e-05,
      "loss": 0.735,
      "step": 355750
    },
    {
      "epoch": 0.48581934565950863,
      "grad_norm": 2.625,
      "learning_rate": 5.387220870489175e-05,
      "loss": 0.7602,
      "step": 355800
    },
    {
      "epoch": 0.4858876170683984,
      "grad_norm": 4.03125,
      "learning_rate": 5.3861298562413756e-05,
      "loss": 0.8337,
      "step": 355850
    },
    {
      "epoch": 0.48595588847728816,
      "grad_norm": 7.78125,
      "learning_rate": 5.38503882349836e-05,
      "loss": 0.8752,
      "step": 355900
    },
    {
      "epoch": 0.4860241598861779,
      "grad_norm": 2.921875,
      "learning_rate": 5.3839477723123874e-05,
      "loss": 0.6329,
      "step": 355950
    },
    {
      "epoch": 0.4860924312950677,
      "grad_norm": 4.4375,
      "learning_rate": 5.382856702735719e-05,
      "loss": 0.6497,
      "step": 356000
    },
    {
      "epoch": 0.48616070270395745,
      "grad_norm": 3.71875,
      "learning_rate": 5.381765614820614e-05,
      "loss": 0.8985,
      "step": 356050
    },
    {
      "epoch": 0.48622897411284716,
      "grad_norm": 3.8125,
      "learning_rate": 5.3806745086193365e-05,
      "loss": 0.7728,
      "step": 356100
    },
    {
      "epoch": 0.4862972455217369,
      "grad_norm": 3.703125,
      "learning_rate": 5.3795833841841483e-05,
      "loss": 0.7548,
      "step": 356150
    },
    {
      "epoch": 0.4863655169306267,
      "grad_norm": 8.25,
      "learning_rate": 5.3784922415673146e-05,
      "loss": 0.9417,
      "step": 356200
    },
    {
      "epoch": 0.48643378833951645,
      "grad_norm": 2.953125,
      "learning_rate": 5.377401080821096e-05,
      "loss": 0.843,
      "step": 356250
    },
    {
      "epoch": 0.4865020597484062,
      "grad_norm": 5.125,
      "learning_rate": 5.376309901997762e-05,
      "loss": 0.7282,
      "step": 356300
    },
    {
      "epoch": 0.486570331157296,
      "grad_norm": 3.5625,
      "learning_rate": 5.3752187051495776e-05,
      "loss": 0.8432,
      "step": 356350
    },
    {
      "epoch": 0.48663860256618574,
      "grad_norm": 3.5625,
      "learning_rate": 5.374127490328809e-05,
      "loss": 0.7921,
      "step": 356400
    },
    {
      "epoch": 0.48670687397507545,
      "grad_norm": 3.03125,
      "learning_rate": 5.373036257587727e-05,
      "loss": 0.7846,
      "step": 356450
    },
    {
      "epoch": 0.4867751453839652,
      "grad_norm": 7.75,
      "learning_rate": 5.371945006978597e-05,
      "loss": 0.8074,
      "step": 356500
    },
    {
      "epoch": 0.486843416792855,
      "grad_norm": 2.71875,
      "learning_rate": 5.37085373855369e-05,
      "loss": 0.7335,
      "step": 356550
    },
    {
      "epoch": 0.48691168820174474,
      "grad_norm": 3.65625,
      "learning_rate": 5.369762452365278e-05,
      "loss": 0.8054,
      "step": 356600
    },
    {
      "epoch": 0.4869799596106345,
      "grad_norm": 2.921875,
      "learning_rate": 5.3686711484656314e-05,
      "loss": 0.6544,
      "step": 356650
    },
    {
      "epoch": 0.48704823101952427,
      "grad_norm": 3.234375,
      "learning_rate": 5.3675798269070234e-05,
      "loss": 0.6314,
      "step": 356700
    },
    {
      "epoch": 0.48711650242841403,
      "grad_norm": 3.140625,
      "learning_rate": 5.366488487741726e-05,
      "loss": 0.9531,
      "step": 356750
    },
    {
      "epoch": 0.4871847738373038,
      "grad_norm": 2.6875,
      "learning_rate": 5.365397131022013e-05,
      "loss": 0.9184,
      "step": 356800
    },
    {
      "epoch": 0.4872530452461935,
      "grad_norm": 2.703125,
      "learning_rate": 5.3643057568001596e-05,
      "loss": 0.8853,
      "step": 356850
    },
    {
      "epoch": 0.48732131665508327,
      "grad_norm": 3.125,
      "learning_rate": 5.3632143651284414e-05,
      "loss": 0.8275,
      "step": 356900
    },
    {
      "epoch": 0.48738958806397303,
      "grad_norm": 3.109375,
      "learning_rate": 5.362122956059137e-05,
      "loss": 0.6921,
      "step": 356950
    },
    {
      "epoch": 0.4874578594728628,
      "grad_norm": 3.5625,
      "learning_rate": 5.36103152964452e-05,
      "loss": 0.8925,
      "step": 357000
    },
    {
      "epoch": 0.48752613088175256,
      "grad_norm": 3.265625,
      "learning_rate": 5.359940085936872e-05,
      "loss": 0.7965,
      "step": 357050
    },
    {
      "epoch": 0.4875944022906423,
      "grad_norm": 3.640625,
      "learning_rate": 5.358848624988469e-05,
      "loss": 0.729,
      "step": 357100
    },
    {
      "epoch": 0.4876626736995321,
      "grad_norm": 4.625,
      "learning_rate": 5.357757146851594e-05,
      "loss": 0.8737,
      "step": 357150
    },
    {
      "epoch": 0.4877309451084218,
      "grad_norm": 2.578125,
      "learning_rate": 5.356665651578526e-05,
      "loss": 0.7495,
      "step": 357200
    },
    {
      "epoch": 0.48779921651731156,
      "grad_norm": 2.8125,
      "learning_rate": 5.355574139221547e-05,
      "loss": 1.014,
      "step": 357250
    },
    {
      "epoch": 0.4878674879262013,
      "grad_norm": 2.75,
      "learning_rate": 5.354482609832937e-05,
      "loss": 0.7309,
      "step": 357300
    },
    {
      "epoch": 0.4879357593350911,
      "grad_norm": 2.671875,
      "learning_rate": 5.353391063464982e-05,
      "loss": 0.8129,
      "step": 357350
    },
    {
      "epoch": 0.48800403074398085,
      "grad_norm": 3.0625,
      "learning_rate": 5.352299500169964e-05,
      "loss": 0.666,
      "step": 357400
    },
    {
      "epoch": 0.4880723021528706,
      "grad_norm": 4.21875,
      "learning_rate": 5.3512079200001706e-05,
      "loss": 0.787,
      "step": 357450
    },
    {
      "epoch": 0.4881405735617604,
      "grad_norm": 8.5,
      "learning_rate": 5.3501163230078835e-05,
      "loss": 0.876,
      "step": 357500
    },
    {
      "epoch": 0.48820884497065015,
      "grad_norm": 2.921875,
      "learning_rate": 5.349024709245392e-05,
      "loss": 1.0307,
      "step": 357550
    },
    {
      "epoch": 0.48827711637953986,
      "grad_norm": 4.03125,
      "learning_rate": 5.347933078764981e-05,
      "loss": 0.7803,
      "step": 357600
    },
    {
      "epoch": 0.4883453877884296,
      "grad_norm": 3.4375,
      "learning_rate": 5.3468414316189406e-05,
      "loss": 0.8515,
      "step": 357650
    },
    {
      "epoch": 0.4884136591973194,
      "grad_norm": 3.5625,
      "learning_rate": 5.345749767859558e-05,
      "loss": 0.9122,
      "step": 357700
    },
    {
      "epoch": 0.48848193060620915,
      "grad_norm": 7.53125,
      "learning_rate": 5.344658087539125e-05,
      "loss": 0.989,
      "step": 357750
    },
    {
      "epoch": 0.4885502020150989,
      "grad_norm": 2.859375,
      "learning_rate": 5.3435663907099285e-05,
      "loss": 0.7827,
      "step": 357800
    },
    {
      "epoch": 0.4886184734239887,
      "grad_norm": 3.03125,
      "learning_rate": 5.342474677424262e-05,
      "loss": 0.8224,
      "step": 357850
    },
    {
      "epoch": 0.48868674483287844,
      "grad_norm": 6.90625,
      "learning_rate": 5.341382947734417e-05,
      "loss": 0.842,
      "step": 357900
    },
    {
      "epoch": 0.48875501624176815,
      "grad_norm": 3.53125,
      "learning_rate": 5.340291201692685e-05,
      "loss": 0.8209,
      "step": 357950
    },
    {
      "epoch": 0.4888232876506579,
      "grad_norm": 9.3125,
      "learning_rate": 5.339199439351362e-05,
      "loss": 0.7829,
      "step": 358000
    },
    {
      "epoch": 0.4888915590595477,
      "grad_norm": 2.578125,
      "learning_rate": 5.338107660762741e-05,
      "loss": 0.7572,
      "step": 358050
    },
    {
      "epoch": 0.48895983046843744,
      "grad_norm": 3.359375,
      "learning_rate": 5.3370158659791155e-05,
      "loss": 0.7726,
      "step": 358100
    },
    {
      "epoch": 0.4890281018773272,
      "grad_norm": 3.265625,
      "learning_rate": 5.3359240550527836e-05,
      "loss": 0.7817,
      "step": 358150
    },
    {
      "epoch": 0.48909637328621697,
      "grad_norm": 2.75,
      "learning_rate": 5.334832228036041e-05,
      "loss": 0.6244,
      "step": 358200
    },
    {
      "epoch": 0.48916464469510673,
      "grad_norm": 3.5625,
      "learning_rate": 5.333740384981185e-05,
      "loss": 0.8126,
      "step": 358250
    },
    {
      "epoch": 0.4892329161039965,
      "grad_norm": 9.3125,
      "learning_rate": 5.332648525940513e-05,
      "loss": 0.9114,
      "step": 358300
    },
    {
      "epoch": 0.4893011875128862,
      "grad_norm": 3.046875,
      "learning_rate": 5.3315566509663264e-05,
      "loss": 0.8477,
      "step": 358350
    },
    {
      "epoch": 0.48936945892177597,
      "grad_norm": 8.1875,
      "learning_rate": 5.3304647601109216e-05,
      "loss": 0.8389,
      "step": 358400
    },
    {
      "epoch": 0.48943773033066573,
      "grad_norm": 9.875,
      "learning_rate": 5.3293728534266015e-05,
      "loss": 0.9185,
      "step": 358450
    },
    {
      "epoch": 0.4895060017395555,
      "grad_norm": 8.25,
      "learning_rate": 5.328280930965667e-05,
      "loss": 1.0503,
      "step": 358500
    },
    {
      "epoch": 0.48957427314844526,
      "grad_norm": 3.703125,
      "learning_rate": 5.3271889927804183e-05,
      "loss": 0.8402,
      "step": 358550
    },
    {
      "epoch": 0.489642544557335,
      "grad_norm": 7.875,
      "learning_rate": 5.3260970389231604e-05,
      "loss": 0.9057,
      "step": 358600
    },
    {
      "epoch": 0.4897108159662248,
      "grad_norm": 3.046875,
      "learning_rate": 5.325005069446194e-05,
      "loss": 0.7592,
      "step": 358650
    },
    {
      "epoch": 0.48977908737511455,
      "grad_norm": 3.8125,
      "learning_rate": 5.323913084401826e-05,
      "loss": 0.6553,
      "step": 358700
    },
    {
      "epoch": 0.48984735878400426,
      "grad_norm": 7.28125,
      "learning_rate": 5.322821083842361e-05,
      "loss": 0.7189,
      "step": 358750
    },
    {
      "epoch": 0.489915630192894,
      "grad_norm": 12.5,
      "learning_rate": 5.321729067820103e-05,
      "loss": 0.8771,
      "step": 358800
    },
    {
      "epoch": 0.4899839016017838,
      "grad_norm": 2.796875,
      "learning_rate": 5.320637036387358e-05,
      "loss": 0.7623,
      "step": 358850
    },
    {
      "epoch": 0.49005217301067355,
      "grad_norm": 3.03125,
      "learning_rate": 5.3195449895964356e-05,
      "loss": 0.6552,
      "step": 358900
    },
    {
      "epoch": 0.4901204444195633,
      "grad_norm": 3.078125,
      "learning_rate": 5.3184529274996434e-05,
      "loss": 0.7997,
      "step": 358950
    },
    {
      "epoch": 0.4901887158284531,
      "grad_norm": 6.0,
      "learning_rate": 5.317360850149289e-05,
      "loss": 0.9285,
      "step": 359000
    },
    {
      "epoch": 0.49025698723734285,
      "grad_norm": 3.40625,
      "learning_rate": 5.316268757597681e-05,
      "loss": 0.6505,
      "step": 359050
    },
    {
      "epoch": 0.49032525864623255,
      "grad_norm": 9.75,
      "learning_rate": 5.315176649897131e-05,
      "loss": 0.7813,
      "step": 359100
    },
    {
      "epoch": 0.4903935300551223,
      "grad_norm": 3.65625,
      "learning_rate": 5.31408452709995e-05,
      "loss": 1.1113,
      "step": 359150
    },
    {
      "epoch": 0.4904618014640121,
      "grad_norm": 2.984375,
      "learning_rate": 5.312992389258448e-05,
      "loss": 0.8314,
      "step": 359200
    },
    {
      "epoch": 0.49053007287290185,
      "grad_norm": 4.0,
      "learning_rate": 5.311900236424939e-05,
      "loss": 0.9265,
      "step": 359250
    },
    {
      "epoch": 0.4905983442817916,
      "grad_norm": 2.65625,
      "learning_rate": 5.310808068651735e-05,
      "loss": 0.6913,
      "step": 359300
    },
    {
      "epoch": 0.4906666156906814,
      "grad_norm": 2.734375,
      "learning_rate": 5.309715885991149e-05,
      "loss": 0.8839,
      "step": 359350
    },
    {
      "epoch": 0.49073488709957114,
      "grad_norm": 2.796875,
      "learning_rate": 5.3086236884954956e-05,
      "loss": 0.8416,
      "step": 359400
    },
    {
      "epoch": 0.4908031585084609,
      "grad_norm": 3.421875,
      "learning_rate": 5.307531476217091e-05,
      "loss": 0.9709,
      "step": 359450
    },
    {
      "epoch": 0.4908714299173506,
      "grad_norm": 3.015625,
      "learning_rate": 5.3064392492082515e-05,
      "loss": 0.7402,
      "step": 359500
    },
    {
      "epoch": 0.4909397013262404,
      "grad_norm": 2.546875,
      "learning_rate": 5.305347007521293e-05,
      "loss": 0.7926,
      "step": 359550
    },
    {
      "epoch": 0.49100797273513014,
      "grad_norm": 4.0625,
      "learning_rate": 5.30425475120853e-05,
      "loss": 0.9346,
      "step": 359600
    },
    {
      "epoch": 0.4910762441440199,
      "grad_norm": 4.15625,
      "learning_rate": 5.3031624803222846e-05,
      "loss": 0.8421,
      "step": 359650
    },
    {
      "epoch": 0.49114451555290967,
      "grad_norm": 3.921875,
      "learning_rate": 5.3020701949148734e-05,
      "loss": 0.8477,
      "step": 359700
    },
    {
      "epoch": 0.49121278696179943,
      "grad_norm": 2.859375,
      "learning_rate": 5.3009778950386154e-05,
      "loss": 0.8194,
      "step": 359750
    },
    {
      "epoch": 0.4912810583706892,
      "grad_norm": 4.1875,
      "learning_rate": 5.299885580745832e-05,
      "loss": 0.7575,
      "step": 359800
    },
    {
      "epoch": 0.4913493297795789,
      "grad_norm": 3.0625,
      "learning_rate": 5.2987932520888436e-05,
      "loss": 0.7653,
      "step": 359850
    },
    {
      "epoch": 0.49141760118846867,
      "grad_norm": 2.9375,
      "learning_rate": 5.29770090911997e-05,
      "loss": 0.7289,
      "step": 359900
    },
    {
      "epoch": 0.49148587259735843,
      "grad_norm": 2.671875,
      "learning_rate": 5.296608551891534e-05,
      "loss": 0.8118,
      "step": 359950
    },
    {
      "epoch": 0.4915541440062482,
      "grad_norm": 3.375,
      "learning_rate": 5.295516180455859e-05,
      "loss": 0.7557,
      "step": 360000
    },
    {
      "epoch": 0.49162241541513796,
      "grad_norm": 4.0,
      "learning_rate": 5.294423794865271e-05,
      "loss": 0.7868,
      "step": 360050
    },
    {
      "epoch": 0.4916906868240277,
      "grad_norm": 3.9375,
      "learning_rate": 5.2933313951720886e-05,
      "loss": 0.7648,
      "step": 360100
    },
    {
      "epoch": 0.4917589582329175,
      "grad_norm": 3.515625,
      "learning_rate": 5.29223898142864e-05,
      "loss": 0.7857,
      "step": 360150
    },
    {
      "epoch": 0.49182722964180725,
      "grad_norm": 3.875,
      "learning_rate": 5.2911465536872495e-05,
      "loss": 0.6842,
      "step": 360200
    },
    {
      "epoch": 0.49189550105069696,
      "grad_norm": 7.90625,
      "learning_rate": 5.2900541120002436e-05,
      "loss": 0.7625,
      "step": 360250
    },
    {
      "epoch": 0.4919637724595867,
      "grad_norm": 3.09375,
      "learning_rate": 5.2889616564199505e-05,
      "loss": 0.7694,
      "step": 360300
    },
    {
      "epoch": 0.4920320438684765,
      "grad_norm": 2.9375,
      "learning_rate": 5.2878691869986965e-05,
      "loss": 0.7751,
      "step": 360350
    },
    {
      "epoch": 0.49210031527736625,
      "grad_norm": 2.59375,
      "learning_rate": 5.286776703788808e-05,
      "loss": 0.6944,
      "step": 360400
    },
    {
      "epoch": 0.492168586686256,
      "grad_norm": 3.90625,
      "learning_rate": 5.2856842068426174e-05,
      "loss": 0.6651,
      "step": 360450
    },
    {
      "epoch": 0.4922368580951458,
      "grad_norm": 3.953125,
      "learning_rate": 5.284591696212451e-05,
      "loss": 0.7659,
      "step": 360500
    },
    {
      "epoch": 0.49230512950403554,
      "grad_norm": 3.15625,
      "learning_rate": 5.283499171950641e-05,
      "loss": 0.8205,
      "step": 360550
    },
    {
      "epoch": 0.49237340091292525,
      "grad_norm": 2.90625,
      "learning_rate": 5.282406634109517e-05,
      "loss": 0.7467,
      "step": 360600
    },
    {
      "epoch": 0.492441672321815,
      "grad_norm": 2.921875,
      "learning_rate": 5.28131408274141e-05,
      "loss": 0.716,
      "step": 360650
    },
    {
      "epoch": 0.4925099437307048,
      "grad_norm": 3.515625,
      "learning_rate": 5.2802215178986534e-05,
      "loss": 0.7447,
      "step": 360700
    },
    {
      "epoch": 0.49257821513959454,
      "grad_norm": 3.421875,
      "learning_rate": 5.27912893963358e-05,
      "loss": 0.8032,
      "step": 360750
    },
    {
      "epoch": 0.4926464865484843,
      "grad_norm": 7.6875,
      "learning_rate": 5.278036347998523e-05,
      "loss": 0.7212,
      "step": 360800
    },
    {
      "epoch": 0.49271475795737407,
      "grad_norm": 2.90625,
      "learning_rate": 5.276943743045814e-05,
      "loss": 0.7593,
      "step": 360850
    },
    {
      "epoch": 0.49278302936626384,
      "grad_norm": 3.96875,
      "learning_rate": 5.2758511248277896e-05,
      "loss": 0.8571,
      "step": 360900
    },
    {
      "epoch": 0.4928513007751536,
      "grad_norm": 3.484375,
      "learning_rate": 5.274758493396786e-05,
      "loss": 0.8128,
      "step": 360950
    },
    {
      "epoch": 0.4929195721840433,
      "grad_norm": 3.546875,
      "learning_rate": 5.273665848805138e-05,
      "loss": 0.7606,
      "step": 361000
    },
    {
      "epoch": 0.4929878435929331,
      "grad_norm": 3.296875,
      "learning_rate": 5.2725731911051833e-05,
      "loss": 0.7787,
      "step": 361050
    },
    {
      "epoch": 0.49305611500182284,
      "grad_norm": 3.859375,
      "learning_rate": 5.271480520349257e-05,
      "loss": 0.811,
      "step": 361100
    },
    {
      "epoch": 0.4931243864107126,
      "grad_norm": 3.8125,
      "learning_rate": 5.270387836589698e-05,
      "loss": 0.7278,
      "step": 361150
    },
    {
      "epoch": 0.49319265781960236,
      "grad_norm": 2.78125,
      "learning_rate": 5.2692951398788435e-05,
      "loss": 0.7988,
      "step": 361200
    },
    {
      "epoch": 0.49326092922849213,
      "grad_norm": 7.34375,
      "learning_rate": 5.2682024302690334e-05,
      "loss": 0.7866,
      "step": 361250
    },
    {
      "epoch": 0.4933292006373819,
      "grad_norm": 2.984375,
      "learning_rate": 5.2671097078126094e-05,
      "loss": 0.7526,
      "step": 361300
    },
    {
      "epoch": 0.49339747204627166,
      "grad_norm": 6.65625,
      "learning_rate": 5.26601697256191e-05,
      "loss": 0.6707,
      "step": 361350
    },
    {
      "epoch": 0.49346574345516137,
      "grad_norm": 3.140625,
      "learning_rate": 5.264924224569274e-05,
      "loss": 0.7635,
      "step": 361400
    },
    {
      "epoch": 0.49353401486405113,
      "grad_norm": 7.65625,
      "learning_rate": 5.2638314638870466e-05,
      "loss": 0.7598,
      "step": 361450
    },
    {
      "epoch": 0.4936022862729409,
      "grad_norm": 3.25,
      "learning_rate": 5.262738690567568e-05,
      "loss": 0.7193,
      "step": 361500
    },
    {
      "epoch": 0.49367055768183066,
      "grad_norm": 3.328125,
      "learning_rate": 5.261645904663181e-05,
      "loss": 0.7386,
      "step": 361550
    },
    {
      "epoch": 0.4937388290907204,
      "grad_norm": 3.96875,
      "learning_rate": 5.260553106226229e-05,
      "loss": 0.725,
      "step": 361600
    },
    {
      "epoch": 0.4938071004996102,
      "grad_norm": 2.984375,
      "learning_rate": 5.259460295309056e-05,
      "loss": 0.7537,
      "step": 361650
    },
    {
      "epoch": 0.49387537190849995,
      "grad_norm": 3.375,
      "learning_rate": 5.258367471964005e-05,
      "loss": 0.7081,
      "step": 361700
    },
    {
      "epoch": 0.49394364331738966,
      "grad_norm": 2.828125,
      "learning_rate": 5.2572746362434236e-05,
      "loss": 0.8575,
      "step": 361750
    },
    {
      "epoch": 0.4940119147262794,
      "grad_norm": 3.65625,
      "learning_rate": 5.256181788199656e-05,
      "loss": 0.7058,
      "step": 361800
    },
    {
      "epoch": 0.4940801861351692,
      "grad_norm": 3.171875,
      "learning_rate": 5.25508892788505e-05,
      "loss": 0.7313,
      "step": 361850
    },
    {
      "epoch": 0.49414845754405895,
      "grad_norm": 7.90625,
      "learning_rate": 5.2539960553519496e-05,
      "loss": 0.7728,
      "step": 361900
    },
    {
      "epoch": 0.4942167289529487,
      "grad_norm": 2.96875,
      "learning_rate": 5.252903170652706e-05,
      "loss": 0.738,
      "step": 361950
    },
    {
      "epoch": 0.4942850003618385,
      "grad_norm": 3.109375,
      "learning_rate": 5.251810273839662e-05,
      "loss": 0.6965,
      "step": 362000
    },
    {
      "epoch": 0.49435327177072824,
      "grad_norm": 2.59375,
      "learning_rate": 5.250717364965172e-05,
      "loss": 0.6319,
      "step": 362050
    },
    {
      "epoch": 0.494421543179618,
      "grad_norm": 3.75,
      "learning_rate": 5.2496244440815835e-05,
      "loss": 0.7073,
      "step": 362100
    },
    {
      "epoch": 0.4944898145885077,
      "grad_norm": 2.65625,
      "learning_rate": 5.2485315112412424e-05,
      "loss": 0.7258,
      "step": 362150
    },
    {
      "epoch": 0.4945580859973975,
      "grad_norm": 3.21875,
      "learning_rate": 5.2474385664965044e-05,
      "loss": 0.8081,
      "step": 362200
    },
    {
      "epoch": 0.49462635740628724,
      "grad_norm": 2.921875,
      "learning_rate": 5.246345609899717e-05,
      "loss": 0.7659,
      "step": 362250
    },
    {
      "epoch": 0.494694628815177,
      "grad_norm": 7.78125,
      "learning_rate": 5.2452526415032325e-05,
      "loss": 0.7393,
      "step": 362300
    },
    {
      "epoch": 0.49476290022406677,
      "grad_norm": 2.59375,
      "learning_rate": 5.244159661359403e-05,
      "loss": 0.7679,
      "step": 362350
    },
    {
      "epoch": 0.49483117163295653,
      "grad_norm": 8.4375,
      "learning_rate": 5.243066669520582e-05,
      "loss": 0.6655,
      "step": 362400
    },
    {
      "epoch": 0.4948994430418463,
      "grad_norm": 3.015625,
      "learning_rate": 5.241973666039122e-05,
      "loss": 0.6764,
      "step": 362450
    },
    {
      "epoch": 0.494967714450736,
      "grad_norm": 3.515625,
      "learning_rate": 5.240880650967376e-05,
      "loss": 0.6935,
      "step": 362500
    },
    {
      "epoch": 0.49503598585962577,
      "grad_norm": 7.03125,
      "learning_rate": 5.2397876243576985e-05,
      "loss": 0.8142,
      "step": 362550
    },
    {
      "epoch": 0.49510425726851554,
      "grad_norm": 3.703125,
      "learning_rate": 5.238694586262446e-05,
      "loss": 0.6996,
      "step": 362600
    },
    {
      "epoch": 0.4951725286774053,
      "grad_norm": 3.140625,
      "learning_rate": 5.237601536733971e-05,
      "loss": 0.8789,
      "step": 362650
    },
    {
      "epoch": 0.49524080008629506,
      "grad_norm": 2.53125,
      "learning_rate": 5.236508475824633e-05,
      "loss": 0.82,
      "step": 362700
    },
    {
      "epoch": 0.4953090714951848,
      "grad_norm": 2.640625,
      "learning_rate": 5.2354154035867856e-05,
      "loss": 0.7219,
      "step": 362750
    },
    {
      "epoch": 0.4953773429040746,
      "grad_norm": 3.78125,
      "learning_rate": 5.2343223200727855e-05,
      "loss": 0.7521,
      "step": 362800
    },
    {
      "epoch": 0.49544561431296436,
      "grad_norm": 3.890625,
      "learning_rate": 5.233229225334994e-05,
      "loss": 0.8071,
      "step": 362850
    },
    {
      "epoch": 0.49551388572185406,
      "grad_norm": 2.671875,
      "learning_rate": 5.2321361194257645e-05,
      "loss": 0.6521,
      "step": 362900
    },
    {
      "epoch": 0.49558215713074383,
      "grad_norm": 8.125,
      "learning_rate": 5.2310430023974585e-05,
      "loss": 0.9359,
      "step": 362950
    },
    {
      "epoch": 0.4956504285396336,
      "grad_norm": 3.328125,
      "learning_rate": 5.2299498743024346e-05,
      "loss": 0.6421,
      "step": 363000
    },
    {
      "epoch": 0.49571869994852336,
      "grad_norm": 2.90625,
      "learning_rate": 5.228856735193053e-05,
      "loss": 0.632,
      "step": 363050
    },
    {
      "epoch": 0.4957869713574131,
      "grad_norm": 2.984375,
      "learning_rate": 5.227763585121673e-05,
      "loss": 0.7704,
      "step": 363100
    },
    {
      "epoch": 0.4958552427663029,
      "grad_norm": 7.78125,
      "learning_rate": 5.226670424140655e-05,
      "loss": 0.8333,
      "step": 363150
    },
    {
      "epoch": 0.49592351417519265,
      "grad_norm": 2.640625,
      "learning_rate": 5.225577252302362e-05,
      "loss": 0.8132,
      "step": 363200
    },
    {
      "epoch": 0.4959917855840824,
      "grad_norm": 2.765625,
      "learning_rate": 5.224484069659152e-05,
      "loss": 0.7032,
      "step": 363250
    },
    {
      "epoch": 0.4960600569929721,
      "grad_norm": 3.953125,
      "learning_rate": 5.2233908762633924e-05,
      "loss": 0.7365,
      "step": 363300
    },
    {
      "epoch": 0.4961283284018619,
      "grad_norm": 3.390625,
      "learning_rate": 5.2222976721674435e-05,
      "loss": 0.6478,
      "step": 363350
    },
    {
      "epoch": 0.49619659981075165,
      "grad_norm": 2.71875,
      "learning_rate": 5.2212044574236684e-05,
      "loss": 0.7702,
      "step": 363400
    },
    {
      "epoch": 0.4962648712196414,
      "grad_norm": 8.4375,
      "learning_rate": 5.2201112320844314e-05,
      "loss": 0.7057,
      "step": 363450
    },
    {
      "epoch": 0.4963331426285312,
      "grad_norm": 7.0625,
      "learning_rate": 5.219017996202096e-05,
      "loss": 0.7192,
      "step": 363500
    },
    {
      "epoch": 0.49640141403742094,
      "grad_norm": 3.34375,
      "learning_rate": 5.2179247498290284e-05,
      "loss": 0.8091,
      "step": 363550
    },
    {
      "epoch": 0.4964696854463107,
      "grad_norm": 3.5,
      "learning_rate": 5.216831493017593e-05,
      "loss": 0.7885,
      "step": 363600
    },
    {
      "epoch": 0.4965379568552004,
      "grad_norm": 3.6875,
      "learning_rate": 5.215738225820157e-05,
      "loss": 0.6879,
      "step": 363650
    },
    {
      "epoch": 0.4966062282640902,
      "grad_norm": 3.609375,
      "learning_rate": 5.214644948289085e-05,
      "loss": 0.8433,
      "step": 363700
    },
    {
      "epoch": 0.49667449967297994,
      "grad_norm": 3.15625,
      "learning_rate": 5.213551660476744e-05,
      "loss": 0.8185,
      "step": 363750
    },
    {
      "epoch": 0.4967427710818697,
      "grad_norm": 3.3125,
      "learning_rate": 5.2124583624355025e-05,
      "loss": 0.6257,
      "step": 363800
    },
    {
      "epoch": 0.49681104249075947,
      "grad_norm": 3.109375,
      "learning_rate": 5.2113650542177284e-05,
      "loss": 0.7532,
      "step": 363850
    },
    {
      "epoch": 0.49687931389964923,
      "grad_norm": 3.3125,
      "learning_rate": 5.21027173587579e-05,
      "loss": 0.7798,
      "step": 363900
    },
    {
      "epoch": 0.496947585308539,
      "grad_norm": 3.265625,
      "learning_rate": 5.2091784074620544e-05,
      "loss": 0.7357,
      "step": 363950
    },
    {
      "epoch": 0.49701585671742876,
      "grad_norm": 3.3125,
      "learning_rate": 5.208085069028892e-05,
      "loss": 0.7685,
      "step": 364000
    },
    {
      "epoch": 0.49708412812631847,
      "grad_norm": 7.0625,
      "learning_rate": 5.206991720628671e-05,
      "loss": 0.6526,
      "step": 364050
    },
    {
      "epoch": 0.49715239953520823,
      "grad_norm": 2.78125,
      "learning_rate": 5.205898362313765e-05,
      "loss": 0.743,
      "step": 364100
    },
    {
      "epoch": 0.497220670944098,
      "grad_norm": 8.1875,
      "learning_rate": 5.204804994136544e-05,
      "loss": 0.7403,
      "step": 364150
    },
    {
      "epoch": 0.49728894235298776,
      "grad_norm": 2.859375,
      "learning_rate": 5.203711616149376e-05,
      "loss": 0.6517,
      "step": 364200
    },
    {
      "epoch": 0.4973572137618775,
      "grad_norm": 3.4375,
      "learning_rate": 5.202618228404636e-05,
      "loss": 0.6869,
      "step": 364250
    },
    {
      "epoch": 0.4974254851707673,
      "grad_norm": 2.796875,
      "learning_rate": 5.201524830954694e-05,
      "loss": 0.6983,
      "step": 364300
    },
    {
      "epoch": 0.49749375657965705,
      "grad_norm": 2.703125,
      "learning_rate": 5.200431423851924e-05,
      "loss": 0.7297,
      "step": 364350
    },
    {
      "epoch": 0.49756202798854676,
      "grad_norm": 2.765625,
      "learning_rate": 5.1993380071486993e-05,
      "loss": 0.8153,
      "step": 364400
    },
    {
      "epoch": 0.4976302993974365,
      "grad_norm": 3.34375,
      "learning_rate": 5.198244580897391e-05,
      "loss": 0.7471,
      "step": 364450
    },
    {
      "epoch": 0.4976985708063263,
      "grad_norm": 3.015625,
      "learning_rate": 5.197151145150376e-05,
      "loss": 0.7125,
      "step": 364500
    },
    {
      "epoch": 0.49776684221521605,
      "grad_norm": 3.0,
      "learning_rate": 5.196057699960028e-05,
      "loss": 0.628,
      "step": 364550
    },
    {
      "epoch": 0.4978351136241058,
      "grad_norm": 4.0625,
      "learning_rate": 5.19496424537872e-05,
      "loss": 0.7699,
      "step": 364600
    },
    {
      "epoch": 0.4979033850329956,
      "grad_norm": 3.34375,
      "learning_rate": 5.1938707814588296e-05,
      "loss": 0.7093,
      "step": 364650
    },
    {
      "epoch": 0.49797165644188535,
      "grad_norm": 2.609375,
      "learning_rate": 5.192777308252731e-05,
      "loss": 0.7044,
      "step": 364700
    },
    {
      "epoch": 0.4980399278507751,
      "grad_norm": 3.09375,
      "learning_rate": 5.1916838258128007e-05,
      "loss": 0.7159,
      "step": 364750
    },
    {
      "epoch": 0.4981081992596648,
      "grad_norm": 7.3125,
      "learning_rate": 5.190590334191416e-05,
      "loss": 0.7274,
      "step": 364800
    },
    {
      "epoch": 0.4981764706685546,
      "grad_norm": 3.8125,
      "learning_rate": 5.1894968334409546e-05,
      "loss": 0.7676,
      "step": 364850
    },
    {
      "epoch": 0.49824474207744435,
      "grad_norm": 3.109375,
      "learning_rate": 5.188403323613793e-05,
      "loss": 0.6639,
      "step": 364900
    },
    {
      "epoch": 0.4983130134863341,
      "grad_norm": 3.65625,
      "learning_rate": 5.187309804762309e-05,
      "loss": 0.6866,
      "step": 364950
    },
    {
      "epoch": 0.4983812848952239,
      "grad_norm": 2.96875,
      "learning_rate": 5.1862162769388814e-05,
      "loss": 0.6204,
      "step": 365000
    },
    {
      "epoch": 0.49844955630411364,
      "grad_norm": 8.0625,
      "learning_rate": 5.185122740195889e-05,
      "loss": 0.7415,
      "step": 365050
    },
    {
      "epoch": 0.4985178277130034,
      "grad_norm": 3.84375,
      "learning_rate": 5.18402919458571e-05,
      "loss": 0.6889,
      "step": 365100
    },
    {
      "epoch": 0.4985860991218931,
      "grad_norm": 2.671875,
      "learning_rate": 5.1829356401607264e-05,
      "loss": 0.7264,
      "step": 365150
    },
    {
      "epoch": 0.4986543705307829,
      "grad_norm": 3.3125,
      "learning_rate": 5.181842076973318e-05,
      "loss": 0.7674,
      "step": 365200
    },
    {
      "epoch": 0.49872264193967264,
      "grad_norm": 2.6875,
      "learning_rate": 5.180748505075863e-05,
      "loss": 0.7602,
      "step": 365250
    },
    {
      "epoch": 0.4987909133485624,
      "grad_norm": 2.625,
      "learning_rate": 5.179654924520744e-05,
      "loss": 0.7589,
      "step": 365300
    },
    {
      "epoch": 0.49885918475745217,
      "grad_norm": 2.734375,
      "learning_rate": 5.178561335360342e-05,
      "loss": 0.6995,
      "step": 365350
    },
    {
      "epoch": 0.49892745616634193,
      "grad_norm": 2.71875,
      "learning_rate": 5.1774677376470395e-05,
      "loss": 0.6566,
      "step": 365400
    },
    {
      "epoch": 0.4989957275752317,
      "grad_norm": 3.125,
      "learning_rate": 5.1763741314332184e-05,
      "loss": 0.7232,
      "step": 365450
    },
    {
      "epoch": 0.49906399898412146,
      "grad_norm": 3.046875,
      "learning_rate": 5.17528051677126e-05,
      "loss": 0.7516,
      "step": 365500
    },
    {
      "epoch": 0.49913227039301117,
      "grad_norm": 8.0,
      "learning_rate": 5.174186893713549e-05,
      "loss": 0.7174,
      "step": 365550
    },
    {
      "epoch": 0.49920054180190093,
      "grad_norm": 3.171875,
      "learning_rate": 5.173093262312467e-05,
      "loss": 0.7413,
      "step": 365600
    },
    {
      "epoch": 0.4992688132107907,
      "grad_norm": 3.328125,
      "learning_rate": 5.171999622620399e-05,
      "loss": 0.7566,
      "step": 365650
    },
    {
      "epoch": 0.49933708461968046,
      "grad_norm": 2.734375,
      "learning_rate": 5.170905974689731e-05,
      "loss": 0.7527,
      "step": 365700
    },
    {
      "epoch": 0.4994053560285702,
      "grad_norm": 10.8125,
      "learning_rate": 5.169812318572844e-05,
      "loss": 0.6805,
      "step": 365750
    },
    {
      "epoch": 0.49947362743746,
      "grad_norm": 3.890625,
      "learning_rate": 5.1687186543221254e-05,
      "loss": 0.7442,
      "step": 365800
    },
    {
      "epoch": 0.49954189884634975,
      "grad_norm": 3.765625,
      "learning_rate": 5.1676249819899594e-05,
      "loss": 0.6724,
      "step": 365850
    },
    {
      "epoch": 0.4996101702552395,
      "grad_norm": 7.5625,
      "learning_rate": 5.166531301628732e-05,
      "loss": 0.7719,
      "step": 365900
    },
    {
      "epoch": 0.4996784416641292,
      "grad_norm": 3.828125,
      "learning_rate": 5.16543761329083e-05,
      "loss": 0.7054,
      "step": 365950
    },
    {
      "epoch": 0.499746713073019,
      "grad_norm": 4.0,
      "learning_rate": 5.1643439170286387e-05,
      "loss": 0.7729,
      "step": 366000
    },
    {
      "epoch": 0.49981498448190875,
      "grad_norm": 7.21875,
      "learning_rate": 5.163250212894547e-05,
      "loss": 0.7218,
      "step": 366050
    },
    {
      "epoch": 0.4998832558907985,
      "grad_norm": 7.46875,
      "learning_rate": 5.16215650094094e-05,
      "loss": 0.7443,
      "step": 366100
    },
    {
      "epoch": 0.4999515272996883,
      "grad_norm": 3.828125,
      "learning_rate": 5.161062781220206e-05,
      "loss": 0.8342,
      "step": 366150
    },
    {
      "epoch": 0.500019798708578,
      "grad_norm": 3.6875,
      "learning_rate": 5.159969053784735e-05,
      "loss": 0.7299,
      "step": 366200
    },
    {
      "epoch": 0.5000880701174678,
      "grad_norm": 3.25,
      "learning_rate": 5.1588753186869124e-05,
      "loss": 0.7182,
      "step": 366250
    },
    {
      "epoch": 0.5001563415263576,
      "grad_norm": 3.765625,
      "learning_rate": 5.157781575979128e-05,
      "loss": 0.7507,
      "step": 366300
    },
    {
      "epoch": 0.5002246129352473,
      "grad_norm": 2.78125,
      "learning_rate": 5.156687825713772e-05,
      "loss": 0.8082,
      "step": 366350
    },
    {
      "epoch": 0.5002928843441371,
      "grad_norm": 8.1875,
      "learning_rate": 5.155594067943232e-05,
      "loss": 0.6873,
      "step": 366400
    },
    {
      "epoch": 0.5003611557530269,
      "grad_norm": 3.046875,
      "learning_rate": 5.154500302719901e-05,
      "loss": 0.796,
      "step": 366450
    },
    {
      "epoch": 0.5004294271619165,
      "grad_norm": 4.0625,
      "learning_rate": 5.153406530096165e-05,
      "loss": 0.7042,
      "step": 366500
    },
    {
      "epoch": 0.5004976985708063,
      "grad_norm": 3.78125,
      "learning_rate": 5.152312750124418e-05,
      "loss": 0.7182,
      "step": 366550
    },
    {
      "epoch": 0.500565969979696,
      "grad_norm": 3.671875,
      "learning_rate": 5.151218962857049e-05,
      "loss": 0.6844,
      "step": 366600
    },
    {
      "epoch": 0.5006342413885858,
      "grad_norm": 3.5,
      "learning_rate": 5.15012516834645e-05,
      "loss": 0.6433,
      "step": 366650
    },
    {
      "epoch": 0.5007025127974756,
      "grad_norm": 2.671875,
      "learning_rate": 5.1490313666450144e-05,
      "loss": 0.6535,
      "step": 366700
    },
    {
      "epoch": 0.5007707842063653,
      "grad_norm": 10.125,
      "learning_rate": 5.1479375578051305e-05,
      "loss": 0.6942,
      "step": 366750
    },
    {
      "epoch": 0.5008390556152551,
      "grad_norm": 3.53125,
      "learning_rate": 5.1468437418791925e-05,
      "loss": 0.7623,
      "step": 366800
    },
    {
      "epoch": 0.5009073270241449,
      "grad_norm": 3.34375,
      "learning_rate": 5.145749918919593e-05,
      "loss": 0.7221,
      "step": 366850
    },
    {
      "epoch": 0.5009755984330346,
      "grad_norm": 2.671875,
      "learning_rate": 5.1446560889787254e-05,
      "loss": 0.6176,
      "step": 366900
    },
    {
      "epoch": 0.5010438698419244,
      "grad_norm": 4.0625,
      "learning_rate": 5.143562252108981e-05,
      "loss": 0.7539,
      "step": 366950
    },
    {
      "epoch": 0.5011121412508142,
      "grad_norm": 2.78125,
      "learning_rate": 5.1424684083627575e-05,
      "loss": 0.6818,
      "step": 367000
    },
    {
      "epoch": 0.5011804126597039,
      "grad_norm": 3.90625,
      "learning_rate": 5.1413745577924456e-05,
      "loss": 0.6674,
      "step": 367050
    },
    {
      "epoch": 0.5012486840685937,
      "grad_norm": 3.40625,
      "learning_rate": 5.1402807004504394e-05,
      "loss": 0.7135,
      "step": 367100
    },
    {
      "epoch": 0.5013169554774835,
      "grad_norm": 7.6875,
      "learning_rate": 5.1391868363891335e-05,
      "loss": 0.7293,
      "step": 367150
    },
    {
      "epoch": 0.5013852268863732,
      "grad_norm": 4.09375,
      "learning_rate": 5.1380929656609255e-05,
      "loss": 0.6759,
      "step": 367200
    },
    {
      "epoch": 0.5014534982952629,
      "grad_norm": 8.3125,
      "learning_rate": 5.1369990883182095e-05,
      "loss": 0.8024,
      "step": 367250
    },
    {
      "epoch": 0.5015217697041526,
      "grad_norm": 6.78125,
      "learning_rate": 5.1359052044133794e-05,
      "loss": 0.7843,
      "step": 367300
    },
    {
      "epoch": 0.5015900411130424,
      "grad_norm": 6.96875,
      "learning_rate": 5.134811313998832e-05,
      "loss": 0.5722,
      "step": 367350
    },
    {
      "epoch": 0.5016583125219322,
      "grad_norm": 2.6875,
      "learning_rate": 5.1337174171269644e-05,
      "loss": 0.7187,
      "step": 367400
    },
    {
      "epoch": 0.5017265839308219,
      "grad_norm": 2.6875,
      "learning_rate": 5.1326235138501724e-05,
      "loss": 0.716,
      "step": 367450
    },
    {
      "epoch": 0.5017948553397117,
      "grad_norm": 7.9375,
      "learning_rate": 5.131529604220853e-05,
      "loss": 0.7617,
      "step": 367500
    },
    {
      "epoch": 0.5018631267486015,
      "grad_norm": 3.546875,
      "learning_rate": 5.130435688291403e-05,
      "loss": 0.7205,
      "step": 367550
    },
    {
      "epoch": 0.5019313981574912,
      "grad_norm": 3.9375,
      "learning_rate": 5.1293417661142194e-05,
      "loss": 0.7953,
      "step": 367600
    },
    {
      "epoch": 0.501999669566381,
      "grad_norm": 4.34375,
      "learning_rate": 5.1282478377417006e-05,
      "loss": 0.6064,
      "step": 367650
    },
    {
      "epoch": 0.5020679409752707,
      "grad_norm": 3.171875,
      "learning_rate": 5.127153903226245e-05,
      "loss": 0.872,
      "step": 367700
    },
    {
      "epoch": 0.5021362123841605,
      "grad_norm": 4.4375,
      "learning_rate": 5.126059962620252e-05,
      "loss": 0.8409,
      "step": 367750
    },
    {
      "epoch": 0.5022044837930503,
      "grad_norm": 3.46875,
      "learning_rate": 5.124966015976117e-05,
      "loss": 0.7912,
      "step": 367800
    },
    {
      "epoch": 0.50227275520194,
      "grad_norm": 2.90625,
      "learning_rate": 5.123872063346242e-05,
      "loss": 0.7937,
      "step": 367850
    },
    {
      "epoch": 0.5023410266108298,
      "grad_norm": 2.90625,
      "learning_rate": 5.122778104783023e-05,
      "loss": 0.8741,
      "step": 367900
    },
    {
      "epoch": 0.5024092980197196,
      "grad_norm": 3.015625,
      "learning_rate": 5.1216841403388605e-05,
      "loss": 0.6896,
      "step": 367950
    },
    {
      "epoch": 0.5024775694286092,
      "grad_norm": 2.75,
      "learning_rate": 5.1205901700661575e-05,
      "loss": 0.693,
      "step": 368000
    },
    {
      "epoch": 0.502545840837499,
      "grad_norm": 3.15625,
      "learning_rate": 5.1194961940173104e-05,
      "loss": 0.7943,
      "step": 368050
    },
    {
      "epoch": 0.5026141122463887,
      "grad_norm": 3.59375,
      "learning_rate": 5.118402212244721e-05,
      "loss": 0.9059,
      "step": 368100
    },
    {
      "epoch": 0.5026823836552785,
      "grad_norm": 3.65625,
      "learning_rate": 5.1173082248007897e-05,
      "loss": 0.7864,
      "step": 368150
    },
    {
      "epoch": 0.5027506550641683,
      "grad_norm": 3.671875,
      "learning_rate": 5.116214231737916e-05,
      "loss": 0.7654,
      "step": 368200
    },
    {
      "epoch": 0.502818926473058,
      "grad_norm": 2.71875,
      "learning_rate": 5.1151202331085045e-05,
      "loss": 0.7308,
      "step": 368250
    },
    {
      "epoch": 0.5028871978819478,
      "grad_norm": 8.0625,
      "learning_rate": 5.114026228964952e-05,
      "loss": 0.7859,
      "step": 368300
    },
    {
      "epoch": 0.5029554692908376,
      "grad_norm": 3.15625,
      "learning_rate": 5.112932219359664e-05,
      "loss": 0.7335,
      "step": 368350
    },
    {
      "epoch": 0.5030237406997273,
      "grad_norm": 2.515625,
      "learning_rate": 5.11183820434504e-05,
      "loss": 0.7657,
      "step": 368400
    },
    {
      "epoch": 0.5030920121086171,
      "grad_norm": 2.796875,
      "learning_rate": 5.110744183973483e-05,
      "loss": 0.9052,
      "step": 368450
    },
    {
      "epoch": 0.5031602835175069,
      "grad_norm": 2.96875,
      "learning_rate": 5.109650158297397e-05,
      "loss": 0.67,
      "step": 368500
    },
    {
      "epoch": 0.5032285549263966,
      "grad_norm": 4.5,
      "learning_rate": 5.108556127369182e-05,
      "loss": 0.7849,
      "step": 368550
    },
    {
      "epoch": 0.5032968263352864,
      "grad_norm": 3.53125,
      "learning_rate": 5.107462091241241e-05,
      "loss": 0.8279,
      "step": 368600
    },
    {
      "epoch": 0.5033650977441761,
      "grad_norm": 2.90625,
      "learning_rate": 5.106368049965979e-05,
      "loss": 0.7628,
      "step": 368650
    },
    {
      "epoch": 0.5034333691530659,
      "grad_norm": 3.171875,
      "learning_rate": 5.105274003595799e-05,
      "loss": 0.7496,
      "step": 368700
    },
    {
      "epoch": 0.5035016405619556,
      "grad_norm": 3.328125,
      "learning_rate": 5.104179952183106e-05,
      "loss": 0.7062,
      "step": 368750
    },
    {
      "epoch": 0.5035699119708453,
      "grad_norm": 2.65625,
      "learning_rate": 5.103085895780301e-05,
      "loss": 0.749,
      "step": 368800
    },
    {
      "epoch": 0.5036381833797351,
      "grad_norm": 3.125,
      "learning_rate": 5.101991834439789e-05,
      "loss": 0.7581,
      "step": 368850
    },
    {
      "epoch": 0.5037064547886249,
      "grad_norm": 4.0625,
      "learning_rate": 5.1008977682139745e-05,
      "loss": 0.763,
      "step": 368900
    },
    {
      "epoch": 0.5037747261975146,
      "grad_norm": 4.71875,
      "learning_rate": 5.099803697155263e-05,
      "loss": 0.7385,
      "step": 368950
    },
    {
      "epoch": 0.5038429976064044,
      "grad_norm": 3.953125,
      "learning_rate": 5.098709621316059e-05,
      "loss": 0.7594,
      "step": 369000
    },
    {
      "epoch": 0.5039112690152941,
      "grad_norm": 3.453125,
      "learning_rate": 5.097615540748768e-05,
      "loss": 0.7447,
      "step": 369050
    },
    {
      "epoch": 0.5039795404241839,
      "grad_norm": 4.15625,
      "learning_rate": 5.0965214555057935e-05,
      "loss": 0.7642,
      "step": 369100
    },
    {
      "epoch": 0.5040478118330737,
      "grad_norm": 4.15625,
      "learning_rate": 5.095427365639544e-05,
      "loss": 0.674,
      "step": 369150
    },
    {
      "epoch": 0.5041160832419634,
      "grad_norm": 2.59375,
      "learning_rate": 5.0943332712024215e-05,
      "loss": 0.6946,
      "step": 369200
    },
    {
      "epoch": 0.5041843546508532,
      "grad_norm": 2.828125,
      "learning_rate": 5.093239172246835e-05,
      "loss": 0.7914,
      "step": 369250
    },
    {
      "epoch": 0.504252626059743,
      "grad_norm": 2.90625,
      "learning_rate": 5.0921450688251905e-05,
      "loss": 0.641,
      "step": 369300
    },
    {
      "epoch": 0.5043208974686327,
      "grad_norm": 7.0,
      "learning_rate": 5.091050960989893e-05,
      "loss": 0.7855,
      "step": 369350
    },
    {
      "epoch": 0.5043891688775225,
      "grad_norm": 2.828125,
      "learning_rate": 5.08995684879335e-05,
      "loss": 0.7239,
      "step": 369400
    },
    {
      "epoch": 0.5044574402864123,
      "grad_norm": 2.78125,
      "learning_rate": 5.088862732287967e-05,
      "loss": 0.7411,
      "step": 369450
    },
    {
      "epoch": 0.504525711695302,
      "grad_norm": 4.1875,
      "learning_rate": 5.0877686115261524e-05,
      "loss": 0.8208,
      "step": 369500
    },
    {
      "epoch": 0.5045939831041917,
      "grad_norm": 2.640625,
      "learning_rate": 5.086674486560315e-05,
      "loss": 0.679,
      "step": 369550
    },
    {
      "epoch": 0.5046622545130814,
      "grad_norm": 7.03125,
      "learning_rate": 5.085580357442858e-05,
      "loss": 0.8773,
      "step": 369600
    },
    {
      "epoch": 0.5047305259219712,
      "grad_norm": 7.90625,
      "learning_rate": 5.0844862242261934e-05,
      "loss": 0.7931,
      "step": 369650
    },
    {
      "epoch": 0.504798797330861,
      "grad_norm": 3.078125,
      "learning_rate": 5.083392086962725e-05,
      "loss": 0.7728,
      "step": 369700
    },
    {
      "epoch": 0.5048670687397507,
      "grad_norm": 4.15625,
      "learning_rate": 5.0822979457048645e-05,
      "loss": 0.8614,
      "step": 369750
    },
    {
      "epoch": 0.5049353401486405,
      "grad_norm": 2.796875,
      "learning_rate": 5.081203800505019e-05,
      "loss": 0.8215,
      "step": 369800
    },
    {
      "epoch": 0.5050036115575303,
      "grad_norm": 7.9375,
      "learning_rate": 5.080109651415596e-05,
      "loss": 0.6872,
      "step": 369850
    },
    {
      "epoch": 0.50507188296642,
      "grad_norm": 7.5,
      "learning_rate": 5.079015498489003e-05,
      "loss": 0.7355,
      "step": 369900
    },
    {
      "epoch": 0.5051401543753098,
      "grad_norm": 3.0,
      "learning_rate": 5.0779213417776516e-05,
      "loss": 0.7374,
      "step": 369950
    },
    {
      "epoch": 0.5052084257841996,
      "grad_norm": 2.96875,
      "learning_rate": 5.076827181333949e-05,
      "loss": 0.6644,
      "step": 370000
    },
    {
      "epoch": 0.5052766971930893,
      "grad_norm": 7.375,
      "learning_rate": 5.075733017210306e-05,
      "loss": 0.6927,
      "step": 370050
    },
    {
      "epoch": 0.5053449686019791,
      "grad_norm": 3.828125,
      "learning_rate": 5.074638849459129e-05,
      "loss": 0.7815,
      "step": 370100
    },
    {
      "epoch": 0.5054132400108688,
      "grad_norm": 4.9375,
      "learning_rate": 5.07354467813283e-05,
      "loss": 0.7514,
      "step": 370150
    },
    {
      "epoch": 0.5054815114197586,
      "grad_norm": 2.890625,
      "learning_rate": 5.072450503283818e-05,
      "loss": 0.7264,
      "step": 370200
    },
    {
      "epoch": 0.5055497828286484,
      "grad_norm": 3.046875,
      "learning_rate": 5.0713563249645025e-05,
      "loss": 0.6847,
      "step": 370250
    },
    {
      "epoch": 0.505618054237538,
      "grad_norm": 3.578125,
      "learning_rate": 5.0702621432272947e-05,
      "loss": 0.7957,
      "step": 370300
    },
    {
      "epoch": 0.5056863256464278,
      "grad_norm": 2.828125,
      "learning_rate": 5.069167958124602e-05,
      "loss": 0.7256,
      "step": 370350
    },
    {
      "epoch": 0.5057545970553176,
      "grad_norm": 2.8125,
      "learning_rate": 5.0680737697088375e-05,
      "loss": 0.6294,
      "step": 370400
    },
    {
      "epoch": 0.5058228684642073,
      "grad_norm": 3.40625,
      "learning_rate": 5.06697957803241e-05,
      "loss": 0.8818,
      "step": 370450
    },
    {
      "epoch": 0.5058911398730971,
      "grad_norm": 2.84375,
      "learning_rate": 5.065885383147732e-05,
      "loss": 0.7943,
      "step": 370500
    },
    {
      "epoch": 0.5059594112819868,
      "grad_norm": 3.890625,
      "learning_rate": 5.0647911851072126e-05,
      "loss": 0.8179,
      "step": 370550
    },
    {
      "epoch": 0.5060276826908766,
      "grad_norm": 8.125,
      "learning_rate": 5.063696983963263e-05,
      "loss": 0.8565,
      "step": 370600
    },
    {
      "epoch": 0.5060959540997664,
      "grad_norm": 3.078125,
      "learning_rate": 5.062602779768295e-05,
      "loss": 0.6808,
      "step": 370650
    },
    {
      "epoch": 0.5061642255086561,
      "grad_norm": 2.953125,
      "learning_rate": 5.061508572574719e-05,
      "loss": 0.7381,
      "step": 370700
    },
    {
      "epoch": 0.5062324969175459,
      "grad_norm": 3.34375,
      "learning_rate": 5.0604143624349466e-05,
      "loss": 0.8811,
      "step": 370750
    },
    {
      "epoch": 0.5063007683264357,
      "grad_norm": 9.5625,
      "learning_rate": 5.05932014940139e-05,
      "loss": 0.8195,
      "step": 370800
    },
    {
      "epoch": 0.5063690397353254,
      "grad_norm": 2.71875,
      "learning_rate": 5.0582259335264605e-05,
      "loss": 0.7688,
      "step": 370850
    },
    {
      "epoch": 0.5064373111442152,
      "grad_norm": 2.6875,
      "learning_rate": 5.057131714862569e-05,
      "loss": 0.6445,
      "step": 370900
    },
    {
      "epoch": 0.506505582553105,
      "grad_norm": 2.90625,
      "learning_rate": 5.056037493462129e-05,
      "loss": 0.8083,
      "step": 370950
    },
    {
      "epoch": 0.5065738539619947,
      "grad_norm": 2.875,
      "learning_rate": 5.0549432693775504e-05,
      "loss": 0.6453,
      "step": 371000
    },
    {
      "epoch": 0.5066421253708844,
      "grad_norm": 2.59375,
      "learning_rate": 5.0538490426612464e-05,
      "loss": 0.6496,
      "step": 371050
    },
    {
      "epoch": 0.5067103967797741,
      "grad_norm": 3.453125,
      "learning_rate": 5.052754813365631e-05,
      "loss": 0.7657,
      "step": 371100
    },
    {
      "epoch": 0.5067786681886639,
      "grad_norm": 4.1875,
      "learning_rate": 5.051660581543115e-05,
      "loss": 0.8294,
      "step": 371150
    },
    {
      "epoch": 0.5068469395975537,
      "grad_norm": 2.734375,
      "learning_rate": 5.050566347246112e-05,
      "loss": 0.717,
      "step": 371200
    },
    {
      "epoch": 0.5069152110064434,
      "grad_norm": 4.125,
      "learning_rate": 5.049472110527031e-05,
      "loss": 0.7111,
      "step": 371250
    },
    {
      "epoch": 0.5069834824153332,
      "grad_norm": 2.578125,
      "learning_rate": 5.04837787143829e-05,
      "loss": 0.685,
      "step": 371300
    },
    {
      "epoch": 0.507051753824223,
      "grad_norm": 3.546875,
      "learning_rate": 5.0472836300323e-05,
      "loss": 0.7138,
      "step": 371350
    },
    {
      "epoch": 0.5071200252331127,
      "grad_norm": 6.96875,
      "learning_rate": 5.0461893863614715e-05,
      "loss": 0.7169,
      "step": 371400
    },
    {
      "epoch": 0.5071882966420025,
      "grad_norm": 3.375,
      "learning_rate": 5.045095140478222e-05,
      "loss": 0.7131,
      "step": 371450
    },
    {
      "epoch": 0.5072565680508923,
      "grad_norm": 4.28125,
      "learning_rate": 5.04400089243496e-05,
      "loss": 0.7549,
      "step": 371500
    },
    {
      "epoch": 0.507324839459782,
      "grad_norm": 3.53125,
      "learning_rate": 5.042906642284103e-05,
      "loss": 0.8021,
      "step": 371550
    },
    {
      "epoch": 0.5073931108686718,
      "grad_norm": 4.21875,
      "learning_rate": 5.041812390078063e-05,
      "loss": 0.7029,
      "step": 371600
    },
    {
      "epoch": 0.5074613822775615,
      "grad_norm": 8.625,
      "learning_rate": 5.0407181358692536e-05,
      "loss": 0.7669,
      "step": 371650
    },
    {
      "epoch": 0.5075296536864513,
      "grad_norm": 8.375,
      "learning_rate": 5.039623879710087e-05,
      "loss": 0.7532,
      "step": 371700
    },
    {
      "epoch": 0.5075979250953411,
      "grad_norm": 2.6875,
      "learning_rate": 5.038529621652977e-05,
      "loss": 0.6844,
      "step": 371750
    },
    {
      "epoch": 0.5076661965042307,
      "grad_norm": 3.890625,
      "learning_rate": 5.03743536175034e-05,
      "loss": 0.7658,
      "step": 371800
    },
    {
      "epoch": 0.5077344679131205,
      "grad_norm": 2.53125,
      "learning_rate": 5.036341100054589e-05,
      "loss": 0.7538,
      "step": 371850
    },
    {
      "epoch": 0.5078027393220103,
      "grad_norm": 3.125,
      "learning_rate": 5.035246836618136e-05,
      "loss": 0.7672,
      "step": 371900
    },
    {
      "epoch": 0.5078710107309,
      "grad_norm": 2.859375,
      "learning_rate": 5.0341525714933965e-05,
      "loss": 0.584,
      "step": 371950
    },
    {
      "epoch": 0.5079392821397898,
      "grad_norm": 4.34375,
      "learning_rate": 5.033058304732785e-05,
      "loss": 0.8061,
      "step": 372000
    },
    {
      "epoch": 0.5080075535486795,
      "grad_norm": 3.390625,
      "learning_rate": 5.031964036388716e-05,
      "loss": 0.7718,
      "step": 372050
    },
    {
      "epoch": 0.5080758249575693,
      "grad_norm": 4.1875,
      "learning_rate": 5.030869766513603e-05,
      "loss": 0.8052,
      "step": 372100
    },
    {
      "epoch": 0.5081440963664591,
      "grad_norm": 3.203125,
      "learning_rate": 5.0297754951598594e-05,
      "loss": 0.7293,
      "step": 372150
    },
    {
      "epoch": 0.5082123677753488,
      "grad_norm": 3.25,
      "learning_rate": 5.028681222379901e-05,
      "loss": 0.791,
      "step": 372200
    },
    {
      "epoch": 0.5082806391842386,
      "grad_norm": 3.484375,
      "learning_rate": 5.027586948226142e-05,
      "loss": 0.7944,
      "step": 372250
    },
    {
      "epoch": 0.5083489105931284,
      "grad_norm": 3.046875,
      "learning_rate": 5.026492672750996e-05,
      "loss": 0.7454,
      "step": 372300
    },
    {
      "epoch": 0.5084171820020181,
      "grad_norm": 2.953125,
      "learning_rate": 5.025398396006882e-05,
      "loss": 0.748,
      "step": 372350
    },
    {
      "epoch": 0.5084854534109079,
      "grad_norm": 3.875,
      "learning_rate": 5.024304118046209e-05,
      "loss": 0.7422,
      "step": 372400
    },
    {
      "epoch": 0.5085537248197977,
      "grad_norm": 3.203125,
      "learning_rate": 5.023209838921394e-05,
      "loss": 0.7785,
      "step": 372450
    },
    {
      "epoch": 0.5086219962286874,
      "grad_norm": 2.71875,
      "learning_rate": 5.022115558684853e-05,
      "loss": 0.8653,
      "step": 372500
    },
    {
      "epoch": 0.5086902676375771,
      "grad_norm": 2.5625,
      "learning_rate": 5.021021277388999e-05,
      "loss": 0.8161,
      "step": 372550
    },
    {
      "epoch": 0.5087585390464668,
      "grad_norm": 3.65625,
      "learning_rate": 5.0199269950862484e-05,
      "loss": 0.7243,
      "step": 372600
    },
    {
      "epoch": 0.5088268104553566,
      "grad_norm": 3.34375,
      "learning_rate": 5.018832711829016e-05,
      "loss": 0.7732,
      "step": 372650
    },
    {
      "epoch": 0.5088950818642464,
      "grad_norm": 4.0,
      "learning_rate": 5.017738427669715e-05,
      "loss": 0.7847,
      "step": 372700
    },
    {
      "epoch": 0.5089633532731361,
      "grad_norm": 8.25,
      "learning_rate": 5.0166441426607636e-05,
      "loss": 0.852,
      "step": 372750
    },
    {
      "epoch": 0.5090316246820259,
      "grad_norm": 6.5,
      "learning_rate": 5.015549856854573e-05,
      "loss": 0.7147,
      "step": 372800
    },
    {
      "epoch": 0.5090998960909157,
      "grad_norm": 4.5,
      "learning_rate": 5.014455570303562e-05,
      "loss": 0.7402,
      "step": 372850
    },
    {
      "epoch": 0.5091681674998054,
      "grad_norm": 8.25,
      "learning_rate": 5.0133612830601453e-05,
      "loss": 0.7717,
      "step": 372900
    },
    {
      "epoch": 0.5092364389086952,
      "grad_norm": 4.65625,
      "learning_rate": 5.0122669951767354e-05,
      "loss": 0.7273,
      "step": 372950
    },
    {
      "epoch": 0.509304710317585,
      "grad_norm": 4.25,
      "learning_rate": 5.0111727067057515e-05,
      "loss": 0.6712,
      "step": 373000
    },
    {
      "epoch": 0.5093729817264747,
      "grad_norm": 4.0625,
      "learning_rate": 5.010078417699603e-05,
      "loss": 0.6549,
      "step": 373050
    },
    {
      "epoch": 0.5094412531353645,
      "grad_norm": 3.3125,
      "learning_rate": 5.008984128210711e-05,
      "loss": 0.7998,
      "step": 373100
    },
    {
      "epoch": 0.5095095245442542,
      "grad_norm": 2.703125,
      "learning_rate": 5.00788983829149e-05,
      "loss": 0.7318,
      "step": 373150
    },
    {
      "epoch": 0.509577795953144,
      "grad_norm": 3.046875,
      "learning_rate": 5.006795547994352e-05,
      "loss": 0.7852,
      "step": 373200
    },
    {
      "epoch": 0.5096460673620338,
      "grad_norm": 3.953125,
      "learning_rate": 5.005701257371715e-05,
      "loss": 0.6077,
      "step": 373250
    },
    {
      "epoch": 0.5097143387709234,
      "grad_norm": 3.3125,
      "learning_rate": 5.004606966475992e-05,
      "loss": 0.7112,
      "step": 373300
    },
    {
      "epoch": 0.5097826101798132,
      "grad_norm": 3.0,
      "learning_rate": 5.003512675359602e-05,
      "loss": 0.7007,
      "step": 373350
    },
    {
      "epoch": 0.509850881588703,
      "grad_norm": 7.78125,
      "learning_rate": 5.00241838407496e-05,
      "loss": 0.7813,
      "step": 373400
    },
    {
      "epoch": 0.5099191529975927,
      "grad_norm": 3.328125,
      "learning_rate": 5.001324092674478e-05,
      "loss": 0.716,
      "step": 373450
    },
    {
      "epoch": 0.5099874244064825,
      "grad_norm": 3.890625,
      "learning_rate": 5.000229801210572e-05,
      "loss": 0.6705,
      "step": 373500
    },
    {
      "epoch": 0.5100556958153722,
      "grad_norm": 8.3125,
      "learning_rate": 4.9991355097356606e-05,
      "loss": 0.7551,
      "step": 373550
    },
    {
      "epoch": 0.510123967224262,
      "grad_norm": 3.234375,
      "learning_rate": 4.998041218302158e-05,
      "loss": 0.7063,
      "step": 373600
    },
    {
      "epoch": 0.5101922386331518,
      "grad_norm": 2.75,
      "learning_rate": 4.996946926962476e-05,
      "loss": 0.731,
      "step": 373650
    },
    {
      "epoch": 0.5102605100420415,
      "grad_norm": 3.984375,
      "learning_rate": 4.995852635769037e-05,
      "loss": 0.8072,
      "step": 373700
    },
    {
      "epoch": 0.5103287814509313,
      "grad_norm": 8.0625,
      "learning_rate": 4.9947583447742506e-05,
      "loss": 0.5953,
      "step": 373750
    },
    {
      "epoch": 0.5103970528598211,
      "grad_norm": 3.15625,
      "learning_rate": 4.993664054030533e-05,
      "loss": 0.6908,
      "step": 373800
    },
    {
      "epoch": 0.5104653242687108,
      "grad_norm": 4.21875,
      "learning_rate": 4.992569763590301e-05,
      "loss": 0.8413,
      "step": 373850
    },
    {
      "epoch": 0.5105335956776006,
      "grad_norm": 3.375,
      "learning_rate": 4.991475473505971e-05,
      "loss": 0.8164,
      "step": 373900
    },
    {
      "epoch": 0.5106018670864904,
      "grad_norm": 9.6875,
      "learning_rate": 4.990381183829955e-05,
      "loss": 0.7619,
      "step": 373950
    },
    {
      "epoch": 0.5106701384953801,
      "grad_norm": 6.84375,
      "learning_rate": 4.9892868946146716e-05,
      "loss": 0.8113,
      "step": 374000
    },
    {
      "epoch": 0.5107384099042699,
      "grad_norm": 3.109375,
      "learning_rate": 4.988192605912535e-05,
      "loss": 0.8348,
      "step": 374050
    },
    {
      "epoch": 0.5108066813131595,
      "grad_norm": 7.5625,
      "learning_rate": 4.987098317775959e-05,
      "loss": 0.7629,
      "step": 374100
    },
    {
      "epoch": 0.5108749527220493,
      "grad_norm": 3.46875,
      "learning_rate": 4.9860040302573596e-05,
      "loss": 0.7784,
      "step": 374150
    },
    {
      "epoch": 0.5109432241309391,
      "grad_norm": 5.5,
      "learning_rate": 4.9849097434091546e-05,
      "loss": 0.8314,
      "step": 374200
    },
    {
      "epoch": 0.5110114955398288,
      "grad_norm": 3.046875,
      "learning_rate": 4.983815457283757e-05,
      "loss": 0.7593,
      "step": 374250
    },
    {
      "epoch": 0.5110797669487186,
      "grad_norm": 7.90625,
      "learning_rate": 4.98272117193358e-05,
      "loss": 0.8638,
      "step": 374300
    },
    {
      "epoch": 0.5111480383576084,
      "grad_norm": 3.671875,
      "learning_rate": 4.9816268874110414e-05,
      "loss": 0.7983,
      "step": 374350
    },
    {
      "epoch": 0.5112163097664981,
      "grad_norm": 3.296875,
      "learning_rate": 4.9805326037685567e-05,
      "loss": 0.7557,
      "step": 374400
    },
    {
      "epoch": 0.5112845811753879,
      "grad_norm": 4.34375,
      "learning_rate": 4.979438321058538e-05,
      "loss": 0.7255,
      "step": 374450
    },
    {
      "epoch": 0.5113528525842777,
      "grad_norm": 7.40625,
      "learning_rate": 4.978344039333404e-05,
      "loss": 0.8726,
      "step": 374500
    },
    {
      "epoch": 0.5114211239931674,
      "grad_norm": 4.09375,
      "learning_rate": 4.9772497586455685e-05,
      "loss": 0.8199,
      "step": 374550
    },
    {
      "epoch": 0.5114893954020572,
      "grad_norm": 4.28125,
      "learning_rate": 4.9761554790474445e-05,
      "loss": 0.8102,
      "step": 374600
    },
    {
      "epoch": 0.5115576668109469,
      "grad_norm": 4.03125,
      "learning_rate": 4.975061200591447e-05,
      "loss": 0.804,
      "step": 374650
    },
    {
      "epoch": 0.5116259382198367,
      "grad_norm": 4.78125,
      "learning_rate": 4.973966923329994e-05,
      "loss": 0.81,
      "step": 374700
    },
    {
      "epoch": 0.5116942096287265,
      "grad_norm": 2.671875,
      "learning_rate": 4.972872647315498e-05,
      "loss": 0.8343,
      "step": 374750
    },
    {
      "epoch": 0.5117624810376162,
      "grad_norm": 3.0625,
      "learning_rate": 4.971778372600372e-05,
      "loss": 0.7195,
      "step": 374800
    },
    {
      "epoch": 0.5118307524465059,
      "grad_norm": 8.875,
      "learning_rate": 4.970684099237033e-05,
      "loss": 0.7401,
      "step": 374850
    },
    {
      "epoch": 0.5118990238553957,
      "grad_norm": 3.234375,
      "learning_rate": 4.9695898272778966e-05,
      "loss": 0.7529,
      "step": 374900
    },
    {
      "epoch": 0.5119672952642854,
      "grad_norm": 4.0625,
      "learning_rate": 4.968495556775373e-05,
      "loss": 0.7843,
      "step": 374950
    },
    {
      "epoch": 0.5120355666731752,
      "grad_norm": 2.609375,
      "learning_rate": 4.967401287781881e-05,
      "loss": 0.824,
      "step": 375000
    },
    {
      "epoch": 0.5121038380820649,
      "grad_norm": 3.25,
      "learning_rate": 4.966307020349834e-05,
      "loss": 0.7981,
      "step": 375050
    },
    {
      "epoch": 0.5121721094909547,
      "grad_norm": 4.5,
      "learning_rate": 4.965212754531643e-05,
      "loss": 0.8332,
      "step": 375100
    },
    {
      "epoch": 0.5122403808998445,
      "grad_norm": 2.796875,
      "learning_rate": 4.964118490379726e-05,
      "loss": 0.7425,
      "step": 375150
    },
    {
      "epoch": 0.5123086523087342,
      "grad_norm": 4.96875,
      "learning_rate": 4.963024227946497e-05,
      "loss": 0.7892,
      "step": 375200
    },
    {
      "epoch": 0.512376923717624,
      "grad_norm": 2.90625,
      "learning_rate": 4.961929967284368e-05,
      "loss": 0.7144,
      "step": 375250
    },
    {
      "epoch": 0.5124451951265138,
      "grad_norm": 8.125,
      "learning_rate": 4.960835708445752e-05,
      "loss": 0.7569,
      "step": 375300
    },
    {
      "epoch": 0.5125134665354035,
      "grad_norm": 7.65625,
      "learning_rate": 4.9597414514830656e-05,
      "loss": 0.8007,
      "step": 375350
    },
    {
      "epoch": 0.5125817379442933,
      "grad_norm": 3.046875,
      "learning_rate": 4.958647196448723e-05,
      "loss": 0.7056,
      "step": 375400
    },
    {
      "epoch": 0.5126500093531831,
      "grad_norm": 3.203125,
      "learning_rate": 4.957552943395134e-05,
      "loss": 0.6968,
      "step": 375450
    },
    {
      "epoch": 0.5127182807620728,
      "grad_norm": 3.171875,
      "learning_rate": 4.956458692374716e-05,
      "loss": 0.6837,
      "step": 375500
    },
    {
      "epoch": 0.5127865521709626,
      "grad_norm": 3.046875,
      "learning_rate": 4.955364443439882e-05,
      "loss": 0.7905,
      "step": 375550
    },
    {
      "epoch": 0.5128548235798522,
      "grad_norm": 6.9375,
      "learning_rate": 4.954270196643042e-05,
      "loss": 0.7752,
      "step": 375600
    },
    {
      "epoch": 0.512923094988742,
      "grad_norm": 2.65625,
      "learning_rate": 4.953175952036613e-05,
      "loss": 0.8293,
      "step": 375650
    },
    {
      "epoch": 0.5129913663976318,
      "grad_norm": 2.703125,
      "learning_rate": 4.9520817096730073e-05,
      "loss": 0.7628,
      "step": 375700
    },
    {
      "epoch": 0.5130596378065215,
      "grad_norm": 3.25,
      "learning_rate": 4.950987469604639e-05,
      "loss": 0.7558,
      "step": 375750
    },
    {
      "epoch": 0.5131279092154113,
      "grad_norm": 4.4375,
      "learning_rate": 4.949893231883916e-05,
      "loss": 0.7309,
      "step": 375800
    },
    {
      "epoch": 0.5131961806243011,
      "grad_norm": 3.15625,
      "learning_rate": 4.948798996563258e-05,
      "loss": 0.8258,
      "step": 375850
    },
    {
      "epoch": 0.5132644520331908,
      "grad_norm": 2.875,
      "learning_rate": 4.947704763695073e-05,
      "loss": 0.768,
      "step": 375900
    },
    {
      "epoch": 0.5133327234420806,
      "grad_norm": 5.6875,
      "learning_rate": 4.9466105333317735e-05,
      "loss": 0.7562,
      "step": 375950
    },
    {
      "epoch": 0.5134009948509703,
      "grad_norm": 8.1875,
      "learning_rate": 4.945516305525776e-05,
      "loss": 0.7662,
      "step": 376000
    },
    {
      "epoch": 0.5134692662598601,
      "grad_norm": 3.953125,
      "learning_rate": 4.944422080329491e-05,
      "loss": 0.7741,
      "step": 376050
    },
    {
      "epoch": 0.5135375376687499,
      "grad_norm": 2.765625,
      "learning_rate": 4.943327857795327e-05,
      "loss": 0.6771,
      "step": 376100
    },
    {
      "epoch": 0.5136058090776396,
      "grad_norm": 3.609375,
      "learning_rate": 4.942233637975701e-05,
      "loss": 0.8362,
      "step": 376150
    },
    {
      "epoch": 0.5136740804865294,
      "grad_norm": 4.09375,
      "learning_rate": 4.9411394209230246e-05,
      "loss": 0.7768,
      "step": 376200
    },
    {
      "epoch": 0.5137423518954192,
      "grad_norm": 7.1875,
      "learning_rate": 4.9400452066897054e-05,
      "loss": 0.8245,
      "step": 376250
    },
    {
      "epoch": 0.5138106233043089,
      "grad_norm": 3.015625,
      "learning_rate": 4.938950995328161e-05,
      "loss": 0.762,
      "step": 376300
    },
    {
      "epoch": 0.5138788947131986,
      "grad_norm": 3.484375,
      "learning_rate": 4.9378567868908e-05,
      "loss": 0.7667,
      "step": 376350
    },
    {
      "epoch": 0.5139471661220884,
      "grad_norm": 8.375,
      "learning_rate": 4.936762581430032e-05,
      "loss": 0.6798,
      "step": 376400
    },
    {
      "epoch": 0.5140154375309781,
      "grad_norm": 8.5,
      "learning_rate": 4.93566837899827e-05,
      "loss": 0.8056,
      "step": 376450
    },
    {
      "epoch": 0.5140837089398679,
      "grad_norm": 4.15625,
      "learning_rate": 4.934574179647927e-05,
      "loss": 0.7681,
      "step": 376500
    },
    {
      "epoch": 0.5141519803487576,
      "grad_norm": 4.40625,
      "learning_rate": 4.933479983431413e-05,
      "loss": 0.819,
      "step": 376550
    },
    {
      "epoch": 0.5142202517576474,
      "grad_norm": 3.484375,
      "learning_rate": 4.932385790401135e-05,
      "loss": 0.8126,
      "step": 376600
    },
    {
      "epoch": 0.5142885231665372,
      "grad_norm": 3.0625,
      "learning_rate": 4.9312916006095084e-05,
      "loss": 0.814,
      "step": 376650
    },
    {
      "epoch": 0.5143567945754269,
      "grad_norm": 5.0,
      "learning_rate": 4.9301974141089437e-05,
      "loss": 0.8029,
      "step": 376700
    },
    {
      "epoch": 0.5144250659843167,
      "grad_norm": 7.25,
      "learning_rate": 4.929103230951847e-05,
      "loss": 0.7676,
      "step": 376750
    },
    {
      "epoch": 0.5144933373932065,
      "grad_norm": 3.421875,
      "learning_rate": 4.928009051190634e-05,
      "loss": 0.7696,
      "step": 376800
    },
    {
      "epoch": 0.5145616088020962,
      "grad_norm": 3.25,
      "learning_rate": 4.9269148748777115e-05,
      "loss": 0.8022,
      "step": 376850
    },
    {
      "epoch": 0.514629880210986,
      "grad_norm": 5.09375,
      "learning_rate": 4.9258207020654886e-05,
      "loss": 0.8583,
      "step": 376900
    },
    {
      "epoch": 0.5146981516198758,
      "grad_norm": 7.40625,
      "learning_rate": 4.924726532806377e-05,
      "loss": 0.7771,
      "step": 376950
    },
    {
      "epoch": 0.5147664230287655,
      "grad_norm": 3.546875,
      "learning_rate": 4.9236323671527874e-05,
      "loss": 0.7428,
      "step": 377000
    },
    {
      "epoch": 0.5148346944376553,
      "grad_norm": 7.4375,
      "learning_rate": 4.9225382051571264e-05,
      "loss": 0.7116,
      "step": 377050
    },
    {
      "epoch": 0.5149029658465449,
      "grad_norm": 5.03125,
      "learning_rate": 4.921444046871803e-05,
      "loss": 0.7658,
      "step": 377100
    },
    {
      "epoch": 0.5149712372554347,
      "grad_norm": 2.96875,
      "learning_rate": 4.92034989234923e-05,
      "loss": 0.7727,
      "step": 377150
    },
    {
      "epoch": 0.5150395086643245,
      "grad_norm": 2.828125,
      "learning_rate": 4.919255741641812e-05,
      "loss": 0.7755,
      "step": 377200
    },
    {
      "epoch": 0.5151077800732142,
      "grad_norm": 3.609375,
      "learning_rate": 4.918161594801958e-05,
      "loss": 0.7608,
      "step": 377250
    },
    {
      "epoch": 0.515176051482104,
      "grad_norm": 3.71875,
      "learning_rate": 4.917067451882081e-05,
      "loss": 0.8549,
      "step": 377300
    },
    {
      "epoch": 0.5152443228909938,
      "grad_norm": 4.375,
      "learning_rate": 4.915973312934586e-05,
      "loss": 0.8328,
      "step": 377350
    },
    {
      "epoch": 0.5153125942998835,
      "grad_norm": 2.734375,
      "learning_rate": 4.914879178011879e-05,
      "loss": 0.8547,
      "step": 377400
    },
    {
      "epoch": 0.5153808657087733,
      "grad_norm": 4.125,
      "learning_rate": 4.913785047166372e-05,
      "loss": 0.8276,
      "step": 377450
    },
    {
      "epoch": 0.515449137117663,
      "grad_norm": 3.125,
      "learning_rate": 4.912690920450472e-05,
      "loss": 0.8191,
      "step": 377500
    },
    {
      "epoch": 0.5155174085265528,
      "grad_norm": 3.359375,
      "learning_rate": 4.911596797916585e-05,
      "loss": 0.741,
      "step": 377550
    },
    {
      "epoch": 0.5155856799354426,
      "grad_norm": 4.0625,
      "learning_rate": 4.910502679617117e-05,
      "loss": 0.8352,
      "step": 377600
    },
    {
      "epoch": 0.5156539513443323,
      "grad_norm": 3.59375,
      "learning_rate": 4.9094085656044785e-05,
      "loss": 0.7378,
      "step": 377650
    },
    {
      "epoch": 0.5157222227532221,
      "grad_norm": 9.0,
      "learning_rate": 4.908314455931075e-05,
      "loss": 0.7505,
      "step": 377700
    },
    {
      "epoch": 0.5157904941621119,
      "grad_norm": 3.203125,
      "learning_rate": 4.907220350649311e-05,
      "loss": 0.7558,
      "step": 377750
    },
    {
      "epoch": 0.5158587655710016,
      "grad_norm": 4.125,
      "learning_rate": 4.906126249811598e-05,
      "loss": 0.839,
      "step": 377800
    },
    {
      "epoch": 0.5159270369798913,
      "grad_norm": 2.96875,
      "learning_rate": 4.905032153470339e-05,
      "loss": 0.7836,
      "step": 377850
    },
    {
      "epoch": 0.515995308388781,
      "grad_norm": 3.328125,
      "learning_rate": 4.903938061677938e-05,
      "loss": 0.7862,
      "step": 377900
    },
    {
      "epoch": 0.5160635797976708,
      "grad_norm": 2.953125,
      "learning_rate": 4.902843974486805e-05,
      "loss": 0.7388,
      "step": 377950
    },
    {
      "epoch": 0.5161318512065606,
      "grad_norm": 4.5625,
      "learning_rate": 4.901749891949345e-05,
      "loss": 0.8357,
      "step": 378000
    },
    {
      "epoch": 0.5162001226154503,
      "grad_norm": 2.734375,
      "learning_rate": 4.90065581411796e-05,
      "loss": 0.7102,
      "step": 378050
    },
    {
      "epoch": 0.5162683940243401,
      "grad_norm": 5.15625,
      "learning_rate": 4.899561741045059e-05,
      "loss": 0.7494,
      "step": 378100
    },
    {
      "epoch": 0.5163366654332299,
      "grad_norm": 2.84375,
      "learning_rate": 4.898467672783047e-05,
      "loss": 0.7898,
      "step": 378150
    },
    {
      "epoch": 0.5164049368421196,
      "grad_norm": 4.625,
      "learning_rate": 4.897373609384325e-05,
      "loss": 0.7172,
      "step": 378200
    },
    {
      "epoch": 0.5164732082510094,
      "grad_norm": 3.4375,
      "learning_rate": 4.896279550901299e-05,
      "loss": 0.7413,
      "step": 378250
    },
    {
      "epoch": 0.5165414796598992,
      "grad_norm": 7.625,
      "learning_rate": 4.895185497386376e-05,
      "loss": 0.777,
      "step": 378300
    },
    {
      "epoch": 0.5166097510687889,
      "grad_norm": 2.9375,
      "learning_rate": 4.894091448891958e-05,
      "loss": 0.7161,
      "step": 378350
    },
    {
      "epoch": 0.5166780224776787,
      "grad_norm": 2.875,
      "learning_rate": 4.892997405470447e-05,
      "loss": 0.7585,
      "step": 378400
    },
    {
      "epoch": 0.5167462938865685,
      "grad_norm": 8.0,
      "learning_rate": 4.891903367174249e-05,
      "loss": 0.7275,
      "step": 378450
    },
    {
      "epoch": 0.5168145652954582,
      "grad_norm": 2.765625,
      "learning_rate": 4.8908093340557675e-05,
      "loss": 0.7708,
      "step": 378500
    },
    {
      "epoch": 0.516882836704348,
      "grad_norm": 3.9375,
      "learning_rate": 4.889715306167403e-05,
      "loss": 0.7614,
      "step": 378550
    },
    {
      "epoch": 0.5169511081132377,
      "grad_norm": 3.0625,
      "learning_rate": 4.888621283561561e-05,
      "loss": 0.7088,
      "step": 378600
    },
    {
      "epoch": 0.5170193795221274,
      "grad_norm": 2.6875,
      "learning_rate": 4.887527266290644e-05,
      "loss": 0.6559,
      "step": 378650
    },
    {
      "epoch": 0.5170876509310172,
      "grad_norm": 4.6875,
      "learning_rate": 4.8864332544070506e-05,
      "loss": 0.8598,
      "step": 378700
    },
    {
      "epoch": 0.5171559223399069,
      "grad_norm": 4.25,
      "learning_rate": 4.885339247963187e-05,
      "loss": 0.7371,
      "step": 378750
    },
    {
      "epoch": 0.5172241937487967,
      "grad_norm": 3.0625,
      "learning_rate": 4.884245247011454e-05,
      "loss": 0.7454,
      "step": 378800
    },
    {
      "epoch": 0.5172924651576865,
      "grad_norm": 3.15625,
      "learning_rate": 4.883151251604253e-05,
      "loss": 0.8244,
      "step": 378850
    },
    {
      "epoch": 0.5173607365665762,
      "grad_norm": 3.0,
      "learning_rate": 4.8820572617939824e-05,
      "loss": 0.7439,
      "step": 378900
    },
    {
      "epoch": 0.517429007975466,
      "grad_norm": 3.25,
      "learning_rate": 4.880963277633048e-05,
      "loss": 0.7106,
      "step": 378950
    },
    {
      "epoch": 0.5174972793843557,
      "grad_norm": 3.078125,
      "learning_rate": 4.8798692991738466e-05,
      "loss": 0.7323,
      "step": 379000
    },
    {
      "epoch": 0.5175655507932455,
      "grad_norm": 3.140625,
      "learning_rate": 4.8787753264687786e-05,
      "loss": 0.6477,
      "step": 379050
    },
    {
      "epoch": 0.5176338222021353,
      "grad_norm": 3.28125,
      "learning_rate": 4.877681359570248e-05,
      "loss": 0.7622,
      "step": 379100
    },
    {
      "epoch": 0.517702093611025,
      "grad_norm": 2.859375,
      "learning_rate": 4.876587398530653e-05,
      "loss": 0.7635,
      "step": 379150
    },
    {
      "epoch": 0.5177703650199148,
      "grad_norm": 2.875,
      "learning_rate": 4.875493443402389e-05,
      "loss": 0.7183,
      "step": 379200
    },
    {
      "epoch": 0.5178386364288046,
      "grad_norm": 3.0625,
      "learning_rate": 4.8743994942378604e-05,
      "loss": 0.7689,
      "step": 379250
    },
    {
      "epoch": 0.5179069078376943,
      "grad_norm": 2.78125,
      "learning_rate": 4.8733055510894664e-05,
      "loss": 0.6914,
      "step": 379300
    },
    {
      "epoch": 0.5179751792465841,
      "grad_norm": 5.0625,
      "learning_rate": 4.8722116140096034e-05,
      "loss": 0.6983,
      "step": 379350
    },
    {
      "epoch": 0.5180434506554737,
      "grad_norm": 2.796875,
      "learning_rate": 4.871117683050668e-05,
      "loss": 0.7022,
      "step": 379400
    },
    {
      "epoch": 0.5181117220643635,
      "grad_norm": 3.21875,
      "learning_rate": 4.870023758265063e-05,
      "loss": 0.6997,
      "step": 379450
    },
    {
      "epoch": 0.5181799934732533,
      "grad_norm": 2.875,
      "learning_rate": 4.868929839705183e-05,
      "loss": 0.7795,
      "step": 379500
    },
    {
      "epoch": 0.518248264882143,
      "grad_norm": 8.5,
      "learning_rate": 4.8678359274234255e-05,
      "loss": 0.6693,
      "step": 379550
    },
    {
      "epoch": 0.5183165362910328,
      "grad_norm": 3.0,
      "learning_rate": 4.8667420214721906e-05,
      "loss": 0.7569,
      "step": 379600
    },
    {
      "epoch": 0.5183848076999226,
      "grad_norm": 4.125,
      "learning_rate": 4.865648121903873e-05,
      "loss": 0.7921,
      "step": 379650
    },
    {
      "epoch": 0.5184530791088123,
      "grad_norm": 3.046875,
      "learning_rate": 4.864554228770868e-05,
      "loss": 0.7856,
      "step": 379700
    },
    {
      "epoch": 0.5185213505177021,
      "grad_norm": 2.8125,
      "learning_rate": 4.8634603421255755e-05,
      "loss": 0.7493,
      "step": 379750
    },
    {
      "epoch": 0.5185896219265919,
      "grad_norm": 4.9375,
      "learning_rate": 4.86236646202039e-05,
      "loss": 0.7936,
      "step": 379800
    },
    {
      "epoch": 0.5186578933354816,
      "grad_norm": 2.71875,
      "learning_rate": 4.861272588507705e-05,
      "loss": 0.7361,
      "step": 379850
    },
    {
      "epoch": 0.5187261647443714,
      "grad_norm": 3.5625,
      "learning_rate": 4.8601787216399195e-05,
      "loss": 0.7791,
      "step": 379900
    },
    {
      "epoch": 0.5187944361532612,
      "grad_norm": 7.6875,
      "learning_rate": 4.859084861469428e-05,
      "loss": 0.7405,
      "step": 379950
    },
    {
      "epoch": 0.5188627075621509,
      "grad_norm": 7.59375,
      "learning_rate": 4.857991008048622e-05,
      "loss": 0.7653,
      "step": 380000
    },
    {
      "epoch": 0.5189309789710407,
      "grad_norm": 4.46875,
      "learning_rate": 4.856897161429897e-05,
      "loss": 0.787,
      "step": 380050
    },
    {
      "epoch": 0.5189992503799304,
      "grad_norm": 4.28125,
      "learning_rate": 4.8558033216656515e-05,
      "loss": 0.7862,
      "step": 380100
    },
    {
      "epoch": 0.5190675217888201,
      "grad_norm": 8.0,
      "learning_rate": 4.854709488808275e-05,
      "loss": 0.7173,
      "step": 380150
    },
    {
      "epoch": 0.5191357931977099,
      "grad_norm": 2.515625,
      "learning_rate": 4.8536156629101606e-05,
      "loss": 0.8475,
      "step": 380200
    },
    {
      "epoch": 0.5192040646065996,
      "grad_norm": 3.375,
      "learning_rate": 4.852521844023703e-05,
      "loss": 0.6811,
      "step": 380250
    },
    {
      "epoch": 0.5192723360154894,
      "grad_norm": 8.625,
      "learning_rate": 4.851428032201296e-05,
      "loss": 0.7863,
      "step": 380300
    },
    {
      "epoch": 0.5193406074243792,
      "grad_norm": 8.0625,
      "learning_rate": 4.8503342274953287e-05,
      "loss": 0.742,
      "step": 380350
    },
    {
      "epoch": 0.5194088788332689,
      "grad_norm": 6.84375,
      "learning_rate": 4.849240429958198e-05,
      "loss": 0.7946,
      "step": 380400
    },
    {
      "epoch": 0.5194771502421587,
      "grad_norm": 11.3125,
      "learning_rate": 4.848146639642292e-05,
      "loss": 0.8774,
      "step": 380450
    },
    {
      "epoch": 0.5195454216510484,
      "grad_norm": 7.625,
      "learning_rate": 4.847052856600002e-05,
      "loss": 0.7631,
      "step": 380500
    },
    {
      "epoch": 0.5196136930599382,
      "grad_norm": 2.90625,
      "learning_rate": 4.84595908088372e-05,
      "loss": 0.6973,
      "step": 380550
    },
    {
      "epoch": 0.519681964468828,
      "grad_norm": 4.5,
      "learning_rate": 4.844865312545838e-05,
      "loss": 0.7723,
      "step": 380600
    },
    {
      "epoch": 0.5197502358777177,
      "grad_norm": 8.125,
      "learning_rate": 4.843771551638746e-05,
      "loss": 0.8318,
      "step": 380650
    },
    {
      "epoch": 0.5198185072866075,
      "grad_norm": 8.1875,
      "learning_rate": 4.84267779821483e-05,
      "loss": 0.8111,
      "step": 380700
    },
    {
      "epoch": 0.5198867786954973,
      "grad_norm": 4.125,
      "learning_rate": 4.841584052326486e-05,
      "loss": 0.7587,
      "step": 380750
    },
    {
      "epoch": 0.519955050104387,
      "grad_norm": 3.328125,
      "learning_rate": 4.840490314026099e-05,
      "loss": 0.7918,
      "step": 380800
    },
    {
      "epoch": 0.5200233215132768,
      "grad_norm": 2.71875,
      "learning_rate": 4.839396583366057e-05,
      "loss": 0.7871,
      "step": 380850
    },
    {
      "epoch": 0.5200915929221664,
      "grad_norm": 3.125,
      "learning_rate": 4.838302860398753e-05,
      "loss": 0.7488,
      "step": 380900
    },
    {
      "epoch": 0.5201598643310562,
      "grad_norm": 3.0625,
      "learning_rate": 4.837209145176573e-05,
      "loss": 0.8391,
      "step": 380950
    },
    {
      "epoch": 0.520228135739946,
      "grad_norm": 3.375,
      "learning_rate": 4.836115437751903e-05,
      "loss": 0.8617,
      "step": 381000
    },
    {
      "epoch": 0.5202964071488357,
      "grad_norm": 3.078125,
      "learning_rate": 4.8350217381771325e-05,
      "loss": 0.7472,
      "step": 381050
    },
    {
      "epoch": 0.5203646785577255,
      "grad_norm": 3.125,
      "learning_rate": 4.833928046504649e-05,
      "loss": 0.8361,
      "step": 381100
    },
    {
      "epoch": 0.5204329499666153,
      "grad_norm": 3.25,
      "learning_rate": 4.832834362786839e-05,
      "loss": 0.7723,
      "step": 381150
    },
    {
      "epoch": 0.520501221375505,
      "grad_norm": 7.9375,
      "learning_rate": 4.831740687076085e-05,
      "loss": 0.863,
      "step": 381200
    },
    {
      "epoch": 0.5205694927843948,
      "grad_norm": 3.09375,
      "learning_rate": 4.830647019424779e-05,
      "loss": 0.7563,
      "step": 381250
    },
    {
      "epoch": 0.5206377641932846,
      "grad_norm": 3.1875,
      "learning_rate": 4.829553359885302e-05,
      "loss": 0.8182,
      "step": 381300
    },
    {
      "epoch": 0.5207060356021743,
      "grad_norm": 8.1875,
      "learning_rate": 4.82845970851004e-05,
      "loss": 0.8732,
      "step": 381350
    },
    {
      "epoch": 0.5207743070110641,
      "grad_norm": 2.859375,
      "learning_rate": 4.82736606535138e-05,
      "loss": 0.7339,
      "step": 381400
    },
    {
      "epoch": 0.5208425784199538,
      "grad_norm": 5.875,
      "learning_rate": 4.826272430461705e-05,
      "loss": 0.8771,
      "step": 381450
    },
    {
      "epoch": 0.5209108498288436,
      "grad_norm": 2.734375,
      "learning_rate": 4.825178803893396e-05,
      "loss": 0.8011,
      "step": 381500
    },
    {
      "epoch": 0.5209791212377334,
      "grad_norm": 4.34375,
      "learning_rate": 4.824085185698842e-05,
      "loss": 0.8029,
      "step": 381550
    },
    {
      "epoch": 0.5210473926466231,
      "grad_norm": 2.875,
      "learning_rate": 4.822991575930423e-05,
      "loss": 0.7475,
      "step": 381600
    },
    {
      "epoch": 0.5211156640555128,
      "grad_norm": 7.4375,
      "learning_rate": 4.821897974640521e-05,
      "loss": 0.7917,
      "step": 381650
    },
    {
      "epoch": 0.5211839354644026,
      "grad_norm": 3.265625,
      "learning_rate": 4.820804381881522e-05,
      "loss": 0.7933,
      "step": 381700
    },
    {
      "epoch": 0.5212522068732923,
      "grad_norm": 4.6875,
      "learning_rate": 4.8197107977058046e-05,
      "loss": 0.864,
      "step": 381750
    },
    {
      "epoch": 0.5213204782821821,
      "grad_norm": 7.4375,
      "learning_rate": 4.818617222165751e-05,
      "loss": 0.8674,
      "step": 381800
    },
    {
      "epoch": 0.5213887496910719,
      "grad_norm": 3.09375,
      "learning_rate": 4.8175236553137415e-05,
      "loss": 0.7296,
      "step": 381850
    },
    {
      "epoch": 0.5214570210999616,
      "grad_norm": 6.96875,
      "learning_rate": 4.81643009720216e-05,
      "loss": 0.8697,
      "step": 381900
    },
    {
      "epoch": 0.5215252925088514,
      "grad_norm": 3.15625,
      "learning_rate": 4.815336547883385e-05,
      "loss": 0.6995,
      "step": 381950
    },
    {
      "epoch": 0.5215935639177411,
      "grad_norm": 3.96875,
      "learning_rate": 4.814243007409793e-05,
      "loss": 0.8324,
      "step": 382000
    },
    {
      "epoch": 0.5216618353266309,
      "grad_norm": 7.6875,
      "learning_rate": 4.813149475833769e-05,
      "loss": 0.806,
      "step": 382050
    },
    {
      "epoch": 0.5217301067355207,
      "grad_norm": 8.5,
      "learning_rate": 4.8120559532076894e-05,
      "loss": 0.8016,
      "step": 382100
    },
    {
      "epoch": 0.5217983781444104,
      "grad_norm": 2.953125,
      "learning_rate": 4.810962439583931e-05,
      "loss": 0.7021,
      "step": 382150
    },
    {
      "epoch": 0.5218666495533002,
      "grad_norm": 3.796875,
      "learning_rate": 4.809868935014876e-05,
      "loss": 0.6983,
      "step": 382200
    },
    {
      "epoch": 0.52193492096219,
      "grad_norm": 3.28125,
      "learning_rate": 4.8087754395529006e-05,
      "loss": 0.7598,
      "step": 382250
    },
    {
      "epoch": 0.5220031923710797,
      "grad_norm": 2.984375,
      "learning_rate": 4.80768195325038e-05,
      "loss": 0.6735,
      "step": 382300
    },
    {
      "epoch": 0.5220714637799695,
      "grad_norm": 3.125,
      "learning_rate": 4.806588476159692e-05,
      "loss": 0.6892,
      "step": 382350
    },
    {
      "epoch": 0.5221397351888591,
      "grad_norm": 8.1875,
      "learning_rate": 4.8054950083332155e-05,
      "loss": 0.7441,
      "step": 382400
    },
    {
      "epoch": 0.5222080065977489,
      "grad_norm": 4.5625,
      "learning_rate": 4.804401549823325e-05,
      "loss": 0.7307,
      "step": 382450
    },
    {
      "epoch": 0.5222762780066387,
      "grad_norm": 4.125,
      "learning_rate": 4.803308100682393e-05,
      "loss": 0.8031,
      "step": 382500
    },
    {
      "epoch": 0.5223445494155284,
      "grad_norm": 2.921875,
      "learning_rate": 4.802214660962799e-05,
      "loss": 0.7252,
      "step": 382550
    },
    {
      "epoch": 0.5224128208244182,
      "grad_norm": 7.90625,
      "learning_rate": 4.8011212307169144e-05,
      "loss": 0.7737,
      "step": 382600
    },
    {
      "epoch": 0.522481092233308,
      "grad_norm": 2.625,
      "learning_rate": 4.800027809997114e-05,
      "loss": 0.7324,
      "step": 382650
    },
    {
      "epoch": 0.5225493636421977,
      "grad_norm": 2.828125,
      "learning_rate": 4.798934398855775e-05,
      "loss": 0.7258,
      "step": 382700
    },
    {
      "epoch": 0.5226176350510875,
      "grad_norm": 7.46875,
      "learning_rate": 4.7978409973452675e-05,
      "loss": 0.8025,
      "step": 382750
    },
    {
      "epoch": 0.5226859064599773,
      "grad_norm": 3.21875,
      "learning_rate": 4.796747605517962e-05,
      "loss": 0.7286,
      "step": 382800
    },
    {
      "epoch": 0.522754177868867,
      "grad_norm": 3.21875,
      "learning_rate": 4.795654223426235e-05,
      "loss": 0.7699,
      "step": 382850
    },
    {
      "epoch": 0.5228224492777568,
      "grad_norm": 2.828125,
      "learning_rate": 4.794560851122458e-05,
      "loss": 0.7987,
      "step": 382900
    },
    {
      "epoch": 0.5228907206866465,
      "grad_norm": 3.015625,
      "learning_rate": 4.793467488659001e-05,
      "loss": 0.8083,
      "step": 382950
    },
    {
      "epoch": 0.5229589920955363,
      "grad_norm": 3.203125,
      "learning_rate": 4.792374136088233e-05,
      "loss": 0.7199,
      "step": 383000
    },
    {
      "epoch": 0.5230272635044261,
      "grad_norm": 3.25,
      "learning_rate": 4.7912807934625294e-05,
      "loss": 0.7839,
      "step": 383050
    },
    {
      "epoch": 0.5230955349133158,
      "grad_norm": 3.296875,
      "learning_rate": 4.790187460834256e-05,
      "loss": 0.7194,
      "step": 383100
    },
    {
      "epoch": 0.5231638063222055,
      "grad_norm": 3.578125,
      "learning_rate": 4.789094138255782e-05,
      "loss": 0.7636,
      "step": 383150
    },
    {
      "epoch": 0.5232320777310953,
      "grad_norm": 2.890625,
      "learning_rate": 4.78800082577948e-05,
      "loss": 0.7736,
      "step": 383200
    },
    {
      "epoch": 0.523300349139985,
      "grad_norm": 4.625,
      "learning_rate": 4.786907523457718e-05,
      "loss": 0.7479,
      "step": 383250
    },
    {
      "epoch": 0.5233686205488748,
      "grad_norm": 4.40625,
      "learning_rate": 4.785814231342859e-05,
      "loss": 0.7887,
      "step": 383300
    },
    {
      "epoch": 0.5234368919577645,
      "grad_norm": 3.390625,
      "learning_rate": 4.7847209494872755e-05,
      "loss": 0.7544,
      "step": 383350
    },
    {
      "epoch": 0.5235051633666543,
      "grad_norm": 7.1875,
      "learning_rate": 4.783627677943335e-05,
      "loss": 0.7897,
      "step": 383400
    },
    {
      "epoch": 0.5235734347755441,
      "grad_norm": 3.921875,
      "learning_rate": 4.7825344167634e-05,
      "loss": 0.8977,
      "step": 383450
    },
    {
      "epoch": 0.5236417061844338,
      "grad_norm": 4.3125,
      "learning_rate": 4.781441165999841e-05,
      "loss": 0.8654,
      "step": 383500
    },
    {
      "epoch": 0.5237099775933236,
      "grad_norm": 3.640625,
      "learning_rate": 4.780347925705021e-05,
      "loss": 0.7732,
      "step": 383550
    },
    {
      "epoch": 0.5237782490022134,
      "grad_norm": 2.84375,
      "learning_rate": 4.7792546959313046e-05,
      "loss": 0.7152,
      "step": 383600
    },
    {
      "epoch": 0.5238465204111031,
      "grad_norm": 7.5,
      "learning_rate": 4.7781614767310554e-05,
      "loss": 0.7712,
      "step": 383650
    },
    {
      "epoch": 0.5239147918199929,
      "grad_norm": 3.28125,
      "learning_rate": 4.777068268156643e-05,
      "loss": 0.8192,
      "step": 383700
    },
    {
      "epoch": 0.5239830632288827,
      "grad_norm": 3.0,
      "learning_rate": 4.775975070260426e-05,
      "loss": 0.7951,
      "step": 383750
    },
    {
      "epoch": 0.5240513346377724,
      "grad_norm": 4.15625,
      "learning_rate": 4.774881883094767e-05,
      "loss": 0.7571,
      "step": 383800
    },
    {
      "epoch": 0.5241196060466622,
      "grad_norm": 4.96875,
      "learning_rate": 4.773788706712032e-05,
      "loss": 0.8494,
      "step": 383850
    },
    {
      "epoch": 0.524187877455552,
      "grad_norm": 3.96875,
      "learning_rate": 4.772695541164581e-05,
      "loss": 0.8577,
      "step": 383900
    },
    {
      "epoch": 0.5242561488644416,
      "grad_norm": 6.625,
      "learning_rate": 4.7716023865047744e-05,
      "loss": 0.7711,
      "step": 383950
    },
    {
      "epoch": 0.5243244202733314,
      "grad_norm": 3.015625,
      "learning_rate": 4.770509242784976e-05,
      "loss": 0.8609,
      "step": 384000
    },
    {
      "epoch": 0.5243926916822211,
      "grad_norm": 3.25,
      "learning_rate": 4.7694161100575454e-05,
      "loss": 0.6973,
      "step": 384050
    },
    {
      "epoch": 0.5244609630911109,
      "grad_norm": 7.875,
      "learning_rate": 4.76832298837484e-05,
      "loss": 0.8591,
      "step": 384100
    },
    {
      "epoch": 0.5245292345000007,
      "grad_norm": 3.25,
      "learning_rate": 4.7672298777892205e-05,
      "loss": 0.7411,
      "step": 384150
    },
    {
      "epoch": 0.5245975059088904,
      "grad_norm": 3.625,
      "learning_rate": 4.766136778353048e-05,
      "loss": 0.7625,
      "step": 384200
    },
    {
      "epoch": 0.5246657773177802,
      "grad_norm": 2.8125,
      "learning_rate": 4.76504369011868e-05,
      "loss": 0.8169,
      "step": 384250
    },
    {
      "epoch": 0.52473404872667,
      "grad_norm": 4.28125,
      "learning_rate": 4.76395061313847e-05,
      "loss": 0.7942,
      "step": 384300
    },
    {
      "epoch": 0.5248023201355597,
      "grad_norm": 6.9375,
      "learning_rate": 4.762857547464781e-05,
      "loss": 0.7955,
      "step": 384350
    },
    {
      "epoch": 0.5248705915444495,
      "grad_norm": 2.9375,
      "learning_rate": 4.7617644931499666e-05,
      "loss": 0.7873,
      "step": 384400
    },
    {
      "epoch": 0.5249388629533392,
      "grad_norm": 3.375,
      "learning_rate": 4.760671450246383e-05,
      "loss": 0.7954,
      "step": 384450
    },
    {
      "epoch": 0.525007134362229,
      "grad_norm": 7.71875,
      "learning_rate": 4.759578418806388e-05,
      "loss": 0.8321,
      "step": 384500
    },
    {
      "epoch": 0.5250754057711188,
      "grad_norm": 4.625,
      "learning_rate": 4.758485398882335e-05,
      "loss": 0.8178,
      "step": 384550
    },
    {
      "epoch": 0.5251436771800085,
      "grad_norm": 2.859375,
      "learning_rate": 4.757392390526576e-05,
      "loss": 0.7816,
      "step": 384600
    },
    {
      "epoch": 0.5252119485888983,
      "grad_norm": 3.078125,
      "learning_rate": 4.75629939379147e-05,
      "loss": 0.808,
      "step": 384650
    },
    {
      "epoch": 0.525280219997788,
      "grad_norm": 7.96875,
      "learning_rate": 4.755206408729369e-05,
      "loss": 0.7658,
      "step": 384700
    },
    {
      "epoch": 0.5253484914066777,
      "grad_norm": 4.25,
      "learning_rate": 4.7541134353926236e-05,
      "loss": 0.7841,
      "step": 384750
    },
    {
      "epoch": 0.5254167628155675,
      "grad_norm": 4.8125,
      "learning_rate": 4.753020473833586e-05,
      "loss": 0.7846,
      "step": 384800
    },
    {
      "epoch": 0.5254850342244572,
      "grad_norm": 4.65625,
      "learning_rate": 4.751927524104611e-05,
      "loss": 0.7811,
      "step": 384850
    },
    {
      "epoch": 0.525553305633347,
      "grad_norm": 2.796875,
      "learning_rate": 4.750834586258048e-05,
      "loss": 0.7231,
      "step": 384900
    },
    {
      "epoch": 0.5256215770422368,
      "grad_norm": 7.3125,
      "learning_rate": 4.749741660346245e-05,
      "loss": 0.9009,
      "step": 384950
    },
    {
      "epoch": 0.5256898484511265,
      "grad_norm": 2.796875,
      "learning_rate": 4.748648746421557e-05,
      "loss": 0.8068,
      "step": 385000
    },
    {
      "epoch": 0.5257581198600163,
      "grad_norm": 3.171875,
      "learning_rate": 4.747555844536332e-05,
      "loss": 0.831,
      "step": 385050
    },
    {
      "epoch": 0.5258263912689061,
      "grad_norm": 2.84375,
      "learning_rate": 4.746462954742915e-05,
      "loss": 0.7847,
      "step": 385100
    },
    {
      "epoch": 0.5258946626777958,
      "grad_norm": 3.3125,
      "learning_rate": 4.7453700770936594e-05,
      "loss": 0.8149,
      "step": 385150
    },
    {
      "epoch": 0.5259629340866856,
      "grad_norm": 4.25,
      "learning_rate": 4.7442772116409096e-05,
      "loss": 0.8195,
      "step": 385200
    },
    {
      "epoch": 0.5260312054955754,
      "grad_norm": 2.90625,
      "learning_rate": 4.7431843584370124e-05,
      "loss": 0.775,
      "step": 385250
    },
    {
      "epoch": 0.5260994769044651,
      "grad_norm": 2.890625,
      "learning_rate": 4.742091517534318e-05,
      "loss": 0.7668,
      "step": 385300
    },
    {
      "epoch": 0.5261677483133549,
      "grad_norm": 4.34375,
      "learning_rate": 4.74099868898517e-05,
      "loss": 0.7546,
      "step": 385350
    },
    {
      "epoch": 0.5262360197222447,
      "grad_norm": 2.828125,
      "learning_rate": 4.7399058728419126e-05,
      "loss": 0.8347,
      "step": 385400
    },
    {
      "epoch": 0.5263042911311343,
      "grad_norm": 4.40625,
      "learning_rate": 4.73881306915689e-05,
      "loss": 0.7691,
      "step": 385450
    },
    {
      "epoch": 0.5263725625400241,
      "grad_norm": 3.65625,
      "learning_rate": 4.737720277982451e-05,
      "loss": 0.866,
      "step": 385500
    },
    {
      "epoch": 0.5264408339489138,
      "grad_norm": 3.46875,
      "learning_rate": 4.736627499370937e-05,
      "loss": 0.8498,
      "step": 385550
    },
    {
      "epoch": 0.5265091053578036,
      "grad_norm": 3.859375,
      "learning_rate": 4.735534733374687e-05,
      "loss": 0.8603,
      "step": 385600
    },
    {
      "epoch": 0.5265773767666934,
      "grad_norm": 7.53125,
      "learning_rate": 4.7344419800460486e-05,
      "loss": 0.8815,
      "step": 385650
    },
    {
      "epoch": 0.5266456481755831,
      "grad_norm": 3.0625,
      "learning_rate": 4.733349239437361e-05,
      "loss": 0.7519,
      "step": 385700
    },
    {
      "epoch": 0.5267139195844729,
      "grad_norm": 3.34375,
      "learning_rate": 4.732256511600964e-05,
      "loss": 0.7592,
      "step": 385750
    },
    {
      "epoch": 0.5267821909933627,
      "grad_norm": 7.15625,
      "learning_rate": 4.7311637965892016e-05,
      "loss": 0.8029,
      "step": 385800
    },
    {
      "epoch": 0.5268504624022524,
      "grad_norm": 3.671875,
      "learning_rate": 4.730071094454413e-05,
      "loss": 0.7882,
      "step": 385850
    },
    {
      "epoch": 0.5269187338111422,
      "grad_norm": 3.203125,
      "learning_rate": 4.728978405248935e-05,
      "loss": 0.7824,
      "step": 385900
    },
    {
      "epoch": 0.526987005220032,
      "grad_norm": 3.59375,
      "learning_rate": 4.727885729025107e-05,
      "loss": 0.8694,
      "step": 385950
    },
    {
      "epoch": 0.5270552766289217,
      "grad_norm": 2.8125,
      "learning_rate": 4.7267930658352696e-05,
      "loss": 0.826,
      "step": 386000
    },
    {
      "epoch": 0.5271235480378115,
      "grad_norm": 3.484375,
      "learning_rate": 4.725700415731759e-05,
      "loss": 0.8021,
      "step": 386050
    },
    {
      "epoch": 0.5271918194467012,
      "grad_norm": 3.21875,
      "learning_rate": 4.724607778766908e-05,
      "loss": 0.6905,
      "step": 386100
    },
    {
      "epoch": 0.527260090855591,
      "grad_norm": 3.40625,
      "learning_rate": 4.7235151549930595e-05,
      "loss": 0.7987,
      "step": 386150
    },
    {
      "epoch": 0.5273283622644807,
      "grad_norm": 2.875,
      "learning_rate": 4.722422544462544e-05,
      "loss": 0.7771,
      "step": 386200
    },
    {
      "epoch": 0.5273966336733704,
      "grad_norm": 2.875,
      "learning_rate": 4.721329947227698e-05,
      "loss": 0.8011,
      "step": 386250
    },
    {
      "epoch": 0.5274649050822602,
      "grad_norm": 7.40625,
      "learning_rate": 4.720237363340857e-05,
      "loss": 0.7627,
      "step": 386300
    },
    {
      "epoch": 0.52753317649115,
      "grad_norm": 3.328125,
      "learning_rate": 4.719144792854354e-05,
      "loss": 0.817,
      "step": 386350
    },
    {
      "epoch": 0.5276014479000397,
      "grad_norm": 2.703125,
      "learning_rate": 4.718052235820519e-05,
      "loss": 0.771,
      "step": 386400
    },
    {
      "epoch": 0.5276697193089295,
      "grad_norm": 4.46875,
      "learning_rate": 4.7169596922916886e-05,
      "loss": 0.7717,
      "step": 386450
    },
    {
      "epoch": 0.5277379907178192,
      "grad_norm": 2.984375,
      "learning_rate": 4.715867162320193e-05,
      "loss": 0.8598,
      "step": 386500
    },
    {
      "epoch": 0.527806262126709,
      "grad_norm": 3.296875,
      "learning_rate": 4.714774645958363e-05,
      "loss": 0.8102,
      "step": 386550
    },
    {
      "epoch": 0.5278745335355988,
      "grad_norm": 5.5,
      "learning_rate": 4.713682143258528e-05,
      "loss": 0.8072,
      "step": 386600
    },
    {
      "epoch": 0.5279428049444885,
      "grad_norm": 25.25,
      "learning_rate": 4.71258965427302e-05,
      "loss": 0.8473,
      "step": 386650
    },
    {
      "epoch": 0.5280110763533783,
      "grad_norm": 3.1875,
      "learning_rate": 4.7114971790541656e-05,
      "loss": 0.8018,
      "step": 386700
    },
    {
      "epoch": 0.5280793477622681,
      "grad_norm": 2.765625,
      "learning_rate": 4.7104047176542934e-05,
      "loss": 0.7694,
      "step": 386750
    },
    {
      "epoch": 0.5281476191711578,
      "grad_norm": 3.171875,
      "learning_rate": 4.709312270125734e-05,
      "loss": 0.8142,
      "step": 386800
    },
    {
      "epoch": 0.5282158905800476,
      "grad_norm": 2.953125,
      "learning_rate": 4.708219836520814e-05,
      "loss": 0.8682,
      "step": 386850
    },
    {
      "epoch": 0.5282841619889374,
      "grad_norm": 4.96875,
      "learning_rate": 4.707127416891854e-05,
      "loss": 0.8014,
      "step": 386900
    },
    {
      "epoch": 0.528352433397827,
      "grad_norm": 2.890625,
      "learning_rate": 4.706035011291188e-05,
      "loss": 0.7999,
      "step": 386950
    },
    {
      "epoch": 0.5284207048067168,
      "grad_norm": 4.8125,
      "learning_rate": 4.704942619771136e-05,
      "loss": 0.8376,
      "step": 387000
    },
    {
      "epoch": 0.5284889762156065,
      "grad_norm": 7.21875,
      "learning_rate": 4.703850242384023e-05,
      "loss": 0.776,
      "step": 387050
    },
    {
      "epoch": 0.5285572476244963,
      "grad_norm": 3.296875,
      "learning_rate": 4.702757879182175e-05,
      "loss": 0.7699,
      "step": 387100
    },
    {
      "epoch": 0.5286255190333861,
      "grad_norm": 4.46875,
      "learning_rate": 4.701665530217914e-05,
      "loss": 0.8463,
      "step": 387150
    },
    {
      "epoch": 0.5286937904422758,
      "grad_norm": 4.1875,
      "learning_rate": 4.700573195543561e-05,
      "loss": 0.7601,
      "step": 387200
    },
    {
      "epoch": 0.5287620618511656,
      "grad_norm": 2.828125,
      "learning_rate": 4.699480875211437e-05,
      "loss": 0.8672,
      "step": 387250
    },
    {
      "epoch": 0.5288303332600554,
      "grad_norm": 3.390625,
      "learning_rate": 4.698388569273866e-05,
      "loss": 0.7624,
      "step": 387300
    },
    {
      "epoch": 0.5288986046689451,
      "grad_norm": 3.15625,
      "learning_rate": 4.697296277783168e-05,
      "loss": 0.8458,
      "step": 387350
    },
    {
      "epoch": 0.5289668760778349,
      "grad_norm": 4.5,
      "learning_rate": 4.696204000791659e-05,
      "loss": 0.823,
      "step": 387400
    },
    {
      "epoch": 0.5290351474867246,
      "grad_norm": 3.1875,
      "learning_rate": 4.695111738351663e-05,
      "loss": 0.7862,
      "step": 387450
    },
    {
      "epoch": 0.5291034188956144,
      "grad_norm": 3.515625,
      "learning_rate": 4.694019490515494e-05,
      "loss": 0.7997,
      "step": 387500
    },
    {
      "epoch": 0.5291716903045042,
      "grad_norm": 3.640625,
      "learning_rate": 4.69292725733547e-05,
      "loss": 0.8187,
      "step": 387550
    },
    {
      "epoch": 0.5292399617133939,
      "grad_norm": 4.34375,
      "learning_rate": 4.691835038863912e-05,
      "loss": 0.8561,
      "step": 387600
    },
    {
      "epoch": 0.5293082331222837,
      "grad_norm": 7.71875,
      "learning_rate": 4.6907428351531325e-05,
      "loss": 0.7615,
      "step": 387650
    },
    {
      "epoch": 0.5293765045311734,
      "grad_norm": 3.828125,
      "learning_rate": 4.6896506462554464e-05,
      "loss": 0.7983,
      "step": 387700
    },
    {
      "epoch": 0.5294447759400631,
      "grad_norm": 3.765625,
      "learning_rate": 4.688558472223168e-05,
      "loss": 0.8488,
      "step": 387750
    },
    {
      "epoch": 0.5295130473489529,
      "grad_norm": 3.515625,
      "learning_rate": 4.687466313108616e-05,
      "loss": 0.8091,
      "step": 387800
    },
    {
      "epoch": 0.5295813187578426,
      "grad_norm": 7.0625,
      "learning_rate": 4.686374168964101e-05,
      "loss": 0.7415,
      "step": 387850
    },
    {
      "epoch": 0.5296495901667324,
      "grad_norm": 4.28125,
      "learning_rate": 4.6852820398419315e-05,
      "loss": 0.7794,
      "step": 387900
    },
    {
      "epoch": 0.5297178615756222,
      "grad_norm": 3.46875,
      "learning_rate": 4.6841899257944253e-05,
      "loss": 0.8139,
      "step": 387950
    },
    {
      "epoch": 0.5297861329845119,
      "grad_norm": 2.796875,
      "learning_rate": 4.6830978268738915e-05,
      "loss": 0.7908,
      "step": 388000
    },
    {
      "epoch": 0.5298544043934017,
      "grad_norm": 3.484375,
      "learning_rate": 4.682005743132637e-05,
      "loss": 0.7865,
      "step": 388050
    },
    {
      "epoch": 0.5299226758022915,
      "grad_norm": 2.8125,
      "learning_rate": 4.680913674622978e-05,
      "loss": 0.8083,
      "step": 388100
    },
    {
      "epoch": 0.5299909472111812,
      "grad_norm": 4.25,
      "learning_rate": 4.6798216213972204e-05,
      "loss": 0.7744,
      "step": 388150
    },
    {
      "epoch": 0.530059218620071,
      "grad_norm": 3.0625,
      "learning_rate": 4.6787295835076696e-05,
      "loss": 0.7538,
      "step": 388200
    },
    {
      "epoch": 0.5301274900289608,
      "grad_norm": 3.171875,
      "learning_rate": 4.677637561006637e-05,
      "loss": 0.7951,
      "step": 388250
    },
    {
      "epoch": 0.5301957614378505,
      "grad_norm": 3.625,
      "learning_rate": 4.6765455539464274e-05,
      "loss": 0.7421,
      "step": 388300
    },
    {
      "epoch": 0.5302640328467403,
      "grad_norm": 3.4375,
      "learning_rate": 4.675453562379348e-05,
      "loss": 0.7415,
      "step": 388350
    },
    {
      "epoch": 0.53033230425563,
      "grad_norm": 3.09375,
      "learning_rate": 4.674361586357702e-05,
      "loss": 0.7538,
      "step": 388400
    },
    {
      "epoch": 0.5304005756645198,
      "grad_norm": 7.6875,
      "learning_rate": 4.673269625933796e-05,
      "loss": 0.7971,
      "step": 388450
    },
    {
      "epoch": 0.5304688470734095,
      "grad_norm": 4.1875,
      "learning_rate": 4.672177681159933e-05,
      "loss": 0.8174,
      "step": 388500
    },
    {
      "epoch": 0.5305371184822992,
      "grad_norm": 2.921875,
      "learning_rate": 4.671085752088415e-05,
      "loss": 0.7488,
      "step": 388550
    },
    {
      "epoch": 0.530605389891189,
      "grad_norm": 4.3125,
      "learning_rate": 4.669993838771546e-05,
      "loss": 0.7807,
      "step": 388600
    },
    {
      "epoch": 0.5306736613000788,
      "grad_norm": 3.375,
      "learning_rate": 4.668901941261628e-05,
      "loss": 0.8556,
      "step": 388650
    },
    {
      "epoch": 0.5307419327089685,
      "grad_norm": 3.4375,
      "learning_rate": 4.6678100596109584e-05,
      "loss": 0.8733,
      "step": 388700
    },
    {
      "epoch": 0.5308102041178583,
      "grad_norm": 8.0,
      "learning_rate": 4.666718193871841e-05,
      "loss": 0.8099,
      "step": 388750
    },
    {
      "epoch": 0.530878475526748,
      "grad_norm": 7.90625,
      "learning_rate": 4.6656263440965726e-05,
      "loss": 0.7762,
      "step": 388800
    },
    {
      "epoch": 0.5309467469356378,
      "grad_norm": 3.109375,
      "learning_rate": 4.664534510337451e-05,
      "loss": 0.7812,
      "step": 388850
    },
    {
      "epoch": 0.5310150183445276,
      "grad_norm": 2.71875,
      "learning_rate": 4.663442692646778e-05,
      "loss": 0.6948,
      "step": 388900
    },
    {
      "epoch": 0.5310832897534173,
      "grad_norm": 4.0,
      "learning_rate": 4.662350891076847e-05,
      "loss": 0.8432,
      "step": 388950
    },
    {
      "epoch": 0.5311515611623071,
      "grad_norm": 3.015625,
      "learning_rate": 4.661259105679954e-05,
      "loss": 0.8005,
      "step": 389000
    },
    {
      "epoch": 0.5312198325711969,
      "grad_norm": 3.15625,
      "learning_rate": 4.660167336508395e-05,
      "loss": 0.8008,
      "step": 389050
    },
    {
      "epoch": 0.5312881039800866,
      "grad_norm": 2.984375,
      "learning_rate": 4.659075583614466e-05,
      "loss": 0.7054,
      "step": 389100
    },
    {
      "epoch": 0.5313563753889764,
      "grad_norm": 2.6875,
      "learning_rate": 4.657983847050461e-05,
      "loss": 0.737,
      "step": 389150
    },
    {
      "epoch": 0.5314246467978662,
      "grad_norm": 8.3125,
      "learning_rate": 4.656892126868669e-05,
      "loss": 0.7369,
      "step": 389200
    },
    {
      "epoch": 0.5314929182067558,
      "grad_norm": 3.96875,
      "learning_rate": 4.655800423121387e-05,
      "loss": 0.7124,
      "step": 389250
    },
    {
      "epoch": 0.5315611896156456,
      "grad_norm": 8.8125,
      "learning_rate": 4.6547087358609035e-05,
      "loss": 0.8772,
      "step": 389300
    },
    {
      "epoch": 0.5316294610245353,
      "grad_norm": 3.5,
      "learning_rate": 4.65361706513951e-05,
      "loss": 0.7508,
      "step": 389350
    },
    {
      "epoch": 0.5316977324334251,
      "grad_norm": 7.53125,
      "learning_rate": 4.652525411009497e-05,
      "loss": 0.7612,
      "step": 389400
    },
    {
      "epoch": 0.5317660038423149,
      "grad_norm": 4.46875,
      "learning_rate": 4.651433773523154e-05,
      "loss": 0.7219,
      "step": 389450
    },
    {
      "epoch": 0.5318342752512046,
      "grad_norm": 4.21875,
      "learning_rate": 4.650342152732768e-05,
      "loss": 0.8067,
      "step": 389500
    },
    {
      "epoch": 0.5319025466600944,
      "grad_norm": 3.421875,
      "learning_rate": 4.6492505486906254e-05,
      "loss": 0.8267,
      "step": 389550
    },
    {
      "epoch": 0.5319708180689842,
      "grad_norm": 3.515625,
      "learning_rate": 4.648158961449017e-05,
      "loss": 0.8447,
      "step": 389600
    },
    {
      "epoch": 0.5320390894778739,
      "grad_norm": 4.1875,
      "learning_rate": 4.6470673910602257e-05,
      "loss": 0.7389,
      "step": 389650
    },
    {
      "epoch": 0.5321073608867637,
      "grad_norm": 3.234375,
      "learning_rate": 4.645975837576535e-05,
      "loss": 0.7411,
      "step": 389700
    },
    {
      "epoch": 0.5321756322956535,
      "grad_norm": 4.75,
      "learning_rate": 4.644884301050233e-05,
      "loss": 0.8638,
      "step": 389750
    },
    {
      "epoch": 0.5322439037045432,
      "grad_norm": 2.875,
      "learning_rate": 4.643792781533601e-05,
      "loss": 0.7484,
      "step": 389800
    },
    {
      "epoch": 0.532312175113433,
      "grad_norm": 3.90625,
      "learning_rate": 4.64270127907892e-05,
      "loss": 0.7255,
      "step": 389850
    },
    {
      "epoch": 0.5323804465223227,
      "grad_norm": 7.6875,
      "learning_rate": 4.641609793738477e-05,
      "loss": 0.8154,
      "step": 389900
    },
    {
      "epoch": 0.5324487179312125,
      "grad_norm": 3.03125,
      "learning_rate": 4.640518325564549e-05,
      "loss": 0.7654,
      "step": 389950
    },
    {
      "epoch": 0.5325169893401022,
      "grad_norm": 3.46875,
      "learning_rate": 4.639426874609415e-05,
      "loss": 0.7698,
      "step": 390000
    },
    {
      "epoch": 0.5325852607489919,
      "grad_norm": 6.1875,
      "learning_rate": 4.6383354409253585e-05,
      "loss": 0.7436,
      "step": 390050
    },
    {
      "epoch": 0.5326535321578817,
      "grad_norm": 4.25,
      "learning_rate": 4.637244024564655e-05,
      "loss": 0.8435,
      "step": 390100
    },
    {
      "epoch": 0.5327218035667715,
      "grad_norm": 3.1875,
      "learning_rate": 4.6361526255795837e-05,
      "loss": 0.8371,
      "step": 390150
    },
    {
      "epoch": 0.5327900749756612,
      "grad_norm": 3.328125,
      "learning_rate": 4.6350612440224194e-05,
      "loss": 0.7915,
      "step": 390200
    },
    {
      "epoch": 0.532858346384551,
      "grad_norm": 7.5625,
      "learning_rate": 4.6339698799454416e-05,
      "loss": 0.7749,
      "step": 390250
    },
    {
      "epoch": 0.5329266177934407,
      "grad_norm": 4.25,
      "learning_rate": 4.632878533400922e-05,
      "loss": 0.7635,
      "step": 390300
    },
    {
      "epoch": 0.5329948892023305,
      "grad_norm": 7.9375,
      "learning_rate": 4.6317872044411356e-05,
      "loss": 0.7285,
      "step": 390350
    },
    {
      "epoch": 0.5330631606112203,
      "grad_norm": 7.1875,
      "learning_rate": 4.630695893118359e-05,
      "loss": 0.8899,
      "step": 390400
    },
    {
      "epoch": 0.53313143202011,
      "grad_norm": 3.390625,
      "learning_rate": 4.629604599484863e-05,
      "loss": 0.732,
      "step": 390450
    },
    {
      "epoch": 0.5331997034289998,
      "grad_norm": 2.828125,
      "learning_rate": 4.628513323592916e-05,
      "loss": 0.6703,
      "step": 390500
    },
    {
      "epoch": 0.5332679748378896,
      "grad_norm": 3.40625,
      "learning_rate": 4.6274220654947945e-05,
      "loss": 0.7926,
      "step": 390550
    },
    {
      "epoch": 0.5333362462467793,
      "grad_norm": 3.609375,
      "learning_rate": 4.626330825242765e-05,
      "loss": 0.7629,
      "step": 390600
    },
    {
      "epoch": 0.5334045176556691,
      "grad_norm": 3.453125,
      "learning_rate": 4.6252396028891e-05,
      "loss": 0.7657,
      "step": 390650
    },
    {
      "epoch": 0.5334727890645589,
      "grad_norm": 2.765625,
      "learning_rate": 4.624148398486063e-05,
      "loss": 0.7755,
      "step": 390700
    },
    {
      "epoch": 0.5335410604734485,
      "grad_norm": 4.375,
      "learning_rate": 4.623057212085926e-05,
      "loss": 0.9203,
      "step": 390750
    },
    {
      "epoch": 0.5336093318823383,
      "grad_norm": 3.03125,
      "learning_rate": 4.621966043740953e-05,
      "loss": 0.8476,
      "step": 390800
    },
    {
      "epoch": 0.533677603291228,
      "grad_norm": 7.71875,
      "learning_rate": 4.620874893503411e-05,
      "loss": 0.8473,
      "step": 390850
    },
    {
      "epoch": 0.5337458747001178,
      "grad_norm": 7.9375,
      "learning_rate": 4.619783761425566e-05,
      "loss": 0.8344,
      "step": 390900
    },
    {
      "epoch": 0.5338141461090076,
      "grad_norm": 8.0,
      "learning_rate": 4.618692647559681e-05,
      "loss": 0.7674,
      "step": 390950
    },
    {
      "epoch": 0.5338824175178973,
      "grad_norm": 2.8125,
      "learning_rate": 4.6176015519580175e-05,
      "loss": 0.793,
      "step": 391000
    },
    {
      "epoch": 0.5339506889267871,
      "grad_norm": 7.0625,
      "learning_rate": 4.616510474672841e-05,
      "loss": 0.723,
      "step": 391050
    },
    {
      "epoch": 0.5340189603356769,
      "grad_norm": 8.375,
      "learning_rate": 4.615419415756411e-05,
      "loss": 0.7884,
      "step": 391100
    },
    {
      "epoch": 0.5340872317445666,
      "grad_norm": 3.59375,
      "learning_rate": 4.6143283752609864e-05,
      "loss": 0.8195,
      "step": 391150
    },
    {
      "epoch": 0.5341555031534564,
      "grad_norm": 2.796875,
      "learning_rate": 4.613237353238832e-05,
      "loss": 0.7878,
      "step": 391200
    },
    {
      "epoch": 0.5342237745623462,
      "grad_norm": 3.015625,
      "learning_rate": 4.612146349742204e-05,
      "loss": 0.7993,
      "step": 391250
    },
    {
      "epoch": 0.5342920459712359,
      "grad_norm": 2.921875,
      "learning_rate": 4.611055364823358e-05,
      "loss": 0.7436,
      "step": 391300
    },
    {
      "epoch": 0.5343603173801257,
      "grad_norm": 3.140625,
      "learning_rate": 4.609964398534552e-05,
      "loss": 0.7141,
      "step": 391350
    },
    {
      "epoch": 0.5344285887890154,
      "grad_norm": 3.203125,
      "learning_rate": 4.6088734509280455e-05,
      "loss": 0.785,
      "step": 391400
    },
    {
      "epoch": 0.5344968601979052,
      "grad_norm": 3.125,
      "learning_rate": 4.607782522056091e-05,
      "loss": 0.8852,
      "step": 391450
    },
    {
      "epoch": 0.5345651316067949,
      "grad_norm": 4.03125,
      "learning_rate": 4.606691611970941e-05,
      "loss": 0.8065,
      "step": 391500
    },
    {
      "epoch": 0.5346334030156846,
      "grad_norm": 8.625,
      "learning_rate": 4.605600720724854e-05,
      "loss": 0.9053,
      "step": 391550
    },
    {
      "epoch": 0.5347016744245744,
      "grad_norm": 4.03125,
      "learning_rate": 4.6045098483700785e-05,
      "loss": 0.8231,
      "step": 391600
    },
    {
      "epoch": 0.5347699458334642,
      "grad_norm": 2.796875,
      "learning_rate": 4.6034189949588665e-05,
      "loss": 0.7272,
      "step": 391650
    },
    {
      "epoch": 0.5348382172423539,
      "grad_norm": 7.8125,
      "learning_rate": 4.6023281605434714e-05,
      "loss": 0.7497,
      "step": 391700
    },
    {
      "epoch": 0.5349064886512437,
      "grad_norm": 2.5,
      "learning_rate": 4.601237345176142e-05,
      "loss": 0.7995,
      "step": 391750
    },
    {
      "epoch": 0.5349747600601334,
      "grad_norm": 3.15625,
      "learning_rate": 4.600146548909123e-05,
      "loss": 0.7157,
      "step": 391800
    },
    {
      "epoch": 0.5350430314690232,
      "grad_norm": 2.71875,
      "learning_rate": 4.599055771794669e-05,
      "loss": 0.7894,
      "step": 391850
    },
    {
      "epoch": 0.535111302877913,
      "grad_norm": 3.1875,
      "learning_rate": 4.597965013885022e-05,
      "loss": 0.821,
      "step": 391900
    },
    {
      "epoch": 0.5351795742868027,
      "grad_norm": 4.375,
      "learning_rate": 4.596874275232432e-05,
      "loss": 0.7042,
      "step": 391950
    },
    {
      "epoch": 0.5352478456956925,
      "grad_norm": 3.53125,
      "learning_rate": 4.595783555889139e-05,
      "loss": 0.7753,
      "step": 392000
    },
    {
      "epoch": 0.5353161171045823,
      "grad_norm": 2.6875,
      "learning_rate": 4.594692855907394e-05,
      "loss": 0.6673,
      "step": 392050
    },
    {
      "epoch": 0.535384388513472,
      "grad_norm": 3.1875,
      "learning_rate": 4.593602175339436e-05,
      "loss": 0.6815,
      "step": 392100
    },
    {
      "epoch": 0.5354526599223618,
      "grad_norm": 2.875,
      "learning_rate": 4.592511514237507e-05,
      "loss": 0.7606,
      "step": 392150
    },
    {
      "epoch": 0.5355209313312516,
      "grad_norm": 3.40625,
      "learning_rate": 4.591420872653852e-05,
      "loss": 0.7424,
      "step": 392200
    },
    {
      "epoch": 0.5355892027401412,
      "grad_norm": 2.84375,
      "learning_rate": 4.5903302506407094e-05,
      "loss": 0.7647,
      "step": 392250
    },
    {
      "epoch": 0.535657474149031,
      "grad_norm": 4.375,
      "learning_rate": 4.5892396482503174e-05,
      "loss": 0.7464,
      "step": 392300
    },
    {
      "epoch": 0.5357257455579207,
      "grad_norm": 4.40625,
      "learning_rate": 4.5881490655349185e-05,
      "loss": 0.8208,
      "step": 392350
    },
    {
      "epoch": 0.5357940169668105,
      "grad_norm": 3.390625,
      "learning_rate": 4.5870585025467475e-05,
      "loss": 0.7376,
      "step": 392400
    },
    {
      "epoch": 0.5358622883757003,
      "grad_norm": 3.015625,
      "learning_rate": 4.585967959338043e-05,
      "loss": 0.748,
      "step": 392450
    },
    {
      "epoch": 0.53593055978459,
      "grad_norm": 2.515625,
      "learning_rate": 4.5848774359610375e-05,
      "loss": 0.7159,
      "step": 392500
    },
    {
      "epoch": 0.5359988311934798,
      "grad_norm": 3.078125,
      "learning_rate": 4.583786932467971e-05,
      "loss": 0.8034,
      "step": 392550
    },
    {
      "epoch": 0.5360671026023696,
      "grad_norm": 2.90625,
      "learning_rate": 4.582696448911073e-05,
      "loss": 0.7117,
      "step": 392600
    },
    {
      "epoch": 0.5361353740112593,
      "grad_norm": 7.5,
      "learning_rate": 4.581605985342578e-05,
      "loss": 0.6937,
      "step": 392650
    },
    {
      "epoch": 0.5362036454201491,
      "grad_norm": 2.953125,
      "learning_rate": 4.58051554181472e-05,
      "loss": 0.8225,
      "step": 392700
    },
    {
      "epoch": 0.5362719168290389,
      "grad_norm": 3.359375,
      "learning_rate": 4.5794251183797295e-05,
      "loss": 0.6411,
      "step": 392750
    },
    {
      "epoch": 0.5363401882379286,
      "grad_norm": 4.625,
      "learning_rate": 4.5783347150898324e-05,
      "loss": 0.7724,
      "step": 392800
    },
    {
      "epoch": 0.5364084596468184,
      "grad_norm": 3.28125,
      "learning_rate": 4.577244331997264e-05,
      "loss": 0.7303,
      "step": 392850
    },
    {
      "epoch": 0.5364767310557081,
      "grad_norm": 7.75,
      "learning_rate": 4.5761539691542485e-05,
      "loss": 0.7905,
      "step": 392900
    },
    {
      "epoch": 0.5365450024645979,
      "grad_norm": 3.140625,
      "learning_rate": 4.575063626613013e-05,
      "loss": 0.791,
      "step": 392950
    },
    {
      "epoch": 0.5366132738734877,
      "grad_norm": 8.9375,
      "learning_rate": 4.5739733044257873e-05,
      "loss": 0.7702,
      "step": 393000
    },
    {
      "epoch": 0.5366815452823773,
      "grad_norm": 4.25,
      "learning_rate": 4.572883002644795e-05,
      "loss": 0.7224,
      "step": 393050
    },
    {
      "epoch": 0.5367498166912671,
      "grad_norm": 2.953125,
      "learning_rate": 4.5717927213222586e-05,
      "loss": 0.7208,
      "step": 393100
    },
    {
      "epoch": 0.5368180881001569,
      "grad_norm": 2.953125,
      "learning_rate": 4.570702460510402e-05,
      "loss": 0.782,
      "step": 393150
    },
    {
      "epoch": 0.5368863595090466,
      "grad_norm": 3.453125,
      "learning_rate": 4.569612220261449e-05,
      "loss": 0.7021,
      "step": 393200
    },
    {
      "epoch": 0.5369546309179364,
      "grad_norm": 2.984375,
      "learning_rate": 4.568522000627621e-05,
      "loss": 0.6848,
      "step": 393250
    },
    {
      "epoch": 0.5370229023268261,
      "grad_norm": 2.921875,
      "learning_rate": 4.567431801661135e-05,
      "loss": 0.7498,
      "step": 393300
    },
    {
      "epoch": 0.5370911737357159,
      "grad_norm": 3.28125,
      "learning_rate": 4.5663416234142164e-05,
      "loss": 0.72,
      "step": 393350
    },
    {
      "epoch": 0.5371594451446057,
      "grad_norm": 3.46875,
      "learning_rate": 4.565251465939079e-05,
      "loss": 0.7282,
      "step": 393400
    },
    {
      "epoch": 0.5372277165534954,
      "grad_norm": 7.375,
      "learning_rate": 4.564161329287939e-05,
      "loss": 0.9412,
      "step": 393450
    },
    {
      "epoch": 0.5372959879623852,
      "grad_norm": 3.828125,
      "learning_rate": 4.563071213513019e-05,
      "loss": 0.8583,
      "step": 393500
    },
    {
      "epoch": 0.537364259371275,
      "grad_norm": 2.96875,
      "learning_rate": 4.5619811186665296e-05,
      "loss": 0.6935,
      "step": 393550
    },
    {
      "epoch": 0.5374325307801647,
      "grad_norm": 3.3125,
      "learning_rate": 4.560891044800684e-05,
      "loss": 0.7683,
      "step": 393600
    },
    {
      "epoch": 0.5375008021890545,
      "grad_norm": 2.578125,
      "learning_rate": 4.5598009919677004e-05,
      "loss": 0.76,
      "step": 393650
    },
    {
      "epoch": 0.5375690735979443,
      "grad_norm": 3.328125,
      "learning_rate": 4.558710960219787e-05,
      "loss": 0.8341,
      "step": 393700
    },
    {
      "epoch": 0.537637345006834,
      "grad_norm": 2.9375,
      "learning_rate": 4.557620949609158e-05,
      "loss": 0.6632,
      "step": 393750
    },
    {
      "epoch": 0.5377056164157237,
      "grad_norm": 3.0625,
      "learning_rate": 4.556530960188021e-05,
      "loss": 0.6576,
      "step": 393800
    },
    {
      "epoch": 0.5377738878246134,
      "grad_norm": 2.953125,
      "learning_rate": 4.555440992008589e-05,
      "loss": 0.8458,
      "step": 393850
    },
    {
      "epoch": 0.5378421592335032,
      "grad_norm": 3.171875,
      "learning_rate": 4.554351045123066e-05,
      "loss": 0.8312,
      "step": 393900
    },
    {
      "epoch": 0.537910430642393,
      "grad_norm": 3.921875,
      "learning_rate": 4.5532611195836615e-05,
      "loss": 0.7074,
      "step": 393950
    },
    {
      "epoch": 0.5379787020512827,
      "grad_norm": 4.53125,
      "learning_rate": 4.5521712154425844e-05,
      "loss": 0.7498,
      "step": 394000
    },
    {
      "epoch": 0.5380469734601725,
      "grad_norm": 4.75,
      "learning_rate": 4.551081332752036e-05,
      "loss": 0.8355,
      "step": 394050
    },
    {
      "epoch": 0.5381152448690623,
      "grad_norm": 3.875,
      "learning_rate": 4.549991471564221e-05,
      "loss": 0.7892,
      "step": 394100
    },
    {
      "epoch": 0.538183516277952,
      "grad_norm": 7.9375,
      "learning_rate": 4.548901631931345e-05,
      "loss": 0.8112,
      "step": 394150
    },
    {
      "epoch": 0.5382517876868418,
      "grad_norm": 6.8125,
      "learning_rate": 4.547811813905609e-05,
      "loss": 0.8363,
      "step": 394200
    },
    {
      "epoch": 0.5383200590957316,
      "grad_norm": 2.984375,
      "learning_rate": 4.5467220175392136e-05,
      "loss": 0.7306,
      "step": 394250
    },
    {
      "epoch": 0.5383883305046213,
      "grad_norm": 3.109375,
      "learning_rate": 4.545632242884357e-05,
      "loss": 0.8208,
      "step": 394300
    },
    {
      "epoch": 0.5384566019135111,
      "grad_norm": 8.0,
      "learning_rate": 4.5445424899932434e-05,
      "loss": 0.8208,
      "step": 394350
    },
    {
      "epoch": 0.5385248733224008,
      "grad_norm": 3.21875,
      "learning_rate": 4.543452758918066e-05,
      "loss": 0.8345,
      "step": 394400
    },
    {
      "epoch": 0.5385931447312906,
      "grad_norm": 2.90625,
      "learning_rate": 4.542363049711024e-05,
      "loss": 0.7773,
      "step": 394450
    },
    {
      "epoch": 0.5386614161401804,
      "grad_norm": 3.625,
      "learning_rate": 4.541273362424314e-05,
      "loss": 0.6782,
      "step": 394500
    },
    {
      "epoch": 0.53872968754907,
      "grad_norm": 2.96875,
      "learning_rate": 4.54018369711013e-05,
      "loss": 0.7828,
      "step": 394550
    },
    {
      "epoch": 0.5387979589579598,
      "grad_norm": 3.3125,
      "learning_rate": 4.5390940538206634e-05,
      "loss": 0.8018,
      "step": 394600
    },
    {
      "epoch": 0.5388662303668496,
      "grad_norm": 3.140625,
      "learning_rate": 4.538004432608112e-05,
      "loss": 0.7591,
      "step": 394650
    },
    {
      "epoch": 0.5389345017757393,
      "grad_norm": 4.5625,
      "learning_rate": 4.536914833524663e-05,
      "loss": 0.8054,
      "step": 394700
    },
    {
      "epoch": 0.5390027731846291,
      "grad_norm": 2.921875,
      "learning_rate": 4.535825256622508e-05,
      "loss": 0.7709,
      "step": 394750
    },
    {
      "epoch": 0.5390710445935188,
      "grad_norm": 7.375,
      "learning_rate": 4.5347357019538395e-05,
      "loss": 0.8185,
      "step": 394800
    },
    {
      "epoch": 0.5391393160024086,
      "grad_norm": 3.34375,
      "learning_rate": 4.5336461695708447e-05,
      "loss": 0.8589,
      "step": 394850
    },
    {
      "epoch": 0.5392075874112984,
      "grad_norm": 4.3125,
      "learning_rate": 4.5325566595257085e-05,
      "loss": 0.8506,
      "step": 394900
    },
    {
      "epoch": 0.5392758588201881,
      "grad_norm": 4.28125,
      "learning_rate": 4.531467171870619e-05,
      "loss": 0.7483,
      "step": 394950
    },
    {
      "epoch": 0.5393441302290779,
      "grad_norm": 2.609375,
      "learning_rate": 4.530377706657762e-05,
      "loss": 0.7427,
      "step": 395000
    },
    {
      "epoch": 0.5394124016379677,
      "grad_norm": 3.234375,
      "learning_rate": 4.529288263939323e-05,
      "loss": 0.7383,
      "step": 395050
    },
    {
      "epoch": 0.5394806730468574,
      "grad_norm": 2.53125,
      "learning_rate": 4.5281988437674804e-05,
      "loss": 0.7007,
      "step": 395100
    },
    {
      "epoch": 0.5395489444557472,
      "grad_norm": 4.59375,
      "learning_rate": 4.527109446194422e-05,
      "loss": 0.7063,
      "step": 395150
    },
    {
      "epoch": 0.539617215864637,
      "grad_norm": 3.3125,
      "learning_rate": 4.526020071272325e-05,
      "loss": 0.7549,
      "step": 395200
    },
    {
      "epoch": 0.5396854872735267,
      "grad_norm": 7.90625,
      "learning_rate": 4.52493071905337e-05,
      "loss": 0.7806,
      "step": 395250
    },
    {
      "epoch": 0.5397537586824164,
      "grad_norm": 3.5,
      "learning_rate": 4.523841389589738e-05,
      "loss": 0.7575,
      "step": 395300
    },
    {
      "epoch": 0.5398220300913061,
      "grad_norm": 7.84375,
      "learning_rate": 4.522752082933605e-05,
      "loss": 0.7345,
      "step": 395350
    },
    {
      "epoch": 0.5398903015001959,
      "grad_norm": 7.75,
      "learning_rate": 4.521662799137146e-05,
      "loss": 0.7767,
      "step": 395400
    },
    {
      "epoch": 0.5399585729090857,
      "grad_norm": 7.0,
      "learning_rate": 4.520573538252541e-05,
      "loss": 0.7634,
      "step": 395450
    },
    {
      "epoch": 0.5400268443179754,
      "grad_norm": 4.4375,
      "learning_rate": 4.51948430033196e-05,
      "loss": 0.7911,
      "step": 395500
    },
    {
      "epoch": 0.5400951157268652,
      "grad_norm": 6.5625,
      "learning_rate": 4.518395085427579e-05,
      "loss": 0.72,
      "step": 395550
    },
    {
      "epoch": 0.540163387135755,
      "grad_norm": 3.0,
      "learning_rate": 4.517305893591567e-05,
      "loss": 0.7411,
      "step": 395600
    },
    {
      "epoch": 0.5402316585446447,
      "grad_norm": 6.53125,
      "learning_rate": 4.516216724876101e-05,
      "loss": 0.7362,
      "step": 395650
    },
    {
      "epoch": 0.5402999299535345,
      "grad_norm": 2.859375,
      "learning_rate": 4.515127579333345e-05,
      "loss": 0.7798,
      "step": 395700
    },
    {
      "epoch": 0.5403682013624242,
      "grad_norm": 2.9375,
      "learning_rate": 4.5140384570154704e-05,
      "loss": 0.7922,
      "step": 395750
    },
    {
      "epoch": 0.540436472771314,
      "grad_norm": 7.84375,
      "learning_rate": 4.512949357974647e-05,
      "loss": 0.7398,
      "step": 395800
    },
    {
      "epoch": 0.5405047441802038,
      "grad_norm": 2.828125,
      "learning_rate": 4.51186028226304e-05,
      "loss": 0.7849,
      "step": 395850
    },
    {
      "epoch": 0.5405730155890935,
      "grad_norm": 3.1875,
      "learning_rate": 4.510771229932812e-05,
      "loss": 0.7378,
      "step": 395900
    },
    {
      "epoch": 0.5406412869979833,
      "grad_norm": 3.21875,
      "learning_rate": 4.5096822010361326e-05,
      "loss": 0.8091,
      "step": 395950
    },
    {
      "epoch": 0.5407095584068731,
      "grad_norm": 3.40625,
      "learning_rate": 4.508593195625162e-05,
      "loss": 0.8549,
      "step": 396000
    },
    {
      "epoch": 0.5407778298157627,
      "grad_norm": 3.5625,
      "learning_rate": 4.507504213752064e-05,
      "loss": 0.7493,
      "step": 396050
    },
    {
      "epoch": 0.5408461012246525,
      "grad_norm": 7.5625,
      "learning_rate": 4.506415255468995e-05,
      "loss": 0.9113,
      "step": 396100
    },
    {
      "epoch": 0.5409143726335423,
      "grad_norm": 2.953125,
      "learning_rate": 4.5053263208281224e-05,
      "loss": 0.8104,
      "step": 396150
    },
    {
      "epoch": 0.540982644042432,
      "grad_norm": 2.890625,
      "learning_rate": 4.5042374098816e-05,
      "loss": 0.736,
      "step": 396200
    },
    {
      "epoch": 0.5410509154513218,
      "grad_norm": 2.75,
      "learning_rate": 4.503148522681587e-05,
      "loss": 0.8233,
      "step": 396250
    },
    {
      "epoch": 0.5411191868602115,
      "grad_norm": 6.875,
      "learning_rate": 4.5020596592802394e-05,
      "loss": 0.7613,
      "step": 396300
    },
    {
      "epoch": 0.5411874582691013,
      "grad_norm": 3.03125,
      "learning_rate": 4.500970819729714e-05,
      "loss": 0.7283,
      "step": 396350
    },
    {
      "epoch": 0.5412557296779911,
      "grad_norm": 2.953125,
      "learning_rate": 4.499882004082162e-05,
      "loss": 0.7626,
      "step": 396400
    },
    {
      "epoch": 0.5413240010868808,
      "grad_norm": 2.515625,
      "learning_rate": 4.498793212389741e-05,
      "loss": 0.7212,
      "step": 396450
    },
    {
      "epoch": 0.5413922724957706,
      "grad_norm": 3.875,
      "learning_rate": 4.4977044447046e-05,
      "loss": 0.7165,
      "step": 396500
    },
    {
      "epoch": 0.5414605439046604,
      "grad_norm": 2.78125,
      "learning_rate": 4.496615701078888e-05,
      "loss": 0.7324,
      "step": 396550
    },
    {
      "epoch": 0.5415288153135501,
      "grad_norm": 8.0625,
      "learning_rate": 4.495526981564761e-05,
      "loss": 0.7551,
      "step": 396600
    },
    {
      "epoch": 0.5415970867224399,
      "grad_norm": 3.46875,
      "learning_rate": 4.494438286214362e-05,
      "loss": 0.7607,
      "step": 396650
    },
    {
      "epoch": 0.5416653581313297,
      "grad_norm": 3.5,
      "learning_rate": 4.49334961507984e-05,
      "loss": 0.7774,
      "step": 396700
    },
    {
      "epoch": 0.5417336295402194,
      "grad_norm": 8.3125,
      "learning_rate": 4.492260968213341e-05,
      "loss": 0.7758,
      "step": 396750
    },
    {
      "epoch": 0.5418019009491091,
      "grad_norm": 2.796875,
      "learning_rate": 4.4911723456670104e-05,
      "loss": 0.7626,
      "step": 396800
    },
    {
      "epoch": 0.5418701723579988,
      "grad_norm": 2.859375,
      "learning_rate": 4.490083747492993e-05,
      "loss": 0.7886,
      "step": 396850
    },
    {
      "epoch": 0.5419384437668886,
      "grad_norm": 3.265625,
      "learning_rate": 4.4889951737434275e-05,
      "loss": 0.765,
      "step": 396900
    },
    {
      "epoch": 0.5420067151757784,
      "grad_norm": 3.40625,
      "learning_rate": 4.4879066244704616e-05,
      "loss": 0.6599,
      "step": 396950
    },
    {
      "epoch": 0.5420749865846681,
      "grad_norm": 2.765625,
      "learning_rate": 4.48681809972623e-05,
      "loss": 0.7544,
      "step": 397000
    },
    {
      "epoch": 0.5421432579935579,
      "grad_norm": 2.734375,
      "learning_rate": 4.4857295995628745e-05,
      "loss": 0.8429,
      "step": 397050
    },
    {
      "epoch": 0.5422115294024477,
      "grad_norm": 2.53125,
      "learning_rate": 4.484641124032535e-05,
      "loss": 0.7159,
      "step": 397100
    },
    {
      "epoch": 0.5422798008113374,
      "grad_norm": 3.28125,
      "learning_rate": 4.4835526731873464e-05,
      "loss": 0.7344,
      "step": 397150
    },
    {
      "epoch": 0.5423480722202272,
      "grad_norm": 2.78125,
      "learning_rate": 4.482464247079443e-05,
      "loss": 0.7773,
      "step": 397200
    },
    {
      "epoch": 0.542416343629117,
      "grad_norm": 8.625,
      "learning_rate": 4.4813758457609604e-05,
      "loss": 0.7412,
      "step": 397250
    },
    {
      "epoch": 0.5424846150380067,
      "grad_norm": 3.296875,
      "learning_rate": 4.4802874692840316e-05,
      "loss": 0.9888,
      "step": 397300
    },
    {
      "epoch": 0.5425528864468965,
      "grad_norm": 3.015625,
      "learning_rate": 4.4791991177007913e-05,
      "loss": 0.7608,
      "step": 397350
    },
    {
      "epoch": 0.5426211578557862,
      "grad_norm": 3.09375,
      "learning_rate": 4.478110791063366e-05,
      "loss": 0.6909,
      "step": 397400
    },
    {
      "epoch": 0.542689429264676,
      "grad_norm": 2.859375,
      "learning_rate": 4.4770224894238886e-05,
      "loss": 0.7525,
      "step": 397450
    },
    {
      "epoch": 0.5427577006735658,
      "grad_norm": 3.625,
      "learning_rate": 4.475934212834486e-05,
      "loss": 0.8112,
      "step": 397500
    },
    {
      "epoch": 0.5428259720824554,
      "grad_norm": 2.71875,
      "learning_rate": 4.4748459613472856e-05,
      "loss": 0.8651,
      "step": 397550
    },
    {
      "epoch": 0.5428942434913452,
      "grad_norm": 3.53125,
      "learning_rate": 4.473757735014416e-05,
      "loss": 0.7172,
      "step": 397600
    },
    {
      "epoch": 0.542962514900235,
      "grad_norm": 3.15625,
      "learning_rate": 4.4726695338880006e-05,
      "loss": 0.6636,
      "step": 397650
    },
    {
      "epoch": 0.5430307863091247,
      "grad_norm": 7.78125,
      "learning_rate": 4.4715813580201596e-05,
      "loss": 0.8566,
      "step": 397700
    },
    {
      "epoch": 0.5430990577180145,
      "grad_norm": 2.796875,
      "learning_rate": 4.470493207463021e-05,
      "loss": 0.7098,
      "step": 397750
    },
    {
      "epoch": 0.5431673291269042,
      "grad_norm": 3.015625,
      "learning_rate": 4.469405082268703e-05,
      "loss": 0.8087,
      "step": 397800
    },
    {
      "epoch": 0.543235600535794,
      "grad_norm": 3.40625,
      "learning_rate": 4.4683169824893276e-05,
      "loss": 0.7326,
      "step": 397850
    },
    {
      "epoch": 0.5433038719446838,
      "grad_norm": 3.078125,
      "learning_rate": 4.467228908177009e-05,
      "loss": 0.7437,
      "step": 397900
    },
    {
      "epoch": 0.5433721433535735,
      "grad_norm": 8.5,
      "learning_rate": 4.466140859383871e-05,
      "loss": 0.6888,
      "step": 397950
    },
    {
      "epoch": 0.5434404147624633,
      "grad_norm": 7.6875,
      "learning_rate": 4.4650528361620265e-05,
      "loss": 0.7664,
      "step": 398000
    },
    {
      "epoch": 0.5435086861713531,
      "grad_norm": 2.890625,
      "learning_rate": 4.463964838563591e-05,
      "loss": 0.8019,
      "step": 398050
    },
    {
      "epoch": 0.5435769575802428,
      "grad_norm": 2.625,
      "learning_rate": 4.4628768666406784e-05,
      "loss": 0.7668,
      "step": 398100
    },
    {
      "epoch": 0.5436452289891326,
      "grad_norm": 2.53125,
      "learning_rate": 4.461788920445403e-05,
      "loss": 0.8647,
      "step": 398150
    },
    {
      "epoch": 0.5437135003980224,
      "grad_norm": 7.65625,
      "learning_rate": 4.460701000029873e-05,
      "loss": 0.752,
      "step": 398200
    },
    {
      "epoch": 0.5437817718069121,
      "grad_norm": 11.8125,
      "learning_rate": 4.4596131054462026e-05,
      "loss": 0.8305,
      "step": 398250
    },
    {
      "epoch": 0.5438500432158019,
      "grad_norm": 2.78125,
      "learning_rate": 4.458525236746498e-05,
      "loss": 0.8178,
      "step": 398300
    },
    {
      "epoch": 0.5439183146246915,
      "grad_norm": 2.5625,
      "learning_rate": 4.457437393982867e-05,
      "loss": 0.7644,
      "step": 398350
    },
    {
      "epoch": 0.5439865860335813,
      "grad_norm": 3.375,
      "learning_rate": 4.4563495772074185e-05,
      "loss": 0.6926,
      "step": 398400
    },
    {
      "epoch": 0.5440548574424711,
      "grad_norm": 3.640625,
      "learning_rate": 4.455261786472257e-05,
      "loss": 0.7575,
      "step": 398450
    },
    {
      "epoch": 0.5441231288513608,
      "grad_norm": 3.390625,
      "learning_rate": 4.454174021829485e-05,
      "loss": 0.7636,
      "step": 398500
    },
    {
      "epoch": 0.5441914002602506,
      "grad_norm": 2.703125,
      "learning_rate": 4.453086283331205e-05,
      "loss": 0.6801,
      "step": 398550
    },
    {
      "epoch": 0.5442596716691404,
      "grad_norm": 2.703125,
      "learning_rate": 4.451998571029521e-05,
      "loss": 0.6688,
      "step": 398600
    },
    {
      "epoch": 0.5443279430780301,
      "grad_norm": 2.53125,
      "learning_rate": 4.4509108849765325e-05,
      "loss": 0.7283,
      "step": 398650
    },
    {
      "epoch": 0.5443962144869199,
      "grad_norm": 2.59375,
      "learning_rate": 4.449823225224336e-05,
      "loss": 0.6673,
      "step": 398700
    },
    {
      "epoch": 0.5444644858958096,
      "grad_norm": 2.59375,
      "learning_rate": 4.4487355918250326e-05,
      "loss": 0.8051,
      "step": 398750
    },
    {
      "epoch": 0.5445327573046994,
      "grad_norm": 3.609375,
      "learning_rate": 4.447647984830717e-05,
      "loss": 0.7028,
      "step": 398800
    },
    {
      "epoch": 0.5446010287135892,
      "grad_norm": 3.25,
      "learning_rate": 4.446560404293484e-05,
      "loss": 0.793,
      "step": 398850
    },
    {
      "epoch": 0.5446693001224789,
      "grad_norm": 3.609375,
      "learning_rate": 4.4454728502654304e-05,
      "loss": 0.7531,
      "step": 398900
    },
    {
      "epoch": 0.5447375715313687,
      "grad_norm": 3.21875,
      "learning_rate": 4.444385322798647e-05,
      "loss": 0.7883,
      "step": 398950
    },
    {
      "epoch": 0.5448058429402585,
      "grad_norm": 3.828125,
      "learning_rate": 4.4432978219452236e-05,
      "loss": 0.8022,
      "step": 399000
    },
    {
      "epoch": 0.5448741143491482,
      "grad_norm": 7.21875,
      "learning_rate": 4.442210347757252e-05,
      "loss": 0.6956,
      "step": 399050
    },
    {
      "epoch": 0.5449423857580379,
      "grad_norm": 7.125,
      "learning_rate": 4.4411229002868215e-05,
      "loss": 0.685,
      "step": 399100
    },
    {
      "epoch": 0.5450106571669276,
      "grad_norm": 7.65625,
      "learning_rate": 4.44003547958602e-05,
      "loss": 0.734,
      "step": 399150
    },
    {
      "epoch": 0.5450789285758174,
      "grad_norm": 4.3125,
      "learning_rate": 4.438948085706931e-05,
      "loss": 0.6616,
      "step": 399200
    },
    {
      "epoch": 0.5451471999847072,
      "grad_norm": 3.453125,
      "learning_rate": 4.437860718701643e-05,
      "loss": 0.7619,
      "step": 399250
    },
    {
      "epoch": 0.5452154713935969,
      "grad_norm": 3.890625,
      "learning_rate": 4.436773378622238e-05,
      "loss": 0.8274,
      "step": 399300
    },
    {
      "epoch": 0.5452837428024867,
      "grad_norm": 3.25,
      "learning_rate": 4.435686065520799e-05,
      "loss": 0.6273,
      "step": 399350
    },
    {
      "epoch": 0.5453520142113765,
      "grad_norm": 2.71875,
      "learning_rate": 4.4345987794494065e-05,
      "loss": 0.8058,
      "step": 399400
    },
    {
      "epoch": 0.5454202856202662,
      "grad_norm": 2.796875,
      "learning_rate": 4.433511520460142e-05,
      "loss": 0.734,
      "step": 399450
    },
    {
      "epoch": 0.545488557029156,
      "grad_norm": 3.390625,
      "learning_rate": 4.43242428860508e-05,
      "loss": 0.6979,
      "step": 399500
    },
    {
      "epoch": 0.5455568284380458,
      "grad_norm": 2.9375,
      "learning_rate": 4.4313370839363036e-05,
      "loss": 0.8719,
      "step": 399550
    },
    {
      "epoch": 0.5456250998469355,
      "grad_norm": 3.71875,
      "learning_rate": 4.430249906505884e-05,
      "loss": 0.7838,
      "step": 399600
    },
    {
      "epoch": 0.5456933712558253,
      "grad_norm": 2.703125,
      "learning_rate": 4.429162756365899e-05,
      "loss": 0.7241,
      "step": 399650
    },
    {
      "epoch": 0.545761642664715,
      "grad_norm": 3.484375,
      "learning_rate": 4.428075633568418e-05,
      "loss": 0.7971,
      "step": 399700
    },
    {
      "epoch": 0.5458299140736048,
      "grad_norm": 2.859375,
      "learning_rate": 4.4269885381655184e-05,
      "loss": 0.8073,
      "step": 399750
    },
    {
      "epoch": 0.5458981854824946,
      "grad_norm": 7.15625,
      "learning_rate": 4.425901470209267e-05,
      "loss": 0.725,
      "step": 399800
    },
    {
      "epoch": 0.5459664568913842,
      "grad_norm": 3.03125,
      "learning_rate": 4.424814429751734e-05,
      "loss": 0.6517,
      "step": 399850
    },
    {
      "epoch": 0.546034728300274,
      "grad_norm": 3.78125,
      "learning_rate": 4.423727416844988e-05,
      "loss": 0.6763,
      "step": 399900
    },
    {
      "epoch": 0.5461029997091638,
      "grad_norm": 3.359375,
      "learning_rate": 4.422640431541097e-05,
      "loss": 0.7734,
      "step": 399950
    },
    {
      "epoch": 0.5461712711180535,
      "grad_norm": 3.671875,
      "learning_rate": 4.421553473892123e-05,
      "loss": 0.6821,
      "step": 400000
    },
    {
      "epoch": 6.82714088897567e-05,
      "grad_norm": 7.8125,
      "learning_rate": 4.420466543950134e-05,
      "loss": 1.252,
      "step": 400050
    },
    {
      "epoch": 0.0001365428177795134,
      "grad_norm": 4.28125,
      "learning_rate": 4.41937964176719e-05,
      "loss": 0.6257,
      "step": 400100
    },
    {
      "epoch": 0.00020481422666927007,
      "grad_norm": 2.390625,
      "learning_rate": 4.418292767395353e-05,
      "loss": 0.688,
      "step": 400150
    },
    {
      "epoch": 0.0002730856355590268,
      "grad_norm": 3.359375,
      "learning_rate": 4.417205920886685e-05,
      "loss": 0.635,
      "step": 400200
    },
    {
      "epoch": 0.0003413570444487835,
      "grad_norm": 2.46875,
      "learning_rate": 4.416119102293244e-05,
      "loss": 0.522,
      "step": 400250
    },
    {
      "epoch": 0.00040962845333854014,
      "grad_norm": 2.46875,
      "learning_rate": 4.415032311667085e-05,
      "loss": 0.6381,
      "step": 400300
    },
    {
      "epoch": 0.00047789986222829684,
      "grad_norm": 4.25,
      "learning_rate": 4.413945549060268e-05,
      "loss": 0.5574,
      "step": 400350
    },
    {
      "epoch": 0.0005461712711180536,
      "grad_norm": 3.015625,
      "learning_rate": 4.412858814524845e-05,
      "loss": 0.7596,
      "step": 400400
    },
    {
      "epoch": 0.0006144426800078102,
      "grad_norm": 3.90625,
      "learning_rate": 4.4117721081128704e-05,
      "loss": 0.6173,
      "step": 400450
    },
    {
      "epoch": 0.000682714088897567,
      "grad_norm": 8.5625,
      "learning_rate": 4.410685429876395e-05,
      "loss": 0.6015,
      "step": 400500
    },
    {
      "epoch": 0.0007509854977873236,
      "grad_norm": 2.921875,
      "learning_rate": 4.409598779867473e-05,
      "loss": 0.776,
      "step": 400550
    },
    {
      "epoch": 0.0008192569066770803,
      "grad_norm": 3.65625,
      "learning_rate": 4.40851215813815e-05,
      "loss": 0.5723,
      "step": 400600
    },
    {
      "epoch": 0.000887528315566837,
      "grad_norm": 3.46875,
      "learning_rate": 4.407425564740475e-05,
      "loss": 0.6298,
      "step": 400650
    },
    {
      "epoch": 0.0009557997244565937,
      "grad_norm": 3.09375,
      "learning_rate": 4.406338999726497e-05,
      "loss": 0.6319,
      "step": 400700
    },
    {
      "epoch": 0.0010240711333463503,
      "grad_norm": 3.3125,
      "learning_rate": 4.40525246314826e-05,
      "loss": 0.5879,
      "step": 400750
    },
    {
      "epoch": 0.0010923425422361072,
      "grad_norm": 3.0,
      "learning_rate": 4.4041659550578073e-05,
      "loss": 0.5936,
      "step": 400800
    },
    {
      "epoch": 0.0011606139511258638,
      "grad_norm": 2.34375,
      "learning_rate": 4.4030794755071795e-05,
      "loss": 0.6229,
      "step": 400850
    },
    {
      "epoch": 0.0012288853600156205,
      "grad_norm": 8.125,
      "learning_rate": 4.401993024548422e-05,
      "loss": 0.5863,
      "step": 400900
    },
    {
      "epoch": 0.0012971567689053771,
      "grad_norm": 3.53125,
      "learning_rate": 4.400906602233573e-05,
      "loss": 0.6397,
      "step": 400950
    },
    {
      "epoch": 0.001365428177795134,
      "grad_norm": 3.0,
      "learning_rate": 4.399820208614669e-05,
      "loss": 0.5042,
      "step": 401000
    },
    {
      "epoch": 0.0014336995866848906,
      "grad_norm": 3.296875,
      "learning_rate": 4.3987338437437516e-05,
      "loss": 0.6647,
      "step": 401050
    },
    {
      "epoch": 0.0015019709955746473,
      "grad_norm": 7.78125,
      "learning_rate": 4.397647507672852e-05,
      "loss": 0.6262,
      "step": 401100
    },
    {
      "epoch": 0.001570242404464404,
      "grad_norm": 7.28125,
      "learning_rate": 4.396561200454007e-05,
      "loss": 0.6227,
      "step": 401150
    },
    {
      "epoch": 0.0016385138133541606,
      "grad_norm": 4.75,
      "learning_rate": 4.395474922139248e-05,
      "loss": 0.6626,
      "step": 401200
    },
    {
      "epoch": 0.0017067852222439174,
      "grad_norm": 3.53125,
      "learning_rate": 4.3943886727806093e-05,
      "loss": 0.6117,
      "step": 401250
    },
    {
      "epoch": 0.001775056631133674,
      "grad_norm": 9.25,
      "learning_rate": 4.393302452430118e-05,
      "loss": 0.6876,
      "step": 401300
    },
    {
      "epoch": 0.0018433280400234307,
      "grad_norm": 3.109375,
      "learning_rate": 4.392216261139805e-05,
      "loss": 0.6458,
      "step": 401350
    },
    {
      "epoch": 0.0019115994489131874,
      "grad_norm": 2.453125,
      "learning_rate": 4.3911300989616965e-05,
      "loss": 0.5692,
      "step": 401400
    },
    {
      "epoch": 0.001979870857802944,
      "grad_norm": 2.8125,
      "learning_rate": 4.390043965947821e-05,
      "loss": 0.6827,
      "step": 401450
    },
    {
      "epoch": 0.0020481422666927007,
      "grad_norm": 3.1875,
      "learning_rate": 4.388957862150198e-05,
      "loss": 0.6195,
      "step": 401500
    },
    {
      "epoch": 0.0021164136755824573,
      "grad_norm": 2.40625,
      "learning_rate": 4.387871787620856e-05,
      "loss": 0.5854,
      "step": 401550
    },
    {
      "epoch": 0.0021846850844722144,
      "grad_norm": 2.46875,
      "learning_rate": 4.386785742411814e-05,
      "loss": 0.565,
      "step": 401600
    },
    {
      "epoch": 0.002252956493361971,
      "grad_norm": 2.453125,
      "learning_rate": 4.385699726575094e-05,
      "loss": 0.5897,
      "step": 401650
    },
    {
      "epoch": 0.0023212279022517277,
      "grad_norm": 4.34375,
      "learning_rate": 4.384613740162713e-05,
      "loss": 0.5875,
      "step": 401700
    },
    {
      "epoch": 0.0023894993111414843,
      "grad_norm": 3.0625,
      "learning_rate": 4.383527783226692e-05,
      "loss": 0.659,
      "step": 401750
    },
    {
      "epoch": 0.002457770720031241,
      "grad_norm": 4.09375,
      "learning_rate": 4.382441855819042e-05,
      "loss": 0.5931,
      "step": 401800
    },
    {
      "epoch": 0.0025260421289209976,
      "grad_norm": 3.34375,
      "learning_rate": 4.381355957991783e-05,
      "loss": 0.5679,
      "step": 401850
    },
    {
      "epoch": 0.0025943135378107543,
      "grad_norm": 2.375,
      "learning_rate": 4.380270089796926e-05,
      "loss": 0.5996,
      "step": 401900
    },
    {
      "epoch": 0.002662584946700511,
      "grad_norm": 3.0,
      "learning_rate": 4.3791842512864814e-05,
      "loss": 0.6236,
      "step": 401950
    },
    {
      "epoch": 0.002730856355590268,
      "grad_norm": 7.71875,
      "learning_rate": 4.378098442512463e-05,
      "loss": 0.5613,
      "step": 402000
    },
    {
      "epoch": 0.0027991277644800246,
      "grad_norm": 2.890625,
      "learning_rate": 4.3770126635268795e-05,
      "loss": 0.687,
      "step": 402050
    },
    {
      "epoch": 0.0028673991733697813,
      "grad_norm": 2.34375,
      "learning_rate": 4.375926914381735e-05,
      "loss": 0.6458,
      "step": 402100
    },
    {
      "epoch": 0.002935670582259538,
      "grad_norm": 2.546875,
      "learning_rate": 4.37484119512904e-05,
      "loss": 0.5691,
      "step": 402150
    },
    {
      "epoch": 0.0030039419911492946,
      "grad_norm": 7.875,
      "learning_rate": 4.3737555058207965e-05,
      "loss": 0.7124,
      "step": 402200
    },
    {
      "epoch": 0.0030722134000390512,
      "grad_norm": 3.8125,
      "learning_rate": 4.37266984650901e-05,
      "loss": 0.6299,
      "step": 402250
    },
    {
      "epoch": 0.003140484808928808,
      "grad_norm": 3.171875,
      "learning_rate": 4.371584217245679e-05,
      "loss": 0.6005,
      "step": 402300
    },
    {
      "epoch": 0.0032087562178185645,
      "grad_norm": 2.453125,
      "learning_rate": 4.370498618082809e-05,
      "loss": 0.6085,
      "step": 402350
    },
    {
      "epoch": 0.003277027626708321,
      "grad_norm": 3.6875,
      "learning_rate": 4.369413049072395e-05,
      "loss": 0.6526,
      "step": 402400
    },
    {
      "epoch": 0.0033452990355980782,
      "grad_norm": 2.75,
      "learning_rate": 4.368327510266435e-05,
      "loss": 0.5848,
      "step": 402450
    },
    {
      "epoch": 0.003413570444487835,
      "grad_norm": 4.5,
      "learning_rate": 4.3672420017169284e-05,
      "loss": 0.6203,
      "step": 402500
    },
    {
      "epoch": 0.0034818418533775915,
      "grad_norm": 7.21875,
      "learning_rate": 4.366156523475868e-05,
      "loss": 0.605,
      "step": 402550
    },
    {
      "epoch": 0.003550113262267348,
      "grad_norm": 2.421875,
      "learning_rate": 4.365071075595246e-05,
      "loss": 0.6062,
      "step": 402600
    },
    {
      "epoch": 0.003618384671157105,
      "grad_norm": 3.9375,
      "learning_rate": 4.3639856581270534e-05,
      "loss": 0.6434,
      "step": 402650
    },
    {
      "epoch": 0.0036866560800468615,
      "grad_norm": 2.625,
      "learning_rate": 4.3629002711232835e-05,
      "loss": 0.5819,
      "step": 402700
    },
    {
      "epoch": 0.003754927488936618,
      "grad_norm": 2.921875,
      "learning_rate": 4.3618149146359246e-05,
      "loss": 0.5577,
      "step": 402750
    },
    {
      "epoch": 0.0038231988978263748,
      "grad_norm": 4.1875,
      "learning_rate": 4.360729588716961e-05,
      "loss": 0.5337,
      "step": 402800
    },
    {
      "epoch": 0.0038914703067161314,
      "grad_norm": 3.953125,
      "learning_rate": 4.359644293418383e-05,
      "loss": 0.6061,
      "step": 402850
    },
    {
      "epoch": 0.003959741715605888,
      "grad_norm": 3.71875,
      "learning_rate": 4.3585590287921736e-05,
      "loss": 0.7002,
      "step": 402900
    },
    {
      "epoch": 0.004028013124495645,
      "grad_norm": 8.4375,
      "learning_rate": 4.357473794890314e-05,
      "loss": 0.5868,
      "step": 402950
    },
    {
      "epoch": 0.004096284533385401,
      "grad_norm": 3.484375,
      "learning_rate": 4.356388591764788e-05,
      "loss": 0.5816,
      "step": 403000
    },
    {
      "epoch": 0.004164555942275158,
      "grad_norm": 3.078125,
      "learning_rate": 4.355303419467576e-05,
      "loss": 0.5473,
      "step": 403050
    },
    {
      "epoch": 0.004232827351164915,
      "grad_norm": 4.375,
      "learning_rate": 4.354218278050652e-05,
      "loss": 0.6042,
      "step": 403100
    },
    {
      "epoch": 0.004301098760054672,
      "grad_norm": 3.734375,
      "learning_rate": 4.353133167566e-05,
      "loss": 0.6874,
      "step": 403150
    },
    {
      "epoch": 0.004369370168944429,
      "grad_norm": 3.3125,
      "learning_rate": 4.3520480880655916e-05,
      "loss": 0.6291,
      "step": 403200
    },
    {
      "epoch": 0.004437641577834185,
      "grad_norm": 2.703125,
      "learning_rate": 4.350963039601402e-05,
      "loss": 0.5608,
      "step": 403250
    },
    {
      "epoch": 0.004505912986723942,
      "grad_norm": 3.796875,
      "learning_rate": 4.349878022225402e-05,
      "loss": 0.5708,
      "step": 403300
    },
    {
      "epoch": 0.004574184395613698,
      "grad_norm": 2.75,
      "learning_rate": 4.348793035989566e-05,
      "loss": 0.5682,
      "step": 403350
    },
    {
      "epoch": 0.004642455804503455,
      "grad_norm": 3.375,
      "learning_rate": 4.3477080809458616e-05,
      "loss": 0.5404,
      "step": 403400
    },
    {
      "epoch": 0.004710727213393212,
      "grad_norm": 3.171875,
      "learning_rate": 4.346623157146257e-05,
      "loss": 0.6523,
      "step": 403450
    },
    {
      "epoch": 0.004778998622282969,
      "grad_norm": 2.9375,
      "learning_rate": 4.345538264642719e-05,
      "loss": 0.6865,
      "step": 403500
    },
    {
      "epoch": 0.004847270031172725,
      "grad_norm": 2.453125,
      "learning_rate": 4.344453403487215e-05,
      "loss": 0.6217,
      "step": 403550
    },
    {
      "epoch": 0.004915541440062482,
      "grad_norm": 2.671875,
      "learning_rate": 4.3433685737317044e-05,
      "loss": 0.4768,
      "step": 403600
    },
    {
      "epoch": 0.004983812848952239,
      "grad_norm": 3.40625,
      "learning_rate": 4.342283775428154e-05,
      "loss": 0.5879,
      "step": 403650
    },
    {
      "epoch": 0.005052084257841995,
      "grad_norm": 2.53125,
      "learning_rate": 4.3411990086285217e-05,
      "loss": 0.4991,
      "step": 403700
    },
    {
      "epoch": 0.005120355666731752,
      "grad_norm": 5.3125,
      "learning_rate": 4.340114273384766e-05,
      "loss": 0.6367,
      "step": 403750
    },
    {
      "epoch": 0.0051886270756215085,
      "grad_norm": 3.015625,
      "learning_rate": 4.3390295697488484e-05,
      "loss": 0.6677,
      "step": 403800
    },
    {
      "epoch": 0.005256898484511266,
      "grad_norm": 3.171875,
      "learning_rate": 4.3379448977727236e-05,
      "loss": 0.6131,
      "step": 403850
    },
    {
      "epoch": 0.005325169893401022,
      "grad_norm": 3.265625,
      "learning_rate": 4.336860257508344e-05,
      "loss": 0.7299,
      "step": 403900
    },
    {
      "epoch": 0.005393441302290779,
      "grad_norm": 2.59375,
      "learning_rate": 4.335775649007662e-05,
      "loss": 0.7225,
      "step": 403950
    },
    {
      "epoch": 0.005461712711180536,
      "grad_norm": 3.0,
      "learning_rate": 4.334691072322633e-05,
      "loss": 0.6345,
      "step": 404000
    },
    {
      "epoch": 0.005529984120070292,
      "grad_norm": 2.625,
      "learning_rate": 4.333606527505206e-05,
      "loss": 0.5832,
      "step": 404050
    },
    {
      "epoch": 0.005598255528960049,
      "grad_norm": 2.71875,
      "learning_rate": 4.332522014607327e-05,
      "loss": 0.6529,
      "step": 404100
    },
    {
      "epoch": 0.0056665269378498055,
      "grad_norm": 4.21875,
      "learning_rate": 4.331437533680947e-05,
      "loss": 0.7938,
      "step": 404150
    },
    {
      "epoch": 0.0057347983467395626,
      "grad_norm": 7.625,
      "learning_rate": 4.330353084778008e-05,
      "loss": 0.6984,
      "step": 404200
    },
    {
      "epoch": 0.005803069755629319,
      "grad_norm": 8.4375,
      "learning_rate": 4.329268667950456e-05,
      "loss": 0.7111,
      "step": 404250
    },
    {
      "epoch": 0.005871341164519076,
      "grad_norm": 2.828125,
      "learning_rate": 4.3281842832502325e-05,
      "loss": 0.6251,
      "step": 404300
    },
    {
      "epoch": 0.005939612573408832,
      "grad_norm": 2.546875,
      "learning_rate": 4.327099930729281e-05,
      "loss": 0.5226,
      "step": 404350
    },
    {
      "epoch": 0.006007883982298589,
      "grad_norm": 2.5625,
      "learning_rate": 4.326015610439538e-05,
      "loss": 0.7031,
      "step": 404400
    },
    {
      "epoch": 0.006076155391188346,
      "grad_norm": 2.640625,
      "learning_rate": 4.324931322432939e-05,
      "loss": 0.582,
      "step": 404450
    },
    {
      "epoch": 0.0061444268000781024,
      "grad_norm": 2.515625,
      "learning_rate": 4.323847066761425e-05,
      "loss": 0.5963,
      "step": 404500
    },
    {
      "epoch": 0.0062126982089678595,
      "grad_norm": 7.28125,
      "learning_rate": 4.3227628434769295e-05,
      "loss": 0.6425,
      "step": 404550
    },
    {
      "epoch": 0.006280969617857616,
      "grad_norm": 7.75,
      "learning_rate": 4.3216786526313826e-05,
      "loss": 0.6659,
      "step": 404600
    },
    {
      "epoch": 0.006349241026747373,
      "grad_norm": 2.453125,
      "learning_rate": 4.320594494276722e-05,
      "loss": 0.5103,
      "step": 404650
    },
    {
      "epoch": 0.006417512435637129,
      "grad_norm": 6.6875,
      "learning_rate": 4.319510368464871e-05,
      "loss": 0.6762,
      "step": 404700
    },
    {
      "epoch": 0.006485783844526886,
      "grad_norm": 3.203125,
      "learning_rate": 4.3184262752477625e-05,
      "loss": 0.757,
      "step": 404750
    },
    {
      "epoch": 0.006554055253416642,
      "grad_norm": 7.75,
      "learning_rate": 4.317342214677322e-05,
      "loss": 0.7081,
      "step": 404800
    },
    {
      "epoch": 0.006622326662306399,
      "grad_norm": 5.03125,
      "learning_rate": 4.316258186805476e-05,
      "loss": 0.6452,
      "step": 404850
    },
    {
      "epoch": 0.0066905980711961565,
      "grad_norm": 2.90625,
      "learning_rate": 4.315174191684145e-05,
      "loss": 0.5895,
      "step": 404900
    },
    {
      "epoch": 0.006758869480085913,
      "grad_norm": 2.328125,
      "learning_rate": 4.3140902293652565e-05,
      "loss": 0.5982,
      "step": 404950
    },
    {
      "epoch": 0.00682714088897567,
      "grad_norm": 2.5,
      "learning_rate": 4.313006299900726e-05,
      "loss": 0.6521,
      "step": 405000
    },
    {
      "epoch": 0.006895412297865426,
      "grad_norm": 8.75,
      "learning_rate": 4.311922403342476e-05,
      "loss": 0.62,
      "step": 405050
    },
    {
      "epoch": 0.006963683706755183,
      "grad_norm": 3.234375,
      "learning_rate": 4.3108385397424214e-05,
      "loss": 0.614,
      "step": 405100
    },
    {
      "epoch": 0.007031955115644939,
      "grad_norm": 3.109375,
      "learning_rate": 4.309754709152481e-05,
      "loss": 0.6366,
      "step": 405150
    },
    {
      "epoch": 0.007100226524534696,
      "grad_norm": 3.359375,
      "learning_rate": 4.308670911624566e-05,
      "loss": 0.6145,
      "step": 405200
    },
    {
      "epoch": 0.0071684979334244526,
      "grad_norm": 3.640625,
      "learning_rate": 4.307587147210592e-05,
      "loss": 0.5408,
      "step": 405250
    },
    {
      "epoch": 0.00723676934231421,
      "grad_norm": 3.078125,
      "learning_rate": 4.306503415962469e-05,
      "loss": 0.7994,
      "step": 405300
    },
    {
      "epoch": 0.007305040751203967,
      "grad_norm": 3.375,
      "learning_rate": 4.305419717932107e-05,
      "loss": 0.5431,
      "step": 405350
    },
    {
      "epoch": 0.007373312160093723,
      "grad_norm": 3.3125,
      "learning_rate": 4.304336053171412e-05,
      "loss": 0.5487,
      "step": 405400
    },
    {
      "epoch": 0.00744158356898348,
      "grad_norm": 2.9375,
      "learning_rate": 4.303252421732294e-05,
      "loss": 0.6486,
      "step": 405450
    },
    {
      "epoch": 0.007509854977873236,
      "grad_norm": 7.3125,
      "learning_rate": 4.3021688236666544e-05,
      "loss": 0.6686,
      "step": 405500
    },
    {
      "epoch": 0.007578126386762993,
      "grad_norm": 2.953125,
      "learning_rate": 4.3010852590264e-05,
      "loss": 0.6585,
      "step": 405550
    },
    {
      "epoch": 0.0076463977956527495,
      "grad_norm": 3.03125,
      "learning_rate": 4.300001727863427e-05,
      "loss": 0.689,
      "step": 405600
    },
    {
      "epoch": 0.007714669204542507,
      "grad_norm": 2.375,
      "learning_rate": 4.298918230229641e-05,
      "loss": 0.7298,
      "step": 405650
    },
    {
      "epoch": 0.007782940613432263,
      "grad_norm": 3.125,
      "learning_rate": 4.297834766176938e-05,
      "loss": 0.6206,
      "step": 405700
    },
    {
      "epoch": 0.007851212022322019,
      "grad_norm": 7.4375,
      "learning_rate": 4.2967513357572133e-05,
      "loss": 0.596,
      "step": 405750
    },
    {
      "epoch": 0.007919483431211776,
      "grad_norm": 3.671875,
      "learning_rate": 4.2956679390223645e-05,
      "loss": 0.5895,
      "step": 405800
    },
    {
      "epoch": 0.007987754840101533,
      "grad_norm": 3.0625,
      "learning_rate": 4.2945845760242856e-05,
      "loss": 0.6667,
      "step": 405850
    },
    {
      "epoch": 0.00805602624899129,
      "grad_norm": 3.828125,
      "learning_rate": 4.2935012468148646e-05,
      "loss": 0.7982,
      "step": 405900
    },
    {
      "epoch": 0.008124297657881047,
      "grad_norm": 2.546875,
      "learning_rate": 4.292417951445997e-05,
      "loss": 0.5941,
      "step": 405950
    },
    {
      "epoch": 0.008192569066770803,
      "grad_norm": 2.828125,
      "learning_rate": 4.291334689969567e-05,
      "loss": 0.667,
      "step": 406000
    },
    {
      "epoch": 0.00826084047566056,
      "grad_norm": 4.375,
      "learning_rate": 4.290251462437465e-05,
      "loss": 0.6589,
      "step": 406050
    },
    {
      "epoch": 0.008329111884550317,
      "grad_norm": 3.359375,
      "learning_rate": 4.2891682689015745e-05,
      "loss": 0.5845,
      "step": 406100
    },
    {
      "epoch": 0.008397383293440074,
      "grad_norm": 2.5625,
      "learning_rate": 4.2880851094137816e-05,
      "loss": 0.668,
      "step": 406150
    },
    {
      "epoch": 0.00846565470232983,
      "grad_norm": 3.53125,
      "learning_rate": 4.2870019840259665e-05,
      "loss": 0.6878,
      "step": 406200
    },
    {
      "epoch": 0.008533926111219586,
      "grad_norm": 7.21875,
      "learning_rate": 4.285918892790008e-05,
      "loss": 0.715,
      "step": 406250
    },
    {
      "epoch": 0.008602197520109343,
      "grad_norm": 3.109375,
      "learning_rate": 4.2848358357577886e-05,
      "loss": 0.6048,
      "step": 406300
    },
    {
      "epoch": 0.0086704689289991,
      "grad_norm": 3.109375,
      "learning_rate": 4.283752812981185e-05,
      "loss": 0.6947,
      "step": 406350
    },
    {
      "epoch": 0.008738740337888858,
      "grad_norm": 2.90625,
      "learning_rate": 4.28266982451207e-05,
      "loss": 0.665,
      "step": 406400
    },
    {
      "epoch": 0.008807011746778613,
      "grad_norm": 2.640625,
      "learning_rate": 4.281586870402322e-05,
      "loss": 0.5846,
      "step": 406450
    },
    {
      "epoch": 0.00887528315566837,
      "grad_norm": 9.375,
      "learning_rate": 4.2805039507038104e-05,
      "loss": 0.5356,
      "step": 406500
    },
    {
      "epoch": 0.008943554564558127,
      "grad_norm": 2.359375,
      "learning_rate": 4.279421065468406e-05,
      "loss": 0.6127,
      "step": 406550
    },
    {
      "epoch": 0.009011825973447884,
      "grad_norm": 3.046875,
      "learning_rate": 4.278338214747979e-05,
      "loss": 0.5559,
      "step": 406600
    },
    {
      "epoch": 0.00908009738233764,
      "grad_norm": 3.09375,
      "learning_rate": 4.277255398594396e-05,
      "loss": 0.6237,
      "step": 406650
    },
    {
      "epoch": 0.009148368791227397,
      "grad_norm": 3.125,
      "learning_rate": 4.2761726170595226e-05,
      "loss": 0.6831,
      "step": 406700
    },
    {
      "epoch": 0.009216640200117154,
      "grad_norm": 3.046875,
      "learning_rate": 4.275089870195225e-05,
      "loss": 0.596,
      "step": 406750
    },
    {
      "epoch": 0.00928491160900691,
      "grad_norm": 2.453125,
      "learning_rate": 4.274007158053362e-05,
      "loss": 0.6377,
      "step": 406800
    },
    {
      "epoch": 0.009353183017896668,
      "grad_norm": 3.453125,
      "learning_rate": 4.272924480685798e-05,
      "loss": 0.5739,
      "step": 406850
    },
    {
      "epoch": 0.009421454426786423,
      "grad_norm": 3.125,
      "learning_rate": 4.271841838144389e-05,
      "loss": 0.5734,
      "step": 406900
    },
    {
      "epoch": 0.00948972583567618,
      "grad_norm": 8.0,
      "learning_rate": 4.270759230480995e-05,
      "loss": 0.5401,
      "step": 406950
    },
    {
      "epoch": 0.009557997244565937,
      "grad_norm": 2.828125,
      "learning_rate": 4.269676657747471e-05,
      "loss": 0.7027,
      "step": 407000
    },
    {
      "epoch": 0.009626268653455694,
      "grad_norm": 2.40625,
      "learning_rate": 4.268594119995669e-05,
      "loss": 0.5721,
      "step": 407050
    },
    {
      "epoch": 0.00969454006234545,
      "grad_norm": 3.96875,
      "learning_rate": 4.2675116172774444e-05,
      "loss": 0.517,
      "step": 407100
    },
    {
      "epoch": 0.009762811471235207,
      "grad_norm": 3.171875,
      "learning_rate": 4.266429149644647e-05,
      "loss": 0.5971,
      "step": 407150
    },
    {
      "epoch": 0.009831082880124964,
      "grad_norm": 2.65625,
      "learning_rate": 4.265346717149124e-05,
      "loss": 0.5426,
      "step": 407200
    },
    {
      "epoch": 0.009899354289014721,
      "grad_norm": 5.28125,
      "learning_rate": 4.2642643198427275e-05,
      "loss": 0.6949,
      "step": 407250
    },
    {
      "epoch": 0.009967625697904478,
      "grad_norm": 4.9375,
      "learning_rate": 4.263181957777298e-05,
      "loss": 0.7051,
      "step": 407300
    },
    {
      "epoch": 0.010035897106794233,
      "grad_norm": 2.421875,
      "learning_rate": 4.262099631004683e-05,
      "loss": 0.8336,
      "step": 407350
    },
    {
      "epoch": 0.01010416851568399,
      "grad_norm": 3.0625,
      "learning_rate": 4.261017339576721e-05,
      "loss": 0.6468,
      "step": 407400
    },
    {
      "epoch": 0.010172439924573748,
      "grad_norm": 7.96875,
      "learning_rate": 4.259935083545257e-05,
      "loss": 0.6097,
      "step": 407450
    },
    {
      "epoch": 0.010240711333463505,
      "grad_norm": 7.3125,
      "learning_rate": 4.2588528629621284e-05,
      "loss": 0.6036,
      "step": 407500
    },
    {
      "epoch": 0.01030898274235326,
      "grad_norm": 3.53125,
      "learning_rate": 4.25777067787917e-05,
      "loss": 0.7314,
      "step": 407550
    },
    {
      "epoch": 0.010377254151243017,
      "grad_norm": 3.8125,
      "learning_rate": 4.256688528348221e-05,
      "loss": 0.5324,
      "step": 407600
    },
    {
      "epoch": 0.010445525560132774,
      "grad_norm": 2.921875,
      "learning_rate": 4.255606414421113e-05,
      "loss": 0.6344,
      "step": 407650
    },
    {
      "epoch": 0.010513796969022531,
      "grad_norm": 8.375,
      "learning_rate": 4.254524336149678e-05,
      "loss": 0.6598,
      "step": 407700
    },
    {
      "epoch": 0.010582068377912288,
      "grad_norm": 10.0625,
      "learning_rate": 4.253442293585749e-05,
      "loss": 0.6613,
      "step": 407750
    },
    {
      "epoch": 0.010650339786802044,
      "grad_norm": 4.75,
      "learning_rate": 4.252360286781151e-05,
      "loss": 0.6537,
      "step": 407800
    },
    {
      "epoch": 0.0107186111956918,
      "grad_norm": 7.90625,
      "learning_rate": 4.2512783157877134e-05,
      "loss": 0.6066,
      "step": 407850
    },
    {
      "epoch": 0.010786882604581558,
      "grad_norm": 3.0,
      "learning_rate": 4.250196380657261e-05,
      "loss": 0.6181,
      "step": 407900
    },
    {
      "epoch": 0.010855154013471315,
      "grad_norm": 3.484375,
      "learning_rate": 4.2491144814416186e-05,
      "loss": 0.7039,
      "step": 407950
    },
    {
      "epoch": 0.010923425422361072,
      "grad_norm": 3.40625,
      "learning_rate": 4.248032618192606e-05,
      "loss": 0.5611,
      "step": 408000
    },
    {
      "epoch": 0.010991696831250827,
      "grad_norm": 3.65625,
      "learning_rate": 4.2469507909620425e-05,
      "loss": 0.7126,
      "step": 408050
    },
    {
      "epoch": 0.011059968240140584,
      "grad_norm": 3.25,
      "learning_rate": 4.245868999801749e-05,
      "loss": 0.5206,
      "step": 408100
    },
    {
      "epoch": 0.011128239649030341,
      "grad_norm": 2.53125,
      "learning_rate": 4.2447872447635426e-05,
      "loss": 0.6728,
      "step": 408150
    },
    {
      "epoch": 0.011196511057920099,
      "grad_norm": 3.75,
      "learning_rate": 4.2437055258992335e-05,
      "loss": 0.5118,
      "step": 408200
    },
    {
      "epoch": 0.011264782466809854,
      "grad_norm": 3.09375,
      "learning_rate": 4.242623843260641e-05,
      "loss": 0.6669,
      "step": 408250
    },
    {
      "epoch": 0.011333053875699611,
      "grad_norm": 2.96875,
      "learning_rate": 4.2415421968995735e-05,
      "loss": 0.6727,
      "step": 408300
    },
    {
      "epoch": 0.011401325284589368,
      "grad_norm": 2.578125,
      "learning_rate": 4.2404605868678404e-05,
      "loss": 0.5684,
      "step": 408350
    },
    {
      "epoch": 0.011469596693479125,
      "grad_norm": 4.90625,
      "learning_rate": 4.23937901321725e-05,
      "loss": 0.5798,
      "step": 408400
    },
    {
      "epoch": 0.011537868102368882,
      "grad_norm": 9.4375,
      "learning_rate": 4.23829747599961e-05,
      "loss": 0.6299,
      "step": 408450
    },
    {
      "epoch": 0.011606139511258638,
      "grad_norm": 3.015625,
      "learning_rate": 4.2372159752667224e-05,
      "loss": 0.6205,
      "step": 408500
    },
    {
      "epoch": 0.011674410920148395,
      "grad_norm": 3.3125,
      "learning_rate": 4.236134511070393e-05,
      "loss": 0.7169,
      "step": 408550
    },
    {
      "epoch": 0.011742682329038152,
      "grad_norm": 7.59375,
      "learning_rate": 4.2350530834624195e-05,
      "loss": 0.5532,
      "step": 408600
    },
    {
      "epoch": 0.011810953737927909,
      "grad_norm": 7.8125,
      "learning_rate": 4.233971692494604e-05,
      "loss": 0.6822,
      "step": 408650
    },
    {
      "epoch": 0.011879225146817664,
      "grad_norm": 3.171875,
      "learning_rate": 4.2328903382187414e-05,
      "loss": 0.7965,
      "step": 408700
    },
    {
      "epoch": 0.011947496555707421,
      "grad_norm": 2.90625,
      "learning_rate": 4.23180902068663e-05,
      "loss": 0.6239,
      "step": 408750
    },
    {
      "epoch": 0.012015767964597178,
      "grad_norm": 3.25,
      "learning_rate": 4.2307277399500634e-05,
      "loss": 0.6587,
      "step": 408800
    },
    {
      "epoch": 0.012084039373486935,
      "grad_norm": 3.203125,
      "learning_rate": 4.229646496060831e-05,
      "loss": 0.6047,
      "step": 408850
    },
    {
      "epoch": 0.012152310782376692,
      "grad_norm": 3.34375,
      "learning_rate": 4.228565289070725e-05,
      "loss": 0.6197,
      "step": 408900
    },
    {
      "epoch": 0.012220582191266448,
      "grad_norm": 2.9375,
      "learning_rate": 4.227484119031536e-05,
      "loss": 0.6036,
      "step": 408950
    },
    {
      "epoch": 0.012288853600156205,
      "grad_norm": 2.5,
      "learning_rate": 4.226402985995048e-05,
      "loss": 0.7413,
      "step": 409000
    },
    {
      "epoch": 0.012357125009045962,
      "grad_norm": 2.578125,
      "learning_rate": 4.225321890013049e-05,
      "loss": 0.5861,
      "step": 409050
    },
    {
      "epoch": 0.012425396417935719,
      "grad_norm": 3.78125,
      "learning_rate": 4.224240831137319e-05,
      "loss": 0.6131,
      "step": 409100
    },
    {
      "epoch": 0.012493667826825474,
      "grad_norm": 3.546875,
      "learning_rate": 4.2231598094196425e-05,
      "loss": 0.5872,
      "step": 409150
    },
    {
      "epoch": 0.012561939235715231,
      "grad_norm": 4.21875,
      "learning_rate": 4.222078824911797e-05,
      "loss": 0.5109,
      "step": 409200
    },
    {
      "epoch": 0.012630210644604989,
      "grad_norm": 3.765625,
      "learning_rate": 4.2209978776655626e-05,
      "loss": 0.5928,
      "step": 409250
    },
    {
      "epoch": 0.012698482053494746,
      "grad_norm": 3.921875,
      "learning_rate": 4.2199169677327155e-05,
      "loss": 0.6645,
      "step": 409300
    },
    {
      "epoch": 0.012766753462384503,
      "grad_norm": 2.9375,
      "learning_rate": 4.2188360951650266e-05,
      "loss": 0.5391,
      "step": 409350
    },
    {
      "epoch": 0.012835024871274258,
      "grad_norm": 3.578125,
      "learning_rate": 4.217755260014273e-05,
      "loss": 0.6887,
      "step": 409400
    },
    {
      "epoch": 0.012903296280164015,
      "grad_norm": 2.515625,
      "learning_rate": 4.216674462332224e-05,
      "loss": 0.5106,
      "step": 409450
    },
    {
      "epoch": 0.012971567689053772,
      "grad_norm": 2.390625,
      "learning_rate": 4.215593702170647e-05,
      "loss": 0.4739,
      "step": 409500
    },
    {
      "epoch": 0.01303983909794353,
      "grad_norm": 2.625,
      "learning_rate": 4.214512979581313e-05,
      "loss": 0.6335,
      "step": 409550
    },
    {
      "epoch": 0.013108110506833285,
      "grad_norm": 2.265625,
      "learning_rate": 4.213432294615984e-05,
      "loss": 0.4922,
      "step": 409600
    },
    {
      "epoch": 0.013176381915723042,
      "grad_norm": 7.53125,
      "learning_rate": 4.2123516473264245e-05,
      "loss": 0.6398,
      "step": 409650
    },
    {
      "epoch": 0.013244653324612799,
      "grad_norm": 7.96875,
      "learning_rate": 4.211271037764397e-05,
      "loss": 0.5936,
      "step": 409700
    },
    {
      "epoch": 0.013312924733502556,
      "grad_norm": 7.34375,
      "learning_rate": 4.2101904659816625e-05,
      "loss": 0.6912,
      "step": 409750
    },
    {
      "epoch": 0.013381196142392313,
      "grad_norm": 3.09375,
      "learning_rate": 4.209109932029978e-05,
      "loss": 0.6076,
      "step": 409800
    },
    {
      "epoch": 0.013449467551282068,
      "grad_norm": 2.46875,
      "learning_rate": 4.208029435961098e-05,
      "loss": 0.6469,
      "step": 409850
    },
    {
      "epoch": 0.013517738960171825,
      "grad_norm": 3.265625,
      "learning_rate": 4.206948977826781e-05,
      "loss": 0.5264,
      "step": 409900
    },
    {
      "epoch": 0.013586010369061582,
      "grad_norm": 3.765625,
      "learning_rate": 4.205868557678778e-05,
      "loss": 0.5963,
      "step": 409950
    },
    {
      "epoch": 0.01365428177795134,
      "grad_norm": 3.09375,
      "learning_rate": 4.204788175568838e-05,
      "loss": 0.6875,
      "step": 410000
    },
    {
      "epoch": 0.013722553186841095,
      "grad_norm": 3.25,
      "learning_rate": 4.203707831548715e-05,
      "loss": 0.583,
      "step": 410050
    },
    {
      "epoch": 0.013790824595730852,
      "grad_norm": 4.03125,
      "learning_rate": 4.202627525670152e-05,
      "loss": 0.6266,
      "step": 410100
    },
    {
      "epoch": 0.013859096004620609,
      "grad_norm": 7.8125,
      "learning_rate": 4.201547257984896e-05,
      "loss": 0.5604,
      "step": 410150
    },
    {
      "epoch": 0.013927367413510366,
      "grad_norm": 2.8125,
      "learning_rate": 4.200467028544691e-05,
      "loss": 0.6209,
      "step": 410200
    },
    {
      "epoch": 0.013995638822400123,
      "grad_norm": 3.109375,
      "learning_rate": 4.19938683740128e-05,
      "loss": 0.5616,
      "step": 410250
    },
    {
      "epoch": 0.014063910231289879,
      "grad_norm": 8.75,
      "learning_rate": 4.198306684606399e-05,
      "loss": 0.6901,
      "step": 410300
    },
    {
      "epoch": 0.014132181640179636,
      "grad_norm": 8.5625,
      "learning_rate": 4.197226570211791e-05,
      "loss": 0.7824,
      "step": 410350
    },
    {
      "epoch": 0.014200453049069393,
      "grad_norm": 2.484375,
      "learning_rate": 4.1961464942691884e-05,
      "loss": 0.553,
      "step": 410400
    },
    {
      "epoch": 0.01426872445795915,
      "grad_norm": 2.3125,
      "learning_rate": 4.19506645683033e-05,
      "loss": 0.5681,
      "step": 410450
    },
    {
      "epoch": 0.014336995866848905,
      "grad_norm": 2.75,
      "learning_rate": 4.193986457946943e-05,
      "loss": 0.6734,
      "step": 410500
    },
    {
      "epoch": 0.014405267275738662,
      "grad_norm": 7.6875,
      "learning_rate": 4.192906497670763e-05,
      "loss": 0.6158,
      "step": 410550
    },
    {
      "epoch": 0.01447353868462842,
      "grad_norm": 4.40625,
      "learning_rate": 4.1918265760535175e-05,
      "loss": 0.6889,
      "step": 410600
    },
    {
      "epoch": 0.014541810093518176,
      "grad_norm": 2.953125,
      "learning_rate": 4.190746693146931e-05,
      "loss": 0.5481,
      "step": 410650
    },
    {
      "epoch": 0.014610081502407933,
      "grad_norm": 2.984375,
      "learning_rate": 4.1896668490027324e-05,
      "loss": 0.5875,
      "step": 410700
    },
    {
      "epoch": 0.014678352911297689,
      "grad_norm": 7.8125,
      "learning_rate": 4.188587043672644e-05,
      "loss": 0.6545,
      "step": 410750
    },
    {
      "epoch": 0.014746624320187446,
      "grad_norm": 3.125,
      "learning_rate": 4.187507277208386e-05,
      "loss": 0.5957,
      "step": 410800
    },
    {
      "epoch": 0.014814895729077203,
      "grad_norm": 3.125,
      "learning_rate": 4.18642754966168e-05,
      "loss": 0.5977,
      "step": 410850
    },
    {
      "epoch": 0.01488316713796696,
      "grad_norm": 4.6875,
      "learning_rate": 4.1853478610842426e-05,
      "loss": 0.6671,
      "step": 410900
    },
    {
      "epoch": 0.014951438546856715,
      "grad_norm": 2.5625,
      "learning_rate": 4.1842682115277914e-05,
      "loss": 0.5967,
      "step": 410950
    },
    {
      "epoch": 0.015019709955746472,
      "grad_norm": 2.625,
      "learning_rate": 4.183188601044037e-05,
      "loss": 0.5779,
      "step": 411000
    },
    {
      "epoch": 0.01508798136463623,
      "grad_norm": 4.03125,
      "learning_rate": 4.1821090296846956e-05,
      "loss": 0.6687,
      "step": 411050
    },
    {
      "epoch": 0.015156252773525987,
      "grad_norm": 8.8125,
      "learning_rate": 4.181029497501475e-05,
      "loss": 0.8079,
      "step": 411100
    },
    {
      "epoch": 0.015224524182415744,
      "grad_norm": 3.265625,
      "learning_rate": 4.179950004546084e-05,
      "loss": 0.5776,
      "step": 411150
    },
    {
      "epoch": 0.015292795591305499,
      "grad_norm": 2.609375,
      "learning_rate": 4.1788705508702295e-05,
      "loss": 0.5372,
      "step": 411200
    },
    {
      "epoch": 0.015361067000195256,
      "grad_norm": 3.25,
      "learning_rate": 4.1777911365256174e-05,
      "loss": 0.6035,
      "step": 411250
    },
    {
      "epoch": 0.015429338409085013,
      "grad_norm": 7.59375,
      "learning_rate": 4.176711761563947e-05,
      "loss": 0.5739,
      "step": 411300
    },
    {
      "epoch": 0.01549760981797477,
      "grad_norm": 8.5,
      "learning_rate": 4.1756324260369245e-05,
      "loss": 0.6469,
      "step": 411350
    },
    {
      "epoch": 0.015565881226864526,
      "grad_norm": 3.3125,
      "learning_rate": 4.174553129996245e-05,
      "loss": 0.7238,
      "step": 411400
    },
    {
      "epoch": 0.015634152635754284,
      "grad_norm": 4.0625,
      "learning_rate": 4.173473873493606e-05,
      "loss": 0.6075,
      "step": 411450
    },
    {
      "epoch": 0.015702424044644038,
      "grad_norm": 2.921875,
      "learning_rate": 4.172394656580704e-05,
      "loss": 0.6786,
      "step": 411500
    },
    {
      "epoch": 0.015770695453533795,
      "grad_norm": 3.828125,
      "learning_rate": 4.171315479309233e-05,
      "loss": 0.725,
      "step": 411550
    },
    {
      "epoch": 0.015838966862423552,
      "grad_norm": 2.96875,
      "learning_rate": 4.1702363417308835e-05,
      "loss": 0.6669,
      "step": 411600
    },
    {
      "epoch": 0.01590723827131331,
      "grad_norm": 2.4375,
      "learning_rate": 4.169157243897342e-05,
      "loss": 0.6283,
      "step": 411650
    },
    {
      "epoch": 0.015975509680203066,
      "grad_norm": 7.875,
      "learning_rate": 4.1680781858603e-05,
      "loss": 0.6459,
      "step": 411700
    },
    {
      "epoch": 0.016043781089092823,
      "grad_norm": 3.03125,
      "learning_rate": 4.1669991676714437e-05,
      "loss": 0.7412,
      "step": 411750
    },
    {
      "epoch": 0.01611205249798258,
      "grad_norm": 2.28125,
      "learning_rate": 4.1659201893824537e-05,
      "loss": 0.629,
      "step": 411800
    },
    {
      "epoch": 0.016180323906872338,
      "grad_norm": 3.703125,
      "learning_rate": 4.164841251045016e-05,
      "loss": 0.5499,
      "step": 411850
    },
    {
      "epoch": 0.016248595315762095,
      "grad_norm": 6.78125,
      "learning_rate": 4.163762352710808e-05,
      "loss": 0.6786,
      "step": 411900
    },
    {
      "epoch": 0.016316866724651848,
      "grad_norm": 7.90625,
      "learning_rate": 4.162683494431506e-05,
      "loss": 0.6341,
      "step": 411950
    },
    {
      "epoch": 0.016385138133541605,
      "grad_norm": 2.40625,
      "learning_rate": 4.161604676258789e-05,
      "loss": 0.708,
      "step": 412000
    },
    {
      "epoch": 0.016453409542431362,
      "grad_norm": 3.40625,
      "learning_rate": 4.1605258982443325e-05,
      "loss": 0.588,
      "step": 412050
    },
    {
      "epoch": 0.01652168095132112,
      "grad_norm": 6.8125,
      "learning_rate": 4.159447160439806e-05,
      "loss": 0.6939,
      "step": 412100
    },
    {
      "epoch": 0.016589952360210877,
      "grad_norm": 3.375,
      "learning_rate": 4.15836846289688e-05,
      "loss": 0.5319,
      "step": 412150
    },
    {
      "epoch": 0.016658223769100634,
      "grad_norm": 3.046875,
      "learning_rate": 4.157289805667224e-05,
      "loss": 0.5419,
      "step": 412200
    },
    {
      "epoch": 0.01672649517799039,
      "grad_norm": 7.09375,
      "learning_rate": 4.156211188802505e-05,
      "loss": 0.5883,
      "step": 412250
    },
    {
      "epoch": 0.016794766586880148,
      "grad_norm": 3.8125,
      "learning_rate": 4.1551326123543856e-05,
      "loss": 0.5919,
      "step": 412300
    },
    {
      "epoch": 0.016863037995769905,
      "grad_norm": 9.0,
      "learning_rate": 4.1540540763745325e-05,
      "loss": 0.6925,
      "step": 412350
    },
    {
      "epoch": 0.01693130940465966,
      "grad_norm": 3.140625,
      "learning_rate": 4.152975580914603e-05,
      "loss": 0.5919,
      "step": 412400
    },
    {
      "epoch": 0.016999580813549416,
      "grad_norm": 3.890625,
      "learning_rate": 4.151897126026254e-05,
      "loss": 0.6568,
      "step": 412450
    },
    {
      "epoch": 0.017067852222439173,
      "grad_norm": 3.234375,
      "learning_rate": 4.1508187117611475e-05,
      "loss": 0.5735,
      "step": 412500
    },
    {
      "epoch": 0.01713612363132893,
      "grad_norm": 3.484375,
      "learning_rate": 4.149740338170937e-05,
      "loss": 0.6393,
      "step": 412550
    },
    {
      "epoch": 0.017204395040218687,
      "grad_norm": 7.25,
      "learning_rate": 4.148662005307272e-05,
      "loss": 0.7193,
      "step": 412600
    },
    {
      "epoch": 0.017272666449108444,
      "grad_norm": 4.375,
      "learning_rate": 4.1475837132218084e-05,
      "loss": 0.5144,
      "step": 412650
    },
    {
      "epoch": 0.0173409378579982,
      "grad_norm": 3.03125,
      "learning_rate": 4.146505461966191e-05,
      "loss": 0.6454,
      "step": 412700
    },
    {
      "epoch": 0.017409209266887958,
      "grad_norm": 3.109375,
      "learning_rate": 4.1454272515920705e-05,
      "loss": 0.6094,
      "step": 412750
    },
    {
      "epoch": 0.017477480675777715,
      "grad_norm": 2.984375,
      "learning_rate": 4.144349082151088e-05,
      "loss": 0.5518,
      "step": 412800
    },
    {
      "epoch": 0.01754575208466747,
      "grad_norm": 3.640625,
      "learning_rate": 4.143270953694891e-05,
      "loss": 0.6302,
      "step": 412850
    },
    {
      "epoch": 0.017614023493557226,
      "grad_norm": 3.5625,
      "learning_rate": 4.142192866275119e-05,
      "loss": 0.5129,
      "step": 412900
    },
    {
      "epoch": 0.017682294902446983,
      "grad_norm": 3.265625,
      "learning_rate": 4.141114819943409e-05,
      "loss": 0.5958,
      "step": 412950
    },
    {
      "epoch": 0.01775056631133674,
      "grad_norm": 2.984375,
      "learning_rate": 4.140036814751401e-05,
      "loss": 0.5908,
      "step": 413000
    },
    {
      "epoch": 0.017818837720226497,
      "grad_norm": 3.859375,
      "learning_rate": 4.138958850750731e-05,
      "loss": 0.5304,
      "step": 413050
    },
    {
      "epoch": 0.017887109129116254,
      "grad_norm": 2.984375,
      "learning_rate": 4.137880927993028e-05,
      "loss": 0.6953,
      "step": 413100
    },
    {
      "epoch": 0.01795538053800601,
      "grad_norm": 3.125,
      "learning_rate": 4.136803046529929e-05,
      "loss": 0.5566,
      "step": 413150
    },
    {
      "epoch": 0.01802365194689577,
      "grad_norm": 2.9375,
      "learning_rate": 4.1357252064130606e-05,
      "loss": 0.651,
      "step": 413200
    },
    {
      "epoch": 0.018091923355785525,
      "grad_norm": 2.578125,
      "learning_rate": 4.134647407694049e-05,
      "loss": 0.5519,
      "step": 413250
    },
    {
      "epoch": 0.01816019476467528,
      "grad_norm": 3.6875,
      "learning_rate": 4.133569650424521e-05,
      "loss": 0.5617,
      "step": 413300
    },
    {
      "epoch": 0.018228466173565036,
      "grad_norm": 3.25,
      "learning_rate": 4.1324919346561016e-05,
      "loss": 0.5921,
      "step": 413350
    },
    {
      "epoch": 0.018296737582454793,
      "grad_norm": 3.671875,
      "learning_rate": 4.1314142604404106e-05,
      "loss": 0.5997,
      "step": 413400
    },
    {
      "epoch": 0.01836500899134455,
      "grad_norm": 3.078125,
      "learning_rate": 4.130336627829065e-05,
      "loss": 0.625,
      "step": 413450
    },
    {
      "epoch": 0.018433280400234307,
      "grad_norm": 2.984375,
      "learning_rate": 4.129259036873686e-05,
      "loss": 0.6353,
      "step": 413500
    },
    {
      "epoch": 0.018501551809124064,
      "grad_norm": 6.90625,
      "learning_rate": 4.12818148762589e-05,
      "loss": 0.4767,
      "step": 413550
    },
    {
      "epoch": 0.01856982321801382,
      "grad_norm": 2.875,
      "learning_rate": 4.127103980137285e-05,
      "loss": 0.642,
      "step": 413600
    },
    {
      "epoch": 0.01863809462690358,
      "grad_norm": 6.65625,
      "learning_rate": 4.126026514459488e-05,
      "loss": 0.6427,
      "step": 413650
    },
    {
      "epoch": 0.018706366035793336,
      "grad_norm": 3.078125,
      "learning_rate": 4.124949090644107e-05,
      "loss": 0.6069,
      "step": 413700
    },
    {
      "epoch": 0.01877463744468309,
      "grad_norm": 5.84375,
      "learning_rate": 4.1238717087427456e-05,
      "loss": 0.5686,
      "step": 413750
    },
    {
      "epoch": 0.018842908853572846,
      "grad_norm": 6.25,
      "learning_rate": 4.122794368807015e-05,
      "loss": 0.6181,
      "step": 413800
    },
    {
      "epoch": 0.018911180262462603,
      "grad_norm": 2.46875,
      "learning_rate": 4.121717070888516e-05,
      "loss": 0.571,
      "step": 413850
    },
    {
      "epoch": 0.01897945167135236,
      "grad_norm": 3.1875,
      "learning_rate": 4.120639815038851e-05,
      "loss": 0.6376,
      "step": 413900
    },
    {
      "epoch": 0.019047723080242118,
      "grad_norm": 3.265625,
      "learning_rate": 4.119562601309615e-05,
      "loss": 0.546,
      "step": 413950
    },
    {
      "epoch": 0.019115994489131875,
      "grad_norm": 3.21875,
      "learning_rate": 4.118485429752412e-05,
      "loss": 0.575,
      "step": 414000
    },
    {
      "epoch": 0.01918426589802163,
      "grad_norm": 3.984375,
      "learning_rate": 4.1174083004188344e-05,
      "loss": 0.5392,
      "step": 414050
    },
    {
      "epoch": 0.01925253730691139,
      "grad_norm": 2.59375,
      "learning_rate": 4.1163312133604735e-05,
      "loss": 0.5551,
      "step": 414100
    },
    {
      "epoch": 0.019320808715801146,
      "grad_norm": 2.953125,
      "learning_rate": 4.115254168628925e-05,
      "loss": 0.5303,
      "step": 414150
    },
    {
      "epoch": 0.0193890801246909,
      "grad_norm": 7.5625,
      "learning_rate": 4.114177166275776e-05,
      "loss": 0.6291,
      "step": 414200
    },
    {
      "epoch": 0.019457351533580657,
      "grad_norm": 2.765625,
      "learning_rate": 4.113100206352611e-05,
      "loss": 0.5769,
      "step": 414250
    },
    {
      "epoch": 0.019525622942470414,
      "grad_norm": 4.34375,
      "learning_rate": 4.11202328891102e-05,
      "loss": 0.6396,
      "step": 414300
    },
    {
      "epoch": 0.01959389435136017,
      "grad_norm": 4.09375,
      "learning_rate": 4.110946414002585e-05,
      "loss": 0.6347,
      "step": 414350
    },
    {
      "epoch": 0.019662165760249928,
      "grad_norm": 3.515625,
      "learning_rate": 4.109869581678883e-05,
      "loss": 0.5438,
      "step": 414400
    },
    {
      "epoch": 0.019730437169139685,
      "grad_norm": 7.75,
      "learning_rate": 4.1087927919915e-05,
      "loss": 0.523,
      "step": 414450
    },
    {
      "epoch": 0.019798708578029442,
      "grad_norm": 7.6875,
      "learning_rate": 4.1077160449920074e-05,
      "loss": 0.5467,
      "step": 414500
    },
    {
      "epoch": 0.0198669799869192,
      "grad_norm": 3.046875,
      "learning_rate": 4.1066393407319846e-05,
      "loss": 0.5459,
      "step": 414550
    },
    {
      "epoch": 0.019935251395808956,
      "grad_norm": 4.8125,
      "learning_rate": 4.105562679263e-05,
      "loss": 0.5815,
      "step": 414600
    },
    {
      "epoch": 0.02000352280469871,
      "grad_norm": 2.921875,
      "learning_rate": 4.1044860606366284e-05,
      "loss": 0.6076,
      "step": 414650
    },
    {
      "epoch": 0.020071794213588467,
      "grad_norm": 3.609375,
      "learning_rate": 4.103409484904438e-05,
      "loss": 0.496,
      "step": 414700
    },
    {
      "epoch": 0.020140065622478224,
      "grad_norm": 3.78125,
      "learning_rate": 4.102332952117993e-05,
      "loss": 0.5549,
      "step": 414750
    },
    {
      "epoch": 0.02020833703136798,
      "grad_norm": 2.25,
      "learning_rate": 4.101256462328861e-05,
      "loss": 0.5323,
      "step": 414800
    },
    {
      "epoch": 0.020276608440257738,
      "grad_norm": 6.8125,
      "learning_rate": 4.100180015588605e-05,
      "loss": 0.6178,
      "step": 414850
    },
    {
      "epoch": 0.020344879849147495,
      "grad_norm": 3.53125,
      "learning_rate": 4.099103611948783e-05,
      "loss": 0.5978,
      "step": 414900
    },
    {
      "epoch": 0.020413151258037252,
      "grad_norm": 3.5,
      "learning_rate": 4.098027251460956e-05,
      "loss": 0.6453,
      "step": 414950
    },
    {
      "epoch": 0.02048142266692701,
      "grad_norm": 3.015625,
      "learning_rate": 4.09695093417668e-05,
      "loss": 0.6247,
      "step": 415000
    },
    {
      "epoch": 0.020549694075816766,
      "grad_norm": 3.390625,
      "learning_rate": 4.095874660147508e-05,
      "loss": 0.5583,
      "step": 415050
    },
    {
      "epoch": 0.02061796548470652,
      "grad_norm": 6.78125,
      "learning_rate": 4.094798429424994e-05,
      "loss": 0.5252,
      "step": 415100
    },
    {
      "epoch": 0.020686236893596277,
      "grad_norm": 3.1875,
      "learning_rate": 4.0937222420606894e-05,
      "loss": 0.6056,
      "step": 415150
    },
    {
      "epoch": 0.020754508302486034,
      "grad_norm": 2.59375,
      "learning_rate": 4.09264609810614e-05,
      "loss": 0.6063,
      "step": 415200
    },
    {
      "epoch": 0.02082277971137579,
      "grad_norm": 2.78125,
      "learning_rate": 4.0915699976128916e-05,
      "loss": 0.6172,
      "step": 415250
    },
    {
      "epoch": 0.02089105112026555,
      "grad_norm": 3.265625,
      "learning_rate": 4.090493940632491e-05,
      "loss": 0.5269,
      "step": 415300
    },
    {
      "epoch": 0.020959322529155305,
      "grad_norm": 2.609375,
      "learning_rate": 4.089417927216479e-05,
      "loss": 0.6546,
      "step": 415350
    },
    {
      "epoch": 0.021027593938045062,
      "grad_norm": 2.875,
      "learning_rate": 4.088341957416394e-05,
      "loss": 0.5092,
      "step": 415400
    },
    {
      "epoch": 0.02109586534693482,
      "grad_norm": 4.09375,
      "learning_rate": 4.087266031283777e-05,
      "loss": 0.6258,
      "step": 415450
    },
    {
      "epoch": 0.021164136755824577,
      "grad_norm": 4.125,
      "learning_rate": 4.0861901488701614e-05,
      "loss": 0.7018,
      "step": 415500
    },
    {
      "epoch": 0.021232408164714334,
      "grad_norm": 3.703125,
      "learning_rate": 4.08511431022708e-05,
      "loss": 0.5333,
      "step": 415550
    },
    {
      "epoch": 0.021300679573604087,
      "grad_norm": 2.859375,
      "learning_rate": 4.0840385154060665e-05,
      "loss": 0.5144,
      "step": 415600
    },
    {
      "epoch": 0.021368950982493844,
      "grad_norm": 7.4375,
      "learning_rate": 4.08296276445865e-05,
      "loss": 0.6545,
      "step": 415650
    },
    {
      "epoch": 0.0214372223913836,
      "grad_norm": 2.484375,
      "learning_rate": 4.081887057436359e-05,
      "loss": 0.5365,
      "step": 415700
    },
    {
      "epoch": 0.02150549380027336,
      "grad_norm": 2.796875,
      "learning_rate": 4.080811394390713e-05,
      "loss": 0.6284,
      "step": 415750
    },
    {
      "epoch": 0.021573765209163116,
      "grad_norm": 2.421875,
      "learning_rate": 4.079735775373241e-05,
      "loss": 0.5422,
      "step": 415800
    },
    {
      "epoch": 0.021642036618052873,
      "grad_norm": 2.8125,
      "learning_rate": 4.078660200435464e-05,
      "loss": 0.612,
      "step": 415850
    },
    {
      "epoch": 0.02171030802694263,
      "grad_norm": 2.765625,
      "learning_rate": 4.077584669628896e-05,
      "loss": 0.5421,
      "step": 415900
    },
    {
      "epoch": 0.021778579435832387,
      "grad_norm": 2.921875,
      "learning_rate": 4.07650918300506e-05,
      "loss": 0.4825,
      "step": 415950
    },
    {
      "epoch": 0.021846850844722144,
      "grad_norm": 3.578125,
      "learning_rate": 4.075433740615468e-05,
      "loss": 0.6206,
      "step": 416000
    },
    {
      "epoch": 0.021915122253611898,
      "grad_norm": 4.5,
      "learning_rate": 4.0743583425116296e-05,
      "loss": 0.6581,
      "step": 416050
    },
    {
      "epoch": 0.021983393662501655,
      "grad_norm": 3.4375,
      "learning_rate": 4.0732829887450585e-05,
      "loss": 0.563,
      "step": 416100
    },
    {
      "epoch": 0.02205166507139141,
      "grad_norm": 3.109375,
      "learning_rate": 4.0722076793672645e-05,
      "loss": 0.5879,
      "step": 416150
    },
    {
      "epoch": 0.02211993648028117,
      "grad_norm": 2.1875,
      "learning_rate": 4.071132414429749e-05,
      "loss": 0.4763,
      "step": 416200
    },
    {
      "epoch": 0.022188207889170926,
      "grad_norm": 2.765625,
      "learning_rate": 4.07005719398402e-05,
      "loss": 0.4889,
      "step": 416250
    },
    {
      "epoch": 0.022256479298060683,
      "grad_norm": 4.78125,
      "learning_rate": 4.0689820180815784e-05,
      "loss": 0.6449,
      "step": 416300
    },
    {
      "epoch": 0.02232475070695044,
      "grad_norm": 3.25,
      "learning_rate": 4.0679068867739244e-05,
      "loss": 0.6187,
      "step": 416350
    },
    {
      "epoch": 0.022393022115840197,
      "grad_norm": 7.375,
      "learning_rate": 4.066831800112553e-05,
      "loss": 0.5402,
      "step": 416400
    },
    {
      "epoch": 0.022461293524729954,
      "grad_norm": 3.5,
      "learning_rate": 4.065756758148964e-05,
      "loss": 0.6478,
      "step": 416450
    },
    {
      "epoch": 0.022529564933619708,
      "grad_norm": 7.0625,
      "learning_rate": 4.064681760934649e-05,
      "loss": 0.5859,
      "step": 416500
    },
    {
      "epoch": 0.022597836342509465,
      "grad_norm": 3.03125,
      "learning_rate": 4.063606808521095e-05,
      "loss": 0.5992,
      "step": 416550
    },
    {
      "epoch": 0.022666107751399222,
      "grad_norm": 3.171875,
      "learning_rate": 4.062531900959798e-05,
      "loss": 0.558,
      "step": 416600
    },
    {
      "epoch": 0.02273437916028898,
      "grad_norm": 13.8125,
      "learning_rate": 4.0614570383022424e-05,
      "loss": 0.6567,
      "step": 416650
    },
    {
      "epoch": 0.022802650569178736,
      "grad_norm": 2.375,
      "learning_rate": 4.060382220599909e-05,
      "loss": 0.5571,
      "step": 416700
    },
    {
      "epoch": 0.022870921978068493,
      "grad_norm": 3.8125,
      "learning_rate": 4.0593074479042876e-05,
      "loss": 0.5749,
      "step": 416750
    },
    {
      "epoch": 0.02293919338695825,
      "grad_norm": 3.796875,
      "learning_rate": 4.058232720266854e-05,
      "loss": 0.6301,
      "step": 416800
    },
    {
      "epoch": 0.023007464795848007,
      "grad_norm": 2.4375,
      "learning_rate": 4.057158037739086e-05,
      "loss": 0.5227,
      "step": 416850
    },
    {
      "epoch": 0.023075736204737764,
      "grad_norm": 3.046875,
      "learning_rate": 4.056083400372463e-05,
      "loss": 0.5121,
      "step": 416900
    },
    {
      "epoch": 0.023144007613627518,
      "grad_norm": 3.25,
      "learning_rate": 4.055008808218457e-05,
      "loss": 0.5813,
      "step": 416950
    },
    {
      "epoch": 0.023212279022517275,
      "grad_norm": 2.375,
      "learning_rate": 4.0539342613285405e-05,
      "loss": 0.5143,
      "step": 417000
    },
    {
      "epoch": 0.023280550431407032,
      "grad_norm": 3.0625,
      "learning_rate": 4.052859759754181e-05,
      "loss": 0.5805,
      "step": 417050
    },
    {
      "epoch": 0.02334882184029679,
      "grad_norm": 2.890625,
      "learning_rate": 4.051785303546849e-05,
      "loss": 0.5515,
      "step": 417100
    },
    {
      "epoch": 0.023417093249186546,
      "grad_norm": 3.59375,
      "learning_rate": 4.050710892758009e-05,
      "loss": 0.5438,
      "step": 417150
    },
    {
      "epoch": 0.023485364658076303,
      "grad_norm": 6.3125,
      "learning_rate": 4.049636527439122e-05,
      "loss": 0.5068,
      "step": 417200
    },
    {
      "epoch": 0.02355363606696606,
      "grad_norm": 2.890625,
      "learning_rate": 4.048562207641653e-05,
      "loss": 0.6936,
      "step": 417250
    },
    {
      "epoch": 0.023621907475855818,
      "grad_norm": 7.34375,
      "learning_rate": 4.047487933417058e-05,
      "loss": 0.6026,
      "step": 417300
    },
    {
      "epoch": 0.023690178884745575,
      "grad_norm": 2.59375,
      "learning_rate": 4.046413704816793e-05,
      "loss": 0.488,
      "step": 417350
    },
    {
      "epoch": 0.023758450293635328,
      "grad_norm": 3.140625,
      "learning_rate": 4.045339521892314e-05,
      "loss": 0.4812,
      "step": 417400
    },
    {
      "epoch": 0.023826721702525085,
      "grad_norm": 3.046875,
      "learning_rate": 4.044265384695074e-05,
      "loss": 0.6202,
      "step": 417450
    },
    {
      "epoch": 0.023894993111414842,
      "grad_norm": 3.625,
      "learning_rate": 4.043191293276521e-05,
      "loss": 0.5281,
      "step": 417500
    },
    {
      "epoch": 0.0239632645203046,
      "grad_norm": 2.5,
      "learning_rate": 4.042117247688103e-05,
      "loss": 0.5183,
      "step": 417550
    },
    {
      "epoch": 0.024031535929194357,
      "grad_norm": 3.3125,
      "learning_rate": 4.041043247981267e-05,
      "loss": 0.5661,
      "step": 417600
    },
    {
      "epoch": 0.024099807338084114,
      "grad_norm": 3.234375,
      "learning_rate": 4.0399692942074574e-05,
      "loss": 0.5839,
      "step": 417650
    },
    {
      "epoch": 0.02416807874697387,
      "grad_norm": 2.875,
      "learning_rate": 4.038895386418111e-05,
      "loss": 0.5629,
      "step": 417700
    },
    {
      "epoch": 0.024236350155863628,
      "grad_norm": 4.15625,
      "learning_rate": 4.0378215246646724e-05,
      "loss": 0.5562,
      "step": 417750
    },
    {
      "epoch": 0.024304621564753385,
      "grad_norm": 7.375,
      "learning_rate": 4.036747708998575e-05,
      "loss": 0.5727,
      "step": 417800
    },
    {
      "epoch": 0.02437289297364314,
      "grad_norm": 3.640625,
      "learning_rate": 4.035673939471253e-05,
      "loss": 0.6153,
      "step": 417850
    },
    {
      "epoch": 0.024441164382532896,
      "grad_norm": 2.5,
      "learning_rate": 4.0346002161341415e-05,
      "loss": 0.5529,
      "step": 417900
    },
    {
      "epoch": 0.024509435791422653,
      "grad_norm": 2.90625,
      "learning_rate": 4.033526539038669e-05,
      "loss": 0.5561,
      "step": 417950
    },
    {
      "epoch": 0.02457770720031241,
      "grad_norm": 3.203125,
      "learning_rate": 4.032452908236263e-05,
      "loss": 0.5849,
      "step": 418000
    },
    {
      "epoch": 0.024645978609202167,
      "grad_norm": 2.46875,
      "learning_rate": 4.0313793237783515e-05,
      "loss": 0.5652,
      "step": 418050
    },
    {
      "epoch": 0.024714250018091924,
      "grad_norm": 2.328125,
      "learning_rate": 4.030305785716356e-05,
      "loss": 0.6065,
      "step": 418100
    },
    {
      "epoch": 0.02478252142698168,
      "grad_norm": 6.90625,
      "learning_rate": 4.029232294101699e-05,
      "loss": 0.5861,
      "step": 418150
    },
    {
      "epoch": 0.024850792835871438,
      "grad_norm": 3.03125,
      "learning_rate": 4.028158848985798e-05,
      "loss": 0.6043,
      "step": 418200
    },
    {
      "epoch": 0.024919064244761195,
      "grad_norm": 7.875,
      "learning_rate": 4.027085450420073e-05,
      "loss": 0.5588,
      "step": 418250
    },
    {
      "epoch": 0.02498733565365095,
      "grad_norm": 2.359375,
      "learning_rate": 4.0260120984559364e-05,
      "loss": 0.5289,
      "step": 418300
    },
    {
      "epoch": 0.025055607062540706,
      "grad_norm": 4.46875,
      "learning_rate": 4.024938793144799e-05,
      "loss": 0.5049,
      "step": 418350
    },
    {
      "epoch": 0.025123878471430463,
      "grad_norm": 3.046875,
      "learning_rate": 4.0238655345380735e-05,
      "loss": 0.5271,
      "step": 418400
    },
    {
      "epoch": 0.02519214988032022,
      "grad_norm": 3.265625,
      "learning_rate": 4.0227923226871694e-05,
      "loss": 0.6071,
      "step": 418450
    },
    {
      "epoch": 0.025260421289209977,
      "grad_norm": 2.25,
      "learning_rate": 4.0217191576434876e-05,
      "loss": 0.5544,
      "step": 418500
    },
    {
      "epoch": 0.025328692698099734,
      "grad_norm": 2.890625,
      "learning_rate": 4.020646039458437e-05,
      "loss": 0.567,
      "step": 418550
    },
    {
      "epoch": 0.02539696410698949,
      "grad_norm": 4.0625,
      "learning_rate": 4.019572968183416e-05,
      "loss": 0.5565,
      "step": 418600
    },
    {
      "epoch": 0.02546523551587925,
      "grad_norm": 2.578125,
      "learning_rate": 4.0184999438698224e-05,
      "loss": 0.5782,
      "step": 418650
    },
    {
      "epoch": 0.025533506924769005,
      "grad_norm": 2.40625,
      "learning_rate": 4.017426966569053e-05,
      "loss": 0.5939,
      "step": 418700
    },
    {
      "epoch": 0.02560177833365876,
      "grad_norm": 7.625,
      "learning_rate": 4.0163540363325064e-05,
      "loss": 0.5772,
      "step": 418750
    },
    {
      "epoch": 0.025670049742548516,
      "grad_norm": 2.671875,
      "learning_rate": 4.015281153211572e-05,
      "loss": 0.5881,
      "step": 418800
    },
    {
      "epoch": 0.025738321151438273,
      "grad_norm": 3.96875,
      "learning_rate": 4.014208317257637e-05,
      "loss": 0.7015,
      "step": 418850
    },
    {
      "epoch": 0.02580659256032803,
      "grad_norm": 2.703125,
      "learning_rate": 4.013135528522094e-05,
      "loss": 0.5686,
      "step": 418900
    },
    {
      "epoch": 0.025874863969217787,
      "grad_norm": 3.09375,
      "learning_rate": 4.012062787056327e-05,
      "loss": 0.5781,
      "step": 418950
    },
    {
      "epoch": 0.025943135378107544,
      "grad_norm": 4.3125,
      "learning_rate": 4.010990092911717e-05,
      "loss": 0.5776,
      "step": 419000
    },
    {
      "epoch": 0.0260114067869973,
      "grad_norm": 3.3125,
      "learning_rate": 4.009917446139648e-05,
      "loss": 0.5678,
      "step": 419050
    },
    {
      "epoch": 0.02607967819588706,
      "grad_norm": 3.28125,
      "learning_rate": 4.008844846791497e-05,
      "loss": 0.6364,
      "step": 419100
    },
    {
      "epoch": 0.026147949604776816,
      "grad_norm": 3.765625,
      "learning_rate": 4.007772294918639e-05,
      "loss": 0.5727,
      "step": 419150
    },
    {
      "epoch": 0.02621622101366657,
      "grad_norm": 3.15625,
      "learning_rate": 4.0066997905724503e-05,
      "loss": 0.6413,
      "step": 419200
    },
    {
      "epoch": 0.026284492422556326,
      "grad_norm": 4.3125,
      "learning_rate": 4.005627333804304e-05,
      "loss": 0.5771,
      "step": 419250
    },
    {
      "epoch": 0.026352763831446083,
      "grad_norm": 2.21875,
      "learning_rate": 4.0045549246655664e-05,
      "loss": 0.5159,
      "step": 419300
    },
    {
      "epoch": 0.02642103524033584,
      "grad_norm": 3.203125,
      "learning_rate": 4.003482563207605e-05,
      "loss": 0.5696,
      "step": 419350
    },
    {
      "epoch": 0.026489306649225598,
      "grad_norm": 3.390625,
      "learning_rate": 4.002410249481787e-05,
      "loss": 0.584,
      "step": 419400
    },
    {
      "epoch": 0.026557578058115355,
      "grad_norm": 3.015625,
      "learning_rate": 4.001337983539475e-05,
      "loss": 0.5238,
      "step": 419450
    },
    {
      "epoch": 0.02662584946700511,
      "grad_norm": 7.1875,
      "learning_rate": 4.0002657654320265e-05,
      "loss": 0.5873,
      "step": 419500
    },
    {
      "epoch": 0.02669412087589487,
      "grad_norm": 2.6875,
      "learning_rate": 3.999193595210803e-05,
      "loss": 0.5434,
      "step": 419550
    },
    {
      "epoch": 0.026762392284784626,
      "grad_norm": 2.390625,
      "learning_rate": 3.998121472927159e-05,
      "loss": 0.5383,
      "step": 419600
    },
    {
      "epoch": 0.02683066369367438,
      "grad_norm": 3.515625,
      "learning_rate": 3.9970493986324467e-05,
      "loss": 0.6001,
      "step": 419650
    },
    {
      "epoch": 0.026898935102564137,
      "grad_norm": 2.40625,
      "learning_rate": 3.995977372378019e-05,
      "loss": 0.5291,
      "step": 419700
    },
    {
      "epoch": 0.026967206511453894,
      "grad_norm": 7.46875,
      "learning_rate": 3.994905394215226e-05,
      "loss": 0.5446,
      "step": 419750
    },
    {
      "epoch": 0.02703547792034365,
      "grad_norm": 3.03125,
      "learning_rate": 3.9938334641954104e-05,
      "loss": 0.536,
      "step": 419800
    },
    {
      "epoch": 0.027103749329233408,
      "grad_norm": 2.65625,
      "learning_rate": 3.9927615823699204e-05,
      "loss": 0.6002,
      "step": 419850
    },
    {
      "epoch": 0.027172020738123165,
      "grad_norm": 3.140625,
      "learning_rate": 3.9916897487900975e-05,
      "loss": 0.5019,
      "step": 419900
    },
    {
      "epoch": 0.027240292147012922,
      "grad_norm": 2.890625,
      "learning_rate": 3.990617963507279e-05,
      "loss": 0.5975,
      "step": 419950
    },
    {
      "epoch": 0.02730856355590268,
      "grad_norm": 3.375,
      "learning_rate": 3.9895462265728026e-05,
      "loss": 0.5073,
      "step": 420000
    },
    {
      "epoch": 0.027376834964792436,
      "grad_norm": 6.46875,
      "learning_rate": 3.9884745380380065e-05,
      "loss": 0.5823,
      "step": 420050
    },
    {
      "epoch": 0.02744510637368219,
      "grad_norm": 3.359375,
      "learning_rate": 3.9874028979542214e-05,
      "loss": 0.5442,
      "step": 420100
    },
    {
      "epoch": 0.027513377782571947,
      "grad_norm": 4.53125,
      "learning_rate": 3.9863313063727754e-05,
      "loss": 0.5756,
      "step": 420150
    },
    {
      "epoch": 0.027581649191461704,
      "grad_norm": 3.4375,
      "learning_rate": 3.985259763345001e-05,
      "loss": 0.5367,
      "step": 420200
    },
    {
      "epoch": 0.02764992060035146,
      "grad_norm": 2.46875,
      "learning_rate": 3.984188268922222e-05,
      "loss": 0.5691,
      "step": 420250
    },
    {
      "epoch": 0.027718192009241218,
      "grad_norm": 3.40625,
      "learning_rate": 3.98311682315576e-05,
      "loss": 0.5058,
      "step": 420300
    },
    {
      "epoch": 0.027786463418130975,
      "grad_norm": 2.765625,
      "learning_rate": 3.9820454260969404e-05,
      "loss": 0.5842,
      "step": 420350
    },
    {
      "epoch": 0.027854734827020732,
      "grad_norm": 2.421875,
      "learning_rate": 3.9809740777970796e-05,
      "loss": 0.6043,
      "step": 420400
    },
    {
      "epoch": 0.02792300623591049,
      "grad_norm": 2.4375,
      "learning_rate": 3.979902778307493e-05,
      "loss": 0.5803,
      "step": 420450
    },
    {
      "epoch": 0.027991277644800246,
      "grad_norm": 2.4375,
      "learning_rate": 3.978831527679494e-05,
      "loss": 0.5563,
      "step": 420500
    },
    {
      "epoch": 0.02805954905369,
      "grad_norm": 6.625,
      "learning_rate": 3.977760325964399e-05,
      "loss": 0.5569,
      "step": 420550
    },
    {
      "epoch": 0.028127820462579757,
      "grad_norm": 3.265625,
      "learning_rate": 3.976689173213514e-05,
      "loss": 0.5221,
      "step": 420600
    },
    {
      "epoch": 0.028196091871469514,
      "grad_norm": 2.390625,
      "learning_rate": 3.9756180694781454e-05,
      "loss": 0.5521,
      "step": 420650
    },
    {
      "epoch": 0.02826436328035927,
      "grad_norm": 4.65625,
      "learning_rate": 3.9745470148096e-05,
      "loss": 0.5376,
      "step": 420700
    },
    {
      "epoch": 0.02833263468924903,
      "grad_norm": 3.109375,
      "learning_rate": 3.97347600925918e-05,
      "loss": 0.5738,
      "step": 420750
    },
    {
      "epoch": 0.028400906098138785,
      "grad_norm": 2.765625,
      "learning_rate": 3.972405052878183e-05,
      "loss": 0.508,
      "step": 420800
    },
    {
      "epoch": 0.028469177507028542,
      "grad_norm": 2.34375,
      "learning_rate": 3.9713341457179105e-05,
      "loss": 0.5032,
      "step": 420850
    },
    {
      "epoch": 0.0285374489159183,
      "grad_norm": 2.875,
      "learning_rate": 3.970263287829656e-05,
      "loss": 0.6193,
      "step": 420900
    },
    {
      "epoch": 0.028605720324808057,
      "grad_norm": 2.5,
      "learning_rate": 3.969192479264711e-05,
      "loss": 0.5812,
      "step": 420950
    },
    {
      "epoch": 0.02867399173369781,
      "grad_norm": 3.1875,
      "learning_rate": 3.968121720074367e-05,
      "loss": 0.6231,
      "step": 421000
    },
    {
      "epoch": 0.028742263142587567,
      "grad_norm": 3.09375,
      "learning_rate": 3.967051010309915e-05,
      "loss": 0.5778,
      "step": 421050
    },
    {
      "epoch": 0.028810534551477324,
      "grad_norm": 6.53125,
      "learning_rate": 3.965980350022639e-05,
      "loss": 0.5671,
      "step": 421100
    },
    {
      "epoch": 0.02887880596036708,
      "grad_norm": 2.484375,
      "learning_rate": 3.964909739263819e-05,
      "loss": 0.562,
      "step": 421150
    },
    {
      "epoch": 0.02894707736925684,
      "grad_norm": 2.3125,
      "learning_rate": 3.9638391780847404e-05,
      "loss": 0.4752,
      "step": 421200
    },
    {
      "epoch": 0.029015348778146596,
      "grad_norm": 2.9375,
      "learning_rate": 3.962768666536682e-05,
      "loss": 0.5809,
      "step": 421250
    },
    {
      "epoch": 0.029083620187036353,
      "grad_norm": 6.4375,
      "learning_rate": 3.961698204670917e-05,
      "loss": 0.644,
      "step": 421300
    },
    {
      "epoch": 0.02915189159592611,
      "grad_norm": 2.90625,
      "learning_rate": 3.960627792538723e-05,
      "loss": 0.5676,
      "step": 421350
    },
    {
      "epoch": 0.029220163004815867,
      "grad_norm": 3.796875,
      "learning_rate": 3.9595574301913706e-05,
      "loss": 0.5791,
      "step": 421400
    },
    {
      "epoch": 0.02928843441370562,
      "grad_norm": 3.46875,
      "learning_rate": 3.9584871176801263e-05,
      "loss": 0.5936,
      "step": 421450
    },
    {
      "epoch": 0.029356705822595378,
      "grad_norm": 3.046875,
      "learning_rate": 3.9574168550562604e-05,
      "loss": 0.5919,
      "step": 421500
    },
    {
      "epoch": 0.029424977231485135,
      "grad_norm": 3.0625,
      "learning_rate": 3.9563466423710365e-05,
      "loss": 0.5064,
      "step": 421550
    },
    {
      "epoch": 0.02949324864037489,
      "grad_norm": 3.375,
      "learning_rate": 3.9552764796757144e-05,
      "loss": 0.5696,
      "step": 421600
    },
    {
      "epoch": 0.02956152004926465,
      "grad_norm": 3.046875,
      "learning_rate": 3.954206367021558e-05,
      "loss": 0.5961,
      "step": 421650
    },
    {
      "epoch": 0.029629791458154406,
      "grad_norm": 6.78125,
      "learning_rate": 3.9531363044598214e-05,
      "loss": 0.5175,
      "step": 421700
    },
    {
      "epoch": 0.029698062867044163,
      "grad_norm": 2.59375,
      "learning_rate": 3.95206629204176e-05,
      "loss": 0.6201,
      "step": 421750
    },
    {
      "epoch": 0.02976633427593392,
      "grad_norm": 2.453125,
      "learning_rate": 3.9509963298186245e-05,
      "loss": 0.604,
      "step": 421800
    },
    {
      "epoch": 0.029834605684823677,
      "grad_norm": 3.15625,
      "learning_rate": 3.94992641784167e-05,
      "loss": 0.585,
      "step": 421850
    },
    {
      "epoch": 0.02990287709371343,
      "grad_norm": 2.8125,
      "learning_rate": 3.9488565561621405e-05,
      "loss": 0.5803,
      "step": 421900
    },
    {
      "epoch": 0.029971148502603188,
      "grad_norm": 2.5,
      "learning_rate": 3.947786744831281e-05,
      "loss": 0.5793,
      "step": 421950
    },
    {
      "epoch": 0.030039419911492945,
      "grad_norm": 3.4375,
      "learning_rate": 3.946716983900335e-05,
      "loss": 0.5524,
      "step": 422000
    },
    {
      "epoch": 0.030107691320382702,
      "grad_norm": 3.734375,
      "learning_rate": 3.945647273420545e-05,
      "loss": 0.5677,
      "step": 422050
    },
    {
      "epoch": 0.03017596272927246,
      "grad_norm": 2.390625,
      "learning_rate": 3.944577613443144e-05,
      "loss": 0.578,
      "step": 422100
    },
    {
      "epoch": 0.030244234138162216,
      "grad_norm": 3.640625,
      "learning_rate": 3.9435080040193736e-05,
      "loss": 0.5837,
      "step": 422150
    },
    {
      "epoch": 0.030312505547051973,
      "grad_norm": 2.359375,
      "learning_rate": 3.942438445200465e-05,
      "loss": 0.6192,
      "step": 422200
    },
    {
      "epoch": 0.03038077695594173,
      "grad_norm": 2.90625,
      "learning_rate": 3.941368937037646e-05,
      "loss": 0.6519,
      "step": 422250
    },
    {
      "epoch": 0.030449048364831487,
      "grad_norm": 3.109375,
      "learning_rate": 3.940299479582146e-05,
      "loss": 0.5832,
      "step": 422300
    },
    {
      "epoch": 0.03051731977372124,
      "grad_norm": 3.09375,
      "learning_rate": 3.939230072885194e-05,
      "loss": 0.5365,
      "step": 422350
    },
    {
      "epoch": 0.030585591182610998,
      "grad_norm": 2.96875,
      "learning_rate": 3.938160716998012e-05,
      "loss": 0.6278,
      "step": 422400
    },
    {
      "epoch": 0.030653862591500755,
      "grad_norm": 2.453125,
      "learning_rate": 3.9370914119718184e-05,
      "loss": 0.5999,
      "step": 422450
    },
    {
      "epoch": 0.030722134000390512,
      "grad_norm": 6.75,
      "learning_rate": 3.9360221578578344e-05,
      "loss": 0.5735,
      "step": 422500
    },
    {
      "epoch": 0.03079040540928027,
      "grad_norm": 3.140625,
      "learning_rate": 3.934952954707277e-05,
      "loss": 0.5726,
      "step": 422550
    },
    {
      "epoch": 0.030858676818170026,
      "grad_norm": 2.90625,
      "learning_rate": 3.9338838025713556e-05,
      "loss": 0.5114,
      "step": 422600
    },
    {
      "epoch": 0.030926948227059783,
      "grad_norm": 2.703125,
      "learning_rate": 3.932814701501287e-05,
      "loss": 0.615,
      "step": 422650
    },
    {
      "epoch": 0.03099521963594954,
      "grad_norm": 6.40625,
      "learning_rate": 3.931745651548277e-05,
      "loss": 0.599,
      "step": 422700
    },
    {
      "epoch": 0.031063491044839298,
      "grad_norm": 3.6875,
      "learning_rate": 3.930676652763531e-05,
      "loss": 0.6351,
      "step": 422750
    },
    {
      "epoch": 0.03113176245372905,
      "grad_norm": 6.1875,
      "learning_rate": 3.929607705198254e-05,
      "loss": 0.5491,
      "step": 422800
    },
    {
      "epoch": 0.031200033862618808,
      "grad_norm": 2.453125,
      "learning_rate": 3.92853880890365e-05,
      "loss": 0.521,
      "step": 422850
    },
    {
      "epoch": 0.03126830527150857,
      "grad_norm": 2.9375,
      "learning_rate": 3.927469963930915e-05,
      "loss": 0.5853,
      "step": 422900
    },
    {
      "epoch": 0.031336576680398326,
      "grad_norm": 3.203125,
      "learning_rate": 3.926401170331245e-05,
      "loss": 0.5474,
      "step": 422950
    },
    {
      "epoch": 0.031404848089288076,
      "grad_norm": 3.171875,
      "learning_rate": 3.925332428155837e-05,
      "loss": 0.532,
      "step": 423000
    },
    {
      "epoch": 0.03147311949817783,
      "grad_norm": 2.890625,
      "learning_rate": 3.92426373745588e-05,
      "loss": 0.6501,
      "step": 423050
    },
    {
      "epoch": 0.03154139090706759,
      "grad_norm": 3.0,
      "learning_rate": 3.923195098282563e-05,
      "loss": 0.5976,
      "step": 423100
    },
    {
      "epoch": 0.03160966231595735,
      "grad_norm": 3.265625,
      "learning_rate": 3.9221265106870765e-05,
      "loss": 0.5445,
      "step": 423150
    },
    {
      "epoch": 0.031677933724847104,
      "grad_norm": 2.671875,
      "learning_rate": 3.921057974720601e-05,
      "loss": 0.5454,
      "step": 423200
    },
    {
      "epoch": 0.03174620513373686,
      "grad_norm": 9.4375,
      "learning_rate": 3.9199894904343184e-05,
      "loss": 0.6605,
      "step": 423250
    },
    {
      "epoch": 0.03181447654262662,
      "grad_norm": 2.328125,
      "learning_rate": 3.9189210578794094e-05,
      "loss": 0.5387,
      "step": 423300
    },
    {
      "epoch": 0.031882747951516376,
      "grad_norm": 3.015625,
      "learning_rate": 3.917852677107052e-05,
      "loss": 0.5177,
      "step": 423350
    },
    {
      "epoch": 0.03195101936040613,
      "grad_norm": 2.390625,
      "learning_rate": 3.916784348168416e-05,
      "loss": 0.5545,
      "step": 423400
    },
    {
      "epoch": 0.03201929076929589,
      "grad_norm": 6.6875,
      "learning_rate": 3.915716071114679e-05,
      "loss": 0.5501,
      "step": 423450
    },
    {
      "epoch": 0.03208756217818565,
      "grad_norm": 2.375,
      "learning_rate": 3.914647845997007e-05,
      "loss": 0.5475,
      "step": 423500
    },
    {
      "epoch": 0.032155833587075404,
      "grad_norm": 3.5,
      "learning_rate": 3.9135796728665664e-05,
      "loss": 0.5795,
      "step": 423550
    },
    {
      "epoch": 0.03222410499596516,
      "grad_norm": 2.65625,
      "learning_rate": 3.9125115517745206e-05,
      "loss": 0.5179,
      "step": 423600
    },
    {
      "epoch": 0.03229237640485492,
      "grad_norm": 2.421875,
      "learning_rate": 3.911443482772037e-05,
      "loss": 0.5778,
      "step": 423650
    },
    {
      "epoch": 0.032360647813744675,
      "grad_norm": 2.953125,
      "learning_rate": 3.910375465910271e-05,
      "loss": 0.5658,
      "step": 423700
    },
    {
      "epoch": 0.03242891922263443,
      "grad_norm": 2.3125,
      "learning_rate": 3.9093075012403766e-05,
      "loss": 0.5555,
      "step": 423750
    },
    {
      "epoch": 0.03249719063152419,
      "grad_norm": 6.5625,
      "learning_rate": 3.9082395888135136e-05,
      "loss": 0.6402,
      "step": 423800
    },
    {
      "epoch": 0.032565462040413946,
      "grad_norm": 3.140625,
      "learning_rate": 3.9071717286808324e-05,
      "loss": 0.5569,
      "step": 423850
    },
    {
      "epoch": 0.032633733449303697,
      "grad_norm": 2.375,
      "learning_rate": 3.9061039208934796e-05,
      "loss": 0.544,
      "step": 423900
    },
    {
      "epoch": 0.032702004858193454,
      "grad_norm": 2.5,
      "learning_rate": 3.905036165502607e-05,
      "loss": 0.5366,
      "step": 423950
    },
    {
      "epoch": 0.03277027626708321,
      "grad_norm": 3.203125,
      "learning_rate": 3.903968462559355e-05,
      "loss": 0.6139,
      "step": 424000
    },
    {
      "epoch": 0.03283854767597297,
      "grad_norm": 3.03125,
      "learning_rate": 3.9029008121148666e-05,
      "loss": 0.5697,
      "step": 424050
    },
    {
      "epoch": 0.032906819084862725,
      "grad_norm": 3.5625,
      "learning_rate": 3.90183321422028e-05,
      "loss": 0.5529,
      "step": 424100
    },
    {
      "epoch": 0.03297509049375248,
      "grad_norm": 2.9375,
      "learning_rate": 3.9007656689267344e-05,
      "loss": 0.5779,
      "step": 424150
    },
    {
      "epoch": 0.03304336190264224,
      "grad_norm": 3.171875,
      "learning_rate": 3.8996981762853635e-05,
      "loss": 0.592,
      "step": 424200
    },
    {
      "epoch": 0.033111633311531996,
      "grad_norm": 3.171875,
      "learning_rate": 3.898630736347296e-05,
      "loss": 0.6699,
      "step": 424250
    },
    {
      "epoch": 0.03317990472042175,
      "grad_norm": 2.34375,
      "learning_rate": 3.8975633491636656e-05,
      "loss": 0.6943,
      "step": 424300
    },
    {
      "epoch": 0.03324817612931151,
      "grad_norm": 2.75,
      "learning_rate": 3.896496014785597e-05,
      "loss": 0.6153,
      "step": 424350
    },
    {
      "epoch": 0.03331644753820127,
      "grad_norm": 3.46875,
      "learning_rate": 3.895428733264213e-05,
      "loss": 0.565,
      "step": 424400
    },
    {
      "epoch": 0.033384718947091024,
      "grad_norm": 2.890625,
      "learning_rate": 3.894361504650639e-05,
      "loss": 0.5386,
      "step": 424450
    },
    {
      "epoch": 0.03345299035598078,
      "grad_norm": 6.46875,
      "learning_rate": 3.893294328995991e-05,
      "loss": 0.6768,
      "step": 424500
    },
    {
      "epoch": 0.03352126176487054,
      "grad_norm": 2.4375,
      "learning_rate": 3.8922272063513846e-05,
      "loss": 0.4898,
      "step": 424550
    },
    {
      "epoch": 0.033589533173760296,
      "grad_norm": 4.3125,
      "learning_rate": 3.8911601367679375e-05,
      "loss": 0.6158,
      "step": 424600
    },
    {
      "epoch": 0.03365780458265005,
      "grad_norm": 3.53125,
      "learning_rate": 3.89009312029676e-05,
      "loss": 0.5763,
      "step": 424650
    },
    {
      "epoch": 0.03372607599153981,
      "grad_norm": 3.65625,
      "learning_rate": 3.8890261569889604e-05,
      "loss": 0.4768,
      "step": 424700
    },
    {
      "epoch": 0.03379434740042957,
      "grad_norm": 8.3125,
      "learning_rate": 3.887959246895643e-05,
      "loss": 0.6472,
      "step": 424750
    },
    {
      "epoch": 0.03386261880931932,
      "grad_norm": 7.6875,
      "learning_rate": 3.886892390067916e-05,
      "loss": 0.5624,
      "step": 424800
    },
    {
      "epoch": 0.033930890218209074,
      "grad_norm": 7.375,
      "learning_rate": 3.885825586556878e-05,
      "loss": 0.5605,
      "step": 424850
    },
    {
      "epoch": 0.03399916162709883,
      "grad_norm": 3.359375,
      "learning_rate": 3.884758836413627e-05,
      "loss": 0.5194,
      "step": 424900
    },
    {
      "epoch": 0.03406743303598859,
      "grad_norm": 3.015625,
      "learning_rate": 3.883692139689263e-05,
      "loss": 0.6435,
      "step": 424950
    },
    {
      "epoch": 0.034135704444878345,
      "grad_norm": 2.953125,
      "learning_rate": 3.882625496434877e-05,
      "loss": 0.5725,
      "step": 425000
    },
    {
      "epoch": 0.0342039758537681,
      "grad_norm": 2.328125,
      "learning_rate": 3.881558906701558e-05,
      "loss": 0.5462,
      "step": 425050
    },
    {
      "epoch": 0.03427224726265786,
      "grad_norm": 2.859375,
      "learning_rate": 3.8804923705403985e-05,
      "loss": 0.5213,
      "step": 425100
    },
    {
      "epoch": 0.03434051867154762,
      "grad_norm": 2.90625,
      "learning_rate": 3.8794258880024834e-05,
      "loss": 0.6175,
      "step": 425150
    },
    {
      "epoch": 0.034408790080437374,
      "grad_norm": 2.359375,
      "learning_rate": 3.878359459138894e-05,
      "loss": 0.5186,
      "step": 425200
    },
    {
      "epoch": 0.03447706148932713,
      "grad_norm": 3.8125,
      "learning_rate": 3.8772930840007146e-05,
      "loss": 0.5136,
      "step": 425250
    },
    {
      "epoch": 0.03454533289821689,
      "grad_norm": 3.15625,
      "learning_rate": 3.876226762639021e-05,
      "loss": 0.4611,
      "step": 425300
    },
    {
      "epoch": 0.034613604307106645,
      "grad_norm": 2.875,
      "learning_rate": 3.875160495104889e-05,
      "loss": 0.518,
      "step": 425350
    },
    {
      "epoch": 0.0346818757159964,
      "grad_norm": 2.265625,
      "learning_rate": 3.874094281449391e-05,
      "loss": 0.5219,
      "step": 425400
    },
    {
      "epoch": 0.03475014712488616,
      "grad_norm": 2.53125,
      "learning_rate": 3.873028121723601e-05,
      "loss": 0.5963,
      "step": 425450
    },
    {
      "epoch": 0.034818418533775916,
      "grad_norm": 5.15625,
      "learning_rate": 3.871962015978584e-05,
      "loss": 0.619,
      "step": 425500
    },
    {
      "epoch": 0.03488668994266567,
      "grad_norm": 3.546875,
      "learning_rate": 3.8708959642654034e-05,
      "loss": 0.5639,
      "step": 425550
    },
    {
      "epoch": 0.03495496135155543,
      "grad_norm": 3.203125,
      "learning_rate": 3.869829966635127e-05,
      "loss": 0.5068,
      "step": 425600
    },
    {
      "epoch": 0.03502323276044519,
      "grad_norm": 3.59375,
      "learning_rate": 3.8687640231388125e-05,
      "loss": 0.5352,
      "step": 425650
    },
    {
      "epoch": 0.03509150416933494,
      "grad_norm": 3.46875,
      "learning_rate": 3.867698133827515e-05,
      "loss": 0.5916,
      "step": 425700
    },
    {
      "epoch": 0.035159775578224695,
      "grad_norm": 2.8125,
      "learning_rate": 3.866632298752294e-05,
      "loss": 0.6134,
      "step": 425750
    },
    {
      "epoch": 0.03522804698711445,
      "grad_norm": 2.421875,
      "learning_rate": 3.865566517964201e-05,
      "loss": 0.5274,
      "step": 425800
    },
    {
      "epoch": 0.03529631839600421,
      "grad_norm": 6.6875,
      "learning_rate": 3.8645007915142825e-05,
      "loss": 0.5649,
      "step": 425850
    },
    {
      "epoch": 0.035364589804893966,
      "grad_norm": 3.5,
      "learning_rate": 3.8634351194535865e-05,
      "loss": 0.5107,
      "step": 425900
    },
    {
      "epoch": 0.03543286121378372,
      "grad_norm": 2.359375,
      "learning_rate": 3.8623695018331616e-05,
      "loss": 0.5643,
      "step": 425950
    },
    {
      "epoch": 0.03550113262267348,
      "grad_norm": 4.5,
      "learning_rate": 3.8613039387040475e-05,
      "loss": 0.5195,
      "step": 426000
    },
    {
      "epoch": 0.03556940403156324,
      "grad_norm": 3.515625,
      "learning_rate": 3.86023843011728e-05,
      "loss": 0.5623,
      "step": 426050
    },
    {
      "epoch": 0.035637675440452994,
      "grad_norm": 2.640625,
      "learning_rate": 3.859172976123901e-05,
      "loss": 0.5181,
      "step": 426100
    },
    {
      "epoch": 0.03570594684934275,
      "grad_norm": 3.109375,
      "learning_rate": 3.858107576774942e-05,
      "loss": 0.5404,
      "step": 426150
    },
    {
      "epoch": 0.03577421825823251,
      "grad_norm": 3.125,
      "learning_rate": 3.857042232121434e-05,
      "loss": 0.616,
      "step": 426200
    },
    {
      "epoch": 0.035842489667122265,
      "grad_norm": 3.609375,
      "learning_rate": 3.855976942214409e-05,
      "loss": 0.5399,
      "step": 426250
    },
    {
      "epoch": 0.03591076107601202,
      "grad_norm": 2.4375,
      "learning_rate": 3.85491170710489e-05,
      "loss": 0.672,
      "step": 426300
    },
    {
      "epoch": 0.03597903248490178,
      "grad_norm": 2.984375,
      "learning_rate": 3.853846526843901e-05,
      "loss": 0.5376,
      "step": 426350
    },
    {
      "epoch": 0.03604730389379154,
      "grad_norm": 3.359375,
      "learning_rate": 3.852781401482465e-05,
      "loss": 0.5712,
      "step": 426400
    },
    {
      "epoch": 0.036115575302681294,
      "grad_norm": 3.40625,
      "learning_rate": 3.8517163310715995e-05,
      "loss": 0.5671,
      "step": 426450
    },
    {
      "epoch": 0.03618384671157105,
      "grad_norm": 2.5,
      "learning_rate": 3.850651315662321e-05,
      "loss": 0.5375,
      "step": 426500
    },
    {
      "epoch": 0.03625211812046081,
      "grad_norm": 3.515625,
      "learning_rate": 3.849586355305639e-05,
      "loss": 0.583,
      "step": 426550
    },
    {
      "epoch": 0.03632038952935056,
      "grad_norm": 3.484375,
      "learning_rate": 3.848521450052569e-05,
      "loss": 0.5748,
      "step": 426600
    },
    {
      "epoch": 0.036388660938240315,
      "grad_norm": 7.03125,
      "learning_rate": 3.847456599954116e-05,
      "loss": 0.5517,
      "step": 426650
    },
    {
      "epoch": 0.03645693234713007,
      "grad_norm": 2.453125,
      "learning_rate": 3.846391805061283e-05,
      "loss": 0.5436,
      "step": 426700
    },
    {
      "epoch": 0.03652520375601983,
      "grad_norm": 7.875,
      "learning_rate": 3.845327065425079e-05,
      "loss": 0.4758,
      "step": 426750
    },
    {
      "epoch": 0.036593475164909586,
      "grad_norm": 3.53125,
      "learning_rate": 3.8442623810965e-05,
      "loss": 0.5673,
      "step": 426800
    },
    {
      "epoch": 0.03666174657379934,
      "grad_norm": 3.40625,
      "learning_rate": 3.843197752126541e-05,
      "loss": 0.643,
      "step": 426850
    },
    {
      "epoch": 0.0367300179826891,
      "grad_norm": 2.484375,
      "learning_rate": 3.8421331785662e-05,
      "loss": 0.5463,
      "step": 426900
    },
    {
      "epoch": 0.03679828939157886,
      "grad_norm": 3.015625,
      "learning_rate": 3.841068660466468e-05,
      "loss": 0.6161,
      "step": 426950
    },
    {
      "epoch": 0.036866560800468615,
      "grad_norm": 3.171875,
      "learning_rate": 3.8400041978783356e-05,
      "loss": 0.4755,
      "step": 427000
    },
    {
      "epoch": 0.03693483220935837,
      "grad_norm": 3.015625,
      "learning_rate": 3.838939790852786e-05,
      "loss": 0.6082,
      "step": 427050
    },
    {
      "epoch": 0.03700310361824813,
      "grad_norm": 2.3125,
      "learning_rate": 3.837875439440807e-05,
      "loss": 0.5193,
      "step": 427100
    },
    {
      "epoch": 0.037071375027137886,
      "grad_norm": 3.375,
      "learning_rate": 3.836811143693377e-05,
      "loss": 0.5408,
      "step": 427150
    },
    {
      "epoch": 0.03713964643602764,
      "grad_norm": 9.0625,
      "learning_rate": 3.8357469036614756e-05,
      "loss": 0.5077,
      "step": 427200
    },
    {
      "epoch": 0.0372079178449174,
      "grad_norm": 2.734375,
      "learning_rate": 3.834682719396081e-05,
      "loss": 0.5549,
      "step": 427250
    },
    {
      "epoch": 0.03727618925380716,
      "grad_norm": 3.046875,
      "learning_rate": 3.833618590948165e-05,
      "loss": 0.5529,
      "step": 427300
    },
    {
      "epoch": 0.037344460662696914,
      "grad_norm": 4.5,
      "learning_rate": 3.832554518368695e-05,
      "loss": 0.5503,
      "step": 427350
    },
    {
      "epoch": 0.03741273207158667,
      "grad_norm": 2.515625,
      "learning_rate": 3.831490501708643e-05,
      "loss": 0.6632,
      "step": 427400
    },
    {
      "epoch": 0.03748100348047643,
      "grad_norm": 2.296875,
      "learning_rate": 3.830426541018974e-05,
      "loss": 0.5656,
      "step": 427450
    },
    {
      "epoch": 0.03754927488936618,
      "grad_norm": 7.9375,
      "learning_rate": 3.8293626363506486e-05,
      "loss": 0.6184,
      "step": 427500
    },
    {
      "epoch": 0.037617546298255936,
      "grad_norm": 7.71875,
      "learning_rate": 3.828298787754629e-05,
      "loss": 0.5961,
      "step": 427550
    },
    {
      "epoch": 0.03768581770714569,
      "grad_norm": 3.125,
      "learning_rate": 3.827234995281871e-05,
      "loss": 0.5616,
      "step": 427600
    },
    {
      "epoch": 0.03775408911603545,
      "grad_norm": 6.25,
      "learning_rate": 3.826171258983329e-05,
      "loss": 0.4828,
      "step": 427650
    },
    {
      "epoch": 0.03782236052492521,
      "grad_norm": 2.234375,
      "learning_rate": 3.825107578909954e-05,
      "loss": 0.653,
      "step": 427700
    },
    {
      "epoch": 0.037890631933814964,
      "grad_norm": 4.375,
      "learning_rate": 3.824043955112698e-05,
      "loss": 0.5179,
      "step": 427750
    },
    {
      "epoch": 0.03795890334270472,
      "grad_norm": 3.9375,
      "learning_rate": 3.822980387642507e-05,
      "loss": 0.5734,
      "step": 427800
    },
    {
      "epoch": 0.03802717475159448,
      "grad_norm": 3.296875,
      "learning_rate": 3.821916876550321e-05,
      "loss": 0.5948,
      "step": 427850
    },
    {
      "epoch": 0.038095446160484235,
      "grad_norm": 6.9375,
      "learning_rate": 3.820853421887086e-05,
      "loss": 0.6024,
      "step": 427900
    },
    {
      "epoch": 0.03816371756937399,
      "grad_norm": 2.484375,
      "learning_rate": 3.819790023703737e-05,
      "loss": 0.565,
      "step": 427950
    },
    {
      "epoch": 0.03823198897826375,
      "grad_norm": 3.34375,
      "learning_rate": 3.818726682051209e-05,
      "loss": 0.4818,
      "step": 428000
    },
    {
      "epoch": 0.038300260387153506,
      "grad_norm": 2.890625,
      "learning_rate": 3.8176633969804396e-05,
      "loss": 0.6185,
      "step": 428050
    },
    {
      "epoch": 0.03836853179604326,
      "grad_norm": 2.875,
      "learning_rate": 3.816600168542355e-05,
      "loss": 0.5055,
      "step": 428100
    },
    {
      "epoch": 0.03843680320493302,
      "grad_norm": 3.4375,
      "learning_rate": 3.815536996787883e-05,
      "loss": 0.6307,
      "step": 428150
    },
    {
      "epoch": 0.03850507461382278,
      "grad_norm": 6.9375,
      "learning_rate": 3.81447388176795e-05,
      "loss": 0.5869,
      "step": 428200
    },
    {
      "epoch": 0.038573346022712535,
      "grad_norm": 2.375,
      "learning_rate": 3.813410823533479e-05,
      "loss": 0.5938,
      "step": 428250
    },
    {
      "epoch": 0.03864161743160229,
      "grad_norm": 4.1875,
      "learning_rate": 3.812347822135386e-05,
      "loss": 0.4726,
      "step": 428300
    },
    {
      "epoch": 0.03870988884049205,
      "grad_norm": 2.40625,
      "learning_rate": 3.811284877624589e-05,
      "loss": 0.5017,
      "step": 428350
    },
    {
      "epoch": 0.0387781602493818,
      "grad_norm": 2.328125,
      "learning_rate": 3.8102219900520037e-05,
      "loss": 0.5012,
      "step": 428400
    },
    {
      "epoch": 0.038846431658271556,
      "grad_norm": 2.421875,
      "learning_rate": 3.8091591594685395e-05,
      "loss": 0.5814,
      "step": 428450
    },
    {
      "epoch": 0.03891470306716131,
      "grad_norm": 6.46875,
      "learning_rate": 3.8080963859251034e-05,
      "loss": 0.6351,
      "step": 428500
    },
    {
      "epoch": 0.03898297447605107,
      "grad_norm": 3.859375,
      "learning_rate": 3.8070336694726054e-05,
      "loss": 0.5822,
      "step": 428550
    },
    {
      "epoch": 0.03905124588494083,
      "grad_norm": 2.5,
      "learning_rate": 3.805971010161947e-05,
      "loss": 0.601,
      "step": 428600
    },
    {
      "epoch": 0.039119517293830584,
      "grad_norm": 2.25,
      "learning_rate": 3.804908408044024e-05,
      "loss": 0.4739,
      "step": 428650
    },
    {
      "epoch": 0.03918778870272034,
      "grad_norm": 7.40625,
      "learning_rate": 3.8038458631697396e-05,
      "loss": 0.578,
      "step": 428700
    },
    {
      "epoch": 0.0392560601116101,
      "grad_norm": 2.671875,
      "learning_rate": 3.802783375589988e-05,
      "loss": 0.5176,
      "step": 428750
    },
    {
      "epoch": 0.039324331520499856,
      "grad_norm": 2.578125,
      "learning_rate": 3.801720945355659e-05,
      "loss": 0.5458,
      "step": 428800
    },
    {
      "epoch": 0.03939260292938961,
      "grad_norm": 7.96875,
      "learning_rate": 3.800658572517641e-05,
      "loss": 0.4867,
      "step": 428850
    },
    {
      "epoch": 0.03946087433827937,
      "grad_norm": 2.90625,
      "learning_rate": 3.799596257126825e-05,
      "loss": 0.552,
      "step": 428900
    },
    {
      "epoch": 0.03952914574716913,
      "grad_norm": 3.09375,
      "learning_rate": 3.79853399923409e-05,
      "loss": 0.5607,
      "step": 428950
    },
    {
      "epoch": 0.039597417156058884,
      "grad_norm": 3.21875,
      "learning_rate": 3.7974717988903174e-05,
      "loss": 0.6162,
      "step": 429000
    },
    {
      "epoch": 0.03966568856494864,
      "grad_norm": 2.65625,
      "learning_rate": 3.79640965614639e-05,
      "loss": 0.5398,
      "step": 429050
    },
    {
      "epoch": 0.0397339599738384,
      "grad_norm": 3.796875,
      "learning_rate": 3.795347571053181e-05,
      "loss": 0.5299,
      "step": 429100
    },
    {
      "epoch": 0.039802231382728155,
      "grad_norm": 3.859375,
      "learning_rate": 3.79428554366156e-05,
      "loss": 0.4842,
      "step": 429150
    },
    {
      "epoch": 0.03987050279161791,
      "grad_norm": 5.0625,
      "learning_rate": 3.793223574022402e-05,
      "loss": 0.5225,
      "step": 429200
    },
    {
      "epoch": 0.03993877420050767,
      "grad_norm": 3.046875,
      "learning_rate": 3.792161662186571e-05,
      "loss": 0.5816,
      "step": 429250
    },
    {
      "epoch": 0.04000704560939742,
      "grad_norm": 2.875,
      "learning_rate": 3.791099808204931e-05,
      "loss": 0.517,
      "step": 429300
    },
    {
      "epoch": 0.040075317018287177,
      "grad_norm": 3.390625,
      "learning_rate": 3.790038012128347e-05,
      "loss": 0.6182,
      "step": 429350
    },
    {
      "epoch": 0.040143588427176934,
      "grad_norm": 2.9375,
      "learning_rate": 3.788976274007676e-05,
      "loss": 0.5757,
      "step": 429400
    },
    {
      "epoch": 0.04021185983606669,
      "grad_norm": 2.96875,
      "learning_rate": 3.7879145938937734e-05,
      "loss": 0.5687,
      "step": 429450
    },
    {
      "epoch": 0.04028013124495645,
      "grad_norm": 2.453125,
      "learning_rate": 3.7868529718374915e-05,
      "loss": 0.5315,
      "step": 429500
    },
    {
      "epoch": 0.040348402653846205,
      "grad_norm": 3.09375,
      "learning_rate": 3.785791407889686e-05,
      "loss": 0.5501,
      "step": 429550
    },
    {
      "epoch": 0.04041667406273596,
      "grad_norm": 3.1875,
      "learning_rate": 3.7847299021012e-05,
      "loss": 0.5484,
      "step": 429600
    },
    {
      "epoch": 0.04048494547162572,
      "grad_norm": 2.421875,
      "learning_rate": 3.7836684545228785e-05,
      "loss": 0.4979,
      "step": 429650
    },
    {
      "epoch": 0.040553216880515476,
      "grad_norm": 3.5625,
      "learning_rate": 3.782607065205567e-05,
      "loss": 0.5656,
      "step": 429700
    },
    {
      "epoch": 0.04062148828940523,
      "grad_norm": 2.890625,
      "learning_rate": 3.7815457342001024e-05,
      "loss": 0.5793,
      "step": 429750
    },
    {
      "epoch": 0.04068975969829499,
      "grad_norm": 3.921875,
      "learning_rate": 3.7804844615573207e-05,
      "loss": 0.6518,
      "step": 429800
    },
    {
      "epoch": 0.04075803110718475,
      "grad_norm": 3.53125,
      "learning_rate": 3.7794232473280587e-05,
      "loss": 0.5775,
      "step": 429850
    },
    {
      "epoch": 0.040826302516074504,
      "grad_norm": 3.125,
      "learning_rate": 3.7783620915631466e-05,
      "loss": 0.6287,
      "step": 429900
    },
    {
      "epoch": 0.04089457392496426,
      "grad_norm": 2.890625,
      "learning_rate": 3.777300994313409e-05,
      "loss": 0.617,
      "step": 429950
    },
    {
      "epoch": 0.04096284533385402,
      "grad_norm": 3.0625,
      "learning_rate": 3.7762399556296755e-05,
      "loss": 0.5429,
      "step": 430000
    },
    {
      "epoch": 0.041031116742743776,
      "grad_norm": 3.6875,
      "learning_rate": 3.775178975562769e-05,
      "loss": 0.5413,
      "step": 430050
    },
    {
      "epoch": 0.04109938815163353,
      "grad_norm": 2.65625,
      "learning_rate": 3.774118054163507e-05,
      "loss": 0.5515,
      "step": 430100
    },
    {
      "epoch": 0.04116765956052329,
      "grad_norm": 3.5,
      "learning_rate": 3.7730571914827054e-05,
      "loss": 0.4992,
      "step": 430150
    },
    {
      "epoch": 0.04123593096941304,
      "grad_norm": 2.40625,
      "learning_rate": 3.7719963875711826e-05,
      "loss": 0.6097,
      "step": 430200
    },
    {
      "epoch": 0.0413042023783028,
      "grad_norm": 2.421875,
      "learning_rate": 3.770935642479747e-05,
      "loss": 0.5588,
      "step": 430250
    },
    {
      "epoch": 0.041372473787192554,
      "grad_norm": 2.84375,
      "learning_rate": 3.769874956259206e-05,
      "loss": 0.4523,
      "step": 430300
    },
    {
      "epoch": 0.04144074519608231,
      "grad_norm": 2.4375,
      "learning_rate": 3.7688143289603695e-05,
      "loss": 0.4735,
      "step": 430350
    },
    {
      "epoch": 0.04150901660497207,
      "grad_norm": 2.734375,
      "learning_rate": 3.7677537606340384e-05,
      "loss": 0.5534,
      "step": 430400
    },
    {
      "epoch": 0.041577288013861825,
      "grad_norm": 3.140625,
      "learning_rate": 3.76669325133101e-05,
      "loss": 0.5462,
      "step": 430450
    },
    {
      "epoch": 0.04164555942275158,
      "grad_norm": 3.296875,
      "learning_rate": 3.765632801102086e-05,
      "loss": 0.6403,
      "step": 430500
    },
    {
      "epoch": 0.04171383083164134,
      "grad_norm": 3.140625,
      "learning_rate": 3.76457240999806e-05,
      "loss": 0.5787,
      "step": 430550
    },
    {
      "epoch": 0.0417821022405311,
      "grad_norm": 2.3125,
      "learning_rate": 3.7635120780697226e-05,
      "loss": 0.5791,
      "step": 430600
    },
    {
      "epoch": 0.041850373649420854,
      "grad_norm": 4.15625,
      "learning_rate": 3.76245180536786e-05,
      "loss": 0.6105,
      "step": 430650
    },
    {
      "epoch": 0.04191864505831061,
      "grad_norm": 3.015625,
      "learning_rate": 3.761391591943264e-05,
      "loss": 0.496,
      "step": 430700
    },
    {
      "epoch": 0.04198691646720037,
      "grad_norm": 2.515625,
      "learning_rate": 3.760331437846712e-05,
      "loss": 0.5279,
      "step": 430750
    },
    {
      "epoch": 0.042055187876090125,
      "grad_norm": 2.953125,
      "learning_rate": 3.759271343128986e-05,
      "loss": 0.5731,
      "step": 430800
    },
    {
      "epoch": 0.04212345928497988,
      "grad_norm": 7.21875,
      "learning_rate": 3.758211307840868e-05,
      "loss": 0.5483,
      "step": 430850
    },
    {
      "epoch": 0.04219173069386964,
      "grad_norm": 2.796875,
      "learning_rate": 3.757151332033127e-05,
      "loss": 0.6563,
      "step": 430900
    },
    {
      "epoch": 0.042260002102759396,
      "grad_norm": 7.8125,
      "learning_rate": 3.756091415756535e-05,
      "loss": 0.6043,
      "step": 430950
    },
    {
      "epoch": 0.04232827351164915,
      "grad_norm": 6.71875,
      "learning_rate": 3.7550315590618645e-05,
      "loss": 0.5892,
      "step": 431000
    },
    {
      "epoch": 0.04239654492053891,
      "grad_norm": 4.1875,
      "learning_rate": 3.7539717619998785e-05,
      "loss": 0.5268,
      "step": 431050
    },
    {
      "epoch": 0.04246481632942867,
      "grad_norm": 3.1875,
      "learning_rate": 3.7529120246213404e-05,
      "loss": 0.5545,
      "step": 431100
    },
    {
      "epoch": 0.04253308773831842,
      "grad_norm": 7.8125,
      "learning_rate": 3.7518523469770124e-05,
      "loss": 0.5685,
      "step": 431150
    },
    {
      "epoch": 0.042601359147208175,
      "grad_norm": 3.375,
      "learning_rate": 3.750792729117651e-05,
      "loss": 0.534,
      "step": 431200
    },
    {
      "epoch": 0.04266963055609793,
      "grad_norm": 2.6875,
      "learning_rate": 3.74973317109401e-05,
      "loss": 0.4799,
      "step": 431250
    },
    {
      "epoch": 0.04273790196498769,
      "grad_norm": 2.515625,
      "learning_rate": 3.7486736729568403e-05,
      "loss": 0.4643,
      "step": 431300
    },
    {
      "epoch": 0.042806173373877446,
      "grad_norm": 2.78125,
      "learning_rate": 3.7476142347568945e-05,
      "loss": 0.5718,
      "step": 431350
    },
    {
      "epoch": 0.0428744447827672,
      "grad_norm": 2.328125,
      "learning_rate": 3.746554856544916e-05,
      "loss": 0.5329,
      "step": 431400
    },
    {
      "epoch": 0.04294271619165696,
      "grad_norm": 9.0,
      "learning_rate": 3.745495538371646e-05,
      "loss": 0.5398,
      "step": 431450
    },
    {
      "epoch": 0.04301098760054672,
      "grad_norm": 3.109375,
      "learning_rate": 3.7444362802878285e-05,
      "loss": 0.5811,
      "step": 431500
    },
    {
      "epoch": 0.043079259009436474,
      "grad_norm": 2.953125,
      "learning_rate": 3.743377082344198e-05,
      "loss": 0.4989,
      "step": 431550
    },
    {
      "epoch": 0.04314753041832623,
      "grad_norm": 3.171875,
      "learning_rate": 3.7423179445914905e-05,
      "loss": 0.5634,
      "step": 431600
    },
    {
      "epoch": 0.04321580182721599,
      "grad_norm": 3.640625,
      "learning_rate": 3.7412588670804384e-05,
      "loss": 0.5659,
      "step": 431650
    },
    {
      "epoch": 0.043284073236105745,
      "grad_norm": 3.078125,
      "learning_rate": 3.740199849861769e-05,
      "loss": 0.5319,
      "step": 431700
    },
    {
      "epoch": 0.0433523446449955,
      "grad_norm": 4.46875,
      "learning_rate": 3.739140892986207e-05,
      "loss": 0.5144,
      "step": 431750
    },
    {
      "epoch": 0.04342061605388526,
      "grad_norm": 3.3125,
      "learning_rate": 3.7380819965044774e-05,
      "loss": 0.4612,
      "step": 431800
    },
    {
      "epoch": 0.04348888746277502,
      "grad_norm": 3.1875,
      "learning_rate": 3.7370231604673e-05,
      "loss": 0.5468,
      "step": 431850
    },
    {
      "epoch": 0.043557158871664774,
      "grad_norm": 3.109375,
      "learning_rate": 3.735964384925392e-05,
      "loss": 0.5192,
      "step": 431900
    },
    {
      "epoch": 0.04362543028055453,
      "grad_norm": 2.921875,
      "learning_rate": 3.734905669929466e-05,
      "loss": 0.5732,
      "step": 431950
    },
    {
      "epoch": 0.04369370168944429,
      "grad_norm": 3.078125,
      "learning_rate": 3.733847015530235e-05,
      "loss": 0.5389,
      "step": 432000
    },
    {
      "epoch": 0.04376197309833404,
      "grad_norm": 2.46875,
      "learning_rate": 3.732788421778407e-05,
      "loss": 0.4699,
      "step": 432050
    },
    {
      "epoch": 0.043830244507223795,
      "grad_norm": 3.59375,
      "learning_rate": 3.731729888724686e-05,
      "loss": 0.614,
      "step": 432100
    },
    {
      "epoch": 0.04389851591611355,
      "grad_norm": 6.90625,
      "learning_rate": 3.7306714164197775e-05,
      "loss": 0.5151,
      "step": 432150
    },
    {
      "epoch": 0.04396678732500331,
      "grad_norm": 3.125,
      "learning_rate": 3.729613004914381e-05,
      "loss": 0.5869,
      "step": 432200
    },
    {
      "epoch": 0.044035058733893066,
      "grad_norm": 7.625,
      "learning_rate": 3.7285546542591884e-05,
      "loss": 0.5374,
      "step": 432250
    },
    {
      "epoch": 0.04410333014278282,
      "grad_norm": 3.0625,
      "learning_rate": 3.7274963645049e-05,
      "loss": 0.5177,
      "step": 432300
    },
    {
      "epoch": 0.04417160155167258,
      "grad_norm": 2.5625,
      "learning_rate": 3.726438135702204e-05,
      "loss": 0.5918,
      "step": 432350
    },
    {
      "epoch": 0.04423987296056234,
      "grad_norm": 2.4375,
      "learning_rate": 3.725379967901789e-05,
      "loss": 0.5452,
      "step": 432400
    },
    {
      "epoch": 0.044308144369452095,
      "grad_norm": 3.0,
      "learning_rate": 3.7243218611543373e-05,
      "loss": 0.6048,
      "step": 432450
    },
    {
      "epoch": 0.04437641577834185,
      "grad_norm": 2.46875,
      "learning_rate": 3.723263815510536e-05,
      "loss": 0.4998,
      "step": 432500
    },
    {
      "epoch": 0.04444468718723161,
      "grad_norm": 2.734375,
      "learning_rate": 3.722205831021059e-05,
      "loss": 0.6309,
      "step": 432550
    },
    {
      "epoch": 0.044512958596121366,
      "grad_norm": 3.484375,
      "learning_rate": 3.7211479077365865e-05,
      "loss": 0.5568,
      "step": 432600
    },
    {
      "epoch": 0.04458123000501112,
      "grad_norm": 2.609375,
      "learning_rate": 3.720090045707792e-05,
      "loss": 0.5269,
      "step": 432650
    },
    {
      "epoch": 0.04464950141390088,
      "grad_norm": 3.0,
      "learning_rate": 3.719032244985345e-05,
      "loss": 0.5276,
      "step": 432700
    },
    {
      "epoch": 0.04471777282279064,
      "grad_norm": 2.875,
      "learning_rate": 3.717974505619911e-05,
      "loss": 0.567,
      "step": 432750
    },
    {
      "epoch": 0.044786044231680394,
      "grad_norm": 3.390625,
      "learning_rate": 3.716916827662158e-05,
      "loss": 0.4931,
      "step": 432800
    },
    {
      "epoch": 0.04485431564057015,
      "grad_norm": 7.03125,
      "learning_rate": 3.7158592111627455e-05,
      "loss": 0.568,
      "step": 432850
    },
    {
      "epoch": 0.04492258704945991,
      "grad_norm": 3.203125,
      "learning_rate": 3.714801656172332e-05,
      "loss": 0.5763,
      "step": 432900
    },
    {
      "epoch": 0.04499085845834966,
      "grad_norm": 2.453125,
      "learning_rate": 3.7137441627415756e-05,
      "loss": 0.5677,
      "step": 432950
    },
    {
      "epoch": 0.045059129867239416,
      "grad_norm": 2.796875,
      "learning_rate": 3.712686730921129e-05,
      "loss": 0.5001,
      "step": 433000
    },
    {
      "epoch": 0.04512740127612917,
      "grad_norm": 2.140625,
      "learning_rate": 3.7116293607616384e-05,
      "loss": 0.5586,
      "step": 433050
    },
    {
      "epoch": 0.04519567268501893,
      "grad_norm": 2.96875,
      "learning_rate": 3.710572052313753e-05,
      "loss": 0.5557,
      "step": 433100
    },
    {
      "epoch": 0.04526394409390869,
      "grad_norm": 2.890625,
      "learning_rate": 3.709514805628119e-05,
      "loss": 0.5358,
      "step": 433150
    },
    {
      "epoch": 0.045332215502798444,
      "grad_norm": 2.546875,
      "learning_rate": 3.708457620755374e-05,
      "loss": 0.5721,
      "step": 433200
    },
    {
      "epoch": 0.0454004869116882,
      "grad_norm": 3.40625,
      "learning_rate": 3.707400497746157e-05,
      "loss": 0.5671,
      "step": 433250
    },
    {
      "epoch": 0.04546875832057796,
      "grad_norm": 3.03125,
      "learning_rate": 3.706343436651104e-05,
      "loss": 0.5043,
      "step": 433300
    },
    {
      "epoch": 0.045537029729467715,
      "grad_norm": 4.4375,
      "learning_rate": 3.7052864375208464e-05,
      "loss": 0.5495,
      "step": 433350
    },
    {
      "epoch": 0.04560530113835747,
      "grad_norm": 2.984375,
      "learning_rate": 3.704229500406012e-05,
      "loss": 0.5537,
      "step": 433400
    },
    {
      "epoch": 0.04567357254724723,
      "grad_norm": 3.546875,
      "learning_rate": 3.7031726253572314e-05,
      "loss": 0.567,
      "step": 433450
    },
    {
      "epoch": 0.045741843956136986,
      "grad_norm": 7.46875,
      "learning_rate": 3.7021158124251245e-05,
      "loss": 0.5611,
      "step": 433500
    },
    {
      "epoch": 0.04581011536502674,
      "grad_norm": 2.875,
      "learning_rate": 3.70105906166031e-05,
      "loss": 0.5339,
      "step": 433550
    },
    {
      "epoch": 0.0458783867739165,
      "grad_norm": 3.390625,
      "learning_rate": 3.700002373113407e-05,
      "loss": 0.5265,
      "step": 433600
    },
    {
      "epoch": 0.04594665818280626,
      "grad_norm": 3.21875,
      "learning_rate": 3.698945746835031e-05,
      "loss": 0.5674,
      "step": 433650
    },
    {
      "epoch": 0.046014929591696015,
      "grad_norm": 3.0625,
      "learning_rate": 3.6978891828757935e-05,
      "loss": 0.4873,
      "step": 433700
    },
    {
      "epoch": 0.04608320100058577,
      "grad_norm": 3.734375,
      "learning_rate": 3.696832681286299e-05,
      "loss": 0.5817,
      "step": 433750
    },
    {
      "epoch": 0.04615147240947553,
      "grad_norm": 2.75,
      "learning_rate": 3.695776242117156e-05,
      "loss": 0.5213,
      "step": 433800
    },
    {
      "epoch": 0.04621974381836528,
      "grad_norm": 3.515625,
      "learning_rate": 3.6947198654189666e-05,
      "loss": 0.4995,
      "step": 433850
    },
    {
      "epoch": 0.046288015227255036,
      "grad_norm": 3.78125,
      "learning_rate": 3.693663551242328e-05,
      "loss": 0.563,
      "step": 433900
    },
    {
      "epoch": 0.04635628663614479,
      "grad_norm": 7.46875,
      "learning_rate": 3.6926072996378404e-05,
      "loss": 0.533,
      "step": 433950
    },
    {
      "epoch": 0.04642455804503455,
      "grad_norm": 6.6875,
      "learning_rate": 3.6915511106560945e-05,
      "loss": 0.5597,
      "step": 434000
    },
    {
      "epoch": 0.04649282945392431,
      "grad_norm": 2.90625,
      "learning_rate": 3.690494984347679e-05,
      "loss": 0.5565,
      "step": 434050
    },
    {
      "epoch": 0.046561100862814064,
      "grad_norm": 7.59375,
      "learning_rate": 3.6894389207631865e-05,
      "loss": 0.5467,
      "step": 434100
    },
    {
      "epoch": 0.04662937227170382,
      "grad_norm": 3.390625,
      "learning_rate": 3.688382919953196e-05,
      "loss": 0.4834,
      "step": 434150
    },
    {
      "epoch": 0.04669764368059358,
      "grad_norm": 3.0625,
      "learning_rate": 3.687326981968292e-05,
      "loss": 0.6307,
      "step": 434200
    },
    {
      "epoch": 0.046765915089483336,
      "grad_norm": 3.53125,
      "learning_rate": 3.6862711068590504e-05,
      "loss": 0.4842,
      "step": 434250
    },
    {
      "epoch": 0.04683418649837309,
      "grad_norm": 3.609375,
      "learning_rate": 3.68521529467605e-05,
      "loss": 0.5004,
      "step": 434300
    },
    {
      "epoch": 0.04690245790726285,
      "grad_norm": 3.640625,
      "learning_rate": 3.68415954546986e-05,
      "loss": 0.5791,
      "step": 434350
    },
    {
      "epoch": 0.04697072931615261,
      "grad_norm": 4.1875,
      "learning_rate": 3.6831038592910484e-05,
      "loss": 0.4346,
      "step": 434400
    },
    {
      "epoch": 0.047039000725042364,
      "grad_norm": 6.65625,
      "learning_rate": 3.682048236190187e-05,
      "loss": 0.6489,
      "step": 434450
    },
    {
      "epoch": 0.04710727213393212,
      "grad_norm": 2.796875,
      "learning_rate": 3.680992676217836e-05,
      "loss": 0.5276,
      "step": 434500
    },
    {
      "epoch": 0.04717554354282188,
      "grad_norm": 2.796875,
      "learning_rate": 3.679937179424553e-05,
      "loss": 0.6562,
      "step": 434550
    },
    {
      "epoch": 0.047243814951711635,
      "grad_norm": 3.203125,
      "learning_rate": 3.678881745860899e-05,
      "loss": 0.5749,
      "step": 434600
    },
    {
      "epoch": 0.04731208636060139,
      "grad_norm": 6.90625,
      "learning_rate": 3.677826375577427e-05,
      "loss": 0.6494,
      "step": 434650
    },
    {
      "epoch": 0.04738035776949115,
      "grad_norm": 2.984375,
      "learning_rate": 3.676771068624686e-05,
      "loss": 0.4924,
      "step": 434700
    },
    {
      "epoch": 0.0474486291783809,
      "grad_norm": 2.90625,
      "learning_rate": 3.675715825053229e-05,
      "loss": 0.5234,
      "step": 434750
    },
    {
      "epoch": 0.047516900587270657,
      "grad_norm": 2.546875,
      "learning_rate": 3.6746606449135976e-05,
      "loss": 0.5861,
      "step": 434800
    },
    {
      "epoch": 0.047585171996160414,
      "grad_norm": 2.9375,
      "learning_rate": 3.673605528256333e-05,
      "loss": 0.5374,
      "step": 434850
    },
    {
      "epoch": 0.04765344340505017,
      "grad_norm": 2.59375,
      "learning_rate": 3.6725504751319746e-05,
      "loss": 0.5185,
      "step": 434900
    },
    {
      "epoch": 0.04772171481393993,
      "grad_norm": 2.796875,
      "learning_rate": 3.671495485591061e-05,
      "loss": 0.4928,
      "step": 434950
    },
    {
      "epoch": 0.047789986222829685,
      "grad_norm": 3.078125,
      "learning_rate": 3.670440559684124e-05,
      "loss": 0.5676,
      "step": 435000
    },
    {
      "epoch": 0.04785825763171944,
      "grad_norm": 3.890625,
      "learning_rate": 3.66938569746169e-05,
      "loss": 0.629,
      "step": 435050
    },
    {
      "epoch": 0.0479265290406092,
      "grad_norm": 6.1875,
      "learning_rate": 3.668330898974291e-05,
      "loss": 0.5874,
      "step": 435100
    },
    {
      "epoch": 0.047994800449498956,
      "grad_norm": 2.9375,
      "learning_rate": 3.667276164272448e-05,
      "loss": 0.5232,
      "step": 435150
    },
    {
      "epoch": 0.04806307185838871,
      "grad_norm": 6.59375,
      "learning_rate": 3.6662214934066797e-05,
      "loss": 0.5846,
      "step": 435200
    },
    {
      "epoch": 0.04813134326727847,
      "grad_norm": 7.4375,
      "learning_rate": 3.665166886427509e-05,
      "loss": 0.6096,
      "step": 435250
    },
    {
      "epoch": 0.04819961467616823,
      "grad_norm": 2.46875,
      "learning_rate": 3.664112343385448e-05,
      "loss": 0.6189,
      "step": 435300
    },
    {
      "epoch": 0.048267886085057984,
      "grad_norm": 7.5,
      "learning_rate": 3.663057864331005e-05,
      "loss": 0.5234,
      "step": 435350
    },
    {
      "epoch": 0.04833615749394774,
      "grad_norm": 3.34375,
      "learning_rate": 3.662003449314691e-05,
      "loss": 0.5449,
      "step": 435400
    },
    {
      "epoch": 0.0484044289028375,
      "grad_norm": 2.625,
      "learning_rate": 3.660949098387014e-05,
      "loss": 0.4825,
      "step": 435450
    },
    {
      "epoch": 0.048472700311727256,
      "grad_norm": 3.109375,
      "learning_rate": 3.6598948115984734e-05,
      "loss": 0.4444,
      "step": 435500
    },
    {
      "epoch": 0.04854097172061701,
      "grad_norm": 2.78125,
      "learning_rate": 3.658840588999567e-05,
      "loss": 0.5846,
      "step": 435550
    },
    {
      "epoch": 0.04860924312950677,
      "grad_norm": 2.8125,
      "learning_rate": 3.6577864306407944e-05,
      "loss": 0.6029,
      "step": 435600
    },
    {
      "epoch": 0.04867751453839652,
      "grad_norm": 2.71875,
      "learning_rate": 3.6567323365726466e-05,
      "loss": 0.6273,
      "step": 435650
    },
    {
      "epoch": 0.04874578594728628,
      "grad_norm": 3.515625,
      "learning_rate": 3.655678306845612e-05,
      "loss": 0.4785,
      "step": 435700
    },
    {
      "epoch": 0.048814057356176034,
      "grad_norm": 3.34375,
      "learning_rate": 3.6546243415101835e-05,
      "loss": 0.5725,
      "step": 435750
    },
    {
      "epoch": 0.04888232876506579,
      "grad_norm": 2.890625,
      "learning_rate": 3.6535704406168406e-05,
      "loss": 0.5323,
      "step": 435800
    },
    {
      "epoch": 0.04895060017395555,
      "grad_norm": 7.6875,
      "learning_rate": 3.652516604216061e-05,
      "loss": 0.4877,
      "step": 435850
    },
    {
      "epoch": 0.049018871582845305,
      "grad_norm": 5.9375,
      "learning_rate": 3.65146283235833e-05,
      "loss": 0.5588,
      "step": 435900
    },
    {
      "epoch": 0.04908714299173506,
      "grad_norm": 2.71875,
      "learning_rate": 3.650409125094115e-05,
      "loss": 0.5083,
      "step": 435950
    },
    {
      "epoch": 0.04915541440062482,
      "grad_norm": 2.984375,
      "learning_rate": 3.649355482473893e-05,
      "loss": 0.5321,
      "step": 436000
    },
    {
      "epoch": 0.04922368580951458,
      "grad_norm": 2.84375,
      "learning_rate": 3.648301904548127e-05,
      "loss": 0.541,
      "step": 436050
    },
    {
      "epoch": 0.049291957218404334,
      "grad_norm": 4.5,
      "learning_rate": 3.647248391367288e-05,
      "loss": 0.4861,
      "step": 436100
    },
    {
      "epoch": 0.04936022862729409,
      "grad_norm": 3.296875,
      "learning_rate": 3.646194942981834e-05,
      "loss": 0.5457,
      "step": 436150
    },
    {
      "epoch": 0.04942850003618385,
      "grad_norm": 3.1875,
      "learning_rate": 3.6451415594422246e-05,
      "loss": 0.5704,
      "step": 436200
    },
    {
      "epoch": 0.049496771445073605,
      "grad_norm": 7.75,
      "learning_rate": 3.6440882407989183e-05,
      "loss": 0.6156,
      "step": 436250
    },
    {
      "epoch": 0.04956504285396336,
      "grad_norm": 2.984375,
      "learning_rate": 3.643034987102366e-05,
      "loss": 0.4549,
      "step": 436300
    },
    {
      "epoch": 0.04963331426285312,
      "grad_norm": 2.546875,
      "learning_rate": 3.6419817984030165e-05,
      "loss": 0.5514,
      "step": 436350
    },
    {
      "epoch": 0.049701585671742876,
      "grad_norm": 3.78125,
      "learning_rate": 3.6409286747513195e-05,
      "loss": 0.5848,
      "step": 436400
    },
    {
      "epoch": 0.04976985708063263,
      "grad_norm": 3.03125,
      "learning_rate": 3.6398756161977156e-05,
      "loss": 0.5137,
      "step": 436450
    },
    {
      "epoch": 0.04983812848952239,
      "grad_norm": 3.46875,
      "learning_rate": 3.6388226227926445e-05,
      "loss": 0.5323,
      "step": 436500
    },
    {
      "epoch": 0.04990639989841214,
      "grad_norm": 2.140625,
      "learning_rate": 3.637769694586548e-05,
      "loss": 0.5332,
      "step": 436550
    },
    {
      "epoch": 0.0499746713073019,
      "grad_norm": 2.515625,
      "learning_rate": 3.6367168316298574e-05,
      "loss": 0.5026,
      "step": 436600
    },
    {
      "epoch": 0.050042942716191655,
      "grad_norm": 3.078125,
      "learning_rate": 3.635664033973003e-05,
      "loss": 0.5155,
      "step": 436650
    },
    {
      "epoch": 0.05011121412508141,
      "grad_norm": 2.59375,
      "learning_rate": 3.634611301666412e-05,
      "loss": 0.5688,
      "step": 436700
    },
    {
      "epoch": 0.05017948553397117,
      "grad_norm": 2.59375,
      "learning_rate": 3.633558634760514e-05,
      "loss": 0.572,
      "step": 436750
    },
    {
      "epoch": 0.050247756942860926,
      "grad_norm": 2.953125,
      "learning_rate": 3.6325060333057264e-05,
      "loss": 0.513,
      "step": 436800
    },
    {
      "epoch": 0.05031602835175068,
      "grad_norm": 7.125,
      "learning_rate": 3.6314534973524666e-05,
      "loss": 0.4789,
      "step": 436850
    },
    {
      "epoch": 0.05038429976064044,
      "grad_norm": 2.375,
      "learning_rate": 3.630401026951154e-05,
      "loss": 0.5138,
      "step": 436900
    },
    {
      "epoch": 0.0504525711695302,
      "grad_norm": 6.25,
      "learning_rate": 3.629348622152199e-05,
      "loss": 0.5413,
      "step": 436950
    },
    {
      "epoch": 0.050520842578419954,
      "grad_norm": 7.34375,
      "learning_rate": 3.628296283006009e-05,
      "loss": 0.5407,
      "step": 437000
    },
    {
      "epoch": 0.05058911398730971,
      "grad_norm": 3.171875,
      "learning_rate": 3.627244009562993e-05,
      "loss": 0.4502,
      "step": 437050
    },
    {
      "epoch": 0.05065738539619947,
      "grad_norm": 3.359375,
      "learning_rate": 3.6261918018735524e-05,
      "loss": 0.555,
      "step": 437100
    },
    {
      "epoch": 0.050725656805089225,
      "grad_norm": 8.25,
      "learning_rate": 3.625139659988086e-05,
      "loss": 0.4929,
      "step": 437150
    },
    {
      "epoch": 0.05079392821397898,
      "grad_norm": 3.09375,
      "learning_rate": 3.624087583956991e-05,
      "loss": 0.5997,
      "step": 437200
    },
    {
      "epoch": 0.05086219962286874,
      "grad_norm": 2.515625,
      "learning_rate": 3.623035573830661e-05,
      "loss": 0.4696,
      "step": 437250
    },
    {
      "epoch": 0.0509304710317585,
      "grad_norm": 8.3125,
      "learning_rate": 3.621983629659487e-05,
      "loss": 0.6322,
      "step": 437300
    },
    {
      "epoch": 0.050998742440648254,
      "grad_norm": 7.78125,
      "learning_rate": 3.620931751493852e-05,
      "loss": 0.5681,
      "step": 437350
    },
    {
      "epoch": 0.05106701384953801,
      "grad_norm": 3.8125,
      "learning_rate": 3.619879939384147e-05,
      "loss": 0.6117,
      "step": 437400
    },
    {
      "epoch": 0.05113528525842776,
      "grad_norm": 3.46875,
      "learning_rate": 3.6188281933807456e-05,
      "loss": 0.5275,
      "step": 437450
    },
    {
      "epoch": 0.05120355666731752,
      "grad_norm": 2.3125,
      "learning_rate": 3.617776513534028e-05,
      "loss": 0.5039,
      "step": 437500
    },
    {
      "epoch": 0.051271828076207275,
      "grad_norm": 2.359375,
      "learning_rate": 3.616724899894371e-05,
      "loss": 0.4717,
      "step": 437550
    },
    {
      "epoch": 0.05134009948509703,
      "grad_norm": 2.921875,
      "learning_rate": 3.615673352512143e-05,
      "loss": 0.5084,
      "step": 437600
    },
    {
      "epoch": 0.05140837089398679,
      "grad_norm": 3.0625,
      "learning_rate": 3.614621871437712e-05,
      "loss": 0.6084,
      "step": 437650
    },
    {
      "epoch": 0.051476642302876546,
      "grad_norm": 3.0,
      "learning_rate": 3.6135704567214445e-05,
      "loss": 0.5228,
      "step": 437700
    },
    {
      "epoch": 0.0515449137117663,
      "grad_norm": 3.09375,
      "learning_rate": 3.612519108413701e-05,
      "loss": 0.5693,
      "step": 437750
    },
    {
      "epoch": 0.05161318512065606,
      "grad_norm": 3.9375,
      "learning_rate": 3.6114678265648406e-05,
      "loss": 0.4928,
      "step": 437800
    },
    {
      "epoch": 0.05168145652954582,
      "grad_norm": 2.65625,
      "learning_rate": 3.610416611225216e-05,
      "loss": 0.5936,
      "step": 437850
    },
    {
      "epoch": 0.051749727938435575,
      "grad_norm": 7.28125,
      "learning_rate": 3.6093654624451836e-05,
      "loss": 0.6366,
      "step": 437900
    },
    {
      "epoch": 0.05181799934732533,
      "grad_norm": 2.734375,
      "learning_rate": 3.608314380275089e-05,
      "loss": 0.5207,
      "step": 437950
    },
    {
      "epoch": 0.05188627075621509,
      "grad_norm": 2.84375,
      "learning_rate": 3.607263364765279e-05,
      "loss": 0.5977,
      "step": 438000
    },
    {
      "epoch": 0.051954542165104846,
      "grad_norm": 3.109375,
      "learning_rate": 3.606212415966097e-05,
      "loss": 0.5176,
      "step": 438050
    },
    {
      "epoch": 0.0520228135739946,
      "grad_norm": 6.96875,
      "learning_rate": 3.605161533927883e-05,
      "loss": 0.596,
      "step": 438100
    },
    {
      "epoch": 0.05209108498288436,
      "grad_norm": 3.40625,
      "learning_rate": 3.6041107187009684e-05,
      "loss": 0.5304,
      "step": 438150
    },
    {
      "epoch": 0.05215935639177412,
      "grad_norm": 2.703125,
      "learning_rate": 3.6030599703356926e-05,
      "loss": 0.5341,
      "step": 438200
    },
    {
      "epoch": 0.052227627800663874,
      "grad_norm": 7.0,
      "learning_rate": 3.602009288882381e-05,
      "loss": 0.575,
      "step": 438250
    },
    {
      "epoch": 0.05229589920955363,
      "grad_norm": 2.4375,
      "learning_rate": 3.60095867439136e-05,
      "loss": 0.5611,
      "step": 438300
    },
    {
      "epoch": 0.05236417061844338,
      "grad_norm": 7.40625,
      "learning_rate": 3.5999081269129574e-05,
      "loss": 0.597,
      "step": 438350
    },
    {
      "epoch": 0.05243244202733314,
      "grad_norm": 2.859375,
      "learning_rate": 3.59885764649749e-05,
      "loss": 0.5551,
      "step": 438400
    },
    {
      "epoch": 0.052500713436222896,
      "grad_norm": 4.25,
      "learning_rate": 3.597807233195274e-05,
      "loss": 0.5823,
      "step": 438450
    },
    {
      "epoch": 0.05256898484511265,
      "grad_norm": 2.359375,
      "learning_rate": 3.596756887056622e-05,
      "loss": 0.56,
      "step": 438500
    },
    {
      "epoch": 0.05263725625400241,
      "grad_norm": 2.984375,
      "learning_rate": 3.59570660813185e-05,
      "loss": 0.5842,
      "step": 438550
    },
    {
      "epoch": 0.05270552766289217,
      "grad_norm": 2.828125,
      "learning_rate": 3.594656396471261e-05,
      "loss": 0.5343,
      "step": 438600
    },
    {
      "epoch": 0.052773799071781924,
      "grad_norm": 3.03125,
      "learning_rate": 3.593606252125158e-05,
      "loss": 0.6066,
      "step": 438650
    },
    {
      "epoch": 0.05284207048067168,
      "grad_norm": 3.1875,
      "learning_rate": 3.5925561751438456e-05,
      "loss": 0.5206,
      "step": 438700
    },
    {
      "epoch": 0.05291034188956144,
      "grad_norm": 2.515625,
      "learning_rate": 3.591506165577619e-05,
      "loss": 0.5179,
      "step": 438750
    },
    {
      "epoch": 0.052978613298451195,
      "grad_norm": 2.59375,
      "learning_rate": 3.5904562234767715e-05,
      "loss": 0.4406,
      "step": 438800
    },
    {
      "epoch": 0.05304688470734095,
      "grad_norm": 3.765625,
      "learning_rate": 3.589406348891599e-05,
      "loss": 0.5893,
      "step": 438850
    },
    {
      "epoch": 0.05311515611623071,
      "grad_norm": 7.78125,
      "learning_rate": 3.588356541872384e-05,
      "loss": 0.5415,
      "step": 438900
    },
    {
      "epoch": 0.053183427525120466,
      "grad_norm": 2.515625,
      "learning_rate": 3.587306802469414e-05,
      "loss": 0.4831,
      "step": 438950
    },
    {
      "epoch": 0.05325169893401022,
      "grad_norm": 2.96875,
      "learning_rate": 3.5862571307329695e-05,
      "loss": 0.5064,
      "step": 439000
    },
    {
      "epoch": 0.05331997034289998,
      "grad_norm": 2.28125,
      "learning_rate": 3.585207526713329e-05,
      "loss": 0.5031,
      "step": 439050
    },
    {
      "epoch": 0.05338824175178974,
      "grad_norm": 3.109375,
      "learning_rate": 3.5841579904607676e-05,
      "loss": 0.5021,
      "step": 439100
    },
    {
      "epoch": 0.053456513160679495,
      "grad_norm": 3.90625,
      "learning_rate": 3.583108522025555e-05,
      "loss": 0.5823,
      "step": 439150
    },
    {
      "epoch": 0.05352478456956925,
      "grad_norm": 3.296875,
      "learning_rate": 3.582059121457964e-05,
      "loss": 0.5768,
      "step": 439200
    },
    {
      "epoch": 0.053593055978459,
      "grad_norm": 7.09375,
      "learning_rate": 3.581009788808255e-05,
      "loss": 0.6216,
      "step": 439250
    },
    {
      "epoch": 0.05366132738734876,
      "grad_norm": 2.859375,
      "learning_rate": 3.579960524126692e-05,
      "loss": 0.5537,
      "step": 439300
    },
    {
      "epoch": 0.053729598796238516,
      "grad_norm": 3.359375,
      "learning_rate": 3.578911327463536e-05,
      "loss": 0.4386,
      "step": 439350
    },
    {
      "epoch": 0.05379787020512827,
      "grad_norm": 2.296875,
      "learning_rate": 3.57786219886904e-05,
      "loss": 0.5131,
      "step": 439400
    },
    {
      "epoch": 0.05386614161401803,
      "grad_norm": 2.828125,
      "learning_rate": 3.5768131383934535e-05,
      "loss": 0.5716,
      "step": 439450
    },
    {
      "epoch": 0.05393441302290779,
      "grad_norm": 2.828125,
      "learning_rate": 3.575764146087031e-05,
      "loss": 0.5082,
      "step": 439500
    },
    {
      "epoch": 0.054002684431797544,
      "grad_norm": 3.53125,
      "learning_rate": 3.574715222000015e-05,
      "loss": 0.4696,
      "step": 439550
    },
    {
      "epoch": 0.0540709558406873,
      "grad_norm": 3.125,
      "learning_rate": 3.573666366182649e-05,
      "loss": 0.6122,
      "step": 439600
    },
    {
      "epoch": 0.05413922724957706,
      "grad_norm": 2.359375,
      "learning_rate": 3.572617578685168e-05,
      "loss": 0.5611,
      "step": 439650
    },
    {
      "epoch": 0.054207498658466816,
      "grad_norm": 3.484375,
      "learning_rate": 3.571568859557815e-05,
      "loss": 0.5478,
      "step": 439700
    },
    {
      "epoch": 0.05427577006735657,
      "grad_norm": 3.109375,
      "learning_rate": 3.5705202088508164e-05,
      "loss": 0.4645,
      "step": 439750
    },
    {
      "epoch": 0.05434404147624633,
      "grad_norm": 2.625,
      "learning_rate": 3.569471626614403e-05,
      "loss": 0.565,
      "step": 439800
    },
    {
      "epoch": 0.05441231288513609,
      "grad_norm": 3.234375,
      "learning_rate": 3.5684231128988045e-05,
      "loss": 0.5826,
      "step": 439850
    },
    {
      "epoch": 0.054480584294025844,
      "grad_norm": 3.359375,
      "learning_rate": 3.5673746677542396e-05,
      "loss": 0.5619,
      "step": 439900
    },
    {
      "epoch": 0.0545488557029156,
      "grad_norm": 9.3125,
      "learning_rate": 3.566326291230928e-05,
      "loss": 0.632,
      "step": 439950
    },
    {
      "epoch": 0.05461712711180536,
      "grad_norm": 7.125,
      "learning_rate": 3.5652779833790876e-05,
      "loss": 0.6221,
      "step": 440000
    },
    {
      "epoch": 0.054685398520695115,
      "grad_norm": 3.515625,
      "learning_rate": 3.56422974424893e-05,
      "loss": 0.5691,
      "step": 440050
    },
    {
      "epoch": 0.05475366992958487,
      "grad_norm": 2.84375,
      "learning_rate": 3.563181573890666e-05,
      "loss": 0.6156,
      "step": 440100
    },
    {
      "epoch": 0.05482194133847462,
      "grad_norm": 4.34375,
      "learning_rate": 3.5621334723544987e-05,
      "loss": 0.553,
      "step": 440150
    },
    {
      "epoch": 0.05489021274736438,
      "grad_norm": 2.3125,
      "learning_rate": 3.561085439690636e-05,
      "loss": 0.5341,
      "step": 440200
    },
    {
      "epoch": 0.054958484156254137,
      "grad_norm": 2.71875,
      "learning_rate": 3.560037475949273e-05,
      "loss": 0.6106,
      "step": 440250
    },
    {
      "epoch": 0.055026755565143894,
      "grad_norm": 3.234375,
      "learning_rate": 3.558989581180608e-05,
      "loss": 0.5804,
      "step": 440300
    },
    {
      "epoch": 0.05509502697403365,
      "grad_norm": 3.203125,
      "learning_rate": 3.557941755434835e-05,
      "loss": 0.5398,
      "step": 440350
    },
    {
      "epoch": 0.05516329838292341,
      "grad_norm": 2.515625,
      "learning_rate": 3.556893998762143e-05,
      "loss": 0.5404,
      "step": 440400
    },
    {
      "epoch": 0.055231569791813165,
      "grad_norm": 18.875,
      "learning_rate": 3.555846311212716e-05,
      "loss": 0.5967,
      "step": 440450
    },
    {
      "epoch": 0.05529984120070292,
      "grad_norm": 3.84375,
      "learning_rate": 3.554798692836742e-05,
      "loss": 0.6509,
      "step": 440500
    },
    {
      "epoch": 0.05536811260959268,
      "grad_norm": 3.0,
      "learning_rate": 3.553751143684396e-05,
      "loss": 0.507,
      "step": 440550
    },
    {
      "epoch": 0.055436384018482436,
      "grad_norm": 7.875,
      "learning_rate": 3.552703663805856e-05,
      "loss": 0.5212,
      "step": 440600
    },
    {
      "epoch": 0.05550465542737219,
      "grad_norm": 2.671875,
      "learning_rate": 3.5516562532512986e-05,
      "loss": 0.5227,
      "step": 440650
    },
    {
      "epoch": 0.05557292683626195,
      "grad_norm": 2.75,
      "learning_rate": 3.550608912070891e-05,
      "loss": 0.4595,
      "step": 440700
    },
    {
      "epoch": 0.05564119824515171,
      "grad_norm": 2.546875,
      "learning_rate": 3.5495616403147984e-05,
      "loss": 0.5767,
      "step": 440750
    },
    {
      "epoch": 0.055709469654041464,
      "grad_norm": 3.015625,
      "learning_rate": 3.548514438033185e-05,
      "loss": 0.6179,
      "step": 440800
    },
    {
      "epoch": 0.05577774106293122,
      "grad_norm": 3.046875,
      "learning_rate": 3.5474673052762116e-05,
      "loss": 0.4835,
      "step": 440850
    },
    {
      "epoch": 0.05584601247182098,
      "grad_norm": 2.4375,
      "learning_rate": 3.546420242094035e-05,
      "loss": 0.4647,
      "step": 440900
    },
    {
      "epoch": 0.055914283880710736,
      "grad_norm": 2.5,
      "learning_rate": 3.545373248536805e-05,
      "loss": 0.5521,
      "step": 440950
    },
    {
      "epoch": 0.05598255528960049,
      "grad_norm": 3.375,
      "learning_rate": 3.544326324654677e-05,
      "loss": 0.5697,
      "step": 441000
    },
    {
      "epoch": 0.05605082669849024,
      "grad_norm": 3.5625,
      "learning_rate": 3.5432794704977933e-05,
      "loss": 0.4851,
      "step": 441050
    },
    {
      "epoch": 0.05611909810738,
      "grad_norm": 2.75,
      "learning_rate": 3.542232686116297e-05,
      "loss": 0.5359,
      "step": 441100
    },
    {
      "epoch": 0.05618736951626976,
      "grad_norm": 2.78125,
      "learning_rate": 3.5411859715603324e-05,
      "loss": 0.5022,
      "step": 441150
    },
    {
      "epoch": 0.056255640925159514,
      "grad_norm": 4.09375,
      "learning_rate": 3.540139326880032e-05,
      "loss": 0.5645,
      "step": 441200
    },
    {
      "epoch": 0.05632391233404927,
      "grad_norm": 2.546875,
      "learning_rate": 3.539092752125529e-05,
      "loss": 0.6447,
      "step": 441250
    },
    {
      "epoch": 0.05639218374293903,
      "grad_norm": 3.5,
      "learning_rate": 3.538046247346956e-05,
      "loss": 0.5866,
      "step": 441300
    },
    {
      "epoch": 0.056460455151828785,
      "grad_norm": 4.5625,
      "learning_rate": 3.5369998125944356e-05,
      "loss": 0.5392,
      "step": 441350
    },
    {
      "epoch": 0.05652872656071854,
      "grad_norm": 8.1875,
      "learning_rate": 3.535953447918096e-05,
      "loss": 0.5625,
      "step": 441400
    },
    {
      "epoch": 0.0565969979696083,
      "grad_norm": 3.3125,
      "learning_rate": 3.534907153368051e-05,
      "loss": 0.5209,
      "step": 441450
    },
    {
      "epoch": 0.05666526937849806,
      "grad_norm": 3.390625,
      "learning_rate": 3.533860928994422e-05,
      "loss": 0.5555,
      "step": 441500
    },
    {
      "epoch": 0.056733540787387814,
      "grad_norm": 3.40625,
      "learning_rate": 3.5328147748473196e-05,
      "loss": 0.615,
      "step": 441550
    },
    {
      "epoch": 0.05680181219627757,
      "grad_norm": 7.625,
      "learning_rate": 3.5317686909768535e-05,
      "loss": 0.5877,
      "step": 441600
    },
    {
      "epoch": 0.05687008360516733,
      "grad_norm": 3.0,
      "learning_rate": 3.5307226774331314e-05,
      "loss": 0.5425,
      "step": 441650
    },
    {
      "epoch": 0.056938355014057085,
      "grad_norm": 2.796875,
      "learning_rate": 3.5296767342662564e-05,
      "loss": 0.5009,
      "step": 441700
    },
    {
      "epoch": 0.05700662642294684,
      "grad_norm": 3.1875,
      "learning_rate": 3.528630861526324e-05,
      "loss": 0.5914,
      "step": 441750
    },
    {
      "epoch": 0.0570748978318366,
      "grad_norm": 3.0625,
      "learning_rate": 3.527585059263436e-05,
      "loss": 0.5497,
      "step": 441800
    },
    {
      "epoch": 0.057143169240726356,
      "grad_norm": 3.703125,
      "learning_rate": 3.526539327527683e-05,
      "loss": 0.466,
      "step": 441850
    },
    {
      "epoch": 0.05721144064961611,
      "grad_norm": 2.640625,
      "learning_rate": 3.525493666369154e-05,
      "loss": 0.5504,
      "step": 441900
    },
    {
      "epoch": 0.05727971205850586,
      "grad_norm": 2.875,
      "learning_rate": 3.524448075837933e-05,
      "loss": 0.5432,
      "step": 441950
    },
    {
      "epoch": 0.05734798346739562,
      "grad_norm": 3.171875,
      "learning_rate": 3.523402555984108e-05,
      "loss": 0.5402,
      "step": 442000
    },
    {
      "epoch": 0.05741625487628538,
      "grad_norm": 2.46875,
      "learning_rate": 3.522357106857753e-05,
      "loss": 0.4528,
      "step": 442050
    },
    {
      "epoch": 0.057484526285175135,
      "grad_norm": 3.09375,
      "learning_rate": 3.521311728508947e-05,
      "loss": 0.5726,
      "step": 442100
    },
    {
      "epoch": 0.05755279769406489,
      "grad_norm": 3.53125,
      "learning_rate": 3.520266420987761e-05,
      "loss": 0.5989,
      "step": 442150
    },
    {
      "epoch": 0.05762106910295465,
      "grad_norm": 2.734375,
      "learning_rate": 3.519221184344267e-05,
      "loss": 0.5418,
      "step": 442200
    },
    {
      "epoch": 0.057689340511844406,
      "grad_norm": 3.0,
      "learning_rate": 3.518176018628526e-05,
      "loss": 0.6067,
      "step": 442250
    },
    {
      "epoch": 0.05775761192073416,
      "grad_norm": 2.375,
      "learning_rate": 3.517130923890605e-05,
      "loss": 0.4984,
      "step": 442300
    },
    {
      "epoch": 0.05782588332962392,
      "grad_norm": 3.65625,
      "learning_rate": 3.51608590018056e-05,
      "loss": 0.5579,
      "step": 442350
    },
    {
      "epoch": 0.05789415473851368,
      "grad_norm": 7.21875,
      "learning_rate": 3.515040947548446e-05,
      "loss": 0.5319,
      "step": 442400
    },
    {
      "epoch": 0.057962426147403434,
      "grad_norm": 3.203125,
      "learning_rate": 3.5139960660443186e-05,
      "loss": 0.4878,
      "step": 442450
    },
    {
      "epoch": 0.05803069755629319,
      "grad_norm": 2.375,
      "learning_rate": 3.512951255718225e-05,
      "loss": 0.4825,
      "step": 442500
    },
    {
      "epoch": 0.05809896896518295,
      "grad_norm": 2.765625,
      "learning_rate": 3.511906516620209e-05,
      "loss": 0.5615,
      "step": 442550
    },
    {
      "epoch": 0.058167240374072705,
      "grad_norm": 2.453125,
      "learning_rate": 3.510861848800313e-05,
      "loss": 0.5118,
      "step": 442600
    },
    {
      "epoch": 0.05823551178296246,
      "grad_norm": 3.625,
      "learning_rate": 3.5098172523085765e-05,
      "loss": 0.5207,
      "step": 442650
    },
    {
      "epoch": 0.05830378319185222,
      "grad_norm": 2.875,
      "learning_rate": 3.508772727195035e-05,
      "loss": 0.562,
      "step": 442700
    },
    {
      "epoch": 0.05837205460074198,
      "grad_norm": 3.46875,
      "learning_rate": 3.507728273509717e-05,
      "loss": 0.5632,
      "step": 442750
    },
    {
      "epoch": 0.058440326009631734,
      "grad_norm": 2.5625,
      "learning_rate": 3.5066838913026556e-05,
      "loss": 0.4322,
      "step": 442800
    },
    {
      "epoch": 0.058508597418521484,
      "grad_norm": 3.265625,
      "learning_rate": 3.5056395806238714e-05,
      "loss": 0.5421,
      "step": 442850
    },
    {
      "epoch": 0.05857686882741124,
      "grad_norm": 2.65625,
      "learning_rate": 3.504595341523387e-05,
      "loss": 0.5342,
      "step": 442900
    },
    {
      "epoch": 0.058645140236301,
      "grad_norm": 2.484375,
      "learning_rate": 3.5035511740512215e-05,
      "loss": 0.5613,
      "step": 442950
    },
    {
      "epoch": 0.058713411645190755,
      "grad_norm": 3.609375,
      "learning_rate": 3.50250707825739e-05,
      "loss": 0.5085,
      "step": 443000
    },
    {
      "epoch": 0.05878168305408051,
      "grad_norm": 3.359375,
      "learning_rate": 3.5014630541919e-05,
      "loss": 0.47,
      "step": 443050
    },
    {
      "epoch": 0.05884995446297027,
      "grad_norm": 3.28125,
      "learning_rate": 3.5004191019047624e-05,
      "loss": 0.5961,
      "step": 443100
    },
    {
      "epoch": 0.058918225871860026,
      "grad_norm": 3.1875,
      "learning_rate": 3.499375221445981e-05,
      "loss": 0.5412,
      "step": 443150
    },
    {
      "epoch": 0.05898649728074978,
      "grad_norm": 3.15625,
      "learning_rate": 3.498331412865556e-05,
      "loss": 0.5659,
      "step": 443200
    },
    {
      "epoch": 0.05905476868963954,
      "grad_norm": 8.1875,
      "learning_rate": 3.4972876762134834e-05,
      "loss": 0.6302,
      "step": 443250
    },
    {
      "epoch": 0.0591230400985293,
      "grad_norm": 2.59375,
      "learning_rate": 3.4962440115397606e-05,
      "loss": 0.4847,
      "step": 443300
    },
    {
      "epoch": 0.059191311507419055,
      "grad_norm": 7.875,
      "learning_rate": 3.495200418894374e-05,
      "loss": 0.5735,
      "step": 443350
    },
    {
      "epoch": 0.05925958291630881,
      "grad_norm": 2.515625,
      "learning_rate": 3.4941568983273125e-05,
      "loss": 0.5296,
      "step": 443400
    },
    {
      "epoch": 0.05932785432519857,
      "grad_norm": 3.296875,
      "learning_rate": 3.4931134498885616e-05,
      "loss": 0.5395,
      "step": 443450
    },
    {
      "epoch": 0.059396125734088326,
      "grad_norm": 3.046875,
      "learning_rate": 3.492070073628099e-05,
      "loss": 0.6345,
      "step": 443500
    },
    {
      "epoch": 0.05946439714297808,
      "grad_norm": 3.0,
      "learning_rate": 3.4910267695959e-05,
      "loss": 0.4786,
      "step": 443550
    },
    {
      "epoch": 0.05953266855186784,
      "grad_norm": 3.390625,
      "learning_rate": 3.489983537841941e-05,
      "loss": 0.5123,
      "step": 443600
    },
    {
      "epoch": 0.0596009399607576,
      "grad_norm": 4.65625,
      "learning_rate": 3.48894037841619e-05,
      "loss": 0.579,
      "step": 443650
    },
    {
      "epoch": 0.059669211369647354,
      "grad_norm": 2.59375,
      "learning_rate": 3.4878972913686145e-05,
      "loss": 0.5801,
      "step": 443700
    },
    {
      "epoch": 0.059737482778537104,
      "grad_norm": 3.015625,
      "learning_rate": 3.4868542767491744e-05,
      "loss": 0.4456,
      "step": 443750
    },
    {
      "epoch": 0.05980575418742686,
      "grad_norm": 3.3125,
      "learning_rate": 3.485811334607832e-05,
      "loss": 0.5759,
      "step": 443800
    },
    {
      "epoch": 0.05987402559631662,
      "grad_norm": 7.0,
      "learning_rate": 3.484768464994542e-05,
      "loss": 0.5476,
      "step": 443850
    },
    {
      "epoch": 0.059942297005206376,
      "grad_norm": 2.359375,
      "learning_rate": 3.4837256679592564e-05,
      "loss": 0.5959,
      "step": 443900
    },
    {
      "epoch": 0.06001056841409613,
      "grad_norm": 36.0,
      "learning_rate": 3.4826829435519245e-05,
      "loss": 0.564,
      "step": 443950
    },
    {
      "epoch": 0.06007883982298589,
      "grad_norm": 2.546875,
      "learning_rate": 3.481640291822493e-05,
      "loss": 0.5416,
      "step": 444000
    },
    {
      "epoch": 0.06014711123187565,
      "grad_norm": 2.875,
      "learning_rate": 3.4805977128209e-05,
      "loss": 0.5352,
      "step": 444050
    },
    {
      "epoch": 0.060215382640765404,
      "grad_norm": 2.484375,
      "learning_rate": 3.479555206597088e-05,
      "loss": 0.4877,
      "step": 444100
    },
    {
      "epoch": 0.06028365404965516,
      "grad_norm": 3.359375,
      "learning_rate": 3.4785127732009905e-05,
      "loss": 0.5598,
      "step": 444150
    },
    {
      "epoch": 0.06035192545854492,
      "grad_norm": 3.03125,
      "learning_rate": 3.477470412682538e-05,
      "loss": 0.4454,
      "step": 444200
    },
    {
      "epoch": 0.060420196867434675,
      "grad_norm": 2.328125,
      "learning_rate": 3.476428125091661e-05,
      "loss": 0.4861,
      "step": 444250
    },
    {
      "epoch": 0.06048846827632443,
      "grad_norm": 3.921875,
      "learning_rate": 3.4753859104782814e-05,
      "loss": 0.5609,
      "step": 444300
    },
    {
      "epoch": 0.06055673968521419,
      "grad_norm": 2.984375,
      "learning_rate": 3.4743437688923214e-05,
      "loss": 0.6049,
      "step": 444350
    },
    {
      "epoch": 0.060625011094103946,
      "grad_norm": 7.09375,
      "learning_rate": 3.473301700383698e-05,
      "loss": 0.4878,
      "step": 444400
    },
    {
      "epoch": 0.0606932825029937,
      "grad_norm": 3.234375,
      "learning_rate": 3.4722597050023256e-05,
      "loss": 0.5918,
      "step": 444450
    },
    {
      "epoch": 0.06076155391188346,
      "grad_norm": 3.46875,
      "learning_rate": 3.471217782798114e-05,
      "loss": 0.527,
      "step": 444500
    },
    {
      "epoch": 0.06082982532077322,
      "grad_norm": 2.90625,
      "learning_rate": 3.470175933820971e-05,
      "loss": 0.4604,
      "step": 444550
    },
    {
      "epoch": 0.060898096729662975,
      "grad_norm": 7.09375,
      "learning_rate": 3.4691341581208004e-05,
      "loss": 0.6075,
      "step": 444600
    },
    {
      "epoch": 0.060966368138552725,
      "grad_norm": 2.359375,
      "learning_rate": 3.4680924557475006e-05,
      "loss": 0.4781,
      "step": 444650
    },
    {
      "epoch": 0.06103463954744248,
      "grad_norm": 3.203125,
      "learning_rate": 3.4670508267509676e-05,
      "loss": 0.5119,
      "step": 444700
    },
    {
      "epoch": 0.06110291095633224,
      "grad_norm": 3.71875,
      "learning_rate": 3.466009271181099e-05,
      "loss": 0.5439,
      "step": 444750
    },
    {
      "epoch": 0.061171182365221996,
      "grad_norm": 2.6875,
      "learning_rate": 3.46496778908778e-05,
      "loss": 0.5804,
      "step": 444800
    },
    {
      "epoch": 0.06123945377411175,
      "grad_norm": 3.390625,
      "learning_rate": 3.463926380520895e-05,
      "loss": 0.5178,
      "step": 444850
    },
    {
      "epoch": 0.06130772518300151,
      "grad_norm": 3.578125,
      "learning_rate": 3.4628850455303316e-05,
      "loss": 0.5033,
      "step": 444900
    },
    {
      "epoch": 0.06137599659189127,
      "grad_norm": 2.21875,
      "learning_rate": 3.461843784165965e-05,
      "loss": 0.5096,
      "step": 444950
    },
    {
      "epoch": 0.061444268000781024,
      "grad_norm": 4.15625,
      "learning_rate": 3.460802596477673e-05,
      "loss": 0.5052,
      "step": 445000
    },
    {
      "epoch": 0.06151253940967078,
      "grad_norm": 4.25,
      "learning_rate": 3.4597614825153226e-05,
      "loss": 0.511,
      "step": 445050
    },
    {
      "epoch": 0.06158081081856054,
      "grad_norm": 4.375,
      "learning_rate": 3.458720442328788e-05,
      "loss": 0.5277,
      "step": 445100
    },
    {
      "epoch": 0.061649082227450296,
      "grad_norm": 2.953125,
      "learning_rate": 3.4576794759679294e-05,
      "loss": 0.5613,
      "step": 445150
    },
    {
      "epoch": 0.06171735363634005,
      "grad_norm": 2.8125,
      "learning_rate": 3.4566385834826105e-05,
      "loss": 0.5351,
      "step": 445200
    },
    {
      "epoch": 0.06178562504522981,
      "grad_norm": 2.953125,
      "learning_rate": 3.455597764922688e-05,
      "loss": 0.5728,
      "step": 445250
    },
    {
      "epoch": 0.06185389645411957,
      "grad_norm": 2.40625,
      "learning_rate": 3.4545570203380174e-05,
      "loss": 0.5749,
      "step": 445300
    },
    {
      "epoch": 0.061922167863009324,
      "grad_norm": 3.171875,
      "learning_rate": 3.4535163497784464e-05,
      "loss": 0.4881,
      "step": 445350
    },
    {
      "epoch": 0.06199043927189908,
      "grad_norm": 2.90625,
      "learning_rate": 3.452475753293826e-05,
      "loss": 0.5385,
      "step": 445400
    },
    {
      "epoch": 0.06205871068078884,
      "grad_norm": 3.1875,
      "learning_rate": 3.451435230933996e-05,
      "loss": 0.477,
      "step": 445450
    },
    {
      "epoch": 0.062126982089678595,
      "grad_norm": 3.40625,
      "learning_rate": 3.450394782748799e-05,
      "loss": 0.5594,
      "step": 445500
    },
    {
      "epoch": 0.062195253498568345,
      "grad_norm": 3.375,
      "learning_rate": 3.449354408788068e-05,
      "loss": 0.4815,
      "step": 445550
    },
    {
      "epoch": 0.0622635249074581,
      "grad_norm": 6.71875,
      "learning_rate": 3.44831410910164e-05,
      "loss": 0.5712,
      "step": 445600
    },
    {
      "epoch": 0.06233179631634786,
      "grad_norm": 6.40625,
      "learning_rate": 3.447273883739342e-05,
      "loss": 0.475,
      "step": 445650
    },
    {
      "epoch": 0.062400067725237617,
      "grad_norm": 2.703125,
      "learning_rate": 3.446233732750999e-05,
      "loss": 0.5848,
      "step": 445700
    },
    {
      "epoch": 0.062468339134127374,
      "grad_norm": 7.03125,
      "learning_rate": 3.445193656186435e-05,
      "loss": 0.5917,
      "step": 445750
    },
    {
      "epoch": 0.06253661054301714,
      "grad_norm": 3.53125,
      "learning_rate": 3.444153654095468e-05,
      "loss": 0.5641,
      "step": 445800
    },
    {
      "epoch": 0.06260488195190689,
      "grad_norm": 3.5,
      "learning_rate": 3.443113726527911e-05,
      "loss": 0.4704,
      "step": 445850
    },
    {
      "epoch": 0.06267315336079665,
      "grad_norm": 2.890625,
      "learning_rate": 3.44207387353358e-05,
      "loss": 0.5136,
      "step": 445900
    },
    {
      "epoch": 0.0627414247696864,
      "grad_norm": 2.65625,
      "learning_rate": 3.4410340951622774e-05,
      "loss": 0.5361,
      "step": 445950
    },
    {
      "epoch": 0.06280969617857615,
      "grad_norm": 2.78125,
      "learning_rate": 3.43999439146381e-05,
      "loss": 0.4617,
      "step": 446000
    },
    {
      "epoch": 0.06287796758746592,
      "grad_norm": 2.984375,
      "learning_rate": 3.4389547624879816e-05,
      "loss": 0.4846,
      "step": 446050
    },
    {
      "epoch": 0.06294623899635567,
      "grad_norm": 2.984375,
      "learning_rate": 3.437915208284585e-05,
      "loss": 0.5305,
      "step": 446100
    },
    {
      "epoch": 0.06301451040524543,
      "grad_norm": 7.03125,
      "learning_rate": 3.436875728903415e-05,
      "loss": 0.5362,
      "step": 446150
    },
    {
      "epoch": 0.06308278181413518,
      "grad_norm": 4.1875,
      "learning_rate": 3.4358363243942614e-05,
      "loss": 0.5299,
      "step": 446200
    },
    {
      "epoch": 0.06315105322302494,
      "grad_norm": 2.765625,
      "learning_rate": 3.4347969948069116e-05,
      "loss": 0.6145,
      "step": 446250
    },
    {
      "epoch": 0.0632193246319147,
      "grad_norm": 4.1875,
      "learning_rate": 3.433757740191148e-05,
      "loss": 0.5641,
      "step": 446300
    },
    {
      "epoch": 0.06328759604080446,
      "grad_norm": 2.4375,
      "learning_rate": 3.432718560596747e-05,
      "loss": 0.5531,
      "step": 446350
    },
    {
      "epoch": 0.06335586744969421,
      "grad_norm": 2.953125,
      "learning_rate": 3.4316794560734896e-05,
      "loss": 0.6043,
      "step": 446400
    },
    {
      "epoch": 0.06342413885858397,
      "grad_norm": 2.578125,
      "learning_rate": 3.430640426671144e-05,
      "loss": 0.5092,
      "step": 446450
    },
    {
      "epoch": 0.06349241026747372,
      "grad_norm": 2.75,
      "learning_rate": 3.4296014724394784e-05,
      "loss": 0.4987,
      "step": 446500
    },
    {
      "epoch": 0.06356068167636349,
      "grad_norm": 3.125,
      "learning_rate": 3.4285625934282604e-05,
      "loss": 0.538,
      "step": 446550
    },
    {
      "epoch": 0.06362895308525324,
      "grad_norm": 2.890625,
      "learning_rate": 3.42752378968725e-05,
      "loss": 0.4876,
      "step": 446600
    },
    {
      "epoch": 0.063697224494143,
      "grad_norm": 2.4375,
      "learning_rate": 3.426485061266202e-05,
      "loss": 0.5289,
      "step": 446650
    },
    {
      "epoch": 0.06376549590303275,
      "grad_norm": 3.046875,
      "learning_rate": 3.425446408214876e-05,
      "loss": 0.5299,
      "step": 446700
    },
    {
      "epoch": 0.06383376731192252,
      "grad_norm": 5.9375,
      "learning_rate": 3.4244078305830176e-05,
      "loss": 0.5926,
      "step": 446750
    },
    {
      "epoch": 0.06390203872081227,
      "grad_norm": 7.34375,
      "learning_rate": 3.4233693284203763e-05,
      "loss": 0.5653,
      "step": 446800
    },
    {
      "epoch": 0.06397031012970203,
      "grad_norm": 3.6875,
      "learning_rate": 3.422330901776692e-05,
      "loss": 0.4798,
      "step": 446850
    },
    {
      "epoch": 0.06403858153859178,
      "grad_norm": 2.875,
      "learning_rate": 3.421292550701708e-05,
      "loss": 0.5458,
      "step": 446900
    },
    {
      "epoch": 0.06410685294748153,
      "grad_norm": 3.109375,
      "learning_rate": 3.4202542752451586e-05,
      "loss": 0.5109,
      "step": 446950
    },
    {
      "epoch": 0.0641751243563713,
      "grad_norm": 4.03125,
      "learning_rate": 3.419216075456776e-05,
      "loss": 0.5744,
      "step": 447000
    },
    {
      "epoch": 0.06424339576526104,
      "grad_norm": 7.21875,
      "learning_rate": 3.4181779513862886e-05,
      "loss": 0.7009,
      "step": 447050
    },
    {
      "epoch": 0.06431166717415081,
      "grad_norm": 2.453125,
      "learning_rate": 3.417139903083423e-05,
      "loss": 0.5575,
      "step": 447100
    },
    {
      "epoch": 0.06437993858304056,
      "grad_norm": 7.78125,
      "learning_rate": 3.416101930597897e-05,
      "loss": 0.5828,
      "step": 447150
    },
    {
      "epoch": 0.06444820999193032,
      "grad_norm": 4.1875,
      "learning_rate": 3.4150640339794335e-05,
      "loss": 0.5457,
      "step": 447200
    },
    {
      "epoch": 0.06451648140082007,
      "grad_norm": 7.1875,
      "learning_rate": 3.4140262132777434e-05,
      "loss": 0.6187,
      "step": 447250
    },
    {
      "epoch": 0.06458475280970984,
      "grad_norm": 2.8125,
      "learning_rate": 3.412988468542539e-05,
      "loss": 0.5062,
      "step": 447300
    },
    {
      "epoch": 0.06465302421859959,
      "grad_norm": 2.671875,
      "learning_rate": 3.411950799823524e-05,
      "loss": 0.5454,
      "step": 447350
    },
    {
      "epoch": 0.06472129562748935,
      "grad_norm": 3.640625,
      "learning_rate": 3.410913207170405e-05,
      "loss": 0.5646,
      "step": 447400
    },
    {
      "epoch": 0.0647895670363791,
      "grad_norm": 2.609375,
      "learning_rate": 3.40987569063288e-05,
      "loss": 0.5047,
      "step": 447450
    },
    {
      "epoch": 0.06485783844526886,
      "grad_norm": 3.4375,
      "learning_rate": 3.4088382502606455e-05,
      "loss": 0.5137,
      "step": 447500
    },
    {
      "epoch": 0.06492610985415861,
      "grad_norm": 3.4375,
      "learning_rate": 3.407800886103393e-05,
      "loss": 0.5208,
      "step": 447550
    },
    {
      "epoch": 0.06499438126304838,
      "grad_norm": 2.359375,
      "learning_rate": 3.4067635982108134e-05,
      "loss": 0.573,
      "step": 447600
    },
    {
      "epoch": 0.06506265267193813,
      "grad_norm": 2.671875,
      "learning_rate": 3.405726386632587e-05,
      "loss": 0.5378,
      "step": 447650
    },
    {
      "epoch": 0.06513092408082789,
      "grad_norm": 2.84375,
      "learning_rate": 3.404689251418402e-05,
      "loss": 0.5851,
      "step": 447700
    },
    {
      "epoch": 0.06519919548971764,
      "grad_norm": 3.09375,
      "learning_rate": 3.40365219261793e-05,
      "loss": 0.5764,
      "step": 447750
    },
    {
      "epoch": 0.06526746689860739,
      "grad_norm": 2.609375,
      "learning_rate": 3.4026152102808466e-05,
      "loss": 0.5714,
      "step": 447800
    },
    {
      "epoch": 0.06533573830749716,
      "grad_norm": 2.734375,
      "learning_rate": 3.401578304456825e-05,
      "loss": 0.4882,
      "step": 447850
    },
    {
      "epoch": 0.06540400971638691,
      "grad_norm": 3.296875,
      "learning_rate": 3.40054147519553e-05,
      "loss": 0.4514,
      "step": 447900
    },
    {
      "epoch": 0.06547228112527667,
      "grad_norm": 2.734375,
      "learning_rate": 3.3995047225466236e-05,
      "loss": 0.5477,
      "step": 447950
    },
    {
      "epoch": 0.06554055253416642,
      "grad_norm": 2.609375,
      "learning_rate": 3.398468046559766e-05,
      "loss": 0.5032,
      "step": 448000
    },
    {
      "epoch": 0.06560882394305619,
      "grad_norm": 2.984375,
      "learning_rate": 3.397431447284612e-05,
      "loss": 0.471,
      "step": 448050
    },
    {
      "epoch": 0.06567709535194594,
      "grad_norm": 3.171875,
      "learning_rate": 3.396394924770817e-05,
      "loss": 0.5651,
      "step": 448100
    },
    {
      "epoch": 0.0657453667608357,
      "grad_norm": 3.296875,
      "learning_rate": 3.3953584790680234e-05,
      "loss": 0.5086,
      "step": 448150
    },
    {
      "epoch": 0.06581363816972545,
      "grad_norm": 8.0625,
      "learning_rate": 3.3943221102258826e-05,
      "loss": 0.4819,
      "step": 448200
    },
    {
      "epoch": 0.06588190957861521,
      "grad_norm": 3.5,
      "learning_rate": 3.3932858182940306e-05,
      "loss": 0.5121,
      "step": 448250
    },
    {
      "epoch": 0.06595018098750496,
      "grad_norm": 7.9375,
      "learning_rate": 3.392249603322106e-05,
      "loss": 0.5591,
      "step": 448300
    },
    {
      "epoch": 0.06601845239639473,
      "grad_norm": 3.203125,
      "learning_rate": 3.391213465359744e-05,
      "loss": 0.554,
      "step": 448350
    },
    {
      "epoch": 0.06608672380528448,
      "grad_norm": 3.53125,
      "learning_rate": 3.3901774044565734e-05,
      "loss": 0.5305,
      "step": 448400
    },
    {
      "epoch": 0.06615499521417424,
      "grad_norm": 2.90625,
      "learning_rate": 3.389141420662222e-05,
      "loss": 0.5155,
      "step": 448450
    },
    {
      "epoch": 0.06622326662306399,
      "grad_norm": 3.453125,
      "learning_rate": 3.388105514026307e-05,
      "loss": 0.4931,
      "step": 448500
    },
    {
      "epoch": 0.06629153803195376,
      "grad_norm": 2.390625,
      "learning_rate": 3.387069684598453e-05,
      "loss": 0.5487,
      "step": 448550
    },
    {
      "epoch": 0.0663598094408435,
      "grad_norm": 2.296875,
      "learning_rate": 3.3860339324282734e-05,
      "loss": 0.4493,
      "step": 448600
    },
    {
      "epoch": 0.06642808084973327,
      "grad_norm": 3.125,
      "learning_rate": 3.384998257565378e-05,
      "loss": 0.5496,
      "step": 448650
    },
    {
      "epoch": 0.06649635225862302,
      "grad_norm": 2.5,
      "learning_rate": 3.383962660059378e-05,
      "loss": 0.4905,
      "step": 448700
    },
    {
      "epoch": 0.06656462366751277,
      "grad_norm": 7.15625,
      "learning_rate": 3.3829271399598735e-05,
      "loss": 0.5346,
      "step": 448750
    },
    {
      "epoch": 0.06663289507640253,
      "grad_norm": 3.625,
      "learning_rate": 3.381891697316467e-05,
      "loss": 0.5128,
      "step": 448800
    },
    {
      "epoch": 0.06670116648529228,
      "grad_norm": 3.03125,
      "learning_rate": 3.380856332178756e-05,
      "loss": 0.5979,
      "step": 448850
    },
    {
      "epoch": 0.06676943789418205,
      "grad_norm": 2.5,
      "learning_rate": 3.379821044596332e-05,
      "loss": 0.5271,
      "step": 448900
    },
    {
      "epoch": 0.0668377093030718,
      "grad_norm": 3.15625,
      "learning_rate": 3.378785834618782e-05,
      "loss": 0.6003,
      "step": 448950
    },
    {
      "epoch": 0.06690598071196156,
      "grad_norm": 4.4375,
      "learning_rate": 3.3777507022956963e-05,
      "loss": 0.5311,
      "step": 449000
    },
    {
      "epoch": 0.06697425212085131,
      "grad_norm": 3.171875,
      "learning_rate": 3.376715647676654e-05,
      "loss": 0.5655,
      "step": 449050
    },
    {
      "epoch": 0.06704252352974108,
      "grad_norm": 7.09375,
      "learning_rate": 3.3756806708112346e-05,
      "loss": 0.567,
      "step": 449100
    },
    {
      "epoch": 0.06711079493863083,
      "grad_norm": 3.203125,
      "learning_rate": 3.3746457717490075e-05,
      "loss": 0.518,
      "step": 449150
    },
    {
      "epoch": 0.06717906634752059,
      "grad_norm": 3.3125,
      "learning_rate": 3.3736109505395505e-05,
      "loss": 0.517,
      "step": 449200
    },
    {
      "epoch": 0.06724733775641034,
      "grad_norm": 3.640625,
      "learning_rate": 3.372576207232425e-05,
      "loss": 0.5442,
      "step": 449250
    },
    {
      "epoch": 0.0673156091653001,
      "grad_norm": 3.5,
      "learning_rate": 3.3715415418771964e-05,
      "loss": 0.5414,
      "step": 449300
    },
    {
      "epoch": 0.06738388057418986,
      "grad_norm": 4.125,
      "learning_rate": 3.370506954523423e-05,
      "loss": 0.5774,
      "step": 449350
    },
    {
      "epoch": 0.06745215198307962,
      "grad_norm": 2.46875,
      "learning_rate": 3.369472445220663e-05,
      "loss": 0.6364,
      "step": 449400
    },
    {
      "epoch": 0.06752042339196937,
      "grad_norm": 3.90625,
      "learning_rate": 3.368438014018465e-05,
      "loss": 0.5691,
      "step": 449450
    },
    {
      "epoch": 0.06758869480085913,
      "grad_norm": 2.265625,
      "learning_rate": 3.36740366096638e-05,
      "loss": 0.4715,
      "step": 449500
    },
    {
      "epoch": 0.06765696620974888,
      "grad_norm": 2.421875,
      "learning_rate": 3.3663693861139504e-05,
      "loss": 0.4529,
      "step": 449550
    },
    {
      "epoch": 0.06772523761863863,
      "grad_norm": 3.34375,
      "learning_rate": 3.3653351895107154e-05,
      "loss": 0.5361,
      "step": 449600
    },
    {
      "epoch": 0.0677935090275284,
      "grad_norm": 3.578125,
      "learning_rate": 3.3643010712062174e-05,
      "loss": 0.6181,
      "step": 449650
    },
    {
      "epoch": 0.06786178043641815,
      "grad_norm": 2.921875,
      "learning_rate": 3.363267031249986e-05,
      "loss": 0.5312,
      "step": 449700
    },
    {
      "epoch": 0.06793005184530791,
      "grad_norm": 3.296875,
      "learning_rate": 3.362233069691551e-05,
      "loss": 0.5224,
      "step": 449750
    },
    {
      "epoch": 0.06799832325419766,
      "grad_norm": 8.375,
      "learning_rate": 3.361199186580435e-05,
      "loss": 0.5888,
      "step": 449800
    },
    {
      "epoch": 0.06806659466308743,
      "grad_norm": 2.984375,
      "learning_rate": 3.360165381966165e-05,
      "loss": 0.5744,
      "step": 449850
    },
    {
      "epoch": 0.06813486607197718,
      "grad_norm": 2.4375,
      "learning_rate": 3.359131655898258e-05,
      "loss": 0.5233,
      "step": 449900
    },
    {
      "epoch": 0.06820313748086694,
      "grad_norm": 2.875,
      "learning_rate": 3.358098008426225e-05,
      "loss": 0.479,
      "step": 449950
    },
    {
      "epoch": 0.06827140888975669,
      "grad_norm": 3.078125,
      "learning_rate": 3.357064439599581e-05,
      "loss": 0.5912,
      "step": 450000
    }
  ],
  "logging_steps": 50,
  "max_steps": 732371,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 2000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.5228159155167874e+20,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}