DeepSeek-Coder-7B-Instruct-query_nsx_under8 / trainer_state.json

Upload folder using huggingface_hub

29e2abb verified 2 months ago

15.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9907578558225508,
	"eval_steps": 500,
	"global_step": 67,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.014787430683918669,
	"grad_norm": 2.2905805110931396,
	"learning_rate": 4.997252228714279e-05,
	"loss": 1.5801,
	"num_input_tokens_seen": 1572864,
	"step": 1
	},
	{
	"epoch": 0.029574861367837338,
	"grad_norm": 1.8597325086593628,
	"learning_rate": 4.9890149550547454e-05,
	"loss": 1.3696,
	"num_input_tokens_seen": 3145728,
	"step": 2
	},
	{
	"epoch": 0.04436229205175601,
	"grad_norm": 1.7161543369293213,
	"learning_rate": 4.9753062863366276e-05,
	"loss": 1.2964,
	"num_input_tokens_seen": 4718592,
	"step": 3
	},
	{
	"epoch": 0.059149722735674676,
	"grad_norm": 1.556989073753357,
	"learning_rate": 4.95615635718894e-05,
	"loss": 1.2465,
	"num_input_tokens_seen": 6291456,
	"step": 4
	},
	{
	"epoch": 0.07393715341959335,
	"grad_norm": 1.2705891132354736,
	"learning_rate": 4.931607263312032e-05,
	"loss": 1.1284,
	"num_input_tokens_seen": 7864320,
	"step": 5
	},
	{
	"epoch": 0.08872458410351201,
	"grad_norm": 1.1708149909973145,
	"learning_rate": 4.9017129689421e-05,
	"loss": 1.0455,
	"num_input_tokens_seen": 9437184,
	"step": 6
	},
	{
	"epoch": 0.10351201478743069,
	"grad_norm": 1.0333069562911987,
	"learning_rate": 4.8665391882260856e-05,
	"loss": 0.985,
	"num_input_tokens_seen": 11010048,
	"step": 7
	},
	{
	"epoch": 0.11829944547134935,
	"grad_norm": 1.0009125471115112,
	"learning_rate": 4.8261632407677174e-05,
	"loss": 0.957,
	"num_input_tokens_seen": 12582912,
	"step": 8
	},
	{
	"epoch": 0.133086876155268,
	"grad_norm": 0.7598341107368469,
	"learning_rate": 4.780673881662242e-05,
	"loss": 0.9121,
	"num_input_tokens_seen": 14155776,
	"step": 9
	},
	{
	"epoch": 0.1478743068391867,
	"grad_norm": 0.366968035697937,
	"learning_rate": 4.730171106393466e-05,
	"loss": 0.8857,
	"num_input_tokens_seen": 15728640,
	"step": 10
	},
	{
	"epoch": 0.16266173752310537,
	"grad_norm": 0.2760382890701294,
	"learning_rate": 4.674765931021976e-05,
	"loss": 0.8871,
	"num_input_tokens_seen": 17301504,
	"step": 11
	},
	{
	"epoch": 0.17744916820702403,
	"grad_norm": 0.23743785917758942,
	"learning_rate": 4.614580148147744e-05,
	"loss": 0.8668,
	"num_input_tokens_seen": 18874368,
	"step": 12
	},
	{
	"epoch": 0.1922365988909427,
	"grad_norm": 0.21216906607151031,
	"learning_rate": 4.5497460591835615e-05,
	"loss": 0.8264,
	"num_input_tokens_seen": 20447232,
	"step": 13
	},
	{
	"epoch": 0.20702402957486138,
	"grad_norm": 0.202525332570076,
	"learning_rate": 4.480406183527823e-05,
	"loss": 0.8316,
	"num_input_tokens_seen": 22020096,
	"step": 14
	},
	{
	"epoch": 0.22181146025878004,
	"grad_norm": 0.1785624921321869,
	"learning_rate": 4.406712945275955e-05,
	"loss": 0.8214,
	"num_input_tokens_seen": 23592960,
	"step": 15
	},
	{
	"epoch": 0.2365988909426987,
	"grad_norm": 0.17254720628261566,
	"learning_rate": 4.328828338159173e-05,
	"loss": 0.8074,
	"num_input_tokens_seen": 25165824,
	"step": 16
	},
	{
	"epoch": 0.2513863216266174,
	"grad_norm": 0.15905120968818665,
	"learning_rate": 4.2469235694471043e-05,
	"loss": 0.7947,
	"num_input_tokens_seen": 26738688,
	"step": 17
	},
	{
	"epoch": 0.266173752310536,
	"grad_norm": 0.13924936950206757,
	"learning_rate": 4.161178683597054e-05,
	"loss": 0.7868,
	"num_input_tokens_seen": 28311552,
	"step": 18
	},
	{
	"epoch": 0.2809611829944547,
	"grad_norm": 0.12500160932540894,
	"learning_rate": 4.071782166477213e-05,
	"loss": 0.7657,
	"num_input_tokens_seen": 29884416,
	"step": 19
	},
	{
	"epoch": 0.2957486136783734,
	"grad_norm": 0.11662258207798004,
	"learning_rate": 3.978930531033807e-05,
	"loss": 0.7821,
	"num_input_tokens_seen": 31457280,
	"step": 20
	},
	{
	"epoch": 0.31053604436229204,
	"grad_norm": 0.10671637207269669,
	"learning_rate": 3.882827885312999e-05,
	"loss": 0.764,
	"num_input_tokens_seen": 33030144,
	"step": 21
	},
	{
	"epoch": 0.32532347504621073,
	"grad_norm": 0.10863461345434189,
	"learning_rate": 3.783685483787105e-05,
	"loss": 0.7781,
	"num_input_tokens_seen": 34603008,
	"step": 22
	},
	{
	"epoch": 0.34011090573012936,
	"grad_norm": 0.09509966522455215,
	"learning_rate": 3.681721262971413e-05,
	"loss": 0.7663,
	"num_input_tokens_seen": 36175872,
	"step": 23
	},
	{
	"epoch": 0.35489833641404805,
	"grad_norm": 0.08742663264274597,
	"learning_rate": 3.5771593623524265e-05,
	"loss": 0.7303,
	"num_input_tokens_seen": 37748736,
	"step": 24
	},
	{
	"epoch": 0.36968576709796674,
	"grad_norm": 0.09325291961431503,
	"learning_rate": 3.4702296316806244e-05,
	"loss": 0.7626,
	"num_input_tokens_seen": 39321600,
	"step": 25
	},
	{
	"epoch": 0.3844731977818854,
	"grad_norm": 0.08703341335058212,
	"learning_rate": 3.361167125710832e-05,
	"loss": 0.7709,
	"num_input_tokens_seen": 40894464,
	"step": 26
	},
	{
	"epoch": 0.39926062846580407,
	"grad_norm": 0.09138187021017075,
	"learning_rate": 3.2502115875008524e-05,
	"loss": 0.7638,
	"num_input_tokens_seen": 42467328,
	"step": 27
	},
	{
	"epoch": 0.41404805914972276,
	"grad_norm": 0.08183719217777252,
	"learning_rate": 3.1376069214041913e-05,
	"loss": 0.7561,
	"num_input_tokens_seen": 44040192,
	"step": 28
	},
	{
	"epoch": 0.4288354898336414,
	"grad_norm": 0.08267659693956375,
	"learning_rate": 3.0236006569153617e-05,
	"loss": 0.7372,
	"num_input_tokens_seen": 45613056,
	"step": 29
	},
	{
	"epoch": 0.4436229205175601,
	"grad_norm": 0.07969928532838821,
	"learning_rate": 2.9084434045463255e-05,
	"loss": 0.7281,
	"num_input_tokens_seen": 47185920,
	"step": 30
	},
	{
	"epoch": 0.4584103512014787,
	"grad_norm": 0.07706066220998764,
	"learning_rate": 2.792388304930207e-05,
	"loss": 0.7601,
	"num_input_tokens_seen": 48758784,
	"step": 31
	},
	{
	"epoch": 0.4731977818853974,
	"grad_norm": 0.07695123553276062,
	"learning_rate": 2.6756904723632324e-05,
	"loss": 0.7296,
	"num_input_tokens_seen": 50331648,
	"step": 32
	},
	{
	"epoch": 0.4879852125693161,
	"grad_norm": 0.07787525653839111,
	"learning_rate": 2.5586064340081516e-05,
	"loss": 0.741,
	"num_input_tokens_seen": 51904512,
	"step": 33
	},
	{
	"epoch": 0.5027726432532348,
	"grad_norm": 0.08225582540035248,
	"learning_rate": 2.441393565991849e-05,
	"loss": 0.7251,
	"num_input_tokens_seen": 53477376,
	"step": 34
	},
	{
	"epoch": 0.5175600739371534,
	"grad_norm": 0.0731961578130722,
	"learning_rate": 2.3243095276367685e-05,
	"loss": 0.7385,
	"num_input_tokens_seen": 55050240,
	"step": 35
	},
	{
	"epoch": 0.532347504621072,
	"grad_norm": 0.08208758383989334,
	"learning_rate": 2.207611695069794e-05,
	"loss": 0.746,
	"num_input_tokens_seen": 56623104,
	"step": 36
	},
	{
	"epoch": 0.5471349353049908,
	"grad_norm": 0.07385499030351639,
	"learning_rate": 2.0915565954536744e-05,
	"loss": 0.7315,
	"num_input_tokens_seen": 58195968,
	"step": 37
	},
	{
	"epoch": 0.5619223659889094,
	"grad_norm": 0.06937970221042633,
	"learning_rate": 1.9763993430846395e-05,
	"loss": 0.7267,
	"num_input_tokens_seen": 59768832,
	"step": 38
	},
	{
	"epoch": 0.5767097966728281,
	"grad_norm": 0.0702456384897232,
	"learning_rate": 1.8623930785958092e-05,
	"loss": 0.7443,
	"num_input_tokens_seen": 61341696,
	"step": 39
	},
	{
	"epoch": 0.5914972273567468,
	"grad_norm": 0.0659838542342186,
	"learning_rate": 1.749788412499149e-05,
	"loss": 0.7163,
	"num_input_tokens_seen": 62914560,
	"step": 40
	},
	{
	"epoch": 0.6062846580406654,
	"grad_norm": 0.07357968389987946,
	"learning_rate": 1.638832874289168e-05,
	"loss": 0.73,
	"num_input_tokens_seen": 64487424,
	"step": 41
	},
	{
	"epoch": 0.6210720887245841,
	"grad_norm": 0.0689447820186615,
	"learning_rate": 1.5297703683193752e-05,
	"loss": 0.723,
	"num_input_tokens_seen": 66060288,
	"step": 42
	},
	{
	"epoch": 0.6358595194085028,
	"grad_norm": 0.0671798512339592,
	"learning_rate": 1.4228406376475742e-05,
	"loss": 0.7176,
	"num_input_tokens_seen": 67633152,
	"step": 43
	},
	{
	"epoch": 0.6506469500924215,
	"grad_norm": 0.06556376069784164,
	"learning_rate": 1.3182787370285865e-05,
	"loss": 0.7066,
	"num_input_tokens_seen": 69206016,
	"step": 44
	},
	{
	"epoch": 0.6654343807763401,
	"grad_norm": 0.07168299704790115,
	"learning_rate": 1.2163145162128947e-05,
	"loss": 0.7244,
	"num_input_tokens_seen": 70778880,
	"step": 45
	},
	{
	"epoch": 0.6802218114602587,
	"grad_norm": 0.06598961353302002,
	"learning_rate": 1.1171721146870015e-05,
	"loss": 0.7349,
	"num_input_tokens_seen": 72351744,
	"step": 46
	},
	{
	"epoch": 0.6950092421441775,
	"grad_norm": 0.06602618843317032,
	"learning_rate": 1.021069468966194e-05,
	"loss": 0.7487,
	"num_input_tokens_seen": 73924608,
	"step": 47
	},
	{
	"epoch": 0.7097966728280961,
	"grad_norm": 0.0713997408747673,
	"learning_rate": 9.282178335227884e-06,
	"loss": 0.7381,
	"num_input_tokens_seen": 75497472,
	"step": 48
	},
	{
	"epoch": 0.7245841035120147,
	"grad_norm": 0.06555724889039993,
	"learning_rate": 8.38821316402946e-06,
	"loss": 0.7262,
	"num_input_tokens_seen": 77070336,
	"step": 49
	},
	{
	"epoch": 0.7393715341959335,
	"grad_norm": 0.06813663244247437,
	"learning_rate": 7.530764305528959e-06,
	"loss": 0.7473,
	"num_input_tokens_seen": 78643200,
	"step": 50
	},
	{
	"epoch": 0.7541589648798521,
	"grad_norm": 0.06930514425039291,
	"learning_rate": 6.711716618408281e-06,
	"loss": 0.6998,
	"num_input_tokens_seen": 80216064,
	"step": 51
	},
	{
	"epoch": 0.7689463955637708,
	"grad_norm": 0.06492163240909576,
	"learning_rate": 5.932870547240454e-06,
	"loss": 0.7218,
	"num_input_tokens_seen": 81788928,
	"step": 52
	},
	{
	"epoch": 0.7837338262476895,
	"grad_norm": 0.07155918329954147,
	"learning_rate": 5.1959381647217666e-06,
	"loss": 0.7314,
	"num_input_tokens_seen": 83361792,
	"step": 53
	},
	{
	"epoch": 0.7985212569316081,
	"grad_norm": 0.06532897800207138,
	"learning_rate": 4.502539408164386e-06,
	"loss": 0.7028,
	"num_input_tokens_seen": 84934656,
	"step": 54
	},
	{
	"epoch": 0.8133086876155268,
	"grad_norm": 0.06727246940135956,
	"learning_rate": 3.8541985185225645e-06,
	"loss": 0.7084,
	"num_input_tokens_seen": 86507520,
	"step": 55
	},
	{
	"epoch": 0.8280961182994455,
	"grad_norm": 0.06698304414749146,
	"learning_rate": 3.252340689780245e-06,
	"loss": 0.7223,
	"num_input_tokens_seen": 88080384,
	"step": 56
	},
	{
	"epoch": 0.8428835489833642,
	"grad_norm": 0.06450291723012924,
	"learning_rate": 2.6982889360653377e-06,
	"loss": 0.7195,
	"num_input_tokens_seen": 89653248,
	"step": 57
	},
	{
	"epoch": 0.8576709796672828,
	"grad_norm": 0.06992805004119873,
	"learning_rate": 2.1932611833775846e-06,
	"loss": 0.7431,
	"num_input_tokens_seen": 91226112,
	"step": 58
	},
	{
	"epoch": 0.8724584103512015,
	"grad_norm": 0.06958083808422089,
	"learning_rate": 1.738367592322837e-06,
	"loss": 0.732,
	"num_input_tokens_seen": 92798976,
	"step": 59
	},
	{
	"epoch": 0.8872458410351202,
	"grad_norm": 0.0694640502333641,
	"learning_rate": 1.3346081177391472e-06,
	"loss": 0.7302,
	"num_input_tokens_seen": 94371840,
	"step": 60
	},
	{
	"epoch": 0.9020332717190388,
	"grad_norm": 0.07005713880062103,
	"learning_rate": 9.828703105789983e-07,
	"loss": 0.7197,
	"num_input_tokens_seen": 95944704,
	"step": 61
	},
	{
	"epoch": 0.9168207024029574,
	"grad_norm": 0.07030840963125229,
	"learning_rate": 6.839273668796747e-07,
	"loss": 0.7203,
	"num_input_tokens_seen": 97517568,
	"step": 62
	},
	{
	"epoch": 0.9316081330868762,
	"grad_norm": 0.0708225816488266,
	"learning_rate": 4.3843642811059737e-07,
	"loss": 0.7474,
	"num_input_tokens_seen": 99090432,
	"step": 63
	},
	{
	"epoch": 0.9463955637707948,
	"grad_norm": 0.0676749050617218,
	"learning_rate": 2.4693713663372644e-07,
	"loss": 0.7403,
	"num_input_tokens_seen": 100663296,
	"step": 64
	},
	{
	"epoch": 0.9611829944547134,
	"grad_norm": 0.06782912462949753,
	"learning_rate": 1.0985044945254764e-07,
	"loss": 0.7327,
	"num_input_tokens_seen": 102236160,
	"step": 65
	},
	{
	"epoch": 0.9759704251386322,
	"grad_norm": 0.06357243657112122,
	"learning_rate": 2.7477712857215677e-08,
	"loss": 0.725,
	"num_input_tokens_seen": 103809024,
	"step": 66
	},
	{
	"epoch": 0.9907578558225508,
	"grad_norm": 0.07199209183454514,
	"learning_rate": 0.0,
	"loss": 0.7209,
	"num_input_tokens_seen": 105381888,
	"step": 67
	},
	{
	"epoch": 0.9907578558225508,
	"num_input_tokens_seen": 105381888,
	"step": 67,
	"total_flos": 4.104162098269913e+18,
	"train_loss": 0.8075656152483243,
	"train_runtime": 10309.5741,
	"train_samples_per_second": 2.518,
	"train_steps_per_second": 0.006
	}
	],
	"logging_steps": 1,
	"max_steps": 67,
	"num_input_tokens_seen": 105381888,
	"num_train_epochs": 1,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 4.104162098269913e+18,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}