Model save

Browse files

Files changed (8) hide show

README.md +163 -132
config.json +1 -1
generation_config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
tokenizer.json +1 -6
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -17,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [deepseek-ai/deepseek-math-7b-base](https://huggingface.co/deepseek-ai/deepseek-math-7b-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0295
 ## Model description
@@ -36,151 +36,182 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 9e-06
-- train_batch_size: 4
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 4
-- total_train_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
-- lr_scheduler_type: linear
-- lr_scheduler_warmup_steps: 6
 - num_epochs: 1
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.8094        | 0.01  | 5    | 0.5020          |
-| 0.4809        | 0.02  | 10   | 0.3532          |
-| 0.2489        | 0.02  | 15   | 0.2378          |
-| 0.1325        | 0.03  | 20   | 0.1780          |
-| 0.0541        | 0.04  | 25   | 0.1620          |
-| 0.044         | 0.05  | 30   | 0.1562          |
-| 0.0854        | 0.06  | 35   | 0.1469          |
-| 0.0646        | 0.06  | 40   | 0.1355          |
-| 0.0597        | 0.07  | 45   | 0.1261          |
-| 0.0341        | 0.08  | 50   | 0.1181          |
-| 0.0291        | 0.09  | 55   | 0.1140          |
-| 0.0626        | 0.1   | 60   | 0.1110          |
-| 0.0752        | 0.1   | 65   | 0.1039          |
-| 0.0554        | 0.11  | 70   | 0.0954          |
-| 0.0392        | 0.12  | 75   | 0.0884          |
-| 0.0346        | 0.13  | 80   | 0.0841          |
-| 0.0326        | 0.14  | 85   | 0.0792          |
-| 0.0432        | 0.14  | 90   | 0.0747          |
-| 0.0576        | 0.15  | 95   | 0.0705          |
-| 0.0563        | 0.16  | 100  | 0.0681          |
-| 0.0368        | 0.17  | 105  | 0.0658          |
-| 0.0419        | 0.18  | 110  | 0.0638          |
-| 0.0458        | 0.18  | 115  | 0.0604          |
-| 0.0532        | 0.19  | 120  | 0.0581          |
-| 0.0306        | 0.2   | 125  | 0.0560          |
-| 0.035         | 0.21  | 130  | 0.0546          |
-| 0.0422        | 0.22  | 135  | 0.0540          |
-| 0.042         | 0.22  | 140  | 0.0531          |
-| 0.0313        | 0.23  | 145  | 0.0515          |
-| 0.0464        | 0.24  | 150  | 0.0488          |
-| 0.0492        | 0.25  | 155  | 0.0469          |
-| 0.0612        | 0.26  | 160  | 0.0461          |
-| 0.0617        | 0.26  | 165  | 0.0461          |
-| 0.0533        | 0.27  | 170  | 0.0454          |
-| 0.0531        | 0.28  | 175  | 0.0445          |
-| 0.0588        | 0.29  | 180  | 0.0424          |
-| 0.039         | 0.3   | 185  | 0.0408          |
-| 0.0517        | 0.3   | 190  | 0.0404          |
-| 0.0383        | 0.31  | 195  | 0.0395          |
-| 0.0466        | 0.32  | 200  | 0.0387          |
-| 0.0335        | 0.33  | 205  | 0.0390          |
-| 0.0421        | 0.34  | 210  | 0.0386          |
-| 0.0595        | 0.34  | 215  | 0.0379          |
-| 0.0564        | 0.35  | 220  | 0.0378          |
-| 0.0368        | 0.36  | 225  | 0.0367          |
-| 0.0396        | 0.37  | 230  | 0.0365          |
-| 0.077         | 0.38  | 235  | 0.0367          |
-| 0.041         | 0.38  | 240  | 0.0359          |
-| 0.0472        | 0.39  | 245  | 0.0360          |
-| 0.0333        | 0.4   | 250  | 0.0351          |
-| 0.0242        | 0.41  | 255  | 0.0356          |
-| 0.0356        | 0.42  | 260  | 0.0356          |
-| 0.0306        | 0.42  | 265  | 0.0351          |
-| 0.0403        | 0.43  | 270  | 0.0342          |
-| 0.0496        | 0.44  | 275  | 0.0334          |
-| 0.0425        | 0.45  | 280  | 0.0333          |
-| 0.046         | 0.46  | 285  | 0.0339          |
-| 0.0334        | 0.46  | 290  | 0.0335          |
-| 0.0423        | 0.47  | 295  | 0.0328          |
-| 0.0338        | 0.48  | 300  | 0.0327          |
-| 0.0374        | 0.49  | 305  | 0.0328          |
-| 0.0355        | 0.5   | 310  | 0.0329          |
-| 0.0321        | 0.5   | 315  | 0.0325          |
-| 0.0303        | 0.51  | 320  | 0.0321          |
-| 0.0313        | 0.52  | 325  | 0.0321          |
-| 0.0393        | 0.53  | 330  | 0.0318          |
-| 0.0475        | 0.54  | 335  | 0.0324          |
-| 0.0367        | 0.54  | 340  | 0.0328          |
-| 0.0317        | 0.55  | 345  | 0.0316          |
-| 0.0274        | 0.56  | 350  | 0.0318          |
-| 0.0282        | 0.57  | 355  | 0.0314          |
-| 0.0278        | 0.58  | 360  | 0.0314          |
-| 0.0579        | 0.58  | 365  | 0.0312          |
-| 0.0278        | 0.59  | 370  | 0.0308          |
-| 0.039         | 0.6   | 375  | 0.0306          |
-| 0.0337        | 0.61  | 380  | 0.0311          |
-| 0.041         | 0.62  | 385  | 0.0313          |
-| 0.0343        | 0.62  | 390  | 0.0310          |
-| 0.0366        | 0.63  | 395  | 0.0316          |
-| 0.0312        | 0.64  | 400  | 0.0309          |
-| 0.0363        | 0.65  | 405  | 0.0309          |
-| 0.0377        | 0.66  | 410  | 0.0309          |
-| 0.0344        | 0.66  | 415  | 0.0308          |
-| 0.0404        | 0.67  | 420  | 0.0304          |
-| 0.0302        | 0.68  | 425  | 0.0303          |
-| 0.0322        | 0.69  | 430  | 0.0305          |
-| 0.0333        | 0.7   | 435  | 0.0296          |
-| 0.0285        | 0.7   | 440  | 0.0302          |
-| 0.0232        | 0.71  | 445  | 0.0301          |
-| 0.0446        | 0.72  | 450  | 0.0301          |
-| 0.0372        | 0.73  | 455  | 0.0296          |
-| 0.0238        | 0.74  | 460  | 0.0298          |
-| 0.0244        | 0.74  | 465  | 0.0297          |
-| 0.0435        | 0.75  | 470  | 0.0297          |
-| 0.0407        | 0.76  | 475  | 0.0298          |
-| 0.0355        | 0.77  | 480  | 0.0299          |
-| 0.0277        | 0.78  | 485  | 0.0291          |
-| 0.043         | 0.78  | 490  | 0.0293          |
-| 0.0355        | 0.79  | 495  | 0.0297          |
-| 0.0368        | 0.8   | 500  | 0.0295          |
-| 0.033         | 0.81  | 505  | 0.0302          |
-| 0.0422        | 0.82  | 510  | 0.0293          |
-| 0.0171        | 0.82  | 515  | 0.0297          |
-| 0.034         | 0.83  | 520  | 0.0298          |
-| 0.0336        | 0.84  | 525  | 0.0297          |
-| 0.0464        | 0.85  | 530  | 0.0295          |
-| 0.0341        | 0.86  | 535  | 0.0293          |
-| 0.0266        | 0.86  | 540  | 0.0293          |
-| 0.027         | 0.87  | 545  | 0.0298          |
-| 0.0255        | 0.88  | 550  | 0.0293          |
-| 0.0402        | 0.89  | 555  | 0.0298          |
-| 0.0354        | 0.9   | 560  | 0.0295          |
-| 0.0288        | 0.9   | 565  | 0.0290          |
-| 0.0363        | 0.91  | 570  | 0.0294          |
-| 0.0286        | 0.92  | 575  | 0.0293          |
-| 0.0416        | 0.93  | 580  | 0.0294          |
-| 0.0407        | 0.94  | 585  | 0.0297          |
-| 0.044         | 0.94  | 590  | 0.0291          |
-| 0.0333        | 0.95  | 595  | 0.0295          |
-| 0.0233        | 0.96  | 600  | 0.0292          |
-| 0.0321        | 0.97  | 605  | 0.0296          |
-| 0.0319        | 0.98  | 610  | 0.0294          |
-| 0.0409        | 0.98  | 615  | 0.0293          |
-| 0.0338        | 0.99  | 620  | 0.0293          |
-| 0.0179        | 1.0   | 625  | 0.0295          |
 ### Framework versions
-- Transformers 4.38.1
 - Pytorch 2.1.0a0+32f93b1
 - Datasets 2.17.1
 - Tokenizers 0.15.2

 This model is a fine-tuned version of [deepseek-ai/deepseek-math-7b-base](https://huggingface.co/deepseek-ai/deepseek-math-7b-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0475
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 3e-06
+- train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 4
+- total_train_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: constant_with_warmup
+- lr_scheduler_warmup_steps: 1
 - num_epochs: 1
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.8425        | 0.01  | 1    | 0.4687          |
+| 0.8496        | 0.01  | 2    | 0.4640          |
+| 0.819         | 0.02  | 3    | 0.4579          |
+| 0.8173        | 0.03  | 4    | 0.4532          |
+| 0.8297        | 0.03  | 5    | 0.4495          |
+| 0.8014        | 0.04  | 6    | 0.4447          |
+| 0.7981        | 0.04  | 7    | 0.4399          |
+| 0.7716        | 0.05  | 8    | 0.4375          |
+| 0.6996        | 0.06  | 9    | 0.4332          |
+| 0.6631        | 0.06  | 10   | 0.4302          |
+| 0.6596        | 0.07  | 11   | 0.4247          |
+| 0.6887        | 0.08  | 12   | 0.4221          |
+| 0.6373        | 0.08  | 13   | 0.4180          |
+| 0.6536        | 0.09  | 14   | 0.4161          |
+| 0.6112        | 0.1   | 15   | 0.4102          |
+| 0.6113        | 0.1   | 16   | 0.4072          |
+| 0.5427        | 0.11  | 17   | 0.4041          |
+| 0.5434        | 0.12  | 18   | 0.4005          |
+| 0.5098        | 0.12  | 19   | 0.3955          |
+| 0.5567        | 0.13  | 20   | 0.3914          |
+| 0.4984        | 0.13  | 21   | 0.3889          |
+| 0.5414        | 0.14  | 22   | 0.3852          |
+| 0.4851        | 0.15  | 23   | 0.3818          |
+| 0.4599        | 0.15  | 24   | 0.3769          |
+| 0.4423        | 0.16  | 25   | 0.3736          |
+| 0.4562        | 0.17  | 26   | 0.3711          |
+| 0.4359        | 0.17  | 27   | 0.3677          |
+| 0.4182        | 0.18  | 28   | 0.3631          |
+| 0.4302        | 0.19  | 29   | 0.3612          |
+| 0.4294        | 0.19  | 30   | 0.3556          |
+| 0.4169        | 0.2   | 31   | 0.3527          |
+| 0.3764        | 0.2   | 32   | 0.3483          |
+| 0.3773        | 0.21  | 33   | 0.3451          |
+| 0.3611        | 0.22  | 34   | 0.3423          |
+| 0.3524        | 0.22  | 35   | 0.3380          |
+| 0.3528        | 0.23  | 36   | 0.3337          |
+| 0.3666        | 0.24  | 37   | 0.3306          |
+| 0.3536        | 0.24  | 38   | 0.3266          |
+| 0.3812        | 0.25  | 39   | 0.3223          |
+| 0.2976        | 0.26  | 40   | 0.3191          |
+| 0.2805        | 0.26  | 41   | 0.3157          |
+| 0.2739        | 0.27  | 42   | 0.3115          |
+| 0.2994        | 0.28  | 43   | 0.3089          |
+| 0.2864        | 0.28  | 44   | 0.3031          |
+| 0.2745        | 0.29  | 45   | 0.3003          |
+| 0.2666        | 0.29  | 46   | 0.2968          |
+| 0.3109        | 0.3   | 47   | 0.2914          |
+| 0.2603        | 0.31  | 48   | 0.2873          |
+| 0.2761        | 0.31  | 49   | 0.2821          |
+| 0.2566        | 0.32  | 50   | 0.2792          |
+| 0.2637        | 0.33  | 51   | 0.2758          |
+| 0.2388        | 0.33  | 52   | 0.2706          |
+| 0.2474        | 0.34  | 53   | 0.2651          |
+| 0.2462        | 0.35  | 54   | 0.2607          |
+| 0.2617        | 0.35  | 55   | 0.2567          |
+| 0.2387        | 0.36  | 56   | 0.2513          |
+| 0.2171        | 0.36  | 57   | 0.2482          |
+| 0.2324        | 0.37  | 58   | 0.2428          |
+| 0.227         | 0.38  | 59   | 0.2384          |
+| 0.2366        | 0.38  | 60   | 0.2332          |
+| 0.2174        | 0.39  | 61   | 0.2288          |
+| 0.2083        | 0.4   | 62   | 0.2237          |
+| 0.1935        | 0.4   | 63   | 0.2198          |
+| 0.2141        | 0.41  | 64   | 0.2152          |
+| 0.2044        | 0.42  | 65   | 0.2111          |
+| 0.2061        | 0.42  | 66   | 0.2064          |
+| 0.2005        | 0.43  | 67   | 0.2011          |
+| 0.1895        | 0.44  | 68   | 0.1944          |
+| 0.1823        | 0.44  | 69   | 0.1902          |
+| 0.1763        | 0.45  | 70   | 0.1874          |
+| 0.1897        | 0.45  | 71   | 0.1814          |
+| 0.1853        | 0.46  | 72   | 0.1764          |
+| 0.1674        | 0.47  | 73   | 0.1706          |
+| 0.1642        | 0.47  | 74   | 0.1648          |
+| 0.1677        | 0.48  | 75   | 0.1604          |
+| 0.1551        | 0.49  | 76   | 0.1544          |
+| 0.1457        | 0.49  | 77   | 0.1486          |
+| 0.1497        | 0.5   | 78   | 0.1434          |
+| 0.1389        | 0.51  | 79   | 0.1374          |
+| 0.1396        | 0.51  | 80   | 0.1325          |
+| 0.1297        | 0.52  | 81   | 0.1266          |
+| 0.1298        | 0.52  | 82   | 0.1211          |
+| 0.1162        | 0.53  | 83   | 0.1164          |
+| 0.13          | 0.54  | 84   | 0.1127          |
+| 0.1207        | 0.54  | 85   | 0.1085          |
+| 0.1165        | 0.55  | 86   | 0.1039          |
+| 0.1088        | 0.56  | 87   | 0.1012          |
+| 0.1082        | 0.56  | 88   | 0.0969          |
+| 0.109         | 0.57  | 89   | 0.0952          |
+| 0.1102        | 0.58  | 90   | 0.0924          |
+| 0.1026        | 0.58  | 91   | 0.0891          |
+| 0.1058        | 0.59  | 92   | 0.0875          |
+| 0.0973        | 0.6   | 93   | 0.0861          |
+| 0.0963        | 0.6   | 94   | 0.0859          |
+| 0.0941        | 0.61  | 95   | 0.0838          |
+| 0.0983        | 0.61  | 96   | 0.0824          |
+| 0.0884        | 0.62  | 97   | 0.0812          |
+| 0.0855        | 0.63  | 98   | 0.0798          |
+| 0.0875        | 0.63  | 99   | 0.0781          |
+| 0.0833        | 0.64  | 100  | 0.0766          |
+| 0.0836        | 0.65  | 101  | 0.0757          |
+| 0.0809        | 0.65  | 102  | 0.0745          |
+| 0.0839        | 0.66  | 103  | 0.0731          |
+| 0.0748        | 0.67  | 104  | 0.0717          |
+| 0.0779        | 0.67  | 105  | 0.0710          |
+| 0.0768        | 0.68  | 106  | 0.0705          |
+| 0.0794        | 0.68  | 107  | 0.0693          |
+| 0.079         | 0.69  | 108  | 0.0679          |
+| 0.0808        | 0.7   | 109  | 0.0667          |
+| 0.0785        | 0.7   | 110  | 0.0658          |
+| 0.0669        | 0.71  | 111  | 0.0649          |
+| 0.0715        | 0.72  | 112  | 0.0640          |
+| 0.0751        | 0.72  | 113  | 0.0632          |
+| 0.0727        | 0.73  | 114  | 0.0626          |
+| 0.0725        | 0.74  | 115  | 0.0625          |
+| 0.0665        | 0.74  | 116  | 0.0614          |
+| 0.0627        | 0.75  | 117  | 0.0605          |
+| 0.0681        | 0.76  | 118  | 0.0597          |
+| 0.0673        | 0.76  | 119  | 0.0593          |
+| 0.0741        | 0.77  | 120  | 0.0592          |
+| 0.0686        | 0.77  | 121  | 0.0584          |
+| 0.0618        | 0.78  | 122  | 0.0584          |
+| 0.065         | 0.79  | 123  | 0.0574          |
+| 0.061         | 0.79  | 124  | 0.0572          |
+| 0.0685        | 0.8   | 125  | 0.0571          |
+| 0.0621        | 0.81  | 126  | 0.0560          |
+| 0.0636        | 0.81  | 127  | 0.0558          |
+| 0.0581        | 0.82  | 128  | 0.0550          |
+| 0.0576        | 0.83  | 129  | 0.0547          |
+| 0.0628        | 0.83  | 130  | 0.0544          |
+| 0.056         | 0.84  | 131  | 0.0542          |
+| 0.0572        | 0.84  | 132  | 0.0536          |
+| 0.0605        | 0.85  | 133  | 0.0529          |
+| 0.0626        | 0.86  | 134  | 0.0520          |
+| 0.0566        | 0.86  | 135  | 0.0517          |
+| 0.0575        | 0.87  | 136  | 0.0519          |
+| 0.0571        | 0.88  | 137  | 0.0514          |
+| 0.0594        | 0.88  | 138  | 0.0510          |
+| 0.0528        | 0.89  | 139  | 0.0513          |
+| 0.0507        | 0.9   | 140  | 0.0508          |
+| 0.0587        | 0.9   | 141  | 0.0503          |
+| 0.0558        | 0.91  | 142  | 0.0504          |
+| 0.0538        | 0.92  | 143  | 0.0500          |
+| 0.0509        | 0.92  | 144  | 0.0509          |
+| 0.0538        | 0.93  | 145  | 0.0504          |
+| 0.0524        | 0.93  | 146  | 0.0498          |
+| 0.059         | 0.94  | 147  | 0.0496          |
+| 0.0508        | 0.95  | 148  | 0.0494          |
+| 0.0563        | 0.95  | 149  | 0.0491          |
+| 0.0472        | 0.96  | 150  | 0.0484          |
+| 0.0526        | 0.97  | 151  | 0.0482          |
+| 0.0525        | 0.97  | 152  | 0.0482          |
+| 0.0483        | 0.98  | 153  | 0.0478          |
+| 0.0541        | 0.99  | 154  | 0.0483          |
+| 0.0521        | 0.99  | 155  | 0.0474          |
+| 0.0556        | 1.0   | 156  | 0.0475          |
 ### Framework versions
+- Transformers 4.37.2
 - Pytorch 2.1.0a0+32f93b1
 - Datasets 2.17.1
 - Tokenizers 0.15.2

config.json CHANGED Viewed

@@ -22,7 +22,7 @@
   "rope_theta": 10000.0,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.38.1",
   "use_cache": false,
   "vocab_size": 102400
 }

   "rope_theta": 10000.0,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.37.2",
   "use_cache": false,
   "vocab_size": 102400
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 100000,
   "eos_token_id": 100001,
-  "transformers_version": "4.38.1"
 }

   "_from_model_config": true,
   "bos_token_id": 100000,
   "eos_token_id": 100001,
+  "transformers_version": "4.37.2"
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:188d0544586aae1f9a2a8abb4b0f4a6c0c274f088ebb1cd82e5871ad38031995
 size 4987202208

 version https://git-lfs.github.com/spec/v1
+oid sha256:f91dc19225ec73e87754e34b76609afca36af9c2dd55d3d72cf1b8c7eef94b04
 size 4987202208

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b43b3f9e4b99378db507de4afa0a77960b3543f1eab63ac5f4061b0484b11809
 size 4980945440

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d22277bbf5dc25eee82e9e2462c9cfc1145b2ce7569768ea593fd692a11a270
 size 4980945440

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:694b3005398443ebfde99ce63e035539000a9647f090936e240ab96f0126a72f
 size 3852615520

 version https://git-lfs.github.com/spec/v1
+oid sha256:92cc01c4570a98e323bc663759b694e7830453f13d8020fd8dcef38fab31651f
 size 3852615520

tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 1500,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d0921c8ecc58f8d359ebc09799b1758aa2f7e4c4bfe18f44b36e24ee710ffbd
-size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:b0ff3d1d65f57060aa7c8d146100b0a1c115fbecf69a47a8a6da62026c873448
+size 4728