error577
/

58b9523a-8576-4309-80c7-060f2d6bf699

Generated from Trainer

4-bit precision

Model card Files Files and versions Community

error577 commited on Jan 9

Commit

7dc248f

·

verified ·

1 Parent(s): c18f923

End of training

Files changed (2) hide show

README.md +8 -13
adapter_model.bin +1 -1

README.md CHANGED Viewed

@@ -65,11 +65,11 @@ lora_model_dir: null
 lora_r: 4
 lora_target_linear: true
 lr_scheduler: cosine
-max_steps: 10
 micro_batch_size: 1
 mlflow_experiment_name: /tmp/45fb2d361254b178_train_data.json
 model_type: AutoModelForCausalLM
-num_epochs: 4
 optimizer: adamw_bnb_8bit
 output_dir: miner_id_24
 pad_to_sequence_len: true
@@ -104,7 +104,7 @@ xformers_attention: null
 This model is a fine-tuned version of [NousResearch/CodeLlama-7b-hf](https://huggingface.co/NousResearch/CodeLlama-7b-hf) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.3355
 ## Model description
@@ -132,22 +132,17 @@ The following hyperparameters were used during training:
 - optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
-- training_steps: 10
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
 | 18.8184       | 0.0007 | 1    | 2.6565          |
-| 24.6349       | 0.0015 | 2    | 2.6549          |
-| 19.4332       | 0.0022 | 3    | 2.6461          |
-| 19.745        | 0.0030 | 4    | 2.6241          |
-| 20.1983       | 0.0037 | 5    | 2.5784          |
-| 19.7283       | 0.0044 | 6    | 2.4844          |
-| 16.9993       | 0.0052 | 7    | 2.3075          |
-| 19.1259       | 0.0059 | 8    | 2.0358          |
-| 20.2162       | 0.0067 | 9    | 1.7064          |
-| 11.843        | 0.0074 | 10   | 1.3355          |
 ### Framework versions

 lora_r: 4
 lora_target_linear: true
 lr_scheduler: cosine
+max_steps: 20
 micro_batch_size: 1
 mlflow_experiment_name: /tmp/45fb2d361254b178_train_data.json
 model_type: AutoModelForCausalLM
+num_epochs: 1
 optimizer: adamw_bnb_8bit
 output_dir: miner_id_24
 pad_to_sequence_len: true
 This model is a fine-tuned version of [NousResearch/CodeLlama-7b-hf](https://huggingface.co/NousResearch/CodeLlama-7b-hf) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3416
 ## Model description
 - optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 10
+- training_steps: 20
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
 | 18.8184       | 0.0007 | 1    | 2.6565          |
+| 20.2215       | 0.0037 | 5    | 2.5815          |
+| 11.6753       | 0.0074 | 10   | 1.3255          |
+| 2.0407        | 0.0111 | 15   | 0.4048          |
+| 3.0463        | 0.0148 | 20   | 0.3416          |
 ### Framework versions

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0c9202d9dc89c3b0d506c40bdab2e7d5a41568f48807e519a611cb587c2a320
 size 40138058

 version https://git-lfs.github.com/spec/v1
+oid sha256:413040f162c50bd4af4c0b57c3e1139fb02cccacb669ca62ba98ff3b19d1586f
 size 40138058