Howard881010 commited on 21 days ago

Commit

590f240

verified ·

1 Parent(s): 07e7dcc

Upload folder using huggingface_hub

Browse files

Files changed (41) hide show

.gitattributes +3 -0
README.md +94 -0
adapter_config.json +34 -0
adapter_model.safetensors +3 -0
all_results.json +12 -0
checkpoint-500/README.md +202 -0
checkpoint-500/adapter_config.json +34 -0
checkpoint-500/adapter_model.safetensors +3 -0
checkpoint-500/optimizer.pt +3 -0
checkpoint-500/rng_state_0.pth +3 -0
checkpoint-500/rng_state_1.pth +3 -0
checkpoint-500/scheduler.pt +3 -0
checkpoint-500/special_tokens_map.json +24 -0
checkpoint-500/tokenizer.json +3 -0
checkpoint-500/tokenizer_config.json +0 -0
checkpoint-500/trainer_state.json +511 -0
checkpoint-500/training_args.bin +3 -0
checkpoint-900/README.md +202 -0
checkpoint-900/adapter_config.json +34 -0
checkpoint-900/adapter_model.safetensors +3 -0
checkpoint-900/optimizer.pt +3 -0
checkpoint-900/rng_state_0.pth +3 -0
checkpoint-900/rng_state_1.pth +3 -0
checkpoint-900/scheduler.pt +3 -0
checkpoint-900/special_tokens_map.json +24 -0
checkpoint-900/tokenizer.json +3 -0
checkpoint-900/tokenizer_config.json +0 -0
checkpoint-900/trainer_state.json +903 -0
checkpoint-900/training_args.bin +3 -0
eval_results.json +7 -0
runs/Jan16_17-54-14_ctua-mistral-sft-com1-333c1-pgb2p/events.out.tfevents.1737050700.ctua-mistral-sft-com1-333c1-pgb2p.317.0 +3 -0
runs/Jan16_17-54-14_ctua-mistral-sft-com1-333c1-pgb2p/events.out.tfevents.1737074292.ctua-mistral-sft-com1-333c1-pgb2p.317.1 +3 -0
special_tokens_map.json +24 -0
tokenizer.json +3 -0
tokenizer_config.json +0 -0
train_results.json +8 -0
trainer_log.jsonl +121 -0
trainer_state.json +912 -0
training_args.bin +3 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+checkpoint-500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-900/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,94 @@

+---
+base_model: mistralai/Mistral-Nemo-Instruct-2407
+library_name: peft
+license: other
+tags:
+- llama-factory
+- lora
+- generated_from_trainer
+model-index:
+- name: combined_sft_10000_mcq_1epoch
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# combined_sft_10000_mcq_1epoch
+This model is a fine-tuned version of [mistralai/Mistral-Nemo-Instruct-2407](https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407) on the combined_10000_mcq dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.0013
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 10
+- eval_batch_size: 10
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- total_train_batch_size: 20
+- total_eval_batch_size: 20
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss |
+|:-------------:|:------:|:----:|:---------------:|
+| 0.0043        | 0.0333 | 30   | 0.0045          |
+| 0.0041        | 0.0667 | 60   | 0.0040          |
+| 0.0042        | 0.1    | 90   | 0.0039          |
+| 0.0038        | 0.1333 | 120  | 0.0038          |
+| 0.0036        | 0.1667 | 150  | 0.0037          |
+| 0.0038        | 0.2    | 180  | 0.0037          |
+| 0.0039        | 0.2333 | 210  | 0.0038          |
+| 0.0038        | 0.2667 | 240  | 0.0037          |
+| 0.0034        | 0.3    | 270  | 0.0031          |
+| 0.0032        | 0.3333 | 300  | 0.0026          |
+| 0.0027        | 0.3667 | 330  | 0.0025          |
+| 0.0022        | 0.4    | 360  | 0.0024          |
+| 0.002         | 0.4333 | 390  | 0.0022          |
+| 0.0025        | 0.4667 | 420  | 0.0022          |
+| 0.0023        | 0.5    | 450  | 0.0021          |
+| 0.0015        | 0.5333 | 480  | 0.0018          |
+| 0.0017        | 0.5667 | 510  | 0.0017          |
+| 0.0024        | 0.6    | 540  | 0.0020          |
+| 0.0019        | 0.6333 | 570  | 0.0018          |
+| 0.0015        | 0.6667 | 600  | 0.0016          |
+| 0.0018        | 0.7    | 630  | 0.0015          |
+| 0.0014        | 0.7333 | 660  | 0.0015          |
+| 0.0015        | 0.7667 | 690  | 0.0015          |
+| 0.0013        | 0.8    | 720  | 0.0014          |
+| 0.0014        | 0.8333 | 750  | 0.0014          |
+| 0.0017        | 0.8667 | 780  | 0.0014          |
+| 0.0016        | 0.9    | 810  | 0.0013          |
+| 0.0017        | 0.9333 | 840  | 0.0013          |
+| 0.0011        | 0.9667 | 870  | 0.0013          |
+| 0.0015        | 1.0    | 900  | 0.0013          |
+### Framework versions
+- PEFT 0.12.0
+- Transformers 4.46.0
+- Pytorch 2.4.0+cu121
+- Datasets 2.21.0
+- Tokenizers 0.20.1

adapter_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "mistralai/Mistral-Nemo-Instruct-2407",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj",
+    "k_proj",
+    "o_proj",
+    "down_proj",
+    "up_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:20d3c293dbfa714fcd85e8abab90fee7abf7531c348d943c28552c09c149bbbb
+size 114106856

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 1.0,
+    "eval_loss": 0.001334603875875473,
+    "eval_runtime": 403.9689,
+    "eval_samples_per_second": 4.951,
+    "eval_steps_per_second": 0.248,
+    "total_flos": 1.6603645655625236e+18,
+    "train_loss": 0.007967362246579594,
+    "train_runtime": 23186.8308,
+    "train_samples_per_second": 0.776,
+    "train_steps_per_second": 0.039
+}

checkpoint-500/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: mistralai/Mistral-Nemo-Instruct-2407
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.12.0

checkpoint-500/adapter_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "mistralai/Mistral-Nemo-Instruct-2407",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj",
+    "k_proj",
+    "o_proj",
+    "down_proj",
+    "up_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoint-500/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e54704868947611ef5d5b96884d5ebd0a68b8f887ef845f3559072d49877a81
+size 114106856

checkpoint-500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a154492c0f14f8081be1833ced243e0e352c9ac37436a3a1141ed054895c0109
+size 228536930

checkpoint-500/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41d62848396b464be71e7417b09981050d5f1d377e9e0c4894645772a871d81e
+size 14512

checkpoint-500/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0a408fa3a85250385243240a3c4f6e6dc4513da1d97421e8faae4c8d880e7d1a
+size 14512

checkpoint-500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f484ce3cd028a8d752f7a8e6440cf1416758e5c6b5629444bc7a23a504829a8
+size 1064

checkpoint-500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-500/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0240ce510f08e6c2041724e9043e33be9d251d1e4a4d94eb68cd47b954b61d2
+size 17078292

checkpoint-500/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,511 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.5555555555555556,
+  "eval_steps": 30,
+  "global_step": 500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.011111111111111112,
+      "grad_norm": 0.6721189022064209,
+      "learning_rate": 9.99695413509548e-05,
+      "loss": 0.4836,
+      "step": 10
+    },
+    {
+      "epoch": 0.022222222222222223,
+      "grad_norm": 0.06062021106481552,
+      "learning_rate": 9.987820251299122e-05,
+      "loss": 0.0217,
+      "step": 20
+    },
+    {
+      "epoch": 0.03333333333333333,
+      "grad_norm": 0.034004177898168564,
+      "learning_rate": 9.972609476841367e-05,
+      "loss": 0.0043,
+      "step": 30
+    },
+    {
+      "epoch": 0.03333333333333333,
+      "eval_loss": 0.004450319334864616,
+      "eval_runtime": 393.1048,
+      "eval_samples_per_second": 5.088,
+      "eval_steps_per_second": 0.254,
+      "step": 30
+    },
+    {
+      "epoch": 0.044444444444444446,
+      "grad_norm": 0.014907660894095898,
+      "learning_rate": 9.951340343707852e-05,
+      "loss": 0.0043,
+      "step": 40
+    },
+    {
+      "epoch": 0.05555555555555555,
+      "grad_norm": 0.007317671552300453,
+      "learning_rate": 9.924038765061042e-05,
+      "loss": 0.0039,
+      "step": 50
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "grad_norm": 0.03429165109992027,
+      "learning_rate": 9.890738003669029e-05,
+      "loss": 0.0041,
+      "step": 60
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "eval_loss": 0.003960395231842995,
+      "eval_runtime": 404.1276,
+      "eval_samples_per_second": 4.949,
+      "eval_steps_per_second": 0.247,
+      "step": 60
+    },
+    {
+      "epoch": 0.07777777777777778,
+      "grad_norm": 0.7178479433059692,
+      "learning_rate": 9.851478631379982e-05,
+      "loss": 0.0042,
+      "step": 70
+    },
+    {
+      "epoch": 0.08888888888888889,
+      "grad_norm": 0.08405599743127823,
+      "learning_rate": 9.806308479691595e-05,
+      "loss": 0.0039,
+      "step": 80
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 0.01760088838636875,
+      "learning_rate": 9.755282581475769e-05,
+      "loss": 0.0042,
+      "step": 90
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.003934871405363083,
+      "eval_runtime": 392.97,
+      "eval_samples_per_second": 5.089,
+      "eval_steps_per_second": 0.254,
+      "step": 90
+    },
+    {
+      "epoch": 0.1111111111111111,
+      "grad_norm": 0.009712091647088528,
+      "learning_rate": 9.698463103929542e-05,
+      "loss": 0.0039,
+      "step": 100
+    },
+    {
+      "epoch": 0.12222222222222222,
+      "grad_norm": 0.00771428132429719,
+      "learning_rate": 9.635919272833938e-05,
+      "loss": 0.0039,
+      "step": 110
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 0.023663334548473358,
+      "learning_rate": 9.567727288213005e-05,
+      "loss": 0.0038,
+      "step": 120
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "eval_loss": 0.00376720423810184,
+      "eval_runtime": 391.7943,
+      "eval_samples_per_second": 5.105,
+      "eval_steps_per_second": 0.255,
+      "step": 120
+    },
+    {
+      "epoch": 0.14444444444444443,
+      "grad_norm": 0.004410896450281143,
+      "learning_rate": 9.493970231495835e-05,
+      "loss": 0.0039,
+      "step": 130
+    },
+    {
+      "epoch": 0.15555555555555556,
+      "grad_norm": 0.014762775972485542,
+      "learning_rate": 9.414737964294636e-05,
+      "loss": 0.0038,
+      "step": 140
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "grad_norm": 0.016578922048211098,
+      "learning_rate": 9.330127018922194e-05,
+      "loss": 0.0036,
+      "step": 150
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "eval_loss": 0.0037360445130616426,
+      "eval_runtime": 394.3937,
+      "eval_samples_per_second": 5.071,
+      "eval_steps_per_second": 0.254,
+      "step": 150
+    },
+    {
+      "epoch": 0.17777777777777778,
+      "grad_norm": 0.012592969462275505,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.0038,
+      "step": 160
+    },
+    {
+      "epoch": 0.18888888888888888,
+      "grad_norm": 0.013751073740422726,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 0.0039,
+      "step": 170
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.01368357427418232,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.0038,
+      "step": 180
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 0.003743910463526845,
+      "eval_runtime": 397.88,
+      "eval_samples_per_second": 5.027,
+      "eval_steps_per_second": 0.251,
+      "step": 180
+    },
+    {
+      "epoch": 0.2111111111111111,
+      "grad_norm": 0.004404901526868343,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 0.0038,
+      "step": 190
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 0.030225256457924843,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.0039,
+      "step": 200
+    },
+    {
+      "epoch": 0.23333333333333334,
+      "grad_norm": 0.009082062169909477,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.0039,
+      "step": 210
+    },
+    {
+      "epoch": 0.23333333333333334,
+      "eval_loss": 0.0037830513902008533,
+      "eval_runtime": 397.6789,
+      "eval_samples_per_second": 5.029,
+      "eval_steps_per_second": 0.251,
+      "step": 210
+    },
+    {
+      "epoch": 0.24444444444444444,
+      "grad_norm": 0.009521303698420525,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.0038,
+      "step": 220
+    },
+    {
+      "epoch": 0.25555555555555554,
+      "grad_norm": 0.007651821710169315,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.0038,
+      "step": 230
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 0.009911688044667244,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.0038,
+      "step": 240
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "eval_loss": 0.003697082633152604,
+      "eval_runtime": 397.7693,
+      "eval_samples_per_second": 5.028,
+      "eval_steps_per_second": 0.251,
+      "step": 240
+    },
+    {
+      "epoch": 0.2777777777777778,
+      "grad_norm": 0.022675497457385063,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.0037,
+      "step": 250
+    },
+    {
+      "epoch": 0.28888888888888886,
+      "grad_norm": 0.012265544384717941,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.0036,
+      "step": 260
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 0.05352924019098282,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.0034,
+      "step": 270
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 0.0031155734322965145,
+      "eval_runtime": 397.2379,
+      "eval_samples_per_second": 5.035,
+      "eval_steps_per_second": 0.252,
+      "step": 270
+    },
+    {
+      "epoch": 0.3111111111111111,
+      "grad_norm": 0.02856474742293358,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.0029,
+      "step": 280
+    },
+    {
+      "epoch": 0.32222222222222224,
+      "grad_norm": 0.07519371062517166,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.0026,
+      "step": 290
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 0.02294323220849037,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.0032,
+      "step": 300
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "eval_loss": 0.0026329518295824528,
+      "eval_runtime": 394.8427,
+      "eval_samples_per_second": 5.065,
+      "eval_steps_per_second": 0.253,
+      "step": 300
+    },
+    {
+      "epoch": 0.34444444444444444,
+      "grad_norm": 0.013690228573977947,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.0029,
+      "step": 310
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "grad_norm": 0.02574954181909561,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.0023,
+      "step": 320
+    },
+    {
+      "epoch": 0.36666666666666664,
+      "grad_norm": 0.02459203265607357,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.0027,
+      "step": 330
+    },
+    {
+      "epoch": 0.36666666666666664,
+      "eval_loss": 0.0024726453702896833,
+      "eval_runtime": 396.4992,
+      "eval_samples_per_second": 5.044,
+      "eval_steps_per_second": 0.252,
+      "step": 330
+    },
+    {
+      "epoch": 0.37777777777777777,
+      "grad_norm": 0.01764465682208538,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.0025,
+      "step": 340
+    },
+    {
+      "epoch": 0.3888888888888889,
+      "grad_norm": 0.013812178745865822,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.0022,
+      "step": 350
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.03405527397990227,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.0022,
+      "step": 360
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.002381704282015562,
+      "eval_runtime": 396.4549,
+      "eval_samples_per_second": 5.045,
+      "eval_steps_per_second": 0.252,
+      "step": 360
+    },
+    {
+      "epoch": 0.4111111111111111,
+      "grad_norm": 0.020748196169734,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.0024,
+      "step": 370
+    },
+    {
+      "epoch": 0.4222222222222222,
+      "grad_norm": 0.013957368209958076,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.0025,
+      "step": 380
+    },
+    {
+      "epoch": 0.43333333333333335,
+      "grad_norm": 0.03190489485859871,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.002,
+      "step": 390
+    },
+    {
+      "epoch": 0.43333333333333335,
+      "eval_loss": 0.0022392040118575096,
+      "eval_runtime": 395.9075,
+      "eval_samples_per_second": 5.052,
+      "eval_steps_per_second": 0.253,
+      "step": 390
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 0.02455313876271248,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.0023,
+      "step": 400
+    },
+    {
+      "epoch": 0.45555555555555555,
+      "grad_norm": 0.012559180147945881,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 0.0023,
+      "step": 410
+    },
+    {
+      "epoch": 0.4666666666666667,
+      "grad_norm": 0.018574975430965424,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.0025,
+      "step": 420
+    },
+    {
+      "epoch": 0.4666666666666667,
+      "eval_loss": 0.002195958746597171,
+      "eval_runtime": 400.9447,
+      "eval_samples_per_second": 4.988,
+      "eval_steps_per_second": 0.249,
+      "step": 420
+    },
+    {
+      "epoch": 0.4777777777777778,
+      "grad_norm": 0.035168472677469254,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 0.0023,
+      "step": 430
+    },
+    {
+      "epoch": 0.4888888888888889,
+      "grad_norm": 0.025580240413546562,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 0.002,
+      "step": 440
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.018627658486366272,
+      "learning_rate": 5e-05,
+      "loss": 0.0023,
+      "step": 450
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.0020566468592733145,
+      "eval_runtime": 395.5489,
+      "eval_samples_per_second": 5.056,
+      "eval_steps_per_second": 0.253,
+      "step": 450
+    },
+    {
+      "epoch": 0.5111111111111111,
+      "grad_norm": 0.025099800899624825,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 0.0022,
+      "step": 460
+    },
+    {
+      "epoch": 0.5222222222222223,
+      "grad_norm": 0.017753081396222115,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 0.002,
+      "step": 470
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 0.01829727366566658,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 0.0015,
+      "step": 480
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "eval_loss": 0.0018324151169508696,
+      "eval_runtime": 392.5068,
+      "eval_samples_per_second": 5.095,
+      "eval_steps_per_second": 0.255,
+      "step": 480
+    },
+    {
+      "epoch": 0.5444444444444444,
+      "grad_norm": 0.020837554708123207,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 0.0018,
+      "step": 490
+    },
+    {
+      "epoch": 0.5555555555555556,
+      "grad_norm": 0.027814585715532303,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.002,
+      "step": 500
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 900,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9.222904495304868e+17,
+  "train_batch_size": 10,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e1f165d4fa74fac13bff0ce373c18d7333a6bb9bee73f19770586611e1796b3
+size 5496

checkpoint-900/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: mistralai/Mistral-Nemo-Instruct-2407
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.12.0

checkpoint-900/adapter_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "mistralai/Mistral-Nemo-Instruct-2407",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj",
+    "k_proj",
+    "o_proj",
+    "down_proj",
+    "up_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoint-900/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:20d3c293dbfa714fcd85e8abab90fee7abf7531c348d943c28552c09c149bbbb
+size 114106856

checkpoint-900/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:577a2d0cab320437fa053c7f1addee861f9d7817142904f824ba67929f4cb0b8
+size 228536930

checkpoint-900/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c3ebadcbc50fc9b72997158417871c4b6149a925f5274b422abffbfbcc5437c
+size 14512

checkpoint-900/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12ec2252c3f06ac85ab8f9fa8450151c1214176214211db87d34d4abdb86a03a
+size 14512

checkpoint-900/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5d3ed040e6e3d7816a143cc6cc5c32dc44a01965d0572dfc65e32a26ddde961
+size 1064

checkpoint-900/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-900/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0240ce510f08e6c2041724e9043e33be9d251d1e4a4d94eb68cd47b954b61d2
+size 17078292

checkpoint-900/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-900/trainer_state.json ADDED Viewed

	@@ -0,0 +1,903 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 30,
+  "global_step": 900,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.011111111111111112,
+      "grad_norm": 0.6721189022064209,
+      "learning_rate": 9.99695413509548e-05,
+      "loss": 0.4836,
+      "step": 10
+    },
+    {
+      "epoch": 0.022222222222222223,
+      "grad_norm": 0.06062021106481552,
+      "learning_rate": 9.987820251299122e-05,
+      "loss": 0.0217,
+      "step": 20
+    },
+    {
+      "epoch": 0.03333333333333333,
+      "grad_norm": 0.034004177898168564,
+      "learning_rate": 9.972609476841367e-05,
+      "loss": 0.0043,
+      "step": 30
+    },
+    {
+      "epoch": 0.03333333333333333,
+      "eval_loss": 0.004450319334864616,
+      "eval_runtime": 393.1048,
+      "eval_samples_per_second": 5.088,
+      "eval_steps_per_second": 0.254,
+      "step": 30
+    },
+    {
+      "epoch": 0.044444444444444446,
+      "grad_norm": 0.014907660894095898,
+      "learning_rate": 9.951340343707852e-05,
+      "loss": 0.0043,
+      "step": 40
+    },
+    {
+      "epoch": 0.05555555555555555,
+      "grad_norm": 0.007317671552300453,
+      "learning_rate": 9.924038765061042e-05,
+      "loss": 0.0039,
+      "step": 50
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "grad_norm": 0.03429165109992027,
+      "learning_rate": 9.890738003669029e-05,
+      "loss": 0.0041,
+      "step": 60
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "eval_loss": 0.003960395231842995,
+      "eval_runtime": 404.1276,
+      "eval_samples_per_second": 4.949,
+      "eval_steps_per_second": 0.247,
+      "step": 60
+    },
+    {
+      "epoch": 0.07777777777777778,
+      "grad_norm": 0.7178479433059692,
+      "learning_rate": 9.851478631379982e-05,
+      "loss": 0.0042,
+      "step": 70
+    },
+    {
+      "epoch": 0.08888888888888889,
+      "grad_norm": 0.08405599743127823,
+      "learning_rate": 9.806308479691595e-05,
+      "loss": 0.0039,
+      "step": 80
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 0.01760088838636875,
+      "learning_rate": 9.755282581475769e-05,
+      "loss": 0.0042,
+      "step": 90
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.003934871405363083,
+      "eval_runtime": 392.97,
+      "eval_samples_per_second": 5.089,
+      "eval_steps_per_second": 0.254,
+      "step": 90
+    },
+    {
+      "epoch": 0.1111111111111111,
+      "grad_norm": 0.009712091647088528,
+      "learning_rate": 9.698463103929542e-05,
+      "loss": 0.0039,
+      "step": 100
+    },
+    {
+      "epoch": 0.12222222222222222,
+      "grad_norm": 0.00771428132429719,
+      "learning_rate": 9.635919272833938e-05,
+      "loss": 0.0039,
+      "step": 110
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 0.023663334548473358,
+      "learning_rate": 9.567727288213005e-05,
+      "loss": 0.0038,
+      "step": 120
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "eval_loss": 0.00376720423810184,
+      "eval_runtime": 391.7943,
+      "eval_samples_per_second": 5.105,
+      "eval_steps_per_second": 0.255,
+      "step": 120
+    },
+    {
+      "epoch": 0.14444444444444443,
+      "grad_norm": 0.004410896450281143,
+      "learning_rate": 9.493970231495835e-05,
+      "loss": 0.0039,
+      "step": 130
+    },
+    {
+      "epoch": 0.15555555555555556,
+      "grad_norm": 0.014762775972485542,
+      "learning_rate": 9.414737964294636e-05,
+      "loss": 0.0038,
+      "step": 140
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "grad_norm": 0.016578922048211098,
+      "learning_rate": 9.330127018922194e-05,
+      "loss": 0.0036,
+      "step": 150
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "eval_loss": 0.0037360445130616426,
+      "eval_runtime": 394.3937,
+      "eval_samples_per_second": 5.071,
+      "eval_steps_per_second": 0.254,
+      "step": 150
+    },
+    {
+      "epoch": 0.17777777777777778,
+      "grad_norm": 0.012592969462275505,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.0038,
+      "step": 160
+    },
+    {
+      "epoch": 0.18888888888888888,
+      "grad_norm": 0.013751073740422726,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 0.0039,
+      "step": 170
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.01368357427418232,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.0038,
+      "step": 180
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 0.003743910463526845,
+      "eval_runtime": 397.88,
+      "eval_samples_per_second": 5.027,
+      "eval_steps_per_second": 0.251,
+      "step": 180
+    },
+    {
+      "epoch": 0.2111111111111111,
+      "grad_norm": 0.004404901526868343,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 0.0038,
+      "step": 190
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 0.030225256457924843,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.0039,
+      "step": 200
+    },
+    {
+      "epoch": 0.23333333333333334,
+      "grad_norm": 0.009082062169909477,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.0039,
+      "step": 210
+    },
+    {
+      "epoch": 0.23333333333333334,
+      "eval_loss": 0.0037830513902008533,
+      "eval_runtime": 397.6789,
+      "eval_samples_per_second": 5.029,
+      "eval_steps_per_second": 0.251,
+      "step": 210
+    },
+    {
+      "epoch": 0.24444444444444444,
+      "grad_norm": 0.009521303698420525,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.0038,
+      "step": 220
+    },
+    {
+      "epoch": 0.25555555555555554,
+      "grad_norm": 0.007651821710169315,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.0038,
+      "step": 230
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 0.009911688044667244,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.0038,
+      "step": 240
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "eval_loss": 0.003697082633152604,
+      "eval_runtime": 397.7693,
+      "eval_samples_per_second": 5.028,
+      "eval_steps_per_second": 0.251,
+      "step": 240
+    },
+    {
+      "epoch": 0.2777777777777778,
+      "grad_norm": 0.022675497457385063,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.0037,
+      "step": 250
+    },
+    {
+      "epoch": 0.28888888888888886,
+      "grad_norm": 0.012265544384717941,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.0036,
+      "step": 260
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 0.05352924019098282,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.0034,
+      "step": 270
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 0.0031155734322965145,
+      "eval_runtime": 397.2379,
+      "eval_samples_per_second": 5.035,
+      "eval_steps_per_second": 0.252,
+      "step": 270
+    },
+    {
+      "epoch": 0.3111111111111111,
+      "grad_norm": 0.02856474742293358,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.0029,
+      "step": 280
+    },
+    {
+      "epoch": 0.32222222222222224,
+      "grad_norm": 0.07519371062517166,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.0026,
+      "step": 290
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 0.02294323220849037,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.0032,
+      "step": 300
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "eval_loss": 0.0026329518295824528,
+      "eval_runtime": 394.8427,
+      "eval_samples_per_second": 5.065,
+      "eval_steps_per_second": 0.253,
+      "step": 300
+    },
+    {
+      "epoch": 0.34444444444444444,
+      "grad_norm": 0.013690228573977947,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.0029,
+      "step": 310
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "grad_norm": 0.02574954181909561,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.0023,
+      "step": 320
+    },
+    {
+      "epoch": 0.36666666666666664,
+      "grad_norm": 0.02459203265607357,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.0027,
+      "step": 330
+    },
+    {
+      "epoch": 0.36666666666666664,
+      "eval_loss": 0.0024726453702896833,
+      "eval_runtime": 396.4992,
+      "eval_samples_per_second": 5.044,
+      "eval_steps_per_second": 0.252,
+      "step": 330
+    },
+    {
+      "epoch": 0.37777777777777777,
+      "grad_norm": 0.01764465682208538,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.0025,
+      "step": 340
+    },
+    {
+      "epoch": 0.3888888888888889,
+      "grad_norm": 0.013812178745865822,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.0022,
+      "step": 350
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.03405527397990227,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.0022,
+      "step": 360
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.002381704282015562,
+      "eval_runtime": 396.4549,
+      "eval_samples_per_second": 5.045,
+      "eval_steps_per_second": 0.252,
+      "step": 360
+    },
+    {
+      "epoch": 0.4111111111111111,
+      "grad_norm": 0.020748196169734,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.0024,
+      "step": 370
+    },
+    {
+      "epoch": 0.4222222222222222,
+      "grad_norm": 0.013957368209958076,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.0025,
+      "step": 380
+    },
+    {
+      "epoch": 0.43333333333333335,
+      "grad_norm": 0.03190489485859871,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.002,
+      "step": 390
+    },
+    {
+      "epoch": 0.43333333333333335,
+      "eval_loss": 0.0022392040118575096,
+      "eval_runtime": 395.9075,
+      "eval_samples_per_second": 5.052,
+      "eval_steps_per_second": 0.253,
+      "step": 390
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 0.02455313876271248,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.0023,
+      "step": 400
+    },
+    {
+      "epoch": 0.45555555555555555,
+      "grad_norm": 0.012559180147945881,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 0.0023,
+      "step": 410
+    },
+    {
+      "epoch": 0.4666666666666667,
+      "grad_norm": 0.018574975430965424,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.0025,
+      "step": 420
+    },
+    {
+      "epoch": 0.4666666666666667,
+      "eval_loss": 0.002195958746597171,
+      "eval_runtime": 400.9447,
+      "eval_samples_per_second": 4.988,
+      "eval_steps_per_second": 0.249,
+      "step": 420
+    },
+    {
+      "epoch": 0.4777777777777778,
+      "grad_norm": 0.035168472677469254,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 0.0023,
+      "step": 430
+    },
+    {
+      "epoch": 0.4888888888888889,
+      "grad_norm": 0.025580240413546562,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 0.002,
+      "step": 440
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.018627658486366272,
+      "learning_rate": 5e-05,
+      "loss": 0.0023,
+      "step": 450
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.0020566468592733145,
+      "eval_runtime": 395.5489,
+      "eval_samples_per_second": 5.056,
+      "eval_steps_per_second": 0.253,
+      "step": 450
+    },
+    {
+      "epoch": 0.5111111111111111,
+      "grad_norm": 0.025099800899624825,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 0.0022,
+      "step": 460
+    },
+    {
+      "epoch": 0.5222222222222223,
+      "grad_norm": 0.017753081396222115,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 0.002,
+      "step": 470
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 0.01829727366566658,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 0.0015,
+      "step": 480
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "eval_loss": 0.0018324151169508696,
+      "eval_runtime": 392.5068,
+      "eval_samples_per_second": 5.095,
+      "eval_steps_per_second": 0.255,
+      "step": 480
+    },
+    {
+      "epoch": 0.5444444444444444,
+      "grad_norm": 0.020837554708123207,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 0.0018,
+      "step": 490
+    },
+    {
+      "epoch": 0.5555555555555556,
+      "grad_norm": 0.027814585715532303,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.002,
+      "step": 500
+    },
+    {
+      "epoch": 0.5666666666666667,
+      "grad_norm": 0.040902189910411835,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 0.0017,
+      "step": 510
+    },
+    {
+      "epoch": 0.5666666666666667,
+      "eval_loss": 0.0016835549613460898,
+      "eval_runtime": 396.5527,
+      "eval_samples_per_second": 5.043,
+      "eval_steps_per_second": 0.252,
+      "step": 510
+    },
+    {
+      "epoch": 0.5777777777777777,
+      "grad_norm": 0.09094793349504471,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 0.0018,
+      "step": 520
+    },
+    {
+      "epoch": 0.5888888888888889,
+      "grad_norm": 0.03364603593945503,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 0.0021,
+      "step": 530
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.04592595249414444,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.0024,
+      "step": 540
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 0.0019755202811211348,
+      "eval_runtime": 396.0145,
+      "eval_samples_per_second": 5.05,
+      "eval_steps_per_second": 0.253,
+      "step": 540
+    },
+    {
+      "epoch": 0.6111111111111112,
+      "grad_norm": 0.031017672270536423,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 0.0018,
+      "step": 550
+    },
+    {
+      "epoch": 0.6222222222222222,
+      "grad_norm": 0.033711861819028854,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 0.0014,
+      "step": 560
+    },
+    {
+      "epoch": 0.6333333333333333,
+      "grad_norm": 0.01970149576663971,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 0.0019,
+      "step": 570
+    },
+    {
+      "epoch": 0.6333333333333333,
+      "eval_loss": 0.0018198461038991809,
+      "eval_runtime": 396.0095,
+      "eval_samples_per_second": 5.05,
+      "eval_steps_per_second": 0.253,
+      "step": 570
+    },
+    {
+      "epoch": 0.6444444444444445,
+      "grad_norm": 0.02405315265059471,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 0.0017,
+      "step": 580
+    },
+    {
+      "epoch": 0.6555555555555556,
+      "grad_norm": 0.03547287359833717,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 0.0016,
+      "step": 590
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.02788299135863781,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.0015,
+      "step": 600
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "eval_loss": 0.001557975192554295,
+      "eval_runtime": 396.8861,
+      "eval_samples_per_second": 5.039,
+      "eval_steps_per_second": 0.252,
+      "step": 600
+    },
+    {
+      "epoch": 0.6777777777777778,
+      "grad_norm": 0.0368446409702301,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 0.002,
+      "step": 610
+    },
+    {
+      "epoch": 0.6888888888888889,
+      "grad_norm": 0.023159069940447807,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 0.0012,
+      "step": 620
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 0.023195048794150352,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.0018,
+      "step": 630
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 0.0015326091088354588,
+      "eval_runtime": 395.8645,
+      "eval_samples_per_second": 5.052,
+      "eval_steps_per_second": 0.253,
+      "step": 630
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "grad_norm": 0.028873443603515625,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 0.0013,
+      "step": 640
+    },
+    {
+      "epoch": 0.7222222222222222,
+      "grad_norm": 0.014128613285720348,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 0.0021,
+      "step": 650
+    },
+    {
+      "epoch": 0.7333333333333333,
+      "grad_norm": 0.020189054310321808,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 0.0014,
+      "step": 660
+    },
+    {
+      "epoch": 0.7333333333333333,
+      "eval_loss": 0.0015458085108548403,
+      "eval_runtime": 395.6978,
+      "eval_samples_per_second": 5.054,
+      "eval_steps_per_second": 0.253,
+      "step": 660
+    },
+    {
+      "epoch": 0.7444444444444445,
+      "grad_norm": 0.017600564286112785,
+      "learning_rate": 1.526708147705013e-05,
+      "loss": 0.0014,
+      "step": 670
+    },
+    {
+      "epoch": 0.7555555555555555,
+      "grad_norm": 0.021280810236930847,
+      "learning_rate": 1.4033009983067452e-05,
+      "loss": 0.0015,
+      "step": 680
+    },
+    {
+      "epoch": 0.7666666666666667,
+      "grad_norm": 0.04216349124908447,
+      "learning_rate": 1.2842758726130283e-05,
+      "loss": 0.0015,
+      "step": 690
+    },
+    {
+      "epoch": 0.7666666666666667,
+      "eval_loss": 0.0015286254929378629,
+      "eval_runtime": 396.6873,
+      "eval_samples_per_second": 5.042,
+      "eval_steps_per_second": 0.252,
+      "step": 690
+    },
+    {
+      "epoch": 0.7777777777777778,
+      "grad_norm": 0.02726539596915245,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 0.0017,
+      "step": 700
+    },
+    {
+      "epoch": 0.7888888888888889,
+      "grad_norm": 0.03630968928337097,
+      "learning_rate": 1.0599462319663905e-05,
+      "loss": 0.0013,
+      "step": 710
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.035689592361450195,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 0.0013,
+      "step": 720
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.0014311277773231268,
+      "eval_runtime": 395.8604,
+      "eval_samples_per_second": 5.052,
+      "eval_steps_per_second": 0.253,
+      "step": 720
+    },
+    {
+      "epoch": 0.8111111111111111,
+      "grad_norm": 0.02306349016726017,
+      "learning_rate": 8.548121372247918e-06,
+      "loss": 0.0015,
+      "step": 730
+    },
+    {
+      "epoch": 0.8222222222222222,
+      "grad_norm": 0.047643404453992844,
+      "learning_rate": 7.597595192178702e-06,
+      "loss": 0.0013,
+      "step": 740
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 0.019335538148880005,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 0.0014,
+      "step": 750
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "eval_loss": 0.0013907089596614242,
+      "eval_runtime": 392.5143,
+      "eval_samples_per_second": 5.095,
+      "eval_steps_per_second": 0.255,
+      "step": 750
+    },
+    {
+      "epoch": 0.8444444444444444,
+      "grad_norm": 0.03517748415470123,
+      "learning_rate": 5.852620357053651e-06,
+      "loss": 0.0013,
+      "step": 760
+    },
+    {
+      "epoch": 0.8555555555555555,
+      "grad_norm": 0.019817780703306198,
+      "learning_rate": 5.060297685041659e-06,
+      "loss": 0.0018,
+      "step": 770
+    },
+    {
+      "epoch": 0.8666666666666667,
+      "grad_norm": 0.035485655069351196,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 0.0017,
+      "step": 780
+    },
+    {
+      "epoch": 0.8666666666666667,
+      "eval_loss": 0.0013683486031368375,
+      "eval_runtime": 394.086,
+      "eval_samples_per_second": 5.075,
+      "eval_steps_per_second": 0.254,
+      "step": 780
+    },
+    {
+      "epoch": 0.8777777777777778,
+      "grad_norm": 0.025880370289087296,
+      "learning_rate": 3.6408072716606346e-06,
+      "loss": 0.0011,
+      "step": 790
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 0.019467687234282494,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 0.0014,
+      "step": 800
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.037629082798957825,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 0.0016,
+      "step": 810
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.0013409304665401578,
+      "eval_runtime": 394.4753,
+      "eval_samples_per_second": 5.07,
+      "eval_steps_per_second": 0.254,
+      "step": 810
+    },
+    {
+      "epoch": 0.9111111111111111,
+      "grad_norm": 0.017934681847691536,
+      "learning_rate": 1.9369152030840556e-06,
+      "loss": 0.0011,
+      "step": 820
+    },
+    {
+      "epoch": 0.9222222222222223,
+      "grad_norm": 0.023800263181328773,
+      "learning_rate": 1.4852136862001764e-06,
+      "loss": 0.0011,
+      "step": 830
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 0.03997348994016647,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 0.0017,
+      "step": 840
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "eval_loss": 0.001337591209448874,
+      "eval_runtime": 392.7054,
+      "eval_samples_per_second": 5.093,
+      "eval_steps_per_second": 0.255,
+      "step": 840
+    },
+    {
+      "epoch": 0.9444444444444444,
+      "grad_norm": 0.019138654693961143,
+      "learning_rate": 7.596123493895991e-07,
+      "loss": 0.0018,
+      "step": 850
+    },
+    {
+      "epoch": 0.9555555555555556,
+      "grad_norm": 0.03981081023812294,
+      "learning_rate": 4.865965629214819e-07,
+      "loss": 0.0013,
+      "step": 860
+    },
+    {
+      "epoch": 0.9666666666666667,
+      "grad_norm": 0.053155794739723206,
+      "learning_rate": 2.7390523158633554e-07,
+      "loss": 0.0011,
+      "step": 870
+    },
+    {
+      "epoch": 0.9666666666666667,
+      "eval_loss": 0.0013414380373433232,
+      "eval_runtime": 396.5291,
+      "eval_samples_per_second": 5.044,
+      "eval_steps_per_second": 0.252,
+      "step": 870
+    },
+    {
+      "epoch": 0.9777777777777777,
+      "grad_norm": 0.038830071687698364,
+      "learning_rate": 1.2179748700879012e-07,
+      "loss": 0.0014,
+      "step": 880
+    },
+    {
+      "epoch": 0.9888888888888889,
+      "grad_norm": 0.021814431995153427,
+      "learning_rate": 3.04586490452119e-08,
+      "loss": 0.0011,
+      "step": 890
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.03686220571398735,
+      "learning_rate": 0.0,
+      "loss": 0.0015,
+      "step": 900
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.001334603875875473,
+      "eval_runtime": 396.2672,
+      "eval_samples_per_second": 5.047,
+      "eval_steps_per_second": 0.252,
+      "step": 900
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 900,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.6603645655625236e+18,
+  "train_batch_size": 10,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-900/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e1f165d4fa74fac13bff0ce373c18d7333a6bb9bee73f19770586611e1796b3
+size 5496

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 1.0,
+    "eval_loss": 0.001334603875875473,
+    "eval_runtime": 403.9689,
+    "eval_samples_per_second": 4.951,
+    "eval_steps_per_second": 0.248
+}

runs/Jan16_17-54-14_ctua-mistral-sft-com1-333c1-pgb2p/events.out.tfevents.1737050700.ctua-mistral-sft-com1-333c1-pgb2p.317.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:850d469de266b34f43366f4604de5386fcfe520b59396057fb4710fd2882fe88
+size 32727

runs/Jan16_17-54-14_ctua-mistral-sft-com1-333c1-pgb2p/events.out.tfevents.1737074292.ctua-mistral-sft-com1-333c1-pgb2p.317.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b598f829bd472d21f50433140e5d0f9d635b58c43a5921cd292ef0721818b9d2
+size 359

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0240ce510f08e6c2041724e9043e33be9d251d1e4a4d94eb68cd47b954b61d2
+size 17078292

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "total_flos": 1.6603645655625236e+18,
+    "train_loss": 0.007967362246579594,
+    "train_runtime": 23186.8308,
+    "train_samples_per_second": 0.776,
+    "train_steps_per_second": 0.039
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,121 @@

+{"current_steps": 10, "total_steps": 900, "loss": 0.4836, "lr": 9.99695413509548e-05, "epoch": 0.011111111111111112, "percentage": 1.11, "elapsed_time": "0:02:06", "remaining_time": "3:08:08"}
+{"current_steps": 20, "total_steps": 900, "loss": 0.0217, "lr": 9.987820251299122e-05, "epoch": 0.022222222222222223, "percentage": 2.22, "elapsed_time": "0:04:13", "remaining_time": "3:05:48"}
+{"current_steps": 30, "total_steps": 900, "loss": 0.0043, "lr": 9.972609476841367e-05, "epoch": 0.03333333333333333, "percentage": 3.33, "elapsed_time": "0:06:19", "remaining_time": "3:03:30"}
+{"current_steps": 30, "total_steps": 900, "eval_loss": 0.004450319334864616, "epoch": 0.03333333333333333, "percentage": 3.33, "elapsed_time": "0:12:52", "remaining_time": "6:13:30"}
+{"current_steps": 40, "total_steps": 900, "loss": 0.0043, "lr": 9.951340343707852e-05, "epoch": 0.044444444444444446, "percentage": 4.44, "elapsed_time": "0:14:58", "remaining_time": "5:21:49"}
+{"current_steps": 50, "total_steps": 900, "loss": 0.0039, "lr": 9.924038765061042e-05, "epoch": 0.05555555555555555, "percentage": 5.56, "elapsed_time": "0:17:03", "remaining_time": "4:50:03"}
+{"current_steps": 60, "total_steps": 900, "loss": 0.0041, "lr": 9.890738003669029e-05, "epoch": 0.06666666666666667, "percentage": 6.67, "elapsed_time": "0:19:10", "remaining_time": "4:28:26"}
+{"current_steps": 60, "total_steps": 900, "eval_loss": 0.003960395231842995, "epoch": 0.06666666666666667, "percentage": 6.67, "elapsed_time": "0:25:54", "remaining_time": "6:02:44"}
+{"current_steps": 70, "total_steps": 900, "loss": 0.0042, "lr": 9.851478631379982e-05, "epoch": 0.07777777777777778, "percentage": 7.78, "elapsed_time": "0:28:02", "remaining_time": "5:32:32"}
+{"current_steps": 80, "total_steps": 900, "loss": 0.0039, "lr": 9.806308479691595e-05, "epoch": 0.08888888888888889, "percentage": 8.89, "elapsed_time": "0:30:11", "remaining_time": "5:09:25"}
+{"current_steps": 90, "total_steps": 900, "loss": 0.0042, "lr": 9.755282581475769e-05, "epoch": 0.1, "percentage": 10.0, "elapsed_time": "0:32:17", "remaining_time": "4:50:41"}
+{"current_steps": 90, "total_steps": 900, "eval_loss": 0.003934871405363083, "epoch": 0.1, "percentage": 10.0, "elapsed_time": "0:38:50", "remaining_time": "5:49:37"}
+{"current_steps": 100, "total_steps": 900, "loss": 0.0039, "lr": 9.698463103929542e-05, "epoch": 0.1111111111111111, "percentage": 11.11, "elapsed_time": "0:40:55", "remaining_time": "5:27:23"}
+{"current_steps": 110, "total_steps": 900, "loss": 0.0039, "lr": 9.635919272833938e-05, "epoch": 0.12222222222222222, "percentage": 12.22, "elapsed_time": "0:42:59", "remaining_time": "5:08:47"}
+{"current_steps": 120, "total_steps": 900, "loss": 0.0038, "lr": 9.567727288213005e-05, "epoch": 0.13333333333333333, "percentage": 13.33, "elapsed_time": "0:45:04", "remaining_time": "4:52:57"}
+{"current_steps": 120, "total_steps": 900, "eval_loss": 0.00376720423810184, "epoch": 0.13333333333333333, "percentage": 13.33, "elapsed_time": "0:51:35", "remaining_time": "5:35:23"}
+{"current_steps": 130, "total_steps": 900, "loss": 0.0039, "lr": 9.493970231495835e-05, "epoch": 0.14444444444444443, "percentage": 14.44, "elapsed_time": "0:53:40", "remaining_time": "5:17:53"}
+{"current_steps": 140, "total_steps": 900, "loss": 0.0038, "lr": 9.414737964294636e-05, "epoch": 0.15555555555555556, "percentage": 15.56, "elapsed_time": "0:55:45", "remaining_time": "5:02:38"}
+{"current_steps": 150, "total_steps": 900, "loss": 0.0036, "lr": 9.330127018922194e-05, "epoch": 0.16666666666666666, "percentage": 16.67, "elapsed_time": "0:57:49", "remaining_time": "4:49:06"}
+{"current_steps": 150, "total_steps": 900, "eval_loss": 0.0037360445130616426, "epoch": 0.16666666666666666, "percentage": 16.67, "elapsed_time": "1:04:23", "remaining_time": "5:21:58"}
+{"current_steps": 160, "total_steps": 900, "loss": 0.0038, "lr": 9.24024048078213e-05, "epoch": 0.17777777777777778, "percentage": 17.78, "elapsed_time": "1:06:29", "remaining_time": "5:07:31"}
+{"current_steps": 170, "total_steps": 900, "loss": 0.0039, "lr": 9.145187862775209e-05, "epoch": 0.18888888888888888, "percentage": 18.89, "elapsed_time": "1:08:35", "remaining_time": "4:54:30"}
+{"current_steps": 180, "total_steps": 900, "loss": 0.0038, "lr": 9.045084971874738e-05, "epoch": 0.2, "percentage": 20.0, "elapsed_time": "1:10:40", "remaining_time": "4:42:43"}
+{"current_steps": 180, "total_steps": 900, "eval_loss": 0.003743910463526845, "epoch": 0.2, "percentage": 20.0, "elapsed_time": "1:17:18", "remaining_time": "5:09:15"}
+{"current_steps": 190, "total_steps": 900, "loss": 0.0038, "lr": 8.940053768033609e-05, "epoch": 0.2111111111111111, "percentage": 21.11, "elapsed_time": "1:19:24", "remaining_time": "4:56:45"}
+{"current_steps": 200, "total_steps": 900, "loss": 0.0039, "lr": 8.83022221559489e-05, "epoch": 0.2222222222222222, "percentage": 22.22, "elapsed_time": "1:21:30", "remaining_time": "4:45:15"}
+{"current_steps": 210, "total_steps": 900, "loss": 0.0039, "lr": 8.715724127386972e-05, "epoch": 0.23333333333333334, "percentage": 23.33, "elapsed_time": "1:23:35", "remaining_time": "4:34:39"}
+{"current_steps": 210, "total_steps": 900, "eval_loss": 0.0037830513902008533, "epoch": 0.23333333333333334, "percentage": 23.33, "elapsed_time": "1:30:13", "remaining_time": "4:56:26"}
+{"current_steps": 220, "total_steps": 900, "loss": 0.0038, "lr": 8.596699001693255e-05, "epoch": 0.24444444444444444, "percentage": 24.44, "elapsed_time": "1:32:19", "remaining_time": "4:45:22"}
+{"current_steps": 230, "total_steps": 900, "loss": 0.0038, "lr": 8.473291852294987e-05, "epoch": 0.25555555555555554, "percentage": 25.56, "elapsed_time": "1:34:26", "remaining_time": "4:35:06"}
+{"current_steps": 240, "total_steps": 900, "loss": 0.0038, "lr": 8.345653031794292e-05, "epoch": 0.26666666666666666, "percentage": 26.67, "elapsed_time": "1:36:33", "remaining_time": "4:25:30"}
+{"current_steps": 240, "total_steps": 900, "eval_loss": 0.003697082633152604, "epoch": 0.26666666666666666, "percentage": 26.67, "elapsed_time": "1:43:10", "remaining_time": "4:43:44"}
+{"current_steps": 250, "total_steps": 900, "loss": 0.0037, "lr": 8.213938048432697e-05, "epoch": 0.2777777777777778, "percentage": 27.78, "elapsed_time": "1:45:17", "remaining_time": "4:33:44"}
+{"current_steps": 260, "total_steps": 900, "loss": 0.0036, "lr": 8.07830737662829e-05, "epoch": 0.28888888888888886, "percentage": 28.89, "elapsed_time": "1:47:23", "remaining_time": "4:24:19"}
+{"current_steps": 270, "total_steps": 900, "loss": 0.0034, "lr": 7.938926261462366e-05, "epoch": 0.3, "percentage": 30.0, "elapsed_time": "1:49:29", "remaining_time": "4:15:28"}
+{"current_steps": 270, "total_steps": 900, "eval_loss": 0.0031155734322965145, "epoch": 0.3, "percentage": 30.0, "elapsed_time": "1:56:06", "remaining_time": "4:30:55"}
+{"current_steps": 280, "total_steps": 900, "loss": 0.0029, "lr": 7.795964517353735e-05, "epoch": 0.3111111111111111, "percentage": 31.11, "elapsed_time": "1:58:12", "remaining_time": "4:21:45"}
+{"current_steps": 290, "total_steps": 900, "loss": 0.0026, "lr": 7.649596321166024e-05, "epoch": 0.32222222222222224, "percentage": 32.22, "elapsed_time": "2:00:18", "remaining_time": "4:13:03"}
+{"current_steps": 300, "total_steps": 900, "loss": 0.0032, "lr": 7.500000000000001e-05, "epoch": 0.3333333333333333, "percentage": 33.33, "elapsed_time": "2:02:24", "remaining_time": "4:04:48"}
+{"current_steps": 300, "total_steps": 900, "eval_loss": 0.0026329518295824528, "epoch": 0.3333333333333333, "percentage": 33.33, "elapsed_time": "2:08:58", "remaining_time": "4:17:57"}
+{"current_steps": 310, "total_steps": 900, "loss": 0.0029, "lr": 7.347357813929454e-05, "epoch": 0.34444444444444444, "percentage": 34.44, "elapsed_time": "2:11:04", "remaining_time": "4:09:28"}
+{"current_steps": 320, "total_steps": 900, "loss": 0.0023, "lr": 7.191855733945387e-05, "epoch": 0.35555555555555557, "percentage": 35.56, "elapsed_time": "2:13:11", "remaining_time": "4:01:23"}
+{"current_steps": 330, "total_steps": 900, "loss": 0.0027, "lr": 7.033683215379002e-05, "epoch": 0.36666666666666664, "percentage": 36.67, "elapsed_time": "2:15:16", "remaining_time": "3:53:40"}
+{"current_steps": 330, "total_steps": 900, "eval_loss": 0.0024726453702896833, "epoch": 0.36666666666666664, "percentage": 36.67, "elapsed_time": "2:21:53", "remaining_time": "4:05:04"}
+{"current_steps": 340, "total_steps": 900, "loss": 0.0025, "lr": 6.873032967079561e-05, "epoch": 0.37777777777777777, "percentage": 37.78, "elapsed_time": "2:23:59", "remaining_time": "3:57:09"}
+{"current_steps": 350, "total_steps": 900, "loss": 0.0022, "lr": 6.710100716628344e-05, "epoch": 0.3888888888888889, "percentage": 38.89, "elapsed_time": "2:26:05", "remaining_time": "3:49:33"}
+{"current_steps": 360, "total_steps": 900, "loss": 0.0022, "lr": 6.545084971874738e-05, "epoch": 0.4, "percentage": 40.0, "elapsed_time": "2:28:11", "remaining_time": "3:42:16"}
+{"current_steps": 360, "total_steps": 900, "eval_loss": 0.002381704282015562, "epoch": 0.4, "percentage": 40.0, "elapsed_time": "2:34:47", "remaining_time": "3:52:11"}
+{"current_steps": 370, "total_steps": 900, "loss": 0.0024, "lr": 6.378186779084995e-05, "epoch": 0.4111111111111111, "percentage": 41.11, "elapsed_time": "2:36:53", "remaining_time": "3:44:43"}
+{"current_steps": 380, "total_steps": 900, "loss": 0.0025, "lr": 6.209609477998338e-05, "epoch": 0.4222222222222222, "percentage": 42.22, "elapsed_time": "2:38:58", "remaining_time": "3:37:32"}
+{"current_steps": 390, "total_steps": 900, "loss": 0.002, "lr": 6.0395584540887963e-05, "epoch": 0.43333333333333335, "percentage": 43.33, "elapsed_time": "2:41:03", "remaining_time": "3:30:37"}
+{"current_steps": 390, "total_steps": 900, "eval_loss": 0.0022392040118575096, "epoch": 0.43333333333333335, "percentage": 43.33, "elapsed_time": "2:47:39", "remaining_time": "3:39:15"}
+{"current_steps": 400, "total_steps": 900, "loss": 0.0023, "lr": 5.868240888334653e-05, "epoch": 0.4444444444444444, "percentage": 44.44, "elapsed_time": "2:49:46", "remaining_time": "3:32:13"}
+{"current_steps": 410, "total_steps": 900, "loss": 0.0023, "lr": 5.695865504800327e-05, "epoch": 0.45555555555555555, "percentage": 45.56, "elapsed_time": "2:51:52", "remaining_time": "3:25:24"}
+{"current_steps": 420, "total_steps": 900, "loss": 0.0025, "lr": 5.522642316338268e-05, "epoch": 0.4666666666666667, "percentage": 46.67, "elapsed_time": "2:53:58", "remaining_time": "3:18:49"}
+{"current_steps": 420, "total_steps": 900, "eval_loss": 0.002195958746597171, "epoch": 0.4666666666666667, "percentage": 46.67, "elapsed_time": "3:00:39", "remaining_time": "3:26:27"}
+{"current_steps": 430, "total_steps": 900, "loss": 0.0023, "lr": 5.348782368720626e-05, "epoch": 0.4777777777777778, "percentage": 47.78, "elapsed_time": "3:02:47", "remaining_time": "3:19:47"}
+{"current_steps": 440, "total_steps": 900, "loss": 0.002, "lr": 5.174497483512506e-05, "epoch": 0.4888888888888889, "percentage": 48.89, "elapsed_time": "3:04:54", "remaining_time": "3:13:18"}
+{"current_steps": 450, "total_steps": 900, "loss": 0.0023, "lr": 5e-05, "epoch": 0.5, "percentage": 50.0, "elapsed_time": "3:07:00", "remaining_time": "3:07:00"}
+{"current_steps": 450, "total_steps": 900, "eval_loss": 0.0020566468592733145, "epoch": 0.5, "percentage": 50.0, "elapsed_time": "3:13:35", "remaining_time": "3:13:35"}
+{"current_steps": 460, "total_steps": 900, "loss": 0.0022, "lr": 4.825502516487497e-05, "epoch": 0.5111111111111111, "percentage": 51.11, "elapsed_time": "3:15:41", "remaining_time": "3:07:10"}
+{"current_steps": 470, "total_steps": 900, "loss": 0.002, "lr": 4.6512176312793736e-05, "epoch": 0.5222222222222223, "percentage": 52.22, "elapsed_time": "3:17:46", "remaining_time": "3:00:56"}
+{"current_steps": 480, "total_steps": 900, "loss": 0.0015, "lr": 4.477357683661734e-05, "epoch": 0.5333333333333333, "percentage": 53.33, "elapsed_time": "3:19:50", "remaining_time": "2:54:51"}
+{"current_steps": 480, "total_steps": 900, "eval_loss": 0.0018324151169508696, "epoch": 0.5333333333333333, "percentage": 53.33, "elapsed_time": "3:26:23", "remaining_time": "3:00:35"}
+{"current_steps": 490, "total_steps": 900, "loss": 0.0018, "lr": 4.3041344951996746e-05, "epoch": 0.5444444444444444, "percentage": 54.44, "elapsed_time": "3:28:27", "remaining_time": "2:54:25"}
+{"current_steps": 500, "total_steps": 900, "loss": 0.002, "lr": 4.131759111665349e-05, "epoch": 0.5555555555555556, "percentage": 55.56, "elapsed_time": "3:30:31", "remaining_time": "2:48:25"}
+{"current_steps": 510, "total_steps": 900, "loss": 0.0017, "lr": 3.960441545911204e-05, "epoch": 0.5666666666666667, "percentage": 56.67, "elapsed_time": "3:32:40", "remaining_time": "2:42:37"}
+{"current_steps": 510, "total_steps": 900, "eval_loss": 0.0016835549613460898, "epoch": 0.5666666666666667, "percentage": 56.67, "elapsed_time": "3:39:16", "remaining_time": "2:47:41"}
+{"current_steps": 520, "total_steps": 900, "loss": 0.0018, "lr": 3.790390522001662e-05, "epoch": 0.5777777777777777, "percentage": 57.78, "elapsed_time": "3:41:22", "remaining_time": "2:41:46"}
+{"current_steps": 530, "total_steps": 900, "loss": 0.0021, "lr": 3.6218132209150045e-05, "epoch": 0.5888888888888889, "percentage": 58.89, "elapsed_time": "3:43:28", "remaining_time": "2:36:00"}
+{"current_steps": 540, "total_steps": 900, "loss": 0.0024, "lr": 3.4549150281252636e-05, "epoch": 0.6, "percentage": 60.0, "elapsed_time": "3:45:33", "remaining_time": "2:30:22"}
+{"current_steps": 540, "total_steps": 900, "eval_loss": 0.0019755202811211348, "epoch": 0.6, "percentage": 60.0, "elapsed_time": "3:52:09", "remaining_time": "2:34:46"}
+{"current_steps": 550, "total_steps": 900, "loss": 0.0018, "lr": 3.289899283371657e-05, "epoch": 0.6111111111111112, "percentage": 61.11, "elapsed_time": "3:54:13", "remaining_time": "2:29:03"}
+{"current_steps": 560, "total_steps": 900, "loss": 0.0014, "lr": 3.12696703292044e-05, "epoch": 0.6222222222222222, "percentage": 62.22, "elapsed_time": "3:56:19", "remaining_time": "2:23:29"}
+{"current_steps": 570, "total_steps": 900, "loss": 0.0019, "lr": 2.9663167846209998e-05, "epoch": 0.6333333333333333, "percentage": 63.33, "elapsed_time": "3:58:25", "remaining_time": "2:18:01"}
+{"current_steps": 570, "total_steps": 900, "eval_loss": 0.0018198461038991809, "epoch": 0.6333333333333333, "percentage": 63.33, "elapsed_time": "4:05:01", "remaining_time": "2:21:51"}
+{"current_steps": 580, "total_steps": 900, "loss": 0.0017, "lr": 2.8081442660546125e-05, "epoch": 0.6444444444444445, "percentage": 64.44, "elapsed_time": "4:07:06", "remaining_time": "2:16:20"}
+{"current_steps": 590, "total_steps": 900, "loss": 0.0016, "lr": 2.6526421860705473e-05, "epoch": 0.6555555555555556, "percentage": 65.56, "elapsed_time": "4:09:13", "remaining_time": "2:10:56"}
+{"current_steps": 600, "total_steps": 900, "loss": 0.0015, "lr": 2.500000000000001e-05, "epoch": 0.6666666666666666, "percentage": 66.67, "elapsed_time": "4:11:19", "remaining_time": "2:05:39"}
+{"current_steps": 600, "total_steps": 900, "eval_loss": 0.001557975192554295, "epoch": 0.6666666666666666, "percentage": 66.67, "elapsed_time": "4:17:55", "remaining_time": "2:08:57"}
+{"current_steps": 610, "total_steps": 900, "loss": 0.002, "lr": 2.350403678833976e-05, "epoch": 0.6777777777777778, "percentage": 67.78, "elapsed_time": "4:20:01", "remaining_time": "2:03:37"}
+{"current_steps": 620, "total_steps": 900, "loss": 0.0012, "lr": 2.2040354826462668e-05, "epoch": 0.6888888888888889, "percentage": 68.89, "elapsed_time": "4:22:06", "remaining_time": "1:58:22"}
+{"current_steps": 630, "total_steps": 900, "loss": 0.0018, "lr": 2.061073738537635e-05, "epoch": 0.7, "percentage": 70.0, "elapsed_time": "4:24:11", "remaining_time": "1:53:13"}
+{"current_steps": 630, "total_steps": 900, "eval_loss": 0.0015326091088354588, "epoch": 0.7, "percentage": 70.0, "elapsed_time": "4:30:47", "remaining_time": "1:56:03"}
+{"current_steps": 640, "total_steps": 900, "loss": 0.0013, "lr": 1.9216926233717085e-05, "epoch": 0.7111111111111111, "percentage": 71.11, "elapsed_time": "4:32:53", "remaining_time": "1:50:51"}
+{"current_steps": 650, "total_steps": 900, "loss": 0.0021, "lr": 1.7860619515673033e-05, "epoch": 0.7222222222222222, "percentage": 72.22, "elapsed_time": "4:34:58", "remaining_time": "1:45:45"}
+{"current_steps": 660, "total_steps": 900, "loss": 0.0014, "lr": 1.6543469682057106e-05, "epoch": 0.7333333333333333, "percentage": 73.33, "elapsed_time": "4:37:04", "remaining_time": "1:40:45"}
+{"current_steps": 660, "total_steps": 900, "eval_loss": 0.0015458085108548403, "epoch": 0.7333333333333333, "percentage": 73.33, "elapsed_time": "4:43:40", "remaining_time": "1:43:09"}
+{"current_steps": 670, "total_steps": 900, "loss": 0.0014, "lr": 1.526708147705013e-05, "epoch": 0.7444444444444445, "percentage": 74.44, "elapsed_time": "4:45:46", "remaining_time": "1:38:06"}
+{"current_steps": 680, "total_steps": 900, "loss": 0.0015, "lr": 1.4033009983067452e-05, "epoch": 0.7555555555555555, "percentage": 75.56, "elapsed_time": "4:47:51", "remaining_time": "1:33:07"}
+{"current_steps": 690, "total_steps": 900, "loss": 0.0015, "lr": 1.2842758726130283e-05, "epoch": 0.7666666666666667, "percentage": 76.67, "elapsed_time": "4:49:57", "remaining_time": "1:28:14"}
+{"current_steps": 690, "total_steps": 900, "eval_loss": 0.0015286254929378629, "epoch": 0.7666666666666667, "percentage": 76.67, "elapsed_time": "4:56:34", "remaining_time": "1:30:15"}
+{"current_steps": 700, "total_steps": 900, "loss": 0.0017, "lr": 1.1697777844051105e-05, "epoch": 0.7777777777777778, "percentage": 77.78, "elapsed_time": "4:58:39", "remaining_time": "1:25:19"}
+{"current_steps": 710, "total_steps": 900, "loss": 0.0013, "lr": 1.0599462319663905e-05, "epoch": 0.7888888888888889, "percentage": 78.89, "elapsed_time": "5:00:45", "remaining_time": "1:20:29"}
+{"current_steps": 720, "total_steps": 900, "loss": 0.0013, "lr": 9.549150281252633e-06, "epoch": 0.8, "percentage": 80.0, "elapsed_time": "5:02:51", "remaining_time": "1:15:42"}
+{"current_steps": 720, "total_steps": 900, "eval_loss": 0.0014311277773231268, "epoch": 0.8, "percentage": 80.0, "elapsed_time": "5:09:27", "remaining_time": "1:17:21"}
+{"current_steps": 730, "total_steps": 900, "loss": 0.0015, "lr": 8.548121372247918e-06, "epoch": 0.8111111111111111, "percentage": 81.11, "elapsed_time": "5:11:32", "remaining_time": "1:12:33"}
+{"current_steps": 740, "total_steps": 900, "loss": 0.0013, "lr": 7.597595192178702e-06, "epoch": 0.8222222222222222, "percentage": 82.22, "elapsed_time": "5:13:37", "remaining_time": "1:07:48"}
+{"current_steps": 750, "total_steps": 900, "loss": 0.0014, "lr": 6.698729810778065e-06, "epoch": 0.8333333333333334, "percentage": 83.33, "elapsed_time": "5:15:42", "remaining_time": "1:03:08"}
+{"current_steps": 750, "total_steps": 900, "eval_loss": 0.0013907089596614242, "epoch": 0.8333333333333334, "percentage": 83.33, "elapsed_time": "5:22:15", "remaining_time": "1:04:27"}
+{"current_steps": 760, "total_steps": 900, "loss": 0.0013, "lr": 5.852620357053651e-06, "epoch": 0.8444444444444444, "percentage": 84.44, "elapsed_time": "5:24:19", "remaining_time": "0:59:44"}
+{"current_steps": 770, "total_steps": 900, "loss": 0.0018, "lr": 5.060297685041659e-06, "epoch": 0.8555555555555555, "percentage": 85.56, "elapsed_time": "5:26:24", "remaining_time": "0:55:06"}
+{"current_steps": 780, "total_steps": 900, "loss": 0.0017, "lr": 4.322727117869951e-06, "epoch": 0.8666666666666667, "percentage": 86.67, "elapsed_time": "5:28:28", "remaining_time": "0:50:32"}
+{"current_steps": 780, "total_steps": 900, "eval_loss": 0.0013683486031368375, "epoch": 0.8666666666666667, "percentage": 86.67, "elapsed_time": "5:35:02", "remaining_time": "0:51:32"}
+{"current_steps": 790, "total_steps": 900, "loss": 0.0011, "lr": 3.6408072716606346e-06, "epoch": 0.8777777777777778, "percentage": 87.78, "elapsed_time": "5:37:07", "remaining_time": "0:46:56"}
+{"current_steps": 800, "total_steps": 900, "loss": 0.0014, "lr": 3.0153689607045845e-06, "epoch": 0.8888888888888888, "percentage": 88.89, "elapsed_time": "5:39:12", "remaining_time": "0:42:24"}
+{"current_steps": 810, "total_steps": 900, "loss": 0.0016, "lr": 2.4471741852423237e-06, "epoch": 0.9, "percentage": 90.0, "elapsed_time": "5:41:17", "remaining_time": "0:37:55"}
+{"current_steps": 810, "total_steps": 900, "eval_loss": 0.0013409304665401578, "epoch": 0.9, "percentage": 90.0, "elapsed_time": "5:47:51", "remaining_time": "0:38:39"}
+{"current_steps": 820, "total_steps": 900, "loss": 0.0011, "lr": 1.9369152030840556e-06, "epoch": 0.9111111111111111, "percentage": 91.11, "elapsed_time": "5:49:55", "remaining_time": "0:34:08"}
+{"current_steps": 830, "total_steps": 900, "loss": 0.0011, "lr": 1.4852136862001764e-06, "epoch": 0.9222222222222223, "percentage": 92.22, "elapsed_time": "5:52:00", "remaining_time": "0:29:41"}
+{"current_steps": 840, "total_steps": 900, "loss": 0.0017, "lr": 1.0926199633097157e-06, "epoch": 0.9333333333333333, "percentage": 93.33, "elapsed_time": "5:54:04", "remaining_time": "0:25:17"}
+{"current_steps": 840, "total_steps": 900, "eval_loss": 0.001337591209448874, "epoch": 0.9333333333333333, "percentage": 93.33, "elapsed_time": "6:00:37", "remaining_time": "0:25:45"}
+{"current_steps": 850, "total_steps": 900, "loss": 0.0018, "lr": 7.596123493895991e-07, "epoch": 0.9444444444444444, "percentage": 94.44, "elapsed_time": "6:02:43", "remaining_time": "0:21:20"}
+{"current_steps": 860, "total_steps": 900, "loss": 0.0013, "lr": 4.865965629214819e-07, "epoch": 0.9555555555555556, "percentage": 95.56, "elapsed_time": "6:04:48", "remaining_time": "0:16:58"}
+{"current_steps": 870, "total_steps": 900, "loss": 0.0011, "lr": 2.7390523158633554e-07, "epoch": 0.9666666666666667, "percentage": 96.67, "elapsed_time": "6:06:54", "remaining_time": "0:12:39"}
+{"current_steps": 870, "total_steps": 900, "eval_loss": 0.0013414380373433232, "epoch": 0.9666666666666667, "percentage": 96.67, "elapsed_time": "6:13:30", "remaining_time": "0:12:52"}
+{"current_steps": 880, "total_steps": 900, "loss": 0.0014, "lr": 1.2179748700879012e-07, "epoch": 0.9777777777777777, "percentage": 97.78, "elapsed_time": "6:15:35", "remaining_time": "0:08:32"}
+{"current_steps": 890, "total_steps": 900, "loss": 0.0011, "lr": 3.04586490452119e-08, "epoch": 0.9888888888888889, "percentage": 98.89, "elapsed_time": "6:17:41", "remaining_time": "0:04:14"}
+{"current_steps": 900, "total_steps": 900, "loss": 0.0015, "lr": 0.0, "epoch": 1.0, "percentage": 100.0, "elapsed_time": "6:19:47", "remaining_time": "0:00:00"}
+{"current_steps": 900, "total_steps": 900, "eval_loss": 0.001334603875875473, "epoch": 1.0, "percentage": 100.0, "elapsed_time": "6:26:23", "remaining_time": "0:00:00"}
+{"current_steps": 900, "total_steps": 900, "epoch": 1.0, "percentage": 100.0, "elapsed_time": "6:26:24", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,912 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 30,
+  "global_step": 900,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.011111111111111112,
+      "grad_norm": 0.6721189022064209,
+      "learning_rate": 9.99695413509548e-05,
+      "loss": 0.4836,
+      "step": 10
+    },
+    {
+      "epoch": 0.022222222222222223,
+      "grad_norm": 0.06062021106481552,
+      "learning_rate": 9.987820251299122e-05,
+      "loss": 0.0217,
+      "step": 20
+    },
+    {
+      "epoch": 0.03333333333333333,
+      "grad_norm": 0.034004177898168564,
+      "learning_rate": 9.972609476841367e-05,
+      "loss": 0.0043,
+      "step": 30
+    },
+    {
+      "epoch": 0.03333333333333333,
+      "eval_loss": 0.004450319334864616,
+      "eval_runtime": 393.1048,
+      "eval_samples_per_second": 5.088,
+      "eval_steps_per_second": 0.254,
+      "step": 30
+    },
+    {
+      "epoch": 0.044444444444444446,
+      "grad_norm": 0.014907660894095898,
+      "learning_rate": 9.951340343707852e-05,
+      "loss": 0.0043,
+      "step": 40
+    },
+    {
+      "epoch": 0.05555555555555555,
+      "grad_norm": 0.007317671552300453,
+      "learning_rate": 9.924038765061042e-05,
+      "loss": 0.0039,
+      "step": 50
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "grad_norm": 0.03429165109992027,
+      "learning_rate": 9.890738003669029e-05,
+      "loss": 0.0041,
+      "step": 60
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "eval_loss": 0.003960395231842995,
+      "eval_runtime": 404.1276,
+      "eval_samples_per_second": 4.949,
+      "eval_steps_per_second": 0.247,
+      "step": 60
+    },
+    {
+      "epoch": 0.07777777777777778,
+      "grad_norm": 0.7178479433059692,
+      "learning_rate": 9.851478631379982e-05,
+      "loss": 0.0042,
+      "step": 70
+    },
+    {
+      "epoch": 0.08888888888888889,
+      "grad_norm": 0.08405599743127823,
+      "learning_rate": 9.806308479691595e-05,
+      "loss": 0.0039,
+      "step": 80
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 0.01760088838636875,
+      "learning_rate": 9.755282581475769e-05,
+      "loss": 0.0042,
+      "step": 90
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.003934871405363083,
+      "eval_runtime": 392.97,
+      "eval_samples_per_second": 5.089,
+      "eval_steps_per_second": 0.254,
+      "step": 90
+    },
+    {
+      "epoch": 0.1111111111111111,
+      "grad_norm": 0.009712091647088528,
+      "learning_rate": 9.698463103929542e-05,
+      "loss": 0.0039,
+      "step": 100
+    },
+    {
+      "epoch": 0.12222222222222222,
+      "grad_norm": 0.00771428132429719,
+      "learning_rate": 9.635919272833938e-05,
+      "loss": 0.0039,
+      "step": 110
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 0.023663334548473358,
+      "learning_rate": 9.567727288213005e-05,
+      "loss": 0.0038,
+      "step": 120
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "eval_loss": 0.00376720423810184,
+      "eval_runtime": 391.7943,
+      "eval_samples_per_second": 5.105,
+      "eval_steps_per_second": 0.255,
+      "step": 120
+    },
+    {
+      "epoch": 0.14444444444444443,
+      "grad_norm": 0.004410896450281143,
+      "learning_rate": 9.493970231495835e-05,
+      "loss": 0.0039,
+      "step": 130
+    },
+    {
+      "epoch": 0.15555555555555556,
+      "grad_norm": 0.014762775972485542,
+      "learning_rate": 9.414737964294636e-05,
+      "loss": 0.0038,
+      "step": 140
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "grad_norm": 0.016578922048211098,
+      "learning_rate": 9.330127018922194e-05,
+      "loss": 0.0036,
+      "step": 150
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "eval_loss": 0.0037360445130616426,
+      "eval_runtime": 394.3937,
+      "eval_samples_per_second": 5.071,
+      "eval_steps_per_second": 0.254,
+      "step": 150
+    },
+    {
+      "epoch": 0.17777777777777778,
+      "grad_norm": 0.012592969462275505,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.0038,
+      "step": 160
+    },
+    {
+      "epoch": 0.18888888888888888,
+      "grad_norm": 0.013751073740422726,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 0.0039,
+      "step": 170
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.01368357427418232,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.0038,
+      "step": 180
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 0.003743910463526845,
+      "eval_runtime": 397.88,
+      "eval_samples_per_second": 5.027,
+      "eval_steps_per_second": 0.251,
+      "step": 180
+    },
+    {
+      "epoch": 0.2111111111111111,
+      "grad_norm": 0.004404901526868343,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 0.0038,
+      "step": 190
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 0.030225256457924843,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.0039,
+      "step": 200
+    },
+    {
+      "epoch": 0.23333333333333334,
+      "grad_norm": 0.009082062169909477,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.0039,
+      "step": 210
+    },
+    {
+      "epoch": 0.23333333333333334,
+      "eval_loss": 0.0037830513902008533,
+      "eval_runtime": 397.6789,
+      "eval_samples_per_second": 5.029,
+      "eval_steps_per_second": 0.251,
+      "step": 210
+    },
+    {
+      "epoch": 0.24444444444444444,
+      "grad_norm": 0.009521303698420525,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.0038,
+      "step": 220
+    },
+    {
+      "epoch": 0.25555555555555554,
+      "grad_norm": 0.007651821710169315,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.0038,
+      "step": 230
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 0.009911688044667244,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.0038,
+      "step": 240
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "eval_loss": 0.003697082633152604,
+      "eval_runtime": 397.7693,
+      "eval_samples_per_second": 5.028,
+      "eval_steps_per_second": 0.251,
+      "step": 240
+    },
+    {
+      "epoch": 0.2777777777777778,
+      "grad_norm": 0.022675497457385063,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.0037,
+      "step": 250
+    },
+    {
+      "epoch": 0.28888888888888886,
+      "grad_norm": 0.012265544384717941,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.0036,
+      "step": 260
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 0.05352924019098282,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.0034,
+      "step": 270
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 0.0031155734322965145,
+      "eval_runtime": 397.2379,
+      "eval_samples_per_second": 5.035,
+      "eval_steps_per_second": 0.252,
+      "step": 270
+    },
+    {
+      "epoch": 0.3111111111111111,
+      "grad_norm": 0.02856474742293358,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.0029,
+      "step": 280
+    },
+    {
+      "epoch": 0.32222222222222224,
+      "grad_norm": 0.07519371062517166,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.0026,
+      "step": 290
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 0.02294323220849037,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.0032,
+      "step": 300
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "eval_loss": 0.0026329518295824528,
+      "eval_runtime": 394.8427,
+      "eval_samples_per_second": 5.065,
+      "eval_steps_per_second": 0.253,
+      "step": 300
+    },
+    {
+      "epoch": 0.34444444444444444,
+      "grad_norm": 0.013690228573977947,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.0029,
+      "step": 310
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "grad_norm": 0.02574954181909561,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.0023,
+      "step": 320
+    },
+    {
+      "epoch": 0.36666666666666664,
+      "grad_norm": 0.02459203265607357,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.0027,
+      "step": 330
+    },
+    {
+      "epoch": 0.36666666666666664,
+      "eval_loss": 0.0024726453702896833,
+      "eval_runtime": 396.4992,
+      "eval_samples_per_second": 5.044,
+      "eval_steps_per_second": 0.252,
+      "step": 330
+    },
+    {
+      "epoch": 0.37777777777777777,
+      "grad_norm": 0.01764465682208538,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.0025,
+      "step": 340
+    },
+    {
+      "epoch": 0.3888888888888889,
+      "grad_norm": 0.013812178745865822,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.0022,
+      "step": 350
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.03405527397990227,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.0022,
+      "step": 360
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.002381704282015562,
+      "eval_runtime": 396.4549,
+      "eval_samples_per_second": 5.045,
+      "eval_steps_per_second": 0.252,
+      "step": 360
+    },
+    {
+      "epoch": 0.4111111111111111,
+      "grad_norm": 0.020748196169734,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.0024,
+      "step": 370
+    },
+    {
+      "epoch": 0.4222222222222222,
+      "grad_norm": 0.013957368209958076,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.0025,
+      "step": 380
+    },
+    {
+      "epoch": 0.43333333333333335,
+      "grad_norm": 0.03190489485859871,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.002,
+      "step": 390
+    },
+    {
+      "epoch": 0.43333333333333335,
+      "eval_loss": 0.0022392040118575096,
+      "eval_runtime": 395.9075,
+      "eval_samples_per_second": 5.052,
+      "eval_steps_per_second": 0.253,
+      "step": 390
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 0.02455313876271248,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.0023,
+      "step": 400
+    },
+    {
+      "epoch": 0.45555555555555555,
+      "grad_norm": 0.012559180147945881,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 0.0023,
+      "step": 410
+    },
+    {
+      "epoch": 0.4666666666666667,
+      "grad_norm": 0.018574975430965424,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.0025,
+      "step": 420
+    },
+    {
+      "epoch": 0.4666666666666667,
+      "eval_loss": 0.002195958746597171,
+      "eval_runtime": 400.9447,
+      "eval_samples_per_second": 4.988,
+      "eval_steps_per_second": 0.249,
+      "step": 420
+    },
+    {
+      "epoch": 0.4777777777777778,
+      "grad_norm": 0.035168472677469254,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 0.0023,
+      "step": 430
+    },
+    {
+      "epoch": 0.4888888888888889,
+      "grad_norm": 0.025580240413546562,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 0.002,
+      "step": 440
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.018627658486366272,
+      "learning_rate": 5e-05,
+      "loss": 0.0023,
+      "step": 450
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.0020566468592733145,
+      "eval_runtime": 395.5489,
+      "eval_samples_per_second": 5.056,
+      "eval_steps_per_second": 0.253,
+      "step": 450
+    },
+    {
+      "epoch": 0.5111111111111111,
+      "grad_norm": 0.025099800899624825,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 0.0022,
+      "step": 460
+    },
+    {
+      "epoch": 0.5222222222222223,
+      "grad_norm": 0.017753081396222115,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 0.002,
+      "step": 470
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 0.01829727366566658,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 0.0015,
+      "step": 480
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "eval_loss": 0.0018324151169508696,
+      "eval_runtime": 392.5068,
+      "eval_samples_per_second": 5.095,
+      "eval_steps_per_second": 0.255,
+      "step": 480
+    },
+    {
+      "epoch": 0.5444444444444444,
+      "grad_norm": 0.020837554708123207,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 0.0018,
+      "step": 490
+    },
+    {
+      "epoch": 0.5555555555555556,
+      "grad_norm": 0.027814585715532303,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.002,
+      "step": 500
+    },
+    {
+      "epoch": 0.5666666666666667,
+      "grad_norm": 0.040902189910411835,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 0.0017,
+      "step": 510
+    },
+    {
+      "epoch": 0.5666666666666667,
+      "eval_loss": 0.0016835549613460898,
+      "eval_runtime": 396.5527,
+      "eval_samples_per_second": 5.043,
+      "eval_steps_per_second": 0.252,
+      "step": 510
+    },
+    {
+      "epoch": 0.5777777777777777,
+      "grad_norm": 0.09094793349504471,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 0.0018,
+      "step": 520
+    },
+    {
+      "epoch": 0.5888888888888889,
+      "grad_norm": 0.03364603593945503,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 0.0021,
+      "step": 530
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.04592595249414444,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.0024,
+      "step": 540
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 0.0019755202811211348,
+      "eval_runtime": 396.0145,
+      "eval_samples_per_second": 5.05,
+      "eval_steps_per_second": 0.253,
+      "step": 540
+    },
+    {
+      "epoch": 0.6111111111111112,
+      "grad_norm": 0.031017672270536423,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 0.0018,
+      "step": 550
+    },
+    {
+      "epoch": 0.6222222222222222,
+      "grad_norm": 0.033711861819028854,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 0.0014,
+      "step": 560
+    },
+    {
+      "epoch": 0.6333333333333333,
+      "grad_norm": 0.01970149576663971,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 0.0019,
+      "step": 570
+    },
+    {
+      "epoch": 0.6333333333333333,
+      "eval_loss": 0.0018198461038991809,
+      "eval_runtime": 396.0095,
+      "eval_samples_per_second": 5.05,
+      "eval_steps_per_second": 0.253,
+      "step": 570
+    },
+    {
+      "epoch": 0.6444444444444445,
+      "grad_norm": 0.02405315265059471,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 0.0017,
+      "step": 580
+    },
+    {
+      "epoch": 0.6555555555555556,
+      "grad_norm": 0.03547287359833717,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 0.0016,
+      "step": 590
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.02788299135863781,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.0015,
+      "step": 600
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "eval_loss": 0.001557975192554295,
+      "eval_runtime": 396.8861,
+      "eval_samples_per_second": 5.039,
+      "eval_steps_per_second": 0.252,
+      "step": 600
+    },
+    {
+      "epoch": 0.6777777777777778,
+      "grad_norm": 0.0368446409702301,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 0.002,
+      "step": 610
+    },
+    {
+      "epoch": 0.6888888888888889,
+      "grad_norm": 0.023159069940447807,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 0.0012,
+      "step": 620
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 0.023195048794150352,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.0018,
+      "step": 630
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 0.0015326091088354588,
+      "eval_runtime": 395.8645,
+      "eval_samples_per_second": 5.052,
+      "eval_steps_per_second": 0.253,
+      "step": 630
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "grad_norm": 0.028873443603515625,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 0.0013,
+      "step": 640
+    },
+    {
+      "epoch": 0.7222222222222222,
+      "grad_norm": 0.014128613285720348,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 0.0021,
+      "step": 650
+    },
+    {
+      "epoch": 0.7333333333333333,
+      "grad_norm": 0.020189054310321808,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 0.0014,
+      "step": 660
+    },
+    {
+      "epoch": 0.7333333333333333,
+      "eval_loss": 0.0015458085108548403,
+      "eval_runtime": 395.6978,
+      "eval_samples_per_second": 5.054,
+      "eval_steps_per_second": 0.253,
+      "step": 660
+    },
+    {
+      "epoch": 0.7444444444444445,
+      "grad_norm": 0.017600564286112785,
+      "learning_rate": 1.526708147705013e-05,
+      "loss": 0.0014,
+      "step": 670
+    },
+    {
+      "epoch": 0.7555555555555555,
+      "grad_norm": 0.021280810236930847,
+      "learning_rate": 1.4033009983067452e-05,
+      "loss": 0.0015,
+      "step": 680
+    },
+    {
+      "epoch": 0.7666666666666667,
+      "grad_norm": 0.04216349124908447,
+      "learning_rate": 1.2842758726130283e-05,
+      "loss": 0.0015,
+      "step": 690
+    },
+    {
+      "epoch": 0.7666666666666667,
+      "eval_loss": 0.0015286254929378629,
+      "eval_runtime": 396.6873,
+      "eval_samples_per_second": 5.042,
+      "eval_steps_per_second": 0.252,
+      "step": 690
+    },
+    {
+      "epoch": 0.7777777777777778,
+      "grad_norm": 0.02726539596915245,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 0.0017,
+      "step": 700
+    },
+    {
+      "epoch": 0.7888888888888889,
+      "grad_norm": 0.03630968928337097,
+      "learning_rate": 1.0599462319663905e-05,
+      "loss": 0.0013,
+      "step": 710
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.035689592361450195,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 0.0013,
+      "step": 720
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.0014311277773231268,
+      "eval_runtime": 395.8604,
+      "eval_samples_per_second": 5.052,
+      "eval_steps_per_second": 0.253,
+      "step": 720
+    },
+    {
+      "epoch": 0.8111111111111111,
+      "grad_norm": 0.02306349016726017,
+      "learning_rate": 8.548121372247918e-06,
+      "loss": 0.0015,
+      "step": 730
+    },
+    {
+      "epoch": 0.8222222222222222,
+      "grad_norm": 0.047643404453992844,
+      "learning_rate": 7.597595192178702e-06,
+      "loss": 0.0013,
+      "step": 740
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 0.019335538148880005,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 0.0014,
+      "step": 750
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "eval_loss": 0.0013907089596614242,
+      "eval_runtime": 392.5143,
+      "eval_samples_per_second": 5.095,
+      "eval_steps_per_second": 0.255,
+      "step": 750
+    },
+    {
+      "epoch": 0.8444444444444444,
+      "grad_norm": 0.03517748415470123,
+      "learning_rate": 5.852620357053651e-06,
+      "loss": 0.0013,
+      "step": 760
+    },
+    {
+      "epoch": 0.8555555555555555,
+      "grad_norm": 0.019817780703306198,
+      "learning_rate": 5.060297685041659e-06,
+      "loss": 0.0018,
+      "step": 770
+    },
+    {
+      "epoch": 0.8666666666666667,
+      "grad_norm": 0.035485655069351196,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 0.0017,
+      "step": 780
+    },
+    {
+      "epoch": 0.8666666666666667,
+      "eval_loss": 0.0013683486031368375,
+      "eval_runtime": 394.086,
+      "eval_samples_per_second": 5.075,
+      "eval_steps_per_second": 0.254,
+      "step": 780
+    },
+    {
+      "epoch": 0.8777777777777778,
+      "grad_norm": 0.025880370289087296,
+      "learning_rate": 3.6408072716606346e-06,
+      "loss": 0.0011,
+      "step": 790
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 0.019467687234282494,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 0.0014,
+      "step": 800
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.037629082798957825,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 0.0016,
+      "step": 810
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.0013409304665401578,
+      "eval_runtime": 394.4753,
+      "eval_samples_per_second": 5.07,
+      "eval_steps_per_second": 0.254,
+      "step": 810
+    },
+    {
+      "epoch": 0.9111111111111111,
+      "grad_norm": 0.017934681847691536,
+      "learning_rate": 1.9369152030840556e-06,
+      "loss": 0.0011,
+      "step": 820
+    },
+    {
+      "epoch": 0.9222222222222223,
+      "grad_norm": 0.023800263181328773,
+      "learning_rate": 1.4852136862001764e-06,
+      "loss": 0.0011,
+      "step": 830
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 0.03997348994016647,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 0.0017,
+      "step": 840
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "eval_loss": 0.001337591209448874,
+      "eval_runtime": 392.7054,
+      "eval_samples_per_second": 5.093,
+      "eval_steps_per_second": 0.255,
+      "step": 840
+    },
+    {
+      "epoch": 0.9444444444444444,
+      "grad_norm": 0.019138654693961143,
+      "learning_rate": 7.596123493895991e-07,
+      "loss": 0.0018,
+      "step": 850
+    },
+    {
+      "epoch": 0.9555555555555556,
+      "grad_norm": 0.03981081023812294,
+      "learning_rate": 4.865965629214819e-07,
+      "loss": 0.0013,
+      "step": 860
+    },
+    {
+      "epoch": 0.9666666666666667,
+      "grad_norm": 0.053155794739723206,
+      "learning_rate": 2.7390523158633554e-07,
+      "loss": 0.0011,
+      "step": 870
+    },
+    {
+      "epoch": 0.9666666666666667,
+      "eval_loss": 0.0013414380373433232,
+      "eval_runtime": 396.5291,
+      "eval_samples_per_second": 5.044,
+      "eval_steps_per_second": 0.252,
+      "step": 870
+    },
+    {
+      "epoch": 0.9777777777777777,
+      "grad_norm": 0.038830071687698364,
+      "learning_rate": 1.2179748700879012e-07,
+      "loss": 0.0014,
+      "step": 880
+    },
+    {
+      "epoch": 0.9888888888888889,
+      "grad_norm": 0.021814431995153427,
+      "learning_rate": 3.04586490452119e-08,
+      "loss": 0.0011,
+      "step": 890
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.03686220571398735,
+      "learning_rate": 0.0,
+      "loss": 0.0015,
+      "step": 900
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.001334603875875473,
+      "eval_runtime": 396.2672,
+      "eval_samples_per_second": 5.047,
+      "eval_steps_per_second": 0.252,
+      "step": 900
+    },
+    {
+      "epoch": 1.0,
+      "step": 900,
+      "total_flos": 1.6603645655625236e+18,
+      "train_loss": 0.007967362246579594,
+      "train_runtime": 23186.8308,
+      "train_samples_per_second": 0.776,
+      "train_steps_per_second": 0.039
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 900,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.6603645655625236e+18,
+  "train_batch_size": 10,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e1f165d4fa74fac13bff0ce373c18d7333a6bb9bee73f19770586611e1796b3
+size 5496

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed