Spaces:

argilla
/

synthetic-data-generator

Running

sdiazlor HF staff commited on 6 days ago

Commit

a68cd13

1 Parent(s): e3b32d4

add fine-tuning deepseek example

Files changed (3) hide show

examples/fine-tune-deepseek-reasoning-sft.ipynb ADDED Viewed

The diff for this file is too large to render. See raw diff

src/synthetic_dataset_generator/apps/chat.py CHANGED Viewed

@@ -309,7 +309,7 @@ def generate_dataset_from_seed(
         progress(
             step_progress * n_processed / num_rows,
             total=total_steps,
-            desc="Generating questions",
         )
         remaining_rows = num_rows - n_processed
         batch_size = min(batch_size, remaining_rows)
@@ -781,7 +781,7 @@ with gr.Blocks() as app:
                     )
                     document_column = gr.Dropdown(
                         label="Document Column",
-                        info="Select the document column to generate the RAG dataset",
                         choices=["Load your data first in step 1."],
                         value="Load your data first in step 1.",
                         interactive=False,

         progress(
             step_progress * n_processed / num_rows,
             total=total_steps,
+            desc="Generating instructions",
         )
         remaining_rows = num_rows - n_processed
         batch_size = min(batch_size, remaining_rows)
                     )
                     document_column = gr.Dropdown(
                         label="Document Column",
+                        info="Select the document column to generate the chat data",
                         choices=["Load your data first in step 1."],
                         value="Load your data first in step 1.",
                         interactive=False,

src/synthetic_dataset_generator/pipelines/textcat.py CHANGED Viewed

@@ -109,7 +109,7 @@ def get_labeller_generator(system_prompt: str, labels: List[str], multi_label: b
         "temperature": 0.01,
         "max_new_tokens": MAX_NUM_TOKENS,
     }
-    llm = _get_llm(is_completion=True, generation_kwargs=generation_kwargs)
     labeller_generator = TextClassification(
         llm=llm,
         context=system_prompt,

         "temperature": 0.01,
         "max_new_tokens": MAX_NUM_TOKENS,
     }
+    llm = _get_llm(generation_kwargs=generation_kwargs)
     labeller_generator = TextClassification(
         llm=llm,
         context=system_prompt,