Spaces:

nikhil-kumar
/

Love_and_Smile

Sleeping

nikhil-kumar commited on Jan 14

Commit

c07a03d

verified ·

1 Parent(s): 92a1845

Upload train_model.py

Files changed (1) hide show

train_model.py ADDED Viewed

+from datasets import load_dataset
+from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments
+# Load dataset
+dataset = load_dataset('json', data_files='flirty_dataset.json')
+# Tokenizer and model
+model_name = "gpt2"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(model_name)
+# Tokenize dataset
+def tokenize_function(examples):
+    return tokenizer(examples['prompt'], truncation=True, padding="max_length", max_length=128)
+tokenized_dataset = dataset.map(tokenize_function, batched=True)
+# Training arguments
+training_args = TrainingArguments(
+    output_dir="./fine_tuned_gpt2",
+    evaluation_strategy="epoch",
+    save_strategy="epoch",
+    learning_rate=5e-5,
+    num_train_epochs=3,
+    per_device_train_batch_size=8,
+    save_total_limit=2,
+    logging_dir="./logs",
+    logging_steps=10,
+    fp16=True
+)
+# Trainer
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_dataset["train"],
+    eval_dataset=tokenized_dataset["validation"],
+    tokenizer=tokenizer
+)
+# Train the model
+trainer.train()
+# Save model
+trainer.save_model("./fine_tuned_gpt2")
+tokenizer.save_pretrained("./fine_tuned_gpt2")