Spaces:

Jack-Anderson
/

Neitzsche

Paused

App Files Files Community

Gor Solomon commited on Jul 21, 2024

Commit

69b0f0d

1 Parent(s): 472c2c3

init

Browse files

Files changed (30) hide show

Dockerfile +16 -0
LocalDatasets/beyond_good_and_evil/dataset_dict.json +1 -0
LocalDatasets/beyond_good_and_evil/test/cache-08265684f5a37e0d.arrow +3 -0
LocalDatasets/beyond_good_and_evil/test/cache-34c1ec675eccb1e5.arrow +3 -0
LocalDatasets/beyond_good_and_evil/test/cache-380da2e5dcef03df.arrow +3 -0
LocalDatasets/beyond_good_and_evil/test/cache-3c43ca8d6e3d0f31.arrow +3 -0
LocalDatasets/beyond_good_and_evil/test/cache-50cafbc6851e4d0e.arrow +3 -0
LocalDatasets/beyond_good_and_evil/test/cache-5924277b48bb9843.arrow +3 -0
LocalDatasets/beyond_good_and_evil/test/cache-73a969c8f7aa08ad.arrow +3 -0
LocalDatasets/beyond_good_and_evil/test/cache-d2bd62e16d6d96c8.arrow +3 -0
LocalDatasets/beyond_good_and_evil/test/cache-dc890e014966478c.arrow +3 -0
LocalDatasets/beyond_good_and_evil/test/cache-e5cdd0baa5bb87f5.arrow +3 -0
LocalDatasets/beyond_good_and_evil/test/cache-ec995eab82e9c468.arrow +3 -0
LocalDatasets/beyond_good_and_evil/test/cache-f03debb74dbeb867.arrow +3 -0
LocalDatasets/beyond_good_and_evil/test/data-00000-of-00001.arrow +3 -0
LocalDatasets/beyond_good_and_evil/test/dataset_info.json +52 -0
LocalDatasets/beyond_good_and_evil/test/state.json +13 -0
LocalDatasets/beyond_good_and_evil/train/cache-1d1e41ee9bb12a11.arrow +3 -0
LocalDatasets/beyond_good_and_evil/train/cache-27e83bf40614a2f4.arrow +3 -0
LocalDatasets/beyond_good_and_evil/train/cache-30ee22778b46cd81.arrow +3 -0
LocalDatasets/beyond_good_and_evil/train/cache-3a5ee93dc239c198.arrow +3 -0
LocalDatasets/beyond_good_and_evil/train/cache-4b64f7d492377576.arrow +3 -0
LocalDatasets/beyond_good_and_evil/train/cache-91b75d3a40905d78.arrow +3 -0
LocalDatasets/beyond_good_and_evil/train/cache-b8262b23ba04f273.arrow +3 -0
LocalDatasets/beyond_good_and_evil/train/cache-fb60a1da0ad06f2d.arrow +3 -0
LocalDatasets/beyond_good_and_evil/train/data-00000-of-00001.arrow +3 -0
LocalDatasets/beyond_good_and_evil/train/dataset_info.json +52 -0
LocalDatasets/beyond_good_and_evil/train/state.json +13 -0
app.py +102 -0
requirements.txt +0 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,16 @@

+# read the doc: https://huggingface.co/docs/hub/spaces-sdks-docker
+# you will also find guides on how best to write your Dockerfile
+FROM python:3.9
+RUN useradd -m -u 1000 user
+USER user
+ENV PATH="/home/user/.local/bin:$PATH"
+WORKDIR /app
+COPY --chown=user ./requirements.txt requirements.txt
+RUN pip install --no-cache-dir --upgrade -r requirements.txt
+COPY --chown=user . /app
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

LocalDatasets/beyond_good_and_evil/dataset_dict.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"splits": ["train", "test"]}

LocalDatasets/beyond_good_and_evil/test/cache-08265684f5a37e0d.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3abc479c918e2a772a21e3bc756e02e3e47f301a268a7fb1011544ef947ba15c
+size 177792

LocalDatasets/beyond_good_and_evil/test/cache-34c1ec675eccb1e5.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9116a9e3c763d1f2c586938e7b7ec3693609f4280806bbe9288a3bb1a837096c
+size 177792

LocalDatasets/beyond_good_and_evil/test/cache-380da2e5dcef03df.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a946577cf4be8de195469876fcba14da1072537f97e04489ec8e40945c15acd1
+size 403776

LocalDatasets/beyond_good_and_evil/test/cache-3c43ca8d6e3d0f31.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74b37d146ef1a3d9978cfd2168b4132f4f65b2225b6e0d06ac2c8be802c19dfa
+size 206984

LocalDatasets/beyond_good_and_evil/test/cache-50cafbc6851e4d0e.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:691efdee0462024312a83a1d8eae40ddbb973792d0bde1e0eb5a731a3a0c9c01
+size 206984

LocalDatasets/beyond_good_and_evil/test/cache-5924277b48bb9843.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7219682d55c8cfed0f12c9c764964428cf0986c496872447c15ca441fec875e3
+size 374584

LocalDatasets/beyond_good_and_evil/test/cache-73a969c8f7aa08ad.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a75dcfc0e6d8e68ea6811ebd24e184d1e89f0d9e459339d419fd79b36d4cfdf5
+size 173896

LocalDatasets/beyond_good_and_evil/test/cache-d2bd62e16d6d96c8.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39b78aba2ee8f0758a235ea596a7c4c353e47677c4b96b34b5e306f4060d668a
+size 374584

LocalDatasets/beyond_good_and_evil/test/cache-dc890e014966478c.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0b3d0a5f17522e788370ffcb8d0f3cf0825f92909023f1d6483965761492a8e
+size 374584

LocalDatasets/beyond_good_and_evil/test/cache-e5cdd0baa5bb87f5.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50b64cb28a96027d90ce155d571c573ce4a0c4b3abdd3a1ae857c5f1c6b3a409
+size 206984

LocalDatasets/beyond_good_and_evil/test/cache-ec995eab82e9c468.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe7718b13ad450da4ebbd1167e5848afe38bc34f0203ae77fb5108c5c775c0d0
+size 206984

LocalDatasets/beyond_good_and_evil/test/cache-f03debb74dbeb867.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b5dffa1345ad7c58b1a130599cb0e70774f12d7c39913bb3033d1b12d6eb050
+size 403776

LocalDatasets/beyond_good_and_evil/test/data-00000-of-00001.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd4cdaf68643f9c6c193543cd887df730e79002944da33696d8773cde7ebad9c
+size 33352

LocalDatasets/beyond_good_and_evil/test/dataset_info.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "builder_name": "csv",
+  "citation": "",
+  "config_name": "default",
+  "dataset_name": "neitzsche_beyond_good_and_evil_convo",
+  "dataset_size": 411026,
+  "description": "",
+  "download_checksums": {
+    "hf://datasets/Augustya07/neitzsche_beyond_good_and_evil_convo@f76c977dfb7903f1dccaef6d592fb877538c357d/train.csv": {
+      "num_bytes": 377855,
+      "checksum": null
+    },
+    "hf://datasets/Augustya07/neitzsche_beyond_good_and_evil_convo@f76c977dfb7903f1dccaef6d592fb877538c357d/test.csv": {
+      "num_bytes": 32660,
+      "checksum": null
+    }
+  },
+  "download_size": 410515,
+  "features": {
+    "prompt": {
+      "dtype": "string",
+      "_type": "Value"
+    },
+    "completion": {
+      "dtype": "string",
+      "_type": "Value"
+    }
+  },
+  "homepage": "",
+  "license": "",
+  "size_in_bytes": 821541,
+  "splits": {
+    "train": {
+      "name": "train",
+      "num_bytes": 378283,
+      "num_examples": 458,
+      "dataset_name": "neitzsche_beyond_good_and_evil_convo"
+    },
+    "test": {
+      "name": "test",
+      "num_bytes": 32743,
+      "num_examples": 56,
+      "dataset_name": "neitzsche_beyond_good_and_evil_convo"
+    }
+  },
+  "version": {
+    "version_str": "0.0.0",
+    "major": 0,
+    "minor": 0,
+    "patch": 0
+  }
+}

LocalDatasets/beyond_good_and_evil/test/state.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "_data_files": [
+    {
+      "filename": "data-00000-of-00001.arrow"
+    }
+  ],
+  "_fingerprint": "ea422c8bc997ca86",
+  "_format_columns": null,
+  "_format_kwargs": {},
+  "_format_type": null,
+  "_output_all_columns": false,
+  "_split": "test"
+}

LocalDatasets/beyond_good_and_evil/train/cache-1d1e41ee9bb12a11.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9882469aac4f7f2a13181b096a936c8dbd055cfe65d030f69a1c8f5ba02d148d
+size 3055120

LocalDatasets/beyond_good_and_evil/train/cache-27e83bf40614a2f4.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9be3beed8e6cda2c0200eb7e100be9654125524fabe501147f6625f27d8563e
+size 1792288

LocalDatasets/beyond_good_and_evil/train/cache-30ee22778b46cd81.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ec0e38c49f220ce96db5dec3b766c7adf497bde2b607f98d872b6453f986e50
+size 1413664

LocalDatasets/beyond_good_and_evil/train/cache-3a5ee93dc239c198.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f30113cb0dd64df73574b1dce8476756b0b5143fd1907103c8d82302a3efbba1
+size 3055120

LocalDatasets/beyond_good_and_evil/train/cache-4b64f7d492377576.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02e2d7a4557649989a9d14772ff0a3ed585f76191045f78cbbc91e4483aa4618
+size 3291744

LocalDatasets/beyond_good_and_evil/train/cache-91b75d3a40905d78.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9cd1f47b95e3648167636ce42917b33fd9fbcec8e71afdd6acda59584a9dbf3
+size 1555664

LocalDatasets/beyond_good_and_evil/train/cache-b8262b23ba04f273.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a0be3ec476e7a8c296f5a96a6e5805232a5329dbaf0652e6c0c94c9cfa3ab0b
+size 1792288

LocalDatasets/beyond_good_and_evil/train/cache-fb60a1da0ad06f2d.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:981faa71a2bc528a525658ae2b97602b8b37b542f33a7a5a634423e8e9902aae
+size 3291744

LocalDatasets/beyond_good_and_evil/train/data-00000-of-00001.arrow ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4889c31e70d9aadc5f08a297e23f67cd00657ba58f1cf9ee2fb7a382f930f440
+size 378888

LocalDatasets/beyond_good_and_evil/train/dataset_info.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "builder_name": "csv",
+  "citation": "",
+  "config_name": "default",
+  "dataset_name": "neitzsche_beyond_good_and_evil_convo",
+  "dataset_size": 411026,
+  "description": "",
+  "download_checksums": {
+    "hf://datasets/Augustya07/neitzsche_beyond_good_and_evil_convo@f76c977dfb7903f1dccaef6d592fb877538c357d/train.csv": {
+      "num_bytes": 377855,
+      "checksum": null
+    },
+    "hf://datasets/Augustya07/neitzsche_beyond_good_and_evil_convo@f76c977dfb7903f1dccaef6d592fb877538c357d/test.csv": {
+      "num_bytes": 32660,
+      "checksum": null
+    }
+  },
+  "download_size": 410515,
+  "features": {
+    "prompt": {
+      "dtype": "string",
+      "_type": "Value"
+    },
+    "completion": {
+      "dtype": "string",
+      "_type": "Value"
+    }
+  },
+  "homepage": "",
+  "license": "",
+  "size_in_bytes": 821541,
+  "splits": {
+    "train": {
+      "name": "train",
+      "num_bytes": 378283,
+      "num_examples": 458,
+      "dataset_name": "neitzsche_beyond_good_and_evil_convo"
+    },
+    "test": {
+      "name": "test",
+      "num_bytes": 32743,
+      "num_examples": 56,
+      "dataset_name": "neitzsche_beyond_good_and_evil_convo"
+    }
+  },
+  "version": {
+    "version_str": "0.0.0",
+    "major": 0,
+    "minor": 0,
+    "patch": 0
+  }
+}

LocalDatasets/beyond_good_and_evil/train/state.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "_data_files": [
+    {
+      "filename": "data-00000-of-00001.arrow"
+    }
+  ],
+  "_fingerprint": "a68dbd9306ce0628",
+  "_format_columns": null,
+  "_format_kwargs": {},
+  "_format_type": null,
+  "_output_all_columns": false,
+  "_split": "train"
+}

app.py ADDED Viewed

	@@ -0,0 +1,102 @@

+from datasets import load_from_disk
+from fastapi import FastAPI
+from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForLanguageModeling
+import evaluate
+import numpy as np
+import torch
+# Load the dataset
+dataset = load_from_disk('LocalDatasets/beyond_good_and_evil')
+# Initialize the tokenizer
+checkpoint = "gpt2"
+tokenizer = AutoTokenizer.from_pretrained(checkpoint)
+tokenizer.pad_token = tokenizer.eos_token
+# Tokenize the dataset
+def tokenize_function(example):
+    return tokenizer(example['prompt'], example['completion'], truncation=True, padding='max_length', max_length=512)
+tokenized_datasets = dataset.map(tokenize_function, batched=True)
+# Prepare the dataset for training
+def preprocess_function(examples):
+    inputs = tokenizer(examples['prompt'], truncation=True, padding='max_length', max_length=512)
+    outputs = tokenizer(examples['completion'], truncation=True, padding='max_length', max_length=512)
+    inputs["labels"] = outputs["input_ids"]
+    return inputs
+tokenized_datasets = tokenized_datasets.map(preprocess_function, batched=True, remove_columns=['prompt', 'completion'])
+# Initialize the data collator
+data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
+# Split the dataset
+train_dataset = tokenized_datasets['train']
+eval_dataset = tokenized_datasets['test']
+# Load the model
+model = AutoModelForCausalLM.from_pretrained(checkpoint)
+# Define training arguments
+training_args = TrainingArguments(
+    output_dir='./results',
+    evaluation_strategy='epoch',
+    learning_rate=1e-5,
+    per_device_train_batch_size=4,  # Set batch size to 1
+    per_device_eval_batch_size=4,   # Set batch size to 1
+    num_train_epochs=90,
+    weight_decay=0.01,
+    save_total_limit=2,
+)
+# Define the compute metrics function
+metric = evaluate.load("accuracy")
+def compute_metrics(eval_pred):
+    logits, labels = eval_pred
+    predictions = np.argmax(logits, axis=-1)
+    return metric.compute(predictions=predictions, references=labels)
+# Initialize the Trainer
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=train_dataset,
+    eval_dataset=eval_dataset,
+    tokenizer=tokenizer,
+    data_collator=data_collator,
+    compute_metrics=compute_metrics,
+)
+# Train the model
+trainer.train()
+# Save the model and tokenizer
+model.save_pretrained('./saved_model')
+tokenizer.save_pretrained('./saved_model')
+# Load the model and tokenizer for inference
+model = AutoModelForCausalLM.from_pretrained('./saved_model')
+tokenizer = AutoTokenizer.from_pretrained('./saved_model')
+# Example inference
+example_prompt = "What is the main idea of Nietzsche's philosophy?"
+inputs = tokenizer(example_prompt, return_tensors='pt', truncation=True, padding=True, max_length=512)
+with torch.no_grad():
+    outputs = model.generate(**inputs, max_length=100, num_beams=5, early_stopping=True)
+    completion = tokenizer.decode(outputs[0], skip_special_tokens=True)
+print(f"Generated completion: {completion}")
+app = FastAPI()
+@app.get("/{param_prompt}")
+def greet_json(param_prompt: str = "Friedrich Nietzsche, I have just started reading your work and I must say, it is quite thought-provoking. I am intrigued by your concept of the 'Will to Truth.' Can you explain to me what this means?"):
+    f_inputs = tokenizer(param_prompt, return_tensors='pt', truncation=True, padding=True, max_length=512)
+    with torch.no_grad():
+        f_outputs = model.generate(**f_inputs, max_length=200, num_beams=5, early_stopping=True)
+        f_completion = tokenizer.decode(f_outputs[0], skip_special_tokens=True)
+    return {"Answer: ": f_completion}

requirements.txt ADDED Viewed

Binary file (2.09 kB). View file