aframson
/

RDPD-mini

Text Generation

feature-extraction

Model card Files Files and versions Community

aframson commited on Sep 16, 2023

Commit

f7b41c1

·

1 Parent(s): b5f3842

ad

ads

Files changed (1) hide show

tokenizeConfig.py +5 -1

tokenizeConfig.py CHANGED Viewed

@@ -3,7 +3,10 @@ from tokenizers import Tokenizer, models, pre_tokenizers, trainers, decoders
 import json
 class OBITokenizer(PreTrainedTokenizer):
-    def __init__(self):
         # Initialize a BPE model for tokenization
         bpe_model = models.BPE()
         # Initialize the tokenizer
@@ -11,6 +14,7 @@ class OBITokenizer(PreTrainedTokenizer):
         # Add pre-tokenization and decoding steps if needed
         self.tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel()
         self.tokenizer.decoder = decoders.ByteLevel()
     def train(self, files,save_path):
         # Training: Fit the tokenizer on your text data

 import json
 class OBITokenizer(PreTrainedTokenizer):
+    def __init__(self, auto_map={"AutoTokenizer": ["tokenizeConfig.OBITokenizer"]},tokenizer_class= "OBITokenizer",**kwargs):
+         # Initialize your tokenizer with the auto_map parameter if needed
+        self.auto_map=auto_map
+        self.tokenizer_class=tokenizer_class
         # Initialize a BPE model for tokenization
         bpe_model = models.BPE()
         # Initialize the tokenizer
         # Add pre-tokenization and decoding steps if needed
         self.tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel()
         self.tokenizer.decoder = decoders.ByteLevel()
+        super().__init__(**kwargs)
     def train(self, files,save_path):
         # Training: Fit the tokenizer on your text data