Upload 9 files

Browse files

Files changed (9) hide show

ToxicityModel_emissions.csv +2 -0
config.json +30 -0
pytorch_model.bin +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +15 -0
toxicity_model.py +47 -0
toxicity_model_config.py +46 -0
vocab.txt +0 -0

ToxicityModel_emissions.csv ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ timestamp,project_name,run_id,duration,emissions,emissions_rate,cpu_power,gpu_power,ram_power,cpu_energy,gpu_energy,ram_energy,energy_consumed,country_name,country_iso_code,region,cloud_provider,cloud_region,os,python_version,codecarbon_version,cpu_count,cpu_model,gpu_count,gpu_model,longitude,latitude,ram_total_size,tracking_mode,on_cloud,pue
2	+ 2023-06-11T20:47:46,ToxicityModel_emissions,4a6f45ca-817a-4738-b3ec-6b9bf43275d6,8172.121086597443,0.38904138433484975,4.7605925097327656e-05,42.5,310.83,31.30528450012207,0.09647620793547898,0.6920245228854167,0.07102982035970598,0.8595305511806026,United States,USA,iowa,,,Linux-5.15.107+-x86_64-with-glibc2.31,3.10.12,2.2.3,12,Intel(R) Xeon(R) CPU @ 2.20GHz,1,1 x NVIDIA A100-SXM4-40GB,-95.8517,41.2591,83.48075866699219,machine,N,1.0

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "ToxicityModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "auto_map": {
+    "AutoConfig": "toxicity_model_config.ToxicityModelConfig",
+    "AutoModel": "toxicity_model.ToxicityModel"
+  },
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "linear_layer": 128,
+  "linear_layer_output": 1,
+  "max_position_embeddings": 512,
+  "model_type": "bert-toxic",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.25.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 29794
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69e42ac063038c7fb641273bb302795de39f7de949ea38e00bf38333ee753681
+size 436222181

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

toxicity_model.py ADDED Viewed

	@@ -0,0 +1,47 @@

+from transformers import BertPreTrainedModel, BertModel
+from .toxicity_model_config import ToxicityModelConfig
+import torch
+class ToxicityModel(BertPreTrainedModel):
+    """
+    ToxicityModel class for PyTorch
+    Args:
+        config (transformers.configuration): model configuration
+    Returns:
+        output (torch.tensor): tensor containing the output logits [-1,1]
+    """
+    config_class = ToxicityModelConfig
+    def __init__(self, config):
+        super().__init__(config)
+        self.bert = BertModel(config)
+        self.cls_layer1 = torch.nn.Linear(config.hidden_size,config.linear_layer)
+        self.relu1 = torch.nn.ReLU()
+        self.ff1 = torch.nn.Linear(config.linear_layer,config.linear_layer)
+        self.tanh1 = torch.nn.Tanh()
+        self.ff2 = torch.nn.Linear(config.linear_layer,config.linear_layer_output)
+    def forward(self, input_ids, attention_mask, alpha=1, beta=1e-5):
+        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
+        logits = outputs.last_hidden_state[:,0,:]
+        output = self.cls_layer1(logits)
+        output = self.relu1(output)
+        output = self.ff1(output)
+        output = self.tanh1(output)
+        output = self.ff2(output)
+        # Apply alpha and beta to output (if not training)
+        if not self.training:
+            # alpha multiplies the output by a scalar
+            output = torch.mul(output, alpha)
+            # beta clamps the output to a minimum value
+            output = torch.clamp(output, min=beta)
+        return output

toxicity_model_config.py ADDED Viewed

	@@ -0,0 +1,46 @@

+from transformers import PretrainedConfig
+class ToxicityModelConfig(PretrainedConfig):
+    model_type="bert-toxic"
+    def __init__(
+        self,
+        vocab_size=29794,
+        hidden_size=768,
+        num_hidden_layers=12,
+        num_attention_heads=12,
+        intermediate_size=3072,
+        hidden_act="gelu",
+        hidden_dropout_prob=0.1,
+        attention_probs_dropout_prob=0.1,
+        max_position_embeddings=512,
+        type_vocab_size=2,
+        initializer_range=0.02,
+        layer_norm_eps=1e-12,
+        pad_token_id=0,
+        position_embedding_type="absolute",
+        use_cache=True,
+        classifier_dropout=None,
+        linear_layer=128,
+        linear_layer_output=1,
+        **kwargs,
+    ):
+        super().__init__(pad_token_id=pad_token_id, **kwargs)
+        self.vocab_size = vocab_size
+        self.hidden_size = hidden_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.hidden_act = hidden_act
+        self.intermediate_size = intermediate_size
+        self.hidden_dropout_prob = hidden_dropout_prob
+        self.attention_probs_dropout_prob = attention_probs_dropout_prob
+        self.max_position_embeddings = max_position_embeddings
+        self.type_vocab_size = type_vocab_size
+        self.initializer_range = initializer_range
+        self.layer_norm_eps = layer_norm_eps
+        self.position_embedding_type = position_embedding_type
+        self.use_cache = use_cache
+        self.classifier_dropout = classifier_dropout
+        self.linear_layer = linear_layer
+        self.linear_layer_output = linear_layer_output

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff