{"cells":[{"attachments":{},"cell_type":"markdown","metadata":{},"source":["### Kaggle link: https://www.kaggle.com/noobhocai/train-pairwise-stage2"]},{"cell_type":"code","execution_count":1,"metadata":{"execution":{"iopub.execute_input":"2023-06-29T01:34:51.417747Z","iopub.status.busy":"2023-06-29T01:34:51.417032Z","iopub.status.idle":"2023-06-29T01:35:11.748112Z","shell.execute_reply":"2023-06-29T01:35:11.746819Z","shell.execute_reply.started":"2023-06-29T01:34:51.417706Z"},"trusted":true},"outputs":[{"name":"stdout","output_type":"stream","text":["\u001b[33mWARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv\u001b[0m\u001b[33m\n","\u001b[0m\n","\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m A new release of pip is available: \u001b[0m\u001b[31;49m23.0.1\u001b[0m\u001b[39;49m -> \u001b[0m\u001b[32;49m23.1.2\u001b[0m\n","\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m To update, run: \u001b[0m\u001b[32;49mpip install --upgrade pip\u001b[0m\n"]}],"source":["!pip install sentence_transformers pyvi -q\n","# !pip install --upgrade tensorflow-io==0.32.0"]},{"cell_type":"code","execution_count":2,"metadata":{"execution":{"iopub.execute_input":"2023-06-29T01:35:11.750592Z","iopub.status.busy":"2023-06-29T01:35:11.750272Z","iopub.status.idle":"2023-06-29T01:35:11.755063Z","shell.execute_reply":"2023-06-29T01:35:11.754177Z","shell.execute_reply.started":"2023-06-29T01:35:11.750563Z"},"trusted":true},"outputs":[],"source":["# !pip install gsutil -q\n","# !curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py\n","# !python pytorch-xla-env-setup.py --version nightly --apt-packages libomp5 libopenblas-dev"]},{"cell_type":"code","execution_count":3,"metadata":{"_cell_guid":"b1076dfc-b9ad-4769-8c92-a6c4dae69d19","_uuid":"8f2839f25d086af736a60e9eeb907d3b93b6e0e5","execution":{"iopub.execute_input":"2023-06-29T01:35:11.760109Z","iopub.status.busy":"2023-06-29T01:35:11.759784Z","iopub.status.idle":"2023-06-29T01:35:46.341332Z","shell.execute_reply":"2023-06-29T01:35:46.339954Z","shell.execute_reply.started":"2023-06-29T01:35:11.760071Z"},"trusted":true},"outputs":[{"name":"stderr","output_type":"stream","text":["/usr/local/lib/python3.8/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n","  from .autonotebook import tqdm as notebook_tqdm\n"]}],"source":["import os\n","import pandas as pd\n","from transformers import AutoModel, AutoTokenizer\n","import torch\n","from torch.utils.data import DataLoader\n","from sklearn.metrics.pairwise import cosine_similarity\n","import numpy as np\n","from pyvi.ViTokenizer import tokenize\n","from transformers import AutoTokenizer, AdamW, get_linear_schedule_with_warmup\n","from transformers import DataCollatorWithPadding\n","from scipy.stats import pearsonr, spearmanr\n","import math\n","from sklearn.metrics import *\n","from sklearn.model_selection import GroupKFold, KFold"]},{"cell_type":"code","execution_count":4,"metadata":{"execution":{"iopub.execute_input":"2023-06-29T01:35:46.343395Z","iopub.status.busy":"2023-06-29T01:35:46.342831Z","iopub.status.idle":"2023-06-29T01:35:46.348021Z","shell.execute_reply":"2023-06-29T01:35:46.347052Z","shell.execute_reply.started":"2023-06-29T01:35:46.343363Z"},"trusted":true},"outputs":[],"source":["AUTH_TOKEN = \"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\""]},{"cell_type":"code","execution_count":5,"metadata":{"execution":{"iopub.execute_input":"2023-06-29T01:35:46.349601Z","iopub.status.busy":"2023-06-29T01:35:46.349307Z","iopub.status.idle":"2023-06-29T01:35:47.904138Z","shell.execute_reply":"2023-06-29T01:35:47.903274Z","shell.execute_reply.started":"2023-06-29T01:35:46.349575Z"},"trusted":true},"outputs":[{"name":"stderr","output_type":"stream","text":["Downloading (…)okenizer_config.json: 100%|██████████| 398/398 [00:00<00:00, 47.5kB/s]\n","Downloading (…)/main/tokenizer.json: 100%|██████████| 9.08M/9.08M [00:00<00:00, 70.8MB/s]\n","Downloading (…)cial_tokens_map.json: 100%|██████████| 239/239 [00:00<00:00, 133kB/s]\n"]},{"name":"stdout","output_type":"stream","text":["<s> sinh viên đại học khoa học tự nhiên</s>\n"]}],"source":["tokenizer = AutoTokenizer.from_pretrained('nguyenvulebinh/vi-mrc-base', use_auth_token=AUTH_TOKEN)\n","print(tokenizer.decode(tokenizer.encode(\"sinh viên đại học khoa học tự nhiên \")))"]},{"cell_type":"code","execution_count":6,"metadata":{"execution":{"iopub.execute_input":"2023-06-29T01:35:47.905567Z","iopub.status.busy":"2023-06-29T01:35:47.905232Z","iopub.status.idle":"2023-06-29T01:35:47.909874Z","shell.execute_reply":"2023-06-29T01:35:47.909125Z","shell.execute_reply.started":"2023-06-29T01:35:47.905538Z"},"trusted":true},"outputs":[],"source":["import os\n","os.environ[\"TOKENIZERS_PARALLELISM\"] = \"false\""]},{"cell_type":"code","execution_count":7,"metadata":{"execution":{"iopub.execute_input":"2023-06-29T01:35:47.911132Z","iopub.status.busy":"2023-06-29T01:35:47.910848Z","iopub.status.idle":"2023-06-29T01:35:58.020338Z","shell.execute_reply":"2023-06-29T01:35:58.019355Z","shell.execute_reply.started":"2023-06-29T01:35:47.911107Z"},"trusted":true},"outputs":[],"source":["df = pd.read_csv(\"/kaggle/input/e2eqa-wiki-zalo-ai/processed/train_stage2_ranking.csv\")"]},{"cell_type":"code","execution_count":8,"metadata":{"execution":{"iopub.execute_input":"2023-06-29T01:35:58.021880Z","iopub.status.busy":"2023-06-29T01:35:58.021545Z","iopub.status.idle":"2023-06-29T01:35:58.046072Z","shell.execute_reply":"2023-06-29T01:35:58.045164Z","shell.execute_reply.started":"2023-06-29T01:35:58.021853Z"},"trusted":true},"outputs":[{"data":{"text/html":["<div>\n","<style scoped>\n","    .dataframe tbody tr th:only-of-type {\n","        vertical-align: middle;\n","    }\n","\n","    .dataframe tbody tr th {\n","        vertical-align: top;\n","    }\n","\n","    .dataframe thead th {\n","        text-align: right;\n","    }\n","</style>\n","<table border=\"1\" class=\"dataframe\">\n","  <thead>\n","    <tr style=\"text-align: right;\">\n","      <th></th>\n","      <th>question</th>\n","      <th>answer</th>\n","      <th>title</th>\n","      <th>candidate</th>\n","      <th>label</th>\n","      <th>group</th>\n","    </tr>\n","  </thead>\n","  <tbody>\n","    <tr>\n","      <th>0</th>\n","      <td>Đất nước nào không có quân đội</td>\n","      <td>Costa Rica, Iceland, Panama, Micronesia, Quần ...</td>\n","      <td>Costa Rica</td>\n","      <td>Costa Rica Costa Rica (Phiên âm: Cô-xta Ri-ca)...</td>\n","      <td>0</td>\n","      <td>0</td>\n","    </tr>\n","    <tr>\n","      <th>1</th>\n","      <td>Đất nước nào không có quân đội</td>\n","      <td>Costa Rica, Iceland, Panama, Micronesia, Quần ...</td>\n","      <td>Quần đảo Marshall</td>\n","      <td>Quần đảo Marshall Quần đảo Marshall, tên chính...</td>\n","      <td>0</td>\n","      <td>0</td>\n","    </tr>\n","    <tr>\n","      <th>2</th>\n","      <td>Đất nước nào không có quân đội</td>\n","      <td>Costa Rica, Iceland, Panama, Micronesia, Quần ...</td>\n","      <td>Montezuma, Costa Rica</td>\n","      <td>Montezuma, Costa Rica Montezuma là một thị xã ...</td>\n","      <td>0</td>\n","      <td>0</td>\n","    </tr>\n","    <tr>\n","      <th>3</th>\n","      <td>Đất nước nào không có quân đội</td>\n","      <td>Costa Rica, Iceland, Panama, Micronesia, Quần ...</td>\n","      <td>Tamarindo, Costa Rica</td>\n","      <td>Tamarindo, Costa Rica Tamarindo là một thị xã ...</td>\n","      <td>0</td>\n","      <td>0</td>\n","    </tr>\n","    <tr>\n","      <th>4</th>\n","      <td>Đất nước nào không có quân đội</td>\n","      <td>Costa Rica, Iceland, Panama, Micronesia, Quần ...</td>\n","      <td>Micronesia</td>\n","      <td>Micronesia Micronesia (, ), còn gọi là Tiểu Đả...</td>\n","      <td>0</td>\n","      <td>0</td>\n","    </tr>\n","    <tr>\n","      <th>...</th>\n","      <td>...</td>\n","      <td>...</td>\n","      <td>...</td>\n","      <td>...</td>\n","      <td>...</td>\n","      <td>...</td>\n","    </tr>\n","    <tr>\n","      <th>46075</th>\n","      <td>trong thần thoại hy lạp vị thần tình yêu có tê...</td>\n","      <td>Eros</td>\n","      <td>Eros phaleratus</td>\n","      <td>Eros phaleratus Eros phaleratus là một loài bọ...</td>\n","      <td>0</td>\n","      <td>4607</td>\n","    </tr>\n","    <tr>\n","      <th>46076</th>\n","      <td>trong thần thoại hy lạp vị thần tình yêu có tê...</td>\n","      <td>Eros</td>\n","      <td>Eros melanurus</td>\n","      <td>Eros melanurus Eros melanurus là một loài bọ c...</td>\n","      <td>0</td>\n","      <td>4607</td>\n","    </tr>\n","    <tr>\n","      <th>46077</th>\n","      <td>trong thần thoại hy lạp vị thần tình yêu có tê...</td>\n","      <td>Eros</td>\n","      <td>Eros melanopterus</td>\n","      <td>Eros melanopterus Eros melanopterus là một loà...</td>\n","      <td>0</td>\n","      <td>4607</td>\n","    </tr>\n","    <tr>\n","      <th>46078</th>\n","      <td>trong thần thoại hy lạp vị thần tình yêu có tê...</td>\n","      <td>Eros</td>\n","      <td>Eros humeralis</td>\n","      <td>Eros humeralis Eros humeralis là một loài bọ c...</td>\n","      <td>0</td>\n","      <td>4607</td>\n","    </tr>\n","    <tr>\n","      <th>46079</th>\n","      <td>trong thần thoại hy lạp vị thần tình yêu có tê...</td>\n","      <td>Eros</td>\n","      <td>Eros patruelis</td>\n","      <td>Eros patruelis Eros patruelis là một loài bọ c...</td>\n","      <td>0</td>\n","      <td>4607</td>\n","    </tr>\n","  </tbody>\n","</table>\n","<p>46080 rows × 6 columns</p>\n","</div>"],"text/plain":["                                                question  \\\n","0                         Đất nước nào không có quân đội   \n","1                         Đất nước nào không có quân đội   \n","2                         Đất nước nào không có quân đội   \n","3                         Đất nước nào không có quân đội   \n","4                         Đất nước nào không có quân đội   \n","...                                                  ...   \n","46075  trong thần thoại hy lạp vị thần tình yêu có tê...   \n","46076  trong thần thoại hy lạp vị thần tình yêu có tê...   \n","46077  trong thần thoại hy lạp vị thần tình yêu có tê...   \n","46078  trong thần thoại hy lạp vị thần tình yêu có tê...   \n","46079  trong thần thoại hy lạp vị thần tình yêu có tê...   \n","\n","                                                  answer  \\\n","0      Costa Rica, Iceland, Panama, Micronesia, Quần ...   \n","1      Costa Rica, Iceland, Panama, Micronesia, Quần ...   \n","2      Costa Rica, Iceland, Panama, Micronesia, Quần ...   \n","3      Costa Rica, Iceland, Panama, Micronesia, Quần ...   \n","4      Costa Rica, Iceland, Panama, Micronesia, Quần ...   \n","...                                                  ...   \n","46075                                               Eros   \n","46076                                               Eros   \n","46077                                               Eros   \n","46078                                               Eros   \n","46079                                               Eros   \n","\n","                       title  \\\n","0                 Costa Rica   \n","1          Quần đảo Marshall   \n","2      Montezuma, Costa Rica   \n","3      Tamarindo, Costa Rica   \n","4                 Micronesia   \n","...                      ...   \n","46075        Eros phaleratus   \n","46076         Eros melanurus   \n","46077      Eros melanopterus   \n","46078         Eros humeralis   \n","46079         Eros patruelis   \n","\n","                                               candidate  label  group  \n","0      Costa Rica Costa Rica (Phiên âm: Cô-xta Ri-ca)...      0      0  \n","1      Quần đảo Marshall Quần đảo Marshall, tên chính...      0      0  \n","2      Montezuma, Costa Rica Montezuma là một thị xã ...      0      0  \n","3      Tamarindo, Costa Rica Tamarindo là một thị xã ...      0      0  \n","4      Micronesia Micronesia (, ), còn gọi là Tiểu Đả...      0      0  \n","...                                                  ...    ...    ...  \n","46075  Eros phaleratus Eros phaleratus là một loài bọ...      0   4607  \n","46076  Eros melanurus Eros melanurus là một loài bọ c...      0   4607  \n","46077  Eros melanopterus Eros melanopterus là một loà...      0   4607  \n","46078  Eros humeralis Eros humeralis là một loài bọ c...      0   4607  \n","46079  Eros patruelis Eros patruelis là một loài bọ c...      0   4607  \n","\n","[46080 rows x 6 columns]"]},"execution_count":8,"metadata":{},"output_type":"execute_result"}],"source":["df"]},{"cell_type":"code","execution_count":9,"metadata":{"execution":{"iopub.execute_input":"2023-06-29T01:35:58.049946Z","iopub.status.busy":"2023-06-29T01:35:58.049516Z","iopub.status.idle":"2023-06-29T01:35:58.056766Z","shell.execute_reply":"2023-06-29T01:35:58.055691Z","shell.execute_reply.started":"2023-06-29T01:35:58.049902Z"},"trusted":true},"outputs":[{"data":{"text/plain":["'</s>'"]},"execution_count":9,"metadata":{},"output_type":"execute_result"}],"source":["tokenizer.sep_token"]},{"cell_type":"code","execution_count":10,"metadata":{"execution":{"iopub.execute_input":"2023-06-29T01:35:58.058453Z","iopub.status.busy":"2023-06-29T01:35:58.058155Z","iopub.status.idle":"2023-06-29T01:35:58.065931Z","shell.execute_reply":"2023-06-29T01:35:58.064879Z","shell.execute_reply.started":"2023-06-29T01:35:58.058427Z"},"trusted":true},"outputs":[],"source":["# !pip install torch"]},{"cell_type":"code","execution_count":11,"metadata":{"execution":{"iopub.execute_input":"2023-06-29T01:35:58.067617Z","iopub.status.busy":"2023-06-29T01:35:58.067324Z","iopub.status.idle":"2023-06-29T01:35:58.076734Z","shell.execute_reply":"2023-06-29T01:35:58.075869Z","shell.execute_reply.started":"2023-06-29T01:35:58.067591Z"},"trusted":true},"outputs":[],"source":["import torch.nn as nn\n","from transformers import AutoModel, AutoConfig\n","\n","class PairwiseModel(nn.Module):\n","    def __init__(self, model_name):\n","        super(PairwiseModel, self).__init__()\n","        self.model = AutoModel.from_pretrained(model_name,use_auth_token=AUTH_TOKEN)\n","        self.config = AutoConfig.from_pretrained(model_name, use_auth_token=AUTH_TOKEN)\n","        self.drop = nn.Dropout(p=0.2)\n","        self.fc = nn.Linear(768, 1)\n","        \n","    def forward(self, ids, masks):\n","        out = self.model(input_ids=ids,\n","                           attention_mask=masks,\n","                           output_hidden_states=False).last_hidden_state\n","        out = out[:,0]\n","        outputs = self.fc(out)\n","        return outputs"]},{"cell_type":"code","execution_count":12,"metadata":{"execution":{"iopub.execute_input":"2023-06-29T01:35:58.078100Z","iopub.status.busy":"2023-06-29T01:35:58.077801Z","iopub.status.idle":"2023-06-29T01:36:03.750905Z","shell.execute_reply":"2023-06-29T01:36:03.749622Z","shell.execute_reply.started":"2023-06-29T01:35:58.078073Z"},"trusted":true},"outputs":[{"name":"stdout","output_type":"stream","text":["Requirement already satisfied: tqdm in /usr/local/lib/python3.8/site-packages (4.65.0)\n","\u001b[33mWARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv\u001b[0m\u001b[33m\n","\u001b[0m\n","\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m A new release of pip is available: \u001b[0m\u001b[31;49m23.0.1\u001b[0m\u001b[39;49m -> \u001b[0m\u001b[32;49m23.1.2\u001b[0m\n","\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m To update, run: \u001b[0m\u001b[32;49mpip install --upgrade pip\u001b[0m\n"]}],"source":["!pip install tqdm"]},{"cell_type":"code","execution_count":13,"metadata":{"execution":{"iopub.execute_input":"2023-06-29T01:36:03.752804Z","iopub.status.busy":"2023-06-29T01:36:03.752475Z","iopub.status.idle":"2023-06-29T01:36:03.772087Z","shell.execute_reply":"2023-06-29T01:36:03.771300Z","shell.execute_reply.started":"2023-06-29T01:36:03.752773Z"},"trusted":true},"outputs":[],"source":["from torch.utils.data import Dataset\n","from tqdm.auto import tqdm\n","tqdm.pandas()\n","\n","class SiameseDataset(Dataset):\n","\n","    def __init__(self, df, tokenizer, max_length):\n","        self.df = df\n","        self.max_length = max_length\n","        self.tokenizer = tokenizer\n","        self.df[\"content1\"] = self.df.apply(lambda row: row.question+f\" {tokenizer.sep_token} \"+row.answer,axis=1)\n","        self.df[\"content2\"] = self.df.apply(lambda row: row.title+f\" {tokenizer.sep_token} \"+row.candidate,axis=1)\n","        self.content1 = tokenizer.batch_encode_plus(list(df.content1.apply(lambda x: x.replace(\"_\",\" \")).values), max_length=max_length, truncation=True)[\"input_ids\"]\n","        self.content2 = tokenizer.batch_encode_plus(list(df.content2.apply(lambda x: x.replace(\"_\",\" \")).values), max_length=max_length, truncation=True)[\"input_ids\"]\n","        self.targets = self.df.label\n","        \n","    def __len__(self):\n","        return len(self.df)\n","\n","    def __getitem__(self, index):\n","        return {\n","            'ids1': torch.tensor(self.content1[index], dtype=torch.long),\n","            'ids2': torch.tensor(self.content2[index][1:], dtype=torch.long),\n","            'target': torch.tensor(self.targets[index], dtype=torch.float)\n","        }\n","pad_token_id = tokenizer.pad_token_id\n","def collate_fn(batch):\n","    ids = [torch.cat([x[\"ids1\"], x[\"ids2\"]]) for x in batch]\n","    targets = [x[\"target\"] for x in batch]\n","    max_len = np.max([len(x) for x in ids])\n","    masks = []\n","    for i in range(len(ids)):\n","        if len(ids[i]) < max_len:\n","            ids[i]= torch.cat((ids[i], torch.tensor([pad_token_id,]*(max_len - len(ids[i])),dtype=torch.long)))\n","        masks.append(ids[i] != pad_token_id)\n","    # print(tokenizer.decode(ids[0]))\n","    outputs = {\n","        \"ids\": torch.vstack(ids),\n","        \"masks\": torch.vstack(masks),\n","        \"target\": torch.vstack(targets).view(-1)\n","    }\n","    return outputs"]},{"cell_type":"code","execution_count":14,"metadata":{"execution":{"iopub.execute_input":"2023-06-29T01:36:03.773416Z","iopub.status.busy":"2023-06-29T01:36:03.773148Z","iopub.status.idle":"2023-06-29T01:36:03.789151Z","shell.execute_reply":"2023-06-29T01:36:03.788258Z","shell.execute_reply.started":"2023-06-29T01:36:03.773393Z"},"trusted":true},"outputs":[],"source":["def optimizer_scheduler(model, num_train_steps):\n","    param_optimizer = list(model.named_parameters())\n","    no_decay = [\"bias\", \"LayerNorm.weight\"]\n","    optimizer_parameters = [\n","            {\n","                \"params\": [p for n, p in param_optimizer if not any(nd in n for nd in no_decay)],\n","                \"weight_decay\": 0.001,\n","            },\n","            {\n","                \"params\": [p for n, p in param_optimizer if any(nd in n for nd in no_decay)],\n","                \"weight_decay\": 0.0,\n","            },\n","        ]\n","\n","    opt = AdamW(optimizer_parameters, lr=3e-5)\n","    sch = get_linear_schedule_with_warmup(\n","        opt,\n","        num_warmup_steps=int(0.05*num_train_steps),\n","        num_training_steps=num_train_steps,\n","        last_epoch=-1,\n","    )\n","    return opt, sch"]},{"cell_type":"code","execution_count":15,"metadata":{"execution":{"iopub.execute_input":"2023-06-29T01:36:03.790608Z","iopub.status.busy":"2023-06-29T01:36:03.790351Z","iopub.status.idle":"2023-06-29T08:54:33.816427Z","shell.execute_reply":"2023-06-29T08:54:33.813840Z","shell.execute_reply.started":"2023-06-29T01:36:03.790586Z"},"trusted":true},"outputs":[{"name":"stdout","output_type":"stream","text":["INFO:tensorflow:Deallocate tpu buffers before initializing tpu system.\n","INFO:tensorflow:Initializing the TPU system: local\n","INFO:tensorflow:Finished initializing TPU system.\n","INFO:tensorflow:Found TPU system:\n","INFO:tensorflow:*** Num TPU Cores: 8\n","INFO:tensorflow:*** Num TPU Workers: 1\n","INFO:tensorflow:*** Num TPU Cores Per Worker: 8\n","INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:localhost/replica:0/task:0/device:CPU:0, CPU, 0, 0)\n","INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:localhost/replica:0/task:0/device:TPU:0, TPU, 0, 0)\n","INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:localhost/replica:0/task:0/device:TPU:1, TPU, 0, 0)\n","INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:localhost/replica:0/task:0/device:TPU:2, TPU, 0, 0)\n","INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:localhost/replica:0/task:0/device:TPU:3, TPU, 0, 0)\n","INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:localhost/replica:0/task:0/device:TPU:4, TPU, 0, 0)\n","INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:localhost/replica:0/task:0/device:TPU:5, TPU, 0, 0)\n","INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:localhost/replica:0/task:0/device:TPU:6, TPU, 0, 0)\n","INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:localhost/replica:0/task:0/device:TPU:7, TPU, 0, 0)\n","INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:localhost/replica:0/task:0/device:TPU_SYSTEM:0, TPU_SYSTEM, 0, 0)\n"]},{"name":"stderr","output_type":"stream","text":["Downloading (…)lve/main/config.json: 100%|██████████| 688/688 [00:00<00:00, 97.6kB/s]\n","Downloading pytorch_model.bin: 100%|██████████| 1.11G/1.11G [00:14<00:00, 77.9MB/s]\n","Some weights of the model checkpoint at nguyenvulebinh/vi-mrc-base were not used when initializing RobertaModel: ['qa_outputs.weight', 'qa_outputs.bias']\n","- This IS expected if you are initializing RobertaModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).\n","- This IS NOT expected if you are initializing RobertaModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).\n","Some weights of RobertaModel were not initialized from the model checkpoint at nguyenvulebinh/vi-mrc-base and are newly initialized: ['roberta.pooler.dense.weight', 'roberta.pooler.dense.bias']\n","You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.\n","/usr/local/lib/python3.8/site-packages/transformers/optimization.py:411: FutureWarning: This implementation of AdamW is deprecated and will be removed in a future version. Use the PyTorch implementation torch.optim.AdamW instead, or set `no_deprecation_warning=True` to disable this warning\n","  warnings.warn(\n","  0%|          | 0/5 [00:00<?, ?it/s]\n","  0%|          | 0/360 [00:00<?, ?it/s]\u001b[A\n","  0%|          | 0/360 [00:38<?, ?it/s, loss=0.0885]\u001b[A\n","  0%|          | 1/360 [00:38<3:49:15, 38.32s/it, loss=0.0885]\u001b[A\n","  0%|          | 1/360 [01:03<3:49:15, 38.32s/it, loss=0.088] \u001b[A\n","  1%|          | 2/360 [01:03<3:02:06, 30.52s/it, loss=0.088]\u001b[A\n","  1%|          | 2/360 [01:37<3:02:06, 30.52s/it, loss=0.0879]\u001b[A\n","  1%|          | 3/360 [01:37<3:11:13, 32.14s/it, loss=0.0879]\u001b[A\n","  1%|          | 3/360 [02:02<3:11:13, 32.14s/it, loss=0.0872]\u001b[A\n","  1%|          | 4/360 [02:02<2:53:46, 29.29s/it, loss=0.0872]\u001b[A\n","  1%|          | 4/360 [02:27<2:53:46, 29.29s/it, loss=0.0892]\u001b[A\n","  1%|▏         | 5/360 [02:27<2:44:55, 27.87s/it, loss=0.0892]\u001b[A\n","  1%|▏         | 5/360 [02:55<2:44:55, 27.87s/it, loss=0.0865]\u001b[A\n","  2%|▏         | 6/360 [02:55<2:44:40, 27.91s/it, loss=0.0865]\u001b[A\n","  2%|▏         | 6/360 [03:23<2:44:40, 27.91s/it, loss=0.0902]\u001b[A\n","  2%|▏         | 7/360 [03:23<2:43:47, 27.84s/it, loss=0.0902]\u001b[A\n","  2%|▏         | 7/360 [03:55<2:43:47, 27.84s/it, loss=0.0879]\u001b[A\n","  2%|▏         | 8/360 [03:55<2:51:17, 29.20s/it, loss=0.0879]\u001b[A\n","  2%|▏         | 8/360 [04:21<2:51:17, 29.20s/it, loss=0.0883]\u001b[A\n","  2%|▎         | 9/360 [04:21<2:44:30, 28.12s/it, loss=0.0883]\u001b[A\n","  2%|▎         | 9/360 [04:43<2:44:30, 28.12s/it, loss=0.0893]\u001b[A\n","  3%|▎         | 10/360 [04:43<2:34:17, 26.45s/it, loss=0.0893]\u001b[A\n","  3%|▎         | 10/360 [05:10<2:34:17, 26.45s/it, loss=0.0874]\u001b[A\n","  3%|▎         | 11/360 [05:10<2:34:42, 26.60s/it, loss=0.0874]\u001b[A\n","  3%|▎         | 11/360 [05:38<2:34:42, 26.60s/it, loss=0.0885]\u001b[A\n","  3%|▎         | 12/360 [05:38<2:36:19, 26.95s/it, loss=0.0885]\u001b[A\n","  3%|▎         | 12/360 [06:03<2:36:19, 26.95s/it, loss=0.0882]\u001b[A\n","  4%|▎         | 13/360 [06:03<2:33:01, 26.46s/it, loss=0.0882]\u001b[A\n","  4%|▎         | 13/360 [06:31<2:33:01, 26.46s/it, loss=0.0882]\u001b[A\n","  4%|▍         | 14/360 [06:31<2:33:44, 26.66s/it, loss=0.0882]\u001b[A\n","  4%|▍         | 14/360 [06:58<2:33:44, 26.66s/it, loss=0.0892]\u001b[A\n","  4%|▍         | 15/360 [06:58<2:34:28, 26.86s/it, loss=0.0892]\u001b[A\n","  4%|▍         | 15/360 [07:25<2:34:28, 26.86s/it, loss=0.0885]\u001b[A\n","  4%|▍         | 16/360 [07:25<2:33:29, 26.77s/it, loss=0.0885]\u001b[A\n","  4%|▍         | 16/360 [07:52<2:33:29, 26.77s/it, loss=0.0882]\u001b[A\n","  5%|▍         | 17/360 [07:52<2:34:03, 26.95s/it, loss=0.0882]\u001b[A\n","  5%|▍         | 17/360 [08:17<2:34:03, 26.95s/it, loss=0.0872]\u001b[A\n","  5%|▌         | 18/360 [08:17<2:30:34, 26.42s/it, loss=0.0872]\u001b[A\n","  5%|▌         | 18/360 [08:43<2:30:34, 26.42s/it, loss=0.0884]\u001b[A\n","  5%|▌         | 19/360 [08:43<2:29:32, 26.31s/it, loss=0.0884]\u001b[A\n","  5%|▌         | 19/360 [09:09<2:29:32, 26.31s/it, loss=0.0886]\u001b[A\n","  6%|▌         | 20/360 [09:09<2:27:43, 26.07s/it, loss=0.0886]\u001b[A\n","  6%|▌         | 20/360 [09:37<2:27:43, 26.07s/it, loss=0.0884]\u001b[A\n","  6%|▌         | 21/360 [09:37<2:30:38, 26.66s/it, loss=0.0884]\u001b[A\n","  6%|▌         | 21/360 [10:04<2:30:38, 26.66s/it, loss=0.0883]\u001b[A\n","  6%|▌         | 22/360 [10:04<2:31:09, 26.83s/it, loss=0.0883]\u001b[A\n","  6%|▌         | 22/360 [10:31<2:31:09, 26.83s/it, loss=0.0875]\u001b[A\n","  6%|▋         | 23/360 [10:31<2:30:37, 26.82s/it, loss=0.0875]\u001b[A\n","  6%|▋         | 23/360 [10:57<2:30:37, 26.82s/it, loss=0.0886]\u001b[A\n","  7%|▋         | 24/360 [10:57<2:28:52, 26.59s/it, loss=0.0886]\u001b[A\n","  7%|▋         | 24/360 [11:24<2:28:52, 26.59s/it, loss=0.086] \u001b[A\n","  7%|▋         | 25/360 [11:24<2:30:19, 26.92s/it, loss=0.086]\u001b[A\n","  7%|▋         | 25/360 [11:52<2:30:19, 26.92s/it, loss=0.0863]\u001b[A\n","  7%|▋         | 26/360 [11:52<2:30:31, 27.04s/it, loss=0.0863]\u001b[A\n","  7%|▋         | 26/360 [12:27<2:30:31, 27.04s/it, loss=0.0865]\u001b[A\n","  8%|▊         | 27/360 [12:27<2:43:32, 29.47s/it, loss=0.0865]\u001b[A\n","  8%|▊         | 27/360 [12:53<2:43:32, 29.47s/it, loss=0.0865]\u001b[A\n","  8%|▊         | 28/360 [12:53<2:38:14, 28.60s/it, loss=0.0865]\u001b[A\n","  8%|▊         | 28/360 [13:20<2:38:14, 28.60s/it, loss=0.087] \u001b[A\n","  8%|▊         | 29/360 [13:20<2:35:08, 28.12s/it, loss=0.087]\u001b[A\n","  8%|▊         | 29/360 [13:56<2:35:08, 28.12s/it, loss=0.0867]\u001b[A\n","  8%|▊         | 30/360 [13:56<2:47:22, 30.43s/it, loss=0.0867]\u001b[A\n","  8%|▊         | 30/360 [14:25<2:47:22, 30.43s/it, loss=0.0861]\u001b[A\n","  9%|▊         | 31/360 [14:25<2:43:49, 29.88s/it, loss=0.0861]\u001b[A\n","  9%|▊         | 31/360 [14:55<2:43:49, 29.88s/it, loss=0.0863]\u001b[A\n","  9%|▉         | 32/360 [14:55<2:43:55, 29.99s/it, loss=0.0863]\u001b[A\n","  9%|▉         | 32/360 [15:22<2:43:55, 29.99s/it, loss=0.084] \u001b[A\n","  9%|▉         | 33/360 [15:22<2:37:37, 28.92s/it, loss=0.084]\u001b[A\n","  9%|▉         | 33/360 [15:47<2:37:37, 28.92s/it, loss=0.0834]\u001b[A\n","  9%|▉         | 34/360 [15:47<2:32:04, 27.99s/it, loss=0.0834]\u001b[A\n","  9%|▉         | 34/360 [16:14<2:32:04, 27.99s/it, loss=0.0835]\u001b[A\n"," 10%|▉         | 35/360 [16:14<2:30:01, 27.70s/it, loss=0.0835]\u001b[A\n"," 10%|▉         | 35/360 [16:43<2:30:01, 27.70s/it, loss=0.0833]\u001b[A\n"," 10%|█         | 36/360 [16:43<2:30:47, 27.92s/it, loss=0.0833]\u001b[A\n"," 10%|█         | 36/360 [17:10<2:30:47, 27.92s/it, loss=0.0837]\u001b[A\n"," 10%|█         | 37/360 [17:10<2:29:31, 27.78s/it, loss=0.0837]\u001b[A\n"," 10%|█         | 37/360 [17:40<2:29:31, 27.78s/it, loss=0.0848]\u001b[A\n"," 11%|█         | 38/360 [17:40<2:32:10, 28.35s/it, loss=0.0848]\u001b[A\n"," 11%|█         | 38/360 [18:08<2:32:10, 28.35s/it, loss=0.0837]\u001b[A\n"," 11%|█         | 39/360 [18:08<2:30:25, 28.12s/it, loss=0.0837]\u001b[A\n"," 11%|█         | 39/360 [18:36<2:30:25, 28.12s/it, loss=0.0842]\u001b[A\n"," 11%|█         | 40/360 [18:36<2:30:36, 28.24s/it, loss=0.0842]\u001b[A\n"," 11%|█         | 40/360 [19:03<2:30:36, 28.24s/it, loss=0.0794]\u001b[A\n"," 11%|█▏        | 41/360 [19:03<2:27:30, 27.75s/it, loss=0.0794]\u001b[A\n"," 11%|█▏        | 41/360 [19:29<2:27:30, 27.75s/it, loss=0.0821]\u001b[A\n"," 12%|█▏        | 42/360 [19:29<2:25:13, 27.40s/it, loss=0.0821]\u001b[A\n"," 12%|█▏        | 42/360 [19:59<2:25:13, 27.40s/it, loss=0.0803]\u001b[A\n"," 12%|█▏        | 43/360 [19:59<2:28:48, 28.16s/it, loss=0.0803]\u001b[A\n"," 12%|█▏        | 43/360 [20:24<2:28:48, 28.16s/it, loss=0.0801]\u001b[A\n"," 12%|█▏        | 44/360 [20:24<2:23:31, 27.25s/it, loss=0.0801]\u001b[A\n"," 12%|█▏        | 44/360 [20:51<2:23:31, 27.25s/it, loss=0.0809]\u001b[A\n"," 12%|█▎        | 45/360 [20:51<2:22:54, 27.22s/it, loss=0.0809]\u001b[A\n"," 12%|█▎        | 45/360 [21:19<2:22:54, 27.22s/it, loss=0.0797]\u001b[A\n"," 13%|█▎        | 46/360 [21:19<2:23:28, 27.42s/it, loss=0.0797]\u001b[A\n"," 13%|█▎        | 46/360 [21:48<2:23:28, 27.42s/it, loss=0.0802]\u001b[A\n"," 13%|█▎        | 47/360 [21:48<2:24:12, 27.64s/it, loss=0.0802]\u001b[A\n"," 13%|█▎        | 47/360 [22:16<2:24:12, 27.64s/it, loss=0.0815]\u001b[A\n"," 13%|█▎        | 48/360 [22:16<2:24:50, 27.85s/it, loss=0.0815]\u001b[A\n"," 13%|█▎        | 48/360 [22:43<2:24:50, 27.85s/it, loss=0.0763]\u001b[A\n"," 14%|█▎        | 49/360 [22:43<2:23:10, 27.62s/it, loss=0.0763]\u001b[A\n"," 14%|█▎        | 49/360 [23:11<2:23:10, 27.62s/it, loss=0.0757]\u001b[A\n"," 14%|█▍        | 50/360 [23:11<2:22:54, 27.66s/it, loss=0.0757]\u001b[A\n"," 14%|█▍        | 50/360 [23:40<2:22:54, 27.66s/it, loss=0.0773]\u001b[A\n"," 14%|█▍        | 51/360 [23:40<2:25:02, 28.16s/it, loss=0.0773]\u001b[A\n"," 14%|█▍        | 51/360 [24:07<2:25:02, 28.16s/it, loss=0.077] \u001b[A\n"," 14%|█▍        | 52/360 [24:07<2:22:45, 27.81s/it, loss=0.077]\u001b[A\n"," 14%|█▍        | 52/360 [24:34<2:22:45, 27.81s/it, loss=0.0787]\u001b[A\n"," 15%|█▍        | 53/360 [24:34<2:21:13, 27.60s/it, loss=0.0787]\u001b[A\n"," 15%|█▍        | 53/360 [25:02<2:21:13, 27.60s/it, loss=0.0781]\u001b[A\n"," 15%|█▌        | 54/360 [25:02<2:21:09, 27.68s/it, loss=0.0781]\u001b[A\n"," 15%|█▌        | 54/360 [25:27<2:21:09, 27.68s/it, loss=0.0776]\u001b[A\n"," 15%|█▌        | 55/360 [25:27<2:17:16, 27.00s/it, loss=0.0776]\u001b[A\n"," 15%|█▌        | 55/360 [25:55<2:17:16, 27.00s/it, loss=0.0754]\u001b[A\n"," 16%|█▌        | 56/360 [25:55<2:17:04, 27.05s/it, loss=0.0754]\u001b[A\n"," 16%|█▌        | 56/360 [26:20<2:17:04, 27.05s/it, loss=0.0725]\u001b[A\n"," 16%|█▌        | 57/360 [26:20<2:14:40, 26.67s/it, loss=0.0725]\u001b[A\n"," 16%|█▌        | 57/360 [26:48<2:14:40, 26.67s/it, loss=0.073] \u001b[A\n"," 16%|█▌        | 58/360 [26:48<2:15:28, 26.92s/it, loss=0.073]\u001b[A\n"," 16%|█▌        | 58/360 [27:15<2:15:28, 26.92s/it, loss=0.0724]\u001b[A\n"," 16%|█▋        | 59/360 [27:15<2:15:29, 27.01s/it, loss=0.0724]\u001b[A\n"," 16%|█▋        | 59/360 [27:45<2:15:29, 27.01s/it, loss=0.0717]\u001b[A\n"," 17%|█▋        | 60/360 [27:45<2:19:37, 27.93s/it, loss=0.0717]\u001b[A\n"," 17%|█▋        | 60/360 [28:12<2:19:37, 27.93s/it, loss=0.0715]\u001b[A\n"," 17%|█▋        | 61/360 [28:12<2:17:17, 27.55s/it, loss=0.0715]\u001b[A\n"," 17%|█▋        | 61/360 [28:36<2:17:17, 27.55s/it, loss=0.0738]\u001b[A\n"," 17%|█▋        | 62/360 [28:36<2:11:13, 26.42s/it, loss=0.0738]\u001b[A\n"," 17%|█▋        | 62/360 [29:03<2:11:13, 26.42s/it, loss=0.0735]\u001b[A\n"," 18%|█▊        | 63/360 [29:03<2:11:44, 26.62s/it, loss=0.0735]\u001b[A\n"," 18%|█▊        | 63/360 [29:31<2:11:44, 26.62s/it, loss=0.0716]\u001b[A\n"," 18%|█▊        | 64/360 [29:31<2:13:45, 27.11s/it, loss=0.0716]\u001b[A\n"," 18%|█▊        | 64/360 [29:58<2:13:45, 27.11s/it, loss=0.0691]\u001b[A\n"," 18%|█▊        | 65/360 [29:58<2:12:35, 26.97s/it, loss=0.0691]\u001b[A\n"," 18%|█▊        | 65/360 [30:28<2:12:35, 26.97s/it, loss=0.0659]\u001b[A\n"," 18%|█▊        | 66/360 [30:28<2:17:34, 28.08s/it, loss=0.0659]\u001b[A\n"," 18%|█▊        | 66/360 [30:55<2:17:34, 28.08s/it, loss=0.0684]\u001b[A\n"," 19%|█▊        | 67/360 [30:55<2:15:15, 27.70s/it, loss=0.0684]\u001b[A\n"," 19%|█▊        | 67/360 [31:23<2:15:15, 27.70s/it, loss=0.0699]\u001b[A\n"," 19%|█▉        | 68/360 [31:23<2:14:44, 27.69s/it, loss=0.0699]\u001b[A\n"," 19%|█▉        | 68/360 [31:50<2:14:44, 27.69s/it, loss=0.0696]\u001b[A\n"," 19%|█▉        | 69/360 [31:50<2:13:25, 27.51s/it, loss=0.0696]\u001b[A\n"," 19%|█▉        | 69/360 [32:18<2:13:25, 27.51s/it, loss=0.0686]\u001b[A\n"," 19%|█▉        | 70/360 [32:18<2:13:43, 27.67s/it, loss=0.0686]\u001b[A\n"," 19%|█▉        | 70/360 [32:47<2:13:43, 27.67s/it, loss=0.0692]\u001b[A\n"," 20%|█▉        | 71/360 [32:47<2:15:33, 28.14s/it, loss=0.0692]\u001b[A\n"," 20%|█▉        | 71/360 [33:13<2:15:33, 28.14s/it, loss=0.0672]\u001b[A\n"," 20%|██        | 72/360 [33:13<2:12:12, 27.54s/it, loss=0.0672]\u001b[A\n"," 20%|██        | 72/360 [33:38<2:12:12, 27.54s/it, loss=0.0623]\u001b[A\n"," 20%|██        | 73/360 [33:38<2:08:29, 26.86s/it, loss=0.0623]\u001b[A\n"," 20%|██        | 73/360 [34:05<2:08:29, 26.86s/it, loss=0.0636]\u001b[A\n"," 21%|██        | 74/360 [34:05<2:07:53, 26.83s/it, loss=0.0636]\u001b[A\n"," 21%|██        | 74/360 [34:34<2:07:53, 26.83s/it, loss=0.0607]\u001b[A\n"," 21%|██        | 75/360 [34:34<2:10:06, 27.39s/it, loss=0.0607]\u001b[A\n"," 21%|██        | 75/360 [35:02<2:10:06, 27.39s/it, loss=0.0629]\u001b[A\n"," 21%|██        | 76/360 [35:02<2:09:55, 27.45s/it, loss=0.0629]\u001b[A\n"," 21%|██        | 76/360 [35:30<2:09:55, 27.45s/it, loss=0.0616]\u001b[A\n"," 21%|██▏       | 77/360 [35:30<2:10:57, 27.77s/it, loss=0.0616]\u001b[A\n"," 21%|██▏       | 77/360 [35:57<2:10:57, 27.77s/it, loss=0.0638]\u001b[A\n"," 22%|██▏       | 78/360 [35:57<2:09:26, 27.54s/it, loss=0.0638]\u001b[A\n"," 22%|██▏       | 78/360 [36:26<2:09:26, 27.54s/it, loss=0.0648]\u001b[A\n"," 22%|██▏       | 79/360 [36:26<2:10:55, 27.95s/it, loss=0.0648]\u001b[A\n"," 22%|██▏       | 79/360 [36:52<2:10:55, 27.95s/it, loss=0.0633]\u001b[A\n"," 22%|██▏       | 80/360 [36:52<2:07:57, 27.42s/it, loss=0.0633]\u001b[A\n"," 22%|██▏       | 80/360 [37:20<2:07:57, 27.42s/it, loss=0.0573]\u001b[A\n"," 22%|██▎       | 81/360 [37:20<2:07:41, 27.46s/it, loss=0.0573]\u001b[A\n"," 22%|██▎       | 81/360 [37:46<2:07:41, 27.46s/it, loss=0.0506]\u001b[A\n"," 23%|██▎       | 82/360 [37:46<2:05:50, 27.16s/it, loss=0.0506]\u001b[A\n"," 23%|██▎       | 82/360 [38:12<2:05:50, 27.16s/it, loss=0.0552]\u001b[A\n"," 23%|██▎       | 83/360 [38:12<2:02:54, 26.62s/it, loss=0.0552]\u001b[A\n"," 23%|██▎       | 83/360 [38:38<2:02:54, 26.62s/it, loss=0.0545]\u001b[A\n"," 23%|██▎       | 84/360 [38:38<2:01:58, 26.52s/it, loss=0.0545]\u001b[A\n"," 23%|██▎       | 84/360 [39:05<2:01:58, 26.52s/it, loss=0.0604]\u001b[A\n"," 24%|██▎       | 85/360 [39:05<2:02:08, 26.65s/it, loss=0.0604]\u001b[A\n"," 24%|██▎       | 85/360 [39:40<2:02:08, 26.65s/it, loss=0.0598]\u001b[A\n"," 24%|██▍       | 86/360 [39:40<2:12:56, 29.11s/it, loss=0.0598]\u001b[A\n"," 24%|██▍       | 86/360 [40:16<2:12:56, 29.11s/it, loss=0.059] \u001b[A\n"," 24%|██▍       | 87/360 [40:16<2:21:53, 31.18s/it, loss=0.059]\u001b[A\n"," 24%|██▍       | 87/360 [40:43<2:21:53, 31.18s/it, loss=0.0545]\u001b[A\n"," 24%|██▍       | 88/360 [40:43<2:15:49, 29.96s/it, loss=0.0545]\u001b[A\n"," 24%|██▍       | 88/360 [41:08<2:15:49, 29.96s/it, loss=0.054] \u001b[A\n"," 25%|██▍       | 89/360 [41:08<2:08:33, 28.46s/it, loss=0.054]\u001b[A\n"," 25%|██▍       | 89/360 [41:37<2:08:33, 28.46s/it, loss=0.0531]\u001b[A\n"," 25%|██▌       | 90/360 [41:37<2:08:41, 28.60s/it, loss=0.0531]\u001b[A\n"," 25%|██▌       | 90/360 [42:07<2:08:41, 28.60s/it, loss=0.0449]\u001b[A\n"," 25%|██▌       | 91/360 [42:07<2:10:20, 29.07s/it, loss=0.0449]\u001b[A\n"," 25%|██▌       | 91/360 [42:34<2:10:20, 29.07s/it, loss=0.0514]\u001b[A\n"," 26%|██▌       | 92/360 [42:34<2:06:46, 28.38s/it, loss=0.0514]\u001b[A\n"," 26%|██▌       | 92/360 [43:00<2:06:46, 28.38s/it, loss=0.0467]\u001b[A\n"," 26%|██▌       | 93/360 [43:00<2:03:44, 27.81s/it, loss=0.0467]\u001b[A\n"," 26%|██▌       | 93/360 [43:28<2:03:44, 27.81s/it, loss=0.0547]\u001b[A\n"," 26%|██▌       | 94/360 [43:28<2:02:54, 27.73s/it, loss=0.0547]\u001b[A\n"," 26%|██▌       | 94/360 [43:57<2:02:54, 27.73s/it, loss=0.0483]\u001b[A\n"," 26%|██▋       | 95/360 [43:57<2:04:31, 28.19s/it, loss=0.0483]\u001b[A\n"," 26%|██▋       | 95/360 [44:27<2:04:31, 28.19s/it, loss=0.0535]\u001b[A\n"," 27%|██▋       | 96/360 [44:27<2:07:06, 28.89s/it, loss=0.0535]\u001b[A\n"," 27%|██▋       | 96/360 [44:58<2:07:06, 28.89s/it, loss=0.0485]\u001b[A\n"," 27%|██▋       | 97/360 [44:58<2:08:50, 29.39s/it, loss=0.0485]\u001b[A\n"," 27%|██▋       | 97/360 [45:28<2:08:50, 29.39s/it, loss=0.0397]\u001b[A\n"," 27%|██▋       | 98/360 [45:28<2:09:13, 29.59s/it, loss=0.0397]\u001b[A\n"," 27%|██▋       | 98/360 [45:56<2:09:13, 29.59s/it, loss=0.0491]\u001b[A\n"," 28%|██▊       | 99/360 [45:56<2:07:17, 29.26s/it, loss=0.0491]\u001b[A\n"," 28%|██▊       | 99/360 [46:23<2:07:17, 29.26s/it, loss=0.0549]\u001b[A\n"," 28%|██▊       | 100/360 [46:23<2:02:39, 28.31s/it, loss=0.0549]\u001b[A\n"," 28%|██▊       | 100/360 [46:50<2:02:39, 28.31s/it, loss=0.0498]\u001b[A\n"," 28%|██▊       | 101/360 [46:50<2:00:42, 27.96s/it, loss=0.0498]\u001b[A\n"," 28%|██▊       | 101/360 [47:17<2:00:42, 27.96s/it, loss=0.0515]\u001b[A\n"," 28%|██▊       | 102/360 [47:17<1:59:50, 27.87s/it, loss=0.0515]\u001b[A\n"," 28%|██▊       | 102/360 [47:45<1:59:50, 27.87s/it, loss=0.0584]\u001b[A\n"," 29%|██▊       | 103/360 [47:45<1:58:59, 27.78s/it, loss=0.0584]\u001b[A\n"," 29%|██▊       | 103/360 [48:14<1:58:59, 27.78s/it, loss=0.0408]\u001b[A\n"," 29%|██▉       | 104/360 [48:14<2:00:18, 28.20s/it, loss=0.0408]\u001b[A\n"," 29%|██▉       | 104/360 [48:40<2:00:18, 28.20s/it, loss=0.0395]\u001b[A\n"," 29%|██▉       | 105/360 [48:40<1:57:00, 27.53s/it, loss=0.0395]\u001b[A\n"," 29%|██▉       | 105/360 [49:07<1:57:00, 27.53s/it, loss=0.0453]\u001b[A\n"," 29%|██▉       | 106/360 [49:07<1:56:16, 27.47s/it, loss=0.0453]\u001b[A\n"," 29%|██▉       | 106/360 [49:36<1:56:16, 27.47s/it, loss=0.0473]\u001b[A\n"," 30%|██▉       | 107/360 [49:36<1:57:27, 27.86s/it, loss=0.0473]\u001b[A\n"," 30%|██▉       | 107/360 [50:04<1:57:27, 27.86s/it, loss=0.0345]\u001b[A\n"," 30%|███       | 108/360 [50:04<1:56:48, 27.81s/it, loss=0.0345]\u001b[A\n"," 30%|███       | 108/360 [50:33<1:56:48, 27.81s/it, loss=0.0457]\u001b[A\n"," 30%|███       | 109/360 [50:33<1:57:31, 28.10s/it, loss=0.0457]\u001b[A\n"," 30%|███       | 109/360 [51:00<1:57:31, 28.10s/it, loss=0.0373]\u001b[A\n"," 31%|███       | 110/360 [51:00<1:56:29, 27.96s/it, loss=0.0373]\u001b[A\n"," 31%|███       | 110/360 [51:28<1:56:29, 27.96s/it, loss=0.0485]\u001b[A\n"," 31%|███       | 111/360 [51:28<1:56:00, 27.96s/it, loss=0.0485]\u001b[A\n"," 31%|███       | 111/360 [52:00<1:56:00, 27.96s/it, loss=0.0414]\u001b[A\n"," 31%|███       | 112/360 [52:00<1:59:49, 28.99s/it, loss=0.0414]\u001b[A\n"," 31%|███       | 112/360 [52:27<1:59:49, 28.99s/it, loss=0.0461]\u001b[A\n"," 31%|███▏      | 113/360 [52:27<1:56:58, 28.41s/it, loss=0.0461]\u001b[A\n"," 31%|███▏      | 113/360 [52:54<1:56:58, 28.41s/it, loss=0.0428]\u001b[A\n"," 32%|███▏      | 114/360 [52:54<1:55:04, 28.07s/it, loss=0.0428]\u001b[A\n"," 32%|███▏      | 114/360 [53:22<1:55:04, 28.07s/it, loss=0.0344]\u001b[A\n"," 32%|███▏      | 115/360 [53:22<1:53:58, 27.91s/it, loss=0.0344]\u001b[A\n"," 32%|███▏      | 115/360 [53:50<1:53:58, 27.91s/it, loss=0.0444]\u001b[A\n"," 32%|███▏      | 116/360 [53:50<1:53:40, 27.95s/it, loss=0.0444]\u001b[A\n"," 32%|███▏      | 116/360 [54:17<1:53:40, 27.95s/it, loss=0.0444]\u001b[A\n"," 32%|███▎      | 117/360 [54:17<1:52:20, 27.74s/it, loss=0.0444]\u001b[A\n"," 32%|███▎      | 117/360 [54:45<1:52:20, 27.74s/it, loss=0.0408]\u001b[A\n"," 33%|███▎      | 118/360 [54:45<1:52:11, 27.82s/it, loss=0.0408]\u001b[A\n"," 33%|███▎      | 118/360 [55:11<1:52:11, 27.82s/it, loss=0.0387]\u001b[A\n"," 33%|███▎      | 119/360 [55:11<1:50:11, 27.43s/it, loss=0.0387]\u001b[A\n"," 33%|███▎      | 119/360 [55:40<1:50:11, 27.43s/it, loss=0.0364]\u001b[A\n"," 33%|███▎      | 120/360 [55:40<1:50:43, 27.68s/it, loss=0.0364]\u001b[A\n"," 33%|███▎      | 120/360 [56:08<1:50:43, 27.68s/it, loss=0.0449]\u001b[A\n"," 34%|███▎      | 121/360 [56:08<1:50:56, 27.85s/it, loss=0.0449]\u001b[A\n"," 34%|███▎      | 121/360 [56:38<1:50:56, 27.85s/it, loss=0.0392]\u001b[A\n"," 34%|███▍      | 122/360 [56:38<1:53:48, 28.69s/it, loss=0.0392]\u001b[A\n"," 34%|███▍      | 122/360 [57:07<1:53:48, 28.69s/it, loss=0.0488]\u001b[A\n"," 34%|███▍      | 123/360 [57:07<1:53:25, 28.72s/it, loss=0.0488]\u001b[A\n"," 34%|███▍      | 123/360 [57:36<1:53:25, 28.72s/it, loss=0.0264]\u001b[A\n"," 34%|███▍      | 124/360 [57:36<1:52:23, 28.57s/it, loss=0.0264]\u001b[A\n"," 34%|███▍      | 124/360 [58:03<1:52:23, 28.57s/it, loss=0.0348]\u001b[A\n"," 35%|███▍      | 125/360 [58:03<1:50:13, 28.14s/it, loss=0.0348]\u001b[A\n"," 35%|███▍      | 125/360 [58:30<1:50:13, 28.14s/it, loss=0.0362]\u001b[A\n"," 35%|███▌      | 126/360 [58:30<1:49:08, 27.98s/it, loss=0.0362]\u001b[A\n"," 35%|███▌      | 126/360 [59:00<1:49:08, 27.98s/it, loss=0.0352]\u001b[A\n"," 35%|███▌      | 127/360 [59:00<1:50:28, 28.45s/it, loss=0.0352]\u001b[A\n"," 35%|███▌      | 127/360 [59:29<1:50:28, 28.45s/it, loss=0.0411]\u001b[A\n"," 36%|███▌      | 128/360 [59:29<1:50:53, 28.68s/it, loss=0.0411]\u001b[A\n"," 36%|███▌      | 128/360 [59:56<1:50:53, 28.68s/it, loss=0.035] \u001b[A\n"," 36%|███▌      | 129/360 [59:56<1:48:36, 28.21s/it, loss=0.035]\u001b[A\n"," 36%|███▌      | 129/360 [1:00:25<1:48:36, 28.21s/it, loss=0.0555]\u001b[A\n"," 36%|███▌      | 130/360 [1:00:25<1:49:09, 28.48s/it, loss=0.0555]\u001b[A\n"," 36%|███▌      | 130/360 [1:00:57<1:49:09, 28.48s/it, loss=0.0428]\u001b[A\n"," 36%|███▋      | 131/360 [1:00:57<1:52:12, 29.40s/it, loss=0.0428]\u001b[A\n"," 36%|███▋      | 131/360 [1:01:26<1:52:12, 29.40s/it, loss=0.0446]\u001b[A\n"," 37%|███▋      | 132/360 [1:01:26<1:51:21, 29.30s/it, loss=0.0446]\u001b[A\n"," 37%|███▋      | 132/360 [1:01:55<1:51:21, 29.30s/it, loss=0.0364]\u001b[A\n"," 37%|███▋      | 133/360 [1:01:55<1:51:01, 29.34s/it, loss=0.0364]\u001b[A\n"," 37%|███▋      | 133/360 [1:02:25<1:51:01, 29.34s/it, loss=0.0439]\u001b[A\n"," 37%|███▋      | 134/360 [1:02:25<1:50:22, 29.30s/it, loss=0.0439]\u001b[A\n"," 37%|███▋      | 134/360 [1:02:54<1:50:22, 29.30s/it, loss=0.0359]\u001b[A\n"," 38%|███▊      | 135/360 [1:02:54<1:50:04, 29.35s/it, loss=0.0359]\u001b[A\n"," 38%|███▊      | 135/360 [1:03:26<1:50:04, 29.35s/it, loss=0.0374]\u001b[A\n"," 38%|███▊      | 136/360 [1:03:26<1:52:24, 30.11s/it, loss=0.0374]\u001b[A\n"," 38%|███▊      | 136/360 [1:03:56<1:52:24, 30.11s/it, loss=0.0456]\u001b[A\n"," 38%|███▊      | 137/360 [1:03:56<1:52:20, 30.23s/it, loss=0.0456]\u001b[A\n"," 38%|███▊      | 137/360 [1:04:33<1:52:20, 30.23s/it, loss=0.0414]\u001b[A\n"," 38%|███▊      | 138/360 [1:04:33<1:58:43, 32.09s/it, loss=0.0414]\u001b[A\n"," 38%|███▊      | 138/360 [1:05:05<1:58:43, 32.09s/it, loss=0.0374]\u001b[A\n"," 39%|███▊      | 139/360 [1:05:05<1:58:01, 32.05s/it, loss=0.0374]\u001b[A\n"," 39%|███▊      | 139/360 [1:05:32<1:58:01, 32.05s/it, loss=0.0519]\u001b[A\n"," 39%|███▉      | 140/360 [1:05:32<1:52:14, 30.61s/it, loss=0.0519]\u001b[A\n"," 39%|███▉      | 140/360 [1:06:00<1:52:14, 30.61s/it, loss=0.0352]\u001b[A\n"," 39%|███▉      | 141/360 [1:06:00<1:48:34, 29.74s/it, loss=0.0352]\u001b[A\n"," 39%|███▉      | 141/360 [1:06:27<1:48:34, 29.74s/it, loss=0.0507]\u001b[A\n"," 39%|███▉      | 142/360 [1:06:27<1:45:19, 28.99s/it, loss=0.0507]\u001b[A\n"," 39%|███▉      | 142/360 [1:06:58<1:45:19, 28.99s/it, loss=0.0458]\u001b[A\n"," 40%|███▉      | 143/360 [1:06:58<1:46:44, 29.51s/it, loss=0.0458]\u001b[A\n"," 40%|███▉      | 143/360 [1:07:28<1:46:44, 29.51s/it, loss=0.0435]\u001b[A\n"," 40%|████      | 144/360 [1:07:28<1:47:20, 29.82s/it, loss=0.0435]\u001b[A\n"," 40%|████      | 144/360 [1:07:55<1:47:20, 29.82s/it, loss=0.0445]\u001b[A\n"," 40%|████      | 145/360 [1:07:55<1:43:14, 28.81s/it, loss=0.0445]\u001b[A\n"," 40%|████      | 145/360 [1:08:23<1:43:14, 28.81s/it, loss=0.0404]\u001b[A\n"," 41%|████      | 146/360 [1:08:23<1:42:11, 28.65s/it, loss=0.0404]\u001b[A\n"," 41%|████      | 146/360 [1:08:51<1:42:11, 28.65s/it, loss=0.0343]\u001b[A\n"," 41%|████      | 147/360 [1:08:51<1:40:35, 28.33s/it, loss=0.0343]\u001b[A\n"," 41%|████      | 147/360 [1:09:22<1:40:35, 28.33s/it, loss=0.0395]\u001b[A\n"," 41%|████      | 148/360 [1:09:22<1:43:18, 29.24s/it, loss=0.0395]\u001b[A\n"," 41%|████      | 148/360 [1:09:51<1:43:18, 29.24s/it, loss=0.0347]\u001b[A\n"," 41%|████▏     | 149/360 [1:09:51<1:42:57, 29.28s/it, loss=0.0347]\u001b[A\n"," 41%|████▏     | 149/360 [1:10:19<1:42:57, 29.28s/it, loss=0.0369]\u001b[A\n"," 42%|████▏     | 150/360 [1:10:19<1:40:52, 28.82s/it, loss=0.0369]\u001b[A\n"," 42%|████▏     | 150/360 [1:10:47<1:40:52, 28.82s/it, loss=0.0495]\u001b[A\n"," 42%|████▏     | 151/360 [1:10:47<1:39:13, 28.49s/it, loss=0.0495]\u001b[A\n"," 42%|████▏     | 151/360 [1:11:15<1:39:13, 28.49s/it, loss=0.015] \u001b[A\n"," 42%|████▏     | 152/360 [1:11:15<1:38:24, 28.39s/it, loss=0.015]\u001b[A\n"," 42%|████▏     | 152/360 [1:11:42<1:38:24, 28.39s/it, loss=0.0306]\u001b[A\n"," 42%|████▎     | 153/360 [1:11:42<1:36:50, 28.07s/it, loss=0.0306]\u001b[A\n"," 42%|████▎     | 153/360 [1:12:11<1:36:50, 28.07s/it, loss=0.0383]\u001b[A\n"," 43%|████▎     | 154/360 [1:12:11<1:37:28, 28.39s/it, loss=0.0383]\u001b[A\n"," 43%|████▎     | 154/360 [1:12:37<1:37:28, 28.39s/it, loss=0.046] \u001b[A\n"," 43%|████▎     | 155/360 [1:12:37<1:34:41, 27.72s/it, loss=0.046]\u001b[A\n"," 43%|████▎     | 155/360 [1:13:06<1:34:41, 27.72s/it, loss=0.0446]\u001b[A\n"," 43%|████▎     | 156/360 [1:13:06<1:34:39, 27.84s/it, loss=0.0446]\u001b[A\n"," 43%|████▎     | 156/360 [1:13:32<1:34:39, 27.84s/it, loss=0.0395]\u001b[A\n"," 44%|████▎     | 157/360 [1:13:32<1:33:02, 27.50s/it, loss=0.0395]\u001b[A\n"," 44%|████▎     | 157/360 [1:13:59<1:33:02, 27.50s/it, loss=0.0438]\u001b[A\n"," 44%|████▍     | 158/360 [1:13:59<1:32:11, 27.38s/it, loss=0.0438]\u001b[A\n"," 44%|████▍     | 158/360 [1:14:27<1:32:11, 27.38s/it, loss=0.0379]\u001b[A\n"," 44%|████▍     | 159/360 [1:14:27<1:31:36, 27.35s/it, loss=0.0379]\u001b[A\n"," 44%|████▍     | 159/360 [1:14:55<1:31:36, 27.35s/it, loss=0.0294]\u001b[A\n"," 44%|████▍     | 160/360 [1:14:55<1:32:22, 27.71s/it, loss=0.0294]\u001b[A\n"," 44%|████▍     | 160/360 [1:15:22<1:32:22, 27.71s/it, loss=0.0276]\u001b[A\n"," 45%|████▍     | 161/360 [1:15:22<1:31:14, 27.51s/it, loss=0.0276]\u001b[A\n"," 45%|████▍     | 161/360 [1:15:52<1:31:14, 27.51s/it, loss=0.0356]\u001b[A\n"," 45%|████▌     | 162/360 [1:15:52<1:33:05, 28.21s/it, loss=0.0356]\u001b[A\n"," 45%|████▌     | 162/360 [1:16:23<1:33:05, 28.21s/it, loss=0.0518]\u001b[A\n"," 45%|████▌     | 163/360 [1:16:23<1:35:04, 28.96s/it, loss=0.0518]\u001b[A\n"," 45%|████▌     | 163/360 [1:16:50<1:35:04, 28.96s/it, loss=0.0309]\u001b[A\n"," 46%|████▌     | 164/360 [1:16:50<1:33:00, 28.47s/it, loss=0.0309]\u001b[A\n"," 46%|████▌     | 164/360 [1:17:20<1:33:00, 28.47s/it, loss=0.027] \u001b[A\n"," 46%|████▌     | 165/360 [1:17:20<1:34:03, 28.94s/it, loss=0.027]\u001b[A\n"," 46%|████▌     | 165/360 [1:17:56<1:34:03, 28.94s/it, loss=0.0277]\u001b[A\n"," 46%|████▌     | 166/360 [1:17:56<1:40:32, 31.10s/it, loss=0.0277]\u001b[A\n"," 46%|████▌     | 166/360 [1:18:27<1:40:32, 31.10s/it, loss=0.0249]\u001b[A\n"," 46%|████▋     | 167/360 [1:18:27<1:39:52, 31.05s/it, loss=0.0249]\u001b[A\n"," 46%|████▋     | 167/360 [1:18:57<1:39:52, 31.05s/it, loss=0.0331]\u001b[A\n"," 47%|████▋     | 168/360 [1:18:57<1:38:23, 30.75s/it, loss=0.0331]\u001b[A\n"," 47%|████▋     | 168/360 [1:19:27<1:38:23, 30.75s/it, loss=0.0481]\u001b[A\n"," 47%|████▋     | 169/360 [1:19:27<1:37:12, 30.53s/it, loss=0.0481]\u001b[A\n"," 47%|████▋     | 169/360 [1:19:56<1:37:12, 30.53s/it, loss=0.0291]\u001b[A\n"," 47%|████▋     | 170/360 [1:19:56<1:34:31, 29.85s/it, loss=0.0291]\u001b[A\n"," 47%|████▋     | 170/360 [1:20:24<1:34:31, 29.85s/it, loss=0.0428]\u001b[A\n"," 48%|████▊     | 171/360 [1:20:24<1:32:28, 29.36s/it, loss=0.0428]\u001b[A\n"," 48%|████▊     | 171/360 [1:20:51<1:32:28, 29.36s/it, loss=0.0334]\u001b[A\n"," 48%|████▊     | 172/360 [1:20:51<1:29:42, 28.63s/it, loss=0.0334]\u001b[A\n"," 48%|████▊     | 172/360 [1:21:19<1:29:42, 28.63s/it, loss=0.027] \u001b[A\n"," 48%|████▊     | 173/360 [1:21:19<1:28:27, 28.38s/it, loss=0.027]\u001b[A\n"," 48%|████▊     | 173/360 [1:21:45<1:28:27, 28.38s/it, loss=0.0365]\u001b[A\n"," 48%|████▊     | 174/360 [1:21:45<1:25:49, 27.69s/it, loss=0.0365]\u001b[A\n"," 48%|████▊     | 174/360 [1:22:13<1:25:49, 27.69s/it, loss=0.0296]\u001b[A\n"," 49%|████▊     | 175/360 [1:22:13<1:26:11, 27.95s/it, loss=0.0296]\u001b[A\n"," 49%|████▊     | 175/360 [1:22:44<1:26:11, 27.95s/it, loss=0.0331]\u001b[A\n"," 49%|████▉     | 176/360 [1:22:44<1:27:59, 28.69s/it, loss=0.0331]\u001b[A\n"," 49%|████▉     | 176/360 [1:23:12<1:27:59, 28.69s/it, loss=0.031] \u001b[A\n"," 49%|████▉     | 177/360 [1:23:12<1:27:20, 28.64s/it, loss=0.031]\u001b[A\n"," 49%|████▉     | 177/360 [1:23:38<1:27:20, 28.64s/it, loss=0.0402]\u001b[A\n"," 49%|████▉     | 178/360 [1:23:38<1:24:35, 27.89s/it, loss=0.0402]\u001b[A\n"," 49%|████▉     | 178/360 [1:24:06<1:24:35, 27.89s/it, loss=0.0338]\u001b[A\n"," 50%|████▉     | 179/360 [1:24:06<1:23:38, 27.73s/it, loss=0.0338]\u001b[A\n"," 50%|████▉     | 179/360 [1:24:33<1:23:38, 27.73s/it, loss=0.0468]\u001b[A\n"," 50%|█████     | 180/360 [1:24:33<1:22:43, 27.58s/it, loss=0.0468]\u001b[A\n"," 50%|█████     | 180/360 [1:24:59<1:22:43, 27.58s/it, loss=0.0296]\u001b[A\n"," 50%|█████     | 181/360 [1:24:59<1:21:10, 27.21s/it, loss=0.0296]\u001b[A\n"," 50%|█████     | 181/360 [1:25:26<1:21:10, 27.21s/it, loss=0.0293]\u001b[A\n"," 51%|█████     | 182/360 [1:25:26<1:20:45, 27.22s/it, loss=0.0293]\u001b[A\n"," 51%|█████     | 182/360 [1:25:56<1:20:45, 27.22s/it, loss=0.0437]\u001b[A\n"," 51%|█████     | 183/360 [1:25:56<1:22:33, 27.99s/it, loss=0.0437]\u001b[A\n"," 51%|█████     | 183/360 [1:26:25<1:22:33, 27.99s/it, loss=0.0394]\u001b[A\n"," 51%|█████     | 184/360 [1:26:25<1:22:56, 28.28s/it, loss=0.0394]\u001b[A\n"," 51%|█████     | 184/360 [1:26:52<1:22:56, 28.28s/it, loss=0.0246]\u001b[A\n"," 51%|█████▏    | 185/360 [1:26:52<1:21:11, 27.84s/it, loss=0.0246]\u001b[A\n"," 51%|█████▏    | 185/360 [1:27:20<1:21:11, 27.84s/it, loss=0.0381]\u001b[A\n"," 52%|█████▏    | 186/360 [1:27:20<1:20:53, 27.90s/it, loss=0.0381]\u001b[A\n"," 52%|█████▏    | 186/360 [1:27:48<1:20:53, 27.90s/it, loss=0.0334]\u001b[A\n"," 52%|█████▏    | 187/360 [1:27:48<1:20:37, 27.96s/it, loss=0.0334]\u001b[A\n"," 52%|█████▏    | 187/360 [1:28:14<1:20:37, 27.96s/it, loss=0.0268]\u001b[A\n"," 52%|█████▏    | 188/360 [1:28:14<1:18:33, 27.41s/it, loss=0.0268]\u001b[A\n"," 52%|█████▏    | 188/360 [1:28:43<1:18:33, 27.41s/it, loss=0.0209]\u001b[A\n"," 52%|█████▎    | 189/360 [1:28:43<1:19:07, 27.77s/it, loss=0.0209]\u001b[A\n"," 52%|█████▎    | 189/360 [1:29:14<1:19:07, 27.77s/it, loss=0.029] \u001b[A\n"," 53%|█████▎    | 190/360 [1:29:14<1:21:08, 28.64s/it, loss=0.029]\u001b[A\n"," 53%|█████▎    | 190/360 [1:29:41<1:21:08, 28.64s/it, loss=0.0331]\u001b[A\n"," 53%|█████▎    | 191/360 [1:29:41<1:19:23, 28.19s/it, loss=0.0331]\u001b[A\n"," 53%|█████▎    | 191/360 [1:30:10<1:19:23, 28.19s/it, loss=0.0225]\u001b[A\n"," 53%|█████▎    | 192/360 [1:30:10<1:19:34, 28.42s/it, loss=0.0225]\u001b[A\n"," 53%|█████▎    | 192/360 [1:30:37<1:19:34, 28.42s/it, loss=0.0276]\u001b[A\n"," 54%|█████▎    | 193/360 [1:30:37<1:18:12, 28.10s/it, loss=0.0276]\u001b[A\n"," 54%|█████▎    | 193/360 [1:31:05<1:18:12, 28.10s/it, loss=0.0241]\u001b[A\n"," 54%|█████▍    | 194/360 [1:31:05<1:17:29, 28.01s/it, loss=0.0241]\u001b[A\n"," 54%|█████▍    | 194/360 [1:31:32<1:17:29, 28.01s/it, loss=0.036] \u001b[A\n"," 54%|█████▍    | 195/360 [1:31:32<1:16:27, 27.80s/it, loss=0.036]\u001b[A\n"," 54%|█████▍    | 195/360 [1:32:02<1:16:27, 27.80s/it, loss=0.0326]\u001b[A\n"," 54%|█████▍    | 196/360 [1:32:02<1:17:25, 28.32s/it, loss=0.0326]\u001b[A\n"," 54%|█████▍    | 196/360 [1:32:33<1:17:25, 28.32s/it, loss=0.0204]\u001b[A\n"," 55%|█████▍    | 197/360 [1:32:33<1:19:29, 29.26s/it, loss=0.0204]\u001b[A\n"," 55%|█████▍    | 197/360 [1:32:59<1:19:29, 29.26s/it, loss=0.0258]\u001b[A\n"," 55%|█████▌    | 198/360 [1:32:59<1:16:30, 28.33s/it, loss=0.0258]\u001b[A\n"," 55%|█████▌    | 198/360 [1:33:28<1:16:30, 28.33s/it, loss=0.0321]\u001b[A\n"," 55%|█████▌    | 199/360 [1:33:28<1:16:23, 28.47s/it, loss=0.0321]\u001b[A\n"," 55%|█████▌    | 199/360 [1:33:56<1:16:23, 28.47s/it, loss=0.0367]\u001b[A\n"," 56%|█████▌    | 200/360 [1:33:56<1:15:41, 28.38s/it, loss=0.0367]\u001b[A\n"," 56%|█████▌    | 200/360 [1:34:23<1:15:41, 28.38s/it, loss=0.0332]\u001b[A\n"," 56%|█████▌    | 201/360 [1:34:23<1:14:12, 28.00s/it, loss=0.0332]\u001b[A\n"," 56%|█████▌    | 201/360 [1:34:52<1:14:12, 28.00s/it, loss=0.0309]\u001b[A\n"," 56%|█████▌    | 202/360 [1:34:52<1:14:11, 28.18s/it, loss=0.0309]\u001b[A\n"," 56%|█████▌    | 202/360 [1:35:20<1:14:11, 28.18s/it, loss=0.0343]\u001b[A\n"," 56%|█████▋    | 203/360 [1:35:20<1:13:27, 28.07s/it, loss=0.0343]\u001b[A\n"," 56%|█████▋    | 203/360 [1:35:47<1:13:27, 28.07s/it, loss=0.0287]\u001b[A\n"," 57%|█████▋    | 204/360 [1:35:47<1:12:15, 27.79s/it, loss=0.0287]\u001b[A\n"," 57%|█████▋    | 204/360 [1:36:15<1:12:15, 27.79s/it, loss=0.026] \u001b[A\n"," 57%|█████▋    | 205/360 [1:36:15<1:11:45, 27.78s/it, loss=0.026]\u001b[A\n"," 57%|█████▋    | 205/360 [1:36:42<1:11:45, 27.78s/it, loss=0.0256]\u001b[A\n"," 57%|█████▋    | 206/360 [1:36:42<1:11:15, 27.77s/it, loss=0.0256]\u001b[A\n"," 57%|█████▋    | 206/360 [1:37:10<1:11:15, 27.77s/it, loss=0.0312]\u001b[A\n"," 57%|█████▊    | 207/360 [1:37:10<1:10:38, 27.70s/it, loss=0.0312]\u001b[A\n"," 57%|█████▊    | 207/360 [1:37:40<1:10:38, 27.70s/it, loss=0.0355]\u001b[A\n"," 58%|█████▊    | 208/360 [1:37:40<1:12:20, 28.55s/it, loss=0.0355]\u001b[A\n"," 58%|█████▊    | 208/360 [1:38:08<1:12:20, 28.55s/it, loss=0.0384]\u001b[A\n"," 58%|█████▊    | 209/360 [1:38:08<1:10:51, 28.16s/it, loss=0.0384]\u001b[A\n"," 58%|█████▊    | 209/360 [1:38:37<1:10:51, 28.16s/it, loss=0.0259]\u001b[A\n"," 58%|█████▊    | 210/360 [1:38:37<1:11:23, 28.56s/it, loss=0.0259]\u001b[A\n"," 58%|█████▊    | 210/360 [1:39:08<1:11:23, 28.56s/it, loss=0.039] \u001b[A\n"," 59%|█████▊    | 211/360 [1:39:08<1:12:32, 29.21s/it, loss=0.039]\u001b[A\n"," 59%|█████▊    | 211/360 [1:39:33<1:12:32, 29.21s/it, loss=0.032]\u001b[A\n"," 59%|█████▉    | 212/360 [1:39:33<1:09:19, 28.10s/it, loss=0.032]\u001b[A\n"," 59%|█████▉    | 212/360 [1:40:02<1:09:19, 28.10s/it, loss=0.0256]\u001b[A\n"," 59%|█████▉    | 213/360 [1:40:02<1:09:26, 28.35s/it, loss=0.0256]\u001b[A\n"," 59%|█████▉    | 213/360 [1:40:32<1:09:26, 28.35s/it, loss=0.0234]\u001b[A\n"," 59%|█████▉    | 214/360 [1:40:32<1:09:47, 28.68s/it, loss=0.0234]\u001b[A\n"," 59%|█████▉    | 214/360 [1:40:59<1:09:47, 28.68s/it, loss=0.0206]\u001b[A\n"," 60%|█████▉    | 215/360 [1:40:59<1:08:03, 28.16s/it, loss=0.0206]\u001b[A\n"," 60%|█████▉    | 215/360 [1:41:29<1:08:03, 28.16s/it, loss=0.0295]\u001b[A\n"," 60%|██████    | 216/360 [1:41:29<1:09:14, 28.85s/it, loss=0.0295]\u001b[A\n"," 60%|██████    | 216/360 [1:41:56<1:09:14, 28.85s/it, loss=0.0257]\u001b[A\n"," 60%|██████    | 217/360 [1:41:56<1:07:13, 28.21s/it, loss=0.0257]\u001b[A\n"," 60%|██████    | 217/360 [1:42:27<1:07:13, 28.21s/it, loss=0.0348]\u001b[A\n"," 61%|██████    | 218/360 [1:42:27<1:08:42, 29.03s/it, loss=0.0348]\u001b[A\n"," 61%|██████    | 218/360 [1:42:55<1:08:42, 29.03s/it, loss=0.0225]\u001b[A\n"," 61%|██████    | 219/360 [1:42:55<1:07:27, 28.70s/it, loss=0.0225]\u001b[A\n"," 61%|██████    | 219/360 [1:43:22<1:07:27, 28.70s/it, loss=0.0333]\u001b[A\n"," 61%|██████    | 220/360 [1:43:22<1:06:08, 28.35s/it, loss=0.0333]\u001b[A\n"," 61%|██████    | 220/360 [1:43:52<1:06:08, 28.35s/it, loss=0.0235]\u001b[A\n"," 61%|██████▏   | 221/360 [1:43:52<1:06:15, 28.60s/it, loss=0.0235]\u001b[A\n"," 61%|██████▏   | 221/360 [1:44:20<1:06:15, 28.60s/it, loss=0.0369]\u001b[A\n"," 62%|██████▏   | 222/360 [1:44:20<1:05:28, 28.46s/it, loss=0.0369]\u001b[A\n"," 62%|██████▏   | 222/360 [1:44:47<1:05:28, 28.46s/it, loss=0.0184]\u001b[A\n"," 62%|██████▏   | 223/360 [1:44:47<1:04:20, 28.18s/it, loss=0.0184]\u001b[A\n"," 62%|██████▏   | 223/360 [1:45:14<1:04:20, 28.18s/it, loss=0.0397]\u001b[A\n"," 62%|██████▏   | 224/360 [1:45:14<1:03:17, 27.92s/it, loss=0.0397]\u001b[A\n"," 62%|██████▏   | 224/360 [1:45:43<1:03:17, 27.92s/it, loss=0.0231]\u001b[A\n"," 62%|██████▎   | 225/360 [1:45:43<1:03:33, 28.25s/it, loss=0.0231]\u001b[A\n"," 62%|██████▎   | 225/360 [1:46:11<1:03:33, 28.25s/it, loss=0.0235]\u001b[A\n"," 63%|██████▎   | 226/360 [1:46:11<1:02:24, 27.94s/it, loss=0.0235]\u001b[A\n"," 63%|██████▎   | 226/360 [1:46:40<1:02:24, 27.94s/it, loss=0.0245]\u001b[A\n"," 63%|██████▎   | 227/360 [1:46:40<1:02:51, 28.36s/it, loss=0.0245]\u001b[A\n"," 63%|██████▎   | 227/360 [1:47:09<1:02:51, 28.36s/it, loss=0.0345]\u001b[A\n"," 63%|██████▎   | 228/360 [1:47:09<1:03:02, 28.65s/it, loss=0.0345]\u001b[A\n"," 63%|██████▎   | 228/360 [1:47:38<1:03:02, 28.65s/it, loss=0.0221]\u001b[A\n"," 64%|██████▎   | 229/360 [1:47:38<1:02:44, 28.74s/it, loss=0.0221]\u001b[A\n"," 64%|██████▎   | 229/360 [1:48:07<1:02:44, 28.74s/it, loss=0.038] \u001b[A\n"," 64%|██████▍   | 230/360 [1:48:07<1:02:01, 28.63s/it, loss=0.038]\u001b[A\n"," 64%|██████▍   | 230/360 [1:48:33<1:02:01, 28.63s/it, loss=0.0261]\u001b[A\n"," 64%|██████▍   | 231/360 [1:48:33<1:00:01, 27.92s/it, loss=0.0261]\u001b[A\n"," 64%|██████▍   | 231/360 [1:49:00<1:00:01, 27.92s/it, loss=0.0341]\u001b[A\n"," 64%|██████▍   | 232/360 [1:49:00<58:49, 27.58s/it, loss=0.0341]  \u001b[A\n"," 64%|██████▍   | 232/360 [1:49:29<58:49, 27.58s/it, loss=0.0129]\u001b[A\n"," 65%|██████▍   | 233/360 [1:49:29<59:31, 28.12s/it, loss=0.0129]\u001b[A\n"," 65%|██████▍   | 233/360 [1:49:58<59:31, 28.12s/it, loss=0.0296]\u001b[A\n"," 65%|██████▌   | 234/360 [1:49:58<59:20, 28.26s/it, loss=0.0296]\u001b[A\n"," 65%|██████▌   | 234/360 [1:50:30<59:20, 28.26s/it, loss=0.0272]\u001b[A\n"," 65%|██████▌   | 235/360 [1:50:30<1:01:23, 29.47s/it, loss=0.0272]\u001b[A\n"," 65%|██████▌   | 235/360 [1:51:00<1:01:23, 29.47s/it, loss=0.028] \u001b[A\n"," 66%|██████▌   | 236/360 [1:51:00<1:01:09, 29.59s/it, loss=0.028]\u001b[A\n"," 66%|██████▌   | 236/360 [1:51:28<1:01:09, 29.59s/it, loss=0.0156]\u001b[A\n"," 66%|██████▌   | 237/360 [1:51:28<59:47, 29.17s/it, loss=0.0156]  \u001b[A\n"," 66%|██████▌   | 237/360 [1:51:58<59:47, 29.17s/it, loss=0.0244]\u001b[A\n"," 66%|██████▌   | 238/360 [1:51:58<59:52, 29.45s/it, loss=0.0244]\u001b[A\n"," 66%|██████▌   | 238/360 [1:52:31<59:52, 29.45s/it, loss=0.0286]\u001b[A\n"," 66%|██████▋   | 239/360 [1:52:31<1:01:11, 30.35s/it, loss=0.0286]\u001b[A\n"," 66%|██████▋   | 239/360 [1:52:58<1:01:11, 30.35s/it, loss=0.0154]\u001b[A\n"," 67%|██████▋   | 240/360 [1:52:58<58:44, 29.37s/it, loss=0.0154]  \u001b[A\n"," 67%|██████▋   | 240/360 [1:53:25<58:44, 29.37s/it, loss=0.0279]\u001b[A\n"," 67%|██████▋   | 241/360 [1:53:25<57:05, 28.78s/it, loss=0.0279]\u001b[A\n"," 67%|██████▋   | 241/360 [1:53:53<57:05, 28.78s/it, loss=0.0283]\u001b[A\n"," 67%|██████▋   | 242/360 [1:53:53<56:03, 28.51s/it, loss=0.0283]\u001b[A\n"," 67%|██████▋   | 242/360 [1:54:23<56:03, 28.51s/it, loss=0.0267]\u001b[A\n"," 68%|██████▊   | 243/360 [1:54:23<56:16, 28.86s/it, loss=0.0267]\u001b[A\n"," 68%|██████▊   | 243/360 [1:54:51<56:16, 28.86s/it, loss=0.0237]\u001b[A\n"," 68%|██████▊   | 244/360 [1:54:51<55:33, 28.73s/it, loss=0.0237]\u001b[A\n"," 68%|██████▊   | 244/360 [1:55:19<55:33, 28.73s/it, loss=0.0334]\u001b[A\n"," 68%|██████▊   | 245/360 [1:55:19<54:23, 28.38s/it, loss=0.0334]\u001b[A\n"," 68%|██████▊   | 245/360 [1:55:46<54:23, 28.38s/it, loss=0.0208]\u001b[A\n"," 68%|██████▊   | 246/360 [1:55:46<53:22, 28.10s/it, loss=0.0208]\u001b[A\n"," 68%|██████▊   | 246/360 [1:56:14<53:22, 28.10s/it, loss=0.038] \u001b[A\n"," 69%|██████▊   | 247/360 [1:56:14<52:59, 28.14s/it, loss=0.038]\u001b[A\n"," 69%|██████▊   | 247/360 [1:56:43<52:59, 28.14s/it, loss=0.0219]\u001b[A\n"," 69%|██████▉   | 248/360 [1:56:43<52:34, 28.17s/it, loss=0.0219]\u001b[A\n"," 69%|██████▉   | 248/360 [1:57:11<52:34, 28.17s/it, loss=0.0226]\u001b[A\n"," 69%|██████▉   | 249/360 [1:57:11<52:13, 28.23s/it, loss=0.0226]\u001b[A\n"," 69%|██████▉   | 249/360 [1:57:38<52:13, 28.23s/it, loss=0.0232]\u001b[A\n"," 69%|██████▉   | 250/360 [1:57:38<50:54, 27.77s/it, loss=0.0232]\u001b[A\n"," 69%|██████▉   | 250/360 [1:58:06<50:54, 27.77s/it, loss=0.0217]\u001b[A\n"," 70%|██████▉   | 251/360 [1:58:06<50:57, 28.05s/it, loss=0.0217]\u001b[A\n"," 70%|██████▉   | 251/360 [1:58:33<50:57, 28.05s/it, loss=0.0168]\u001b[A\n"," 70%|███████   | 252/360 [1:58:33<49:44, 27.64s/it, loss=0.0168]\u001b[A\n"," 70%|███████   | 252/360 [1:59:00<49:44, 27.64s/it, loss=0.0235]\u001b[A\n"," 70%|███████   | 253/360 [1:59:00<49:01, 27.49s/it, loss=0.0235]\u001b[A\n"," 70%|███████   | 253/360 [1:59:28<49:01, 27.49s/it, loss=0.0205]\u001b[A\n"," 71%|███████   | 254/360 [1:59:28<48:29, 27.45s/it, loss=0.0205]\u001b[A\n"," 71%|███████   | 254/360 [1:59:54<48:29, 27.45s/it, loss=0.0172]\u001b[A\n"," 71%|███████   | 255/360 [1:59:54<47:39, 27.23s/it, loss=0.0172]\u001b[A\n"," 71%|███████   | 255/360 [2:00:21<47:39, 27.23s/it, loss=0.0211]\u001b[A\n"," 71%|███████   | 256/360 [2:00:21<46:49, 27.01s/it, loss=0.0211]\u001b[A\n"," 71%|███████   | 256/360 [2:00:49<46:49, 27.01s/it, loss=0.0233]\u001b[A\n"," 71%|███████▏  | 257/360 [2:00:49<47:01, 27.39s/it, loss=0.0233]\u001b[A\n"," 71%|███████▏  | 257/360 [2:01:16<47:01, 27.39s/it, loss=0.0239]\u001b[A\n"," 72%|███████▏  | 258/360 [2:01:16<46:34, 27.40s/it, loss=0.0239]\u001b[A\n"," 72%|███████▏  | 258/360 [2:01:44<46:34, 27.40s/it, loss=0.0242]\u001b[A\n"," 72%|███████▏  | 259/360 [2:01:44<46:16, 27.49s/it, loss=0.0242]\u001b[A\n"," 72%|███████▏  | 259/360 [2:02:12<46:16, 27.49s/it, loss=0.0192]\u001b[A\n"," 72%|███████▏  | 260/360 [2:02:12<45:56, 27.56s/it, loss=0.0192]\u001b[A\n"," 72%|███████▏  | 260/360 [2:02:38<45:56, 27.56s/it, loss=0.0183]\u001b[A\n"," 72%|███████▎  | 261/360 [2:02:38<44:48, 27.16s/it, loss=0.0183]\u001b[A\n"," 72%|███████▎  | 261/360 [2:03:05<44:48, 27.16s/it, loss=0.0219]\u001b[A\n"," 73%|███████▎  | 262/360 [2:03:05<44:27, 27.22s/it, loss=0.0219]\u001b[A\n"," 73%|███████▎  | 262/360 [2:03:43<44:27, 27.22s/it, loss=0.0221]\u001b[A\n"," 73%|███████▎  | 263/360 [2:03:43<49:04, 30.35s/it, loss=0.0221]\u001b[A\n"," 73%|███████▎  | 263/360 [2:04:15<49:04, 30.35s/it, loss=0.0146]\u001b[A\n"," 73%|███████▎  | 264/360 [2:04:15<49:15, 30.78s/it, loss=0.0146]\u001b[A\n"," 73%|███████▎  | 264/360 [2:04:42<49:15, 30.78s/it, loss=0.0164]\u001b[A\n"," 74%|███████▎  | 265/360 [2:04:42<46:46, 29.54s/it, loss=0.0164]\u001b[A\n"," 74%|███████▎  | 265/360 [2:05:08<46:46, 29.54s/it, loss=0.0217]\u001b[A\n"," 74%|███████▍  | 266/360 [2:05:08<44:58, 28.71s/it, loss=0.0217]\u001b[A\n"," 74%|███████▍  | 266/360 [2:05:39<44:58, 28.71s/it, loss=0.0198]\u001b[A\n"," 74%|███████▍  | 267/360 [2:05:39<45:20, 29.25s/it, loss=0.0198]\u001b[A\n"," 74%|███████▍  | 267/360 [2:06:10<45:20, 29.25s/it, loss=0.016] \u001b[A\n"," 74%|███████▍  | 268/360 [2:06:10<45:56, 29.96s/it, loss=0.016]\u001b[A\n"," 74%|███████▍  | 268/360 [2:06:37<45:56, 29.96s/it, loss=0.0261]\u001b[A\n"," 75%|███████▍  | 269/360 [2:06:37<43:43, 28.83s/it, loss=0.0261]\u001b[A\n"," 75%|███████▍  | 269/360 [2:07:03<43:43, 28.83s/it, loss=0.0237]\u001b[A\n"," 75%|███████▌  | 270/360 [2:07:03<42:11, 28.13s/it, loss=0.0237]\u001b[A\n"," 75%|███████▌  | 270/360 [2:07:30<42:11, 28.13s/it, loss=0.0198]\u001b[A\n"," 75%|███████▌  | 271/360 [2:07:30<41:07, 27.72s/it, loss=0.0198]\u001b[A\n"," 75%|███████▌  | 271/360 [2:08:01<41:07, 27.72s/it, loss=0.0251]\u001b[A\n"," 76%|███████▌  | 272/360 [2:08:01<42:00, 28.65s/it, loss=0.0251]\u001b[A\n"," 76%|███████▌  | 272/360 [2:08:31<42:00, 28.65s/it, loss=0.0141]\u001b[A\n"," 76%|███████▌  | 273/360 [2:08:31<42:26, 29.27s/it, loss=0.0141]\u001b[A\n"," 76%|███████▌  | 273/360 [2:08:59<42:26, 29.27s/it, loss=0.0194]\u001b[A\n"," 76%|███████▌  | 274/360 [2:08:59<41:22, 28.86s/it, loss=0.0194]\u001b[A\n"," 76%|███████▌  | 274/360 [2:09:27<41:22, 28.86s/it, loss=0.0227]\u001b[A\n"," 76%|███████▋  | 275/360 [2:09:27<40:15, 28.42s/it, loss=0.0227]\u001b[A\n"," 76%|███████▋  | 275/360 [2:09:54<40:15, 28.42s/it, loss=0.0184]\u001b[A\n"," 77%|███████▋  | 276/360 [2:09:54<39:20, 28.10s/it, loss=0.0184]\u001b[A\n"," 77%|███████▋  | 276/360 [2:10:22<39:20, 28.10s/it, loss=0.0195]\u001b[A\n"," 77%|███████▋  | 277/360 [2:10:22<38:56, 28.15s/it, loss=0.0195]\u001b[A\n"," 77%|███████▋  | 277/360 [2:10:50<38:56, 28.15s/it, loss=0.0328]\u001b[A\n"," 77%|███████▋  | 278/360 [2:10:50<38:24, 28.11s/it, loss=0.0328]\u001b[A\n"," 77%|███████▋  | 278/360 [2:11:18<38:24, 28.11s/it, loss=0.0232]\u001b[A\n"," 78%|███████▊  | 279/360 [2:11:18<37:45, 27.96s/it, loss=0.0232]\u001b[A\n"," 78%|███████▊  | 279/360 [2:11:50<37:45, 27.96s/it, loss=0.0242]\u001b[A\n"," 78%|███████▊  | 280/360 [2:11:50<38:52, 29.16s/it, loss=0.0242]\u001b[A\n"," 78%|███████▊  | 280/360 [2:12:19<38:52, 29.16s/it, loss=0.0189]\u001b[A\n"," 78%|███████▊  | 281/360 [2:12:19<38:24, 29.18s/it, loss=0.0189]\u001b[A\n"," 78%|███████▊  | 281/360 [2:12:47<38:24, 29.18s/it, loss=0.0262]\u001b[A\n"," 78%|███████▊  | 282/360 [2:12:47<37:15, 28.66s/it, loss=0.0262]\u001b[A\n"," 78%|███████▊  | 282/360 [2:13:15<37:15, 28.66s/it, loss=0.0171]\u001b[A\n"," 79%|███████▊  | 283/360 [2:13:15<36:42, 28.60s/it, loss=0.0171]\u001b[A\n"," 79%|███████▊  | 283/360 [2:13:45<36:42, 28.60s/it, loss=0.0218]\u001b[A\n"," 79%|███████▉  | 284/360 [2:13:45<36:39, 28.94s/it, loss=0.0218]\u001b[A\n"," 79%|███████▉  | 284/360 [2:14:21<36:39, 28.94s/it, loss=0.0276]\u001b[A\n"," 79%|███████▉  | 285/360 [2:14:21<38:49, 31.06s/it, loss=0.0276]\u001b[A\n"," 79%|███████▉  | 285/360 [2:14:53<38:49, 31.06s/it, loss=0.028] \u001b[A\n"," 79%|███████▉  | 286/360 [2:14:53<38:46, 31.44s/it, loss=0.028]\u001b[A\n"," 79%|███████▉  | 286/360 [2:15:19<38:46, 31.44s/it, loss=0.0175]\u001b[A\n"," 80%|███████▉  | 287/360 [2:15:19<36:07, 29.69s/it, loss=0.0175]\u001b[A\n"," 80%|███████▉  | 287/360 [2:15:44<36:07, 29.69s/it, loss=0.0243]\u001b[A\n"," 80%|████████  | 288/360 [2:15:44<34:06, 28.42s/it, loss=0.0243]\u001b[A\n"," 80%|████████  | 288/360 [2:16:10<34:06, 28.42s/it, loss=0.0193]\u001b[A\n"," 80%|████████  | 289/360 [2:16:10<32:37, 27.57s/it, loss=0.0193]\u001b[A\n"," 80%|████████  | 289/360 [2:16:37<32:37, 27.57s/it, loss=0.0252]\u001b[A\n"," 81%|████████  | 290/360 [2:16:37<32:11, 27.59s/it, loss=0.0252]\u001b[A\n"," 81%|████████  | 290/360 [2:17:07<32:11, 27.59s/it, loss=0.0182]\u001b[A\n"," 81%|████████  | 291/360 [2:17:07<32:23, 28.17s/it, loss=0.0182]\u001b[A\n"," 81%|████████  | 291/360 [2:17:37<32:23, 28.17s/it, loss=0.0165]\u001b[A\n"," 81%|████████  | 292/360 [2:17:37<32:33, 28.72s/it, loss=0.0165]\u001b[A\n"," 81%|████████  | 292/360 [2:18:09<32:33, 28.72s/it, loss=0.0135]\u001b[A\n"," 81%|████████▏ | 293/360 [2:18:09<33:11, 29.72s/it, loss=0.0135]\u001b[A\n"," 81%|████████▏ | 293/360 [2:18:36<33:11, 29.72s/it, loss=0.0213]\u001b[A\n"," 82%|████████▏ | 294/360 [2:18:36<31:42, 28.83s/it, loss=0.0213]\u001b[A\n"," 82%|████████▏ | 294/360 [2:19:04<31:42, 28.83s/it, loss=0.0246]\u001b[A\n"," 82%|████████▏ | 295/360 [2:19:04<30:59, 28.60s/it, loss=0.0246]\u001b[A\n"," 82%|████████▏ | 295/360 [2:19:31<30:59, 28.60s/it, loss=0.0222]\u001b[A\n"," 82%|████████▏ | 296/360 [2:19:31<30:07, 28.24s/it, loss=0.0222]\u001b[A\n"," 82%|████████▏ | 296/360 [2:20:02<30:07, 28.24s/it, loss=0.0345]\u001b[A\n"," 82%|████████▎ | 297/360 [2:20:02<30:23, 28.94s/it, loss=0.0345]\u001b[A\n"," 82%|████████▎ | 297/360 [2:20:33<30:23, 28.94s/it, loss=0.0313]\u001b[A\n"," 83%|████████▎ | 298/360 [2:20:33<30:36, 29.63s/it, loss=0.0313]\u001b[A\n"," 83%|████████▎ | 298/360 [2:20:59<30:36, 29.63s/it, loss=0.0224]\u001b[A\n"," 83%|████████▎ | 299/360 [2:20:59<29:07, 28.65s/it, loss=0.0224]\u001b[A\n"," 83%|████████▎ | 299/360 [2:21:27<29:07, 28.65s/it, loss=0.0139]\u001b[A\n"," 83%|████████▎ | 300/360 [2:21:27<28:20, 28.34s/it, loss=0.0139]\u001b[A\n"," 83%|████████▎ | 300/360 [2:21:54<28:20, 28.34s/it, loss=0.0172]\u001b[A\n"," 84%|████████▎ | 301/360 [2:21:54<27:35, 28.06s/it, loss=0.0172]\u001b[A\n"," 84%|████████▎ | 301/360 [2:22:22<27:35, 28.06s/it, loss=0.0118]\u001b[A\n"," 84%|████████▍ | 302/360 [2:22:22<27:07, 28.05s/it, loss=0.0118]\u001b[A\n"," 84%|████████▍ | 302/360 [2:22:53<27:07, 28.05s/it, loss=0.022] \u001b[A\n"," 84%|████████▍ | 303/360 [2:22:53<27:16, 28.71s/it, loss=0.022]\u001b[A\n"," 84%|████████▍ | 303/360 [2:23:22<27:16, 28.71s/it, loss=0.021]\u001b[A\n"," 84%|████████▍ | 304/360 [2:23:22<27:00, 28.94s/it, loss=0.021]\u001b[A\n"," 84%|████████▍ | 304/360 [2:23:49<27:00, 28.94s/it, loss=0.0249]\u001b[A\n"," 85%|████████▍ | 305/360 [2:23:49<26:05, 28.46s/it, loss=0.0249]\u001b[A\n"," 85%|████████▍ | 305/360 [2:24:19<26:05, 28.46s/it, loss=0.0161]\u001b[A\n"," 85%|████████▌ | 306/360 [2:24:19<25:48, 28.68s/it, loss=0.0161]\u001b[A\n"," 85%|████████▌ | 306/360 [2:24:44<25:48, 28.68s/it, loss=0.0103]\u001b[A\n"," 85%|████████▌ | 307/360 [2:24:44<24:19, 27.54s/it, loss=0.0103]\u001b[A\n"," 85%|████████▌ | 307/360 [2:25:12<24:19, 27.54s/it, loss=0.0158]\u001b[A\n"," 86%|████████▌ | 308/360 [2:25:12<24:10, 27.89s/it, loss=0.0158]\u001b[A\n"," 86%|████████▌ | 308/360 [2:25:41<24:10, 27.89s/it, loss=0.0141]\u001b[A\n"," 86%|████████▌ | 309/360 [2:25:41<23:53, 28.10s/it, loss=0.0141]\u001b[A\n"," 86%|████████▌ | 309/360 [2:26:09<23:53, 28.10s/it, loss=0.0175]\u001b[A\n"," 86%|████████▌ | 310/360 [2:26:09<23:23, 28.08s/it, loss=0.0175]\u001b[A\n"," 86%|████████▌ | 310/360 [2:26:38<23:23, 28.08s/it, loss=0.0192]\u001b[A\n"," 86%|████████▋ | 311/360 [2:26:38<23:10, 28.38s/it, loss=0.0192]\u001b[A\n"," 86%|████████▋ | 311/360 [2:27:05<23:10, 28.38s/it, loss=0.0293]\u001b[A\n"," 87%|████████▋ | 312/360 [2:27:05<22:19, 27.90s/it, loss=0.0293]\u001b[A\n"," 87%|████████▋ | 312/360 [2:27:32<22:19, 27.90s/it, loss=0.0123]\u001b[A\n"," 87%|████████▋ | 313/360 [2:27:32<21:42, 27.70s/it, loss=0.0123]\u001b[A\n"," 87%|████████▋ | 313/360 [2:27:58<21:42, 27.70s/it, loss=0.0184]\u001b[A\n"," 87%|████████▋ | 314/360 [2:27:58<20:55, 27.30s/it, loss=0.0184]\u001b[A\n"," 87%|████████▋ | 314/360 [2:28:26<20:55, 27.30s/it, loss=0.0151]\u001b[A\n"," 88%|████████▊ | 315/360 [2:28:26<20:37, 27.50s/it, loss=0.0151]\u001b[A\n"," 88%|████████▊ | 315/360 [2:28:53<20:37, 27.50s/it, loss=0.0104]\u001b[A\n"," 88%|████████▊ | 316/360 [2:28:53<20:02, 27.33s/it, loss=0.0104]\u001b[A\n"," 88%|████████▊ | 316/360 [2:29:19<20:02, 27.33s/it, loss=0.0259]\u001b[A\n"," 88%|████████▊ | 317/360 [2:29:19<19:09, 26.74s/it, loss=0.0259]\u001b[A\n"," 88%|████████▊ | 317/360 [2:29:47<19:09, 26.74s/it, loss=0.0111]\u001b[A\n"," 88%|████████▊ | 318/360 [2:29:47<19:00, 27.16s/it, loss=0.0111]\u001b[A\n"," 88%|████████▊ | 318/360 [2:30:14<19:00, 27.16s/it, loss=0.013] \u001b[A\n"," 89%|████████▊ | 319/360 [2:30:14<18:40, 27.33s/it, loss=0.013]\u001b[A\n"," 89%|████████▊ | 319/360 [2:30:44<18:40, 27.33s/it, loss=0.0184]\u001b[A\n"," 89%|████████▉ | 320/360 [2:30:44<18:37, 27.93s/it, loss=0.0184]\u001b[A\n"," 89%|████████▉ | 320/360 [2:31:13<18:37, 27.93s/it, loss=0.0102]\u001b[A\n"," 89%|████████▉ | 321/360 [2:31:13<18:19, 28.19s/it, loss=0.0102]\u001b[A\n"," 89%|████████▉ | 321/360 [2:31:42<18:19, 28.19s/it, loss=0.02]  \u001b[A\n"," 89%|████████▉ | 322/360 [2:31:42<18:00, 28.43s/it, loss=0.02]\u001b[A\n"," 89%|████████▉ | 322/360 [2:32:10<18:00, 28.43s/it, loss=0.0109]\u001b[A\n"," 90%|████████▉ | 323/360 [2:32:10<17:26, 28.30s/it, loss=0.0109]\u001b[A\n"," 90%|████████▉ | 323/360 [2:32:38<17:26, 28.30s/it, loss=0.0204]\u001b[A\n"," 90%|█████████ | 324/360 [2:32:38<16:58, 28.30s/it, loss=0.0204]\u001b[A\n"," 90%|█████████ | 324/360 [2:33:05<16:58, 28.30s/it, loss=0.00971]\u001b[A\n"," 90%|█████████ | 325/360 [2:33:05<16:21, 28.04s/it, loss=0.00971]\u001b[A\n"," 90%|█████████ | 325/360 [2:33:34<16:21, 28.04s/it, loss=0.0155] \u001b[A\n"," 91%|█████████ | 326/360 [2:33:34<16:03, 28.35s/it, loss=0.0155]\u001b[A\n"," 91%|█████████ | 326/360 [2:34:02<16:03, 28.35s/it, loss=0.0212]\u001b[A\n"," 91%|█████████ | 327/360 [2:34:02<15:26, 28.07s/it, loss=0.0212]\u001b[A\n"," 91%|█████████ | 327/360 [2:34:29<15:26, 28.07s/it, loss=0.0107]\u001b[A\n"," 91%|█████████ | 328/360 [2:34:29<14:53, 27.93s/it, loss=0.0107]\u001b[A\n"," 91%|█████████ | 328/360 [2:34:56<14:53, 27.93s/it, loss=0.0218]\u001b[A\n"," 91%|█████████▏| 329/360 [2:34:56<14:14, 27.57s/it, loss=0.0218]\u001b[A\n"," 91%|█████████▏| 329/360 [2:35:23<14:14, 27.57s/it, loss=0.0164]\u001b[A\n"," 92%|█████████▏| 330/360 [2:35:23<13:39, 27.31s/it, loss=0.0164]\u001b[A\n"," 92%|█████████▏| 330/360 [2:35:49<13:39, 27.31s/it, loss=0.0171]\u001b[A\n"," 92%|█████████▏| 331/360 [2:35:49<13:03, 27.01s/it, loss=0.0171]\u001b[A\n"," 92%|█████████▏| 331/360 [2:36:18<13:03, 27.01s/it, loss=0.0183]\u001b[A\n"," 92%|█████████▏| 332/360 [2:36:18<12:47, 27.42s/it, loss=0.0183]\u001b[A\n"," 92%|█████████▏| 332/360 [2:36:49<12:47, 27.42s/it, loss=0.0155]\u001b[A\n"," 92%|█████████▎| 333/360 [2:36:49<12:53, 28.67s/it, loss=0.0155]\u001b[A\n"," 92%|█████████▎| 333/360 [2:37:18<12:53, 28.67s/it, loss=0.0258]\u001b[A\n"," 93%|█████████▎| 334/360 [2:37:18<12:28, 28.78s/it, loss=0.0258]\u001b[A\n"," 93%|█████████▎| 334/360 [2:37:49<12:28, 28.78s/it, loss=0.0145]\u001b[A\n"," 93%|█████████▎| 335/360 [2:37:49<12:18, 29.54s/it, loss=0.0145]\u001b[A\n"," 93%|█████████▎| 335/360 [2:38:19<12:18, 29.54s/it, loss=0.013] \u001b[A\n"," 93%|█████████▎| 336/360 [2:38:19<11:45, 29.41s/it, loss=0.013]\u001b[A\n"," 93%|█████████▎| 336/360 [2:38:49<11:45, 29.41s/it, loss=0.016]\u001b[A\n"," 94%|█████████▎| 337/360 [2:38:49<11:24, 29.77s/it, loss=0.016]\u001b[A\n"," 94%|█████████▎| 337/360 [2:39:16<11:24, 29.77s/it, loss=0.0178]\u001b[A\n"," 94%|█████████▍| 338/360 [2:39:16<10:37, 28.98s/it, loss=0.0178]\u001b[A\n"," 94%|█████████▍| 338/360 [2:39:43<10:37, 28.98s/it, loss=0.0274]\u001b[A\n"," 94%|█████████▍| 339/360 [2:39:43<09:52, 28.23s/it, loss=0.0274]\u001b[A\n"," 94%|█████████▍| 339/360 [2:40:08<09:52, 28.23s/it, loss=0.0207]\u001b[A\n"," 94%|█████████▍| 340/360 [2:40:08<09:05, 27.26s/it, loss=0.0207]\u001b[A\n"," 94%|█████████▍| 340/360 [2:40:35<09:05, 27.26s/it, loss=0.036] \u001b[A\n"," 95%|█████████▍| 341/360 [2:40:35<08:36, 27.16s/it, loss=0.036]\u001b[A\n"," 95%|█████████▍| 341/360 [2:41:01<08:36, 27.16s/it, loss=0.0159]\u001b[A\n"," 95%|█████████▌| 342/360 [2:41:01<08:06, 27.02s/it, loss=0.0159]\u001b[A\n"," 95%|█████████▌| 342/360 [2:41:28<08:06, 27.02s/it, loss=0.0197]\u001b[A\n"," 95%|█████████▌| 343/360 [2:41:28<07:39, 27.00s/it, loss=0.0197]\u001b[A\n"," 95%|█████████▌| 343/360 [2:42:06<07:39, 27.00s/it, loss=0.0171]\u001b[A\n"," 96%|█████████▌| 344/360 [2:42:06<08:05, 30.33s/it, loss=0.0171]\u001b[A\n"," 96%|█████████▌| 344/360 [2:42:34<08:05, 30.33s/it, loss=0.0279]\u001b[A\n"," 96%|█████████▌| 345/360 [2:42:34<07:20, 29.37s/it, loss=0.0279]\u001b[A\n"," 96%|█████████▌| 345/360 [2:43:02<07:20, 29.37s/it, loss=0.0202]\u001b[A\n"," 96%|█████████▌| 346/360 [2:43:02<06:48, 29.20s/it, loss=0.0202]\u001b[A\n"," 96%|█████████▌| 346/360 [2:43:29<06:48, 29.20s/it, loss=0.0186]\u001b[A\n"," 96%|█████████▋| 347/360 [2:43:29<06:09, 28.46s/it, loss=0.0186]\u001b[A\n"," 96%|█████████▋| 347/360 [2:43:57<06:09, 28.46s/it, loss=0.0101]\u001b[A\n"," 97%|█████████▋| 348/360 [2:43:57<05:38, 28.21s/it, loss=0.0101]\u001b[A\n"," 97%|█████████▋| 348/360 [2:44:26<05:38, 28.21s/it, loss=0.02]  \u001b[A\n"," 97%|█████████▋| 349/360 [2:44:26<05:12, 28.42s/it, loss=0.02]\u001b[A\n"," 97%|█████████▋| 349/360 [2:44:54<05:12, 28.42s/it, loss=0.0238]\u001b[A\n"," 97%|█████████▋| 350/360 [2:44:54<04:42, 28.29s/it, loss=0.0238]\u001b[A\n"," 97%|█████████▋| 350/360 [2:45:25<04:42, 28.29s/it, loss=0.0146]\u001b[A\n"," 98%|█████████▊| 351/360 [2:45:25<04:22, 29.22s/it, loss=0.0146]\u001b[A\n"," 98%|█████████▊| 351/360 [2:45:54<04:22, 29.22s/it, loss=0.0162]\u001b[A\n"," 98%|█████████▊| 352/360 [2:45:54<03:53, 29.19s/it, loss=0.0162]\u001b[A\n"," 98%|█████████▊| 352/360 [2:46:21<03:53, 29.19s/it, loss=0.0194]\u001b[A\n"," 98%|█████████▊| 353/360 [2:46:21<03:19, 28.46s/it, loss=0.0194]\u001b[A\n"," 98%|█████████▊| 353/360 [2:46:47<03:19, 28.46s/it, loss=0.00887]\u001b[A\n"," 98%|█████████▊| 354/360 [2:46:47<02:47, 27.88s/it, loss=0.00887]\u001b[A\n"," 98%|█████████▊| 354/360 [2:47:18<02:47, 27.88s/it, loss=0.0186] \u001b[A\n"," 99%|█████████▊| 355/360 [2:47:18<02:23, 28.61s/it, loss=0.0186]\u001b[A\n"," 99%|█████████▊| 355/360 [2:47:49<02:23, 28.61s/it, loss=0.0163]\u001b[A\n"," 99%|█████████▉| 356/360 [2:47:49<01:57, 29.41s/it, loss=0.0163]\u001b[A\n"," 99%|█████████▉| 356/360 [2:48:19<01:57, 29.41s/it, loss=0.0179]\u001b[A\n"," 99%|█████████▉| 357/360 [2:48:19<01:28, 29.65s/it, loss=0.0179]\u001b[A\n"," 99%|█████████▉| 357/360 [2:48:50<01:28, 29.65s/it, loss=0.0191]\u001b[A\n"," 99%|█████████▉| 358/360 [2:48:50<01:00, 30.08s/it, loss=0.0191]\u001b[A\n"," 99%|█████████▉| 358/360 [2:49:20<01:00, 30.08s/it, loss=0.0123]\u001b[A\n","100%|█████████▉| 359/360 [2:49:20<00:30, 30.10s/it, loss=0.0123]\u001b[A\n","100%|█████████▉| 359/360 [2:49:48<00:30, 30.10s/it, loss=0.0157]\u001b[A\n","100%|██████████| 360/360 [2:49:48<00:00, 29.34s/it, loss=0.0157]\u001b[A\n","                                                                \u001b[A\n","  0%|          | 0/73 [00:00<?, ?it/s]\u001b[A\n","  1%|▏         | 1/73 [00:06<07:43,  6.44s/it]\u001b[A\n","  3%|▎         | 2/73 [00:12<07:04,  5.98s/it]\u001b[A\n","  4%|▍         | 3/73 [00:17<06:53,  5.91s/it]\u001b[A\n","  5%|▌         | 4/73 [00:23<06:33,  5.70s/it]\u001b[A\n","  7%|▋         | 5/73 [00:29<06:28,  5.71s/it]\u001b[A\n","  8%|▊         | 6/73 [00:34<06:10,  5.52s/it]\u001b[A\n"," 10%|▉         | 7/73 [00:39<06:08,  5.59s/it]\u001b[A\n"," 11%|█         | 8/73 [00:45<06:05,  5.62s/it]\u001b[A\n"," 12%|█▏        | 9/73 [00:50<05:46,  5.42s/it]\u001b[A\n"," 14%|█▎        | 10/73 [00:55<05:40,  5.41s/it]\u001b[A\n"," 15%|█▌        | 11/73 [01:05<06:53,  6.66s/it]\u001b[A\n"," 16%|█▋        | 12/73 [01:10<06:19,  6.22s/it]\u001b[A\n"," 18%|█▊        | 13/73 [01:15<05:41,  5.69s/it]\u001b[A\n"," 19%|█▉        | 14/73 [01:23<06:32,  6.65s/it]\u001b[A\n"," 21%|██        | 15/73 [01:33<07:18,  7.56s/it]\u001b[A\n"," 22%|██▏       | 16/73 [01:39<06:41,  7.04s/it]\u001b[A\n"," 23%|██▎       | 17/73 [01:45<06:09,  6.61s/it]\u001b[A\n"," 25%|██▍       | 18/73 [01:50<05:49,  6.35s/it]\u001b[A\n"," 26%|██▌       | 19/73 [01:56<05:32,  6.16s/it]\u001b[A\n"," 27%|██▋       | 20/73 [02:05<06:07,  6.94s/it]\u001b[A\n"," 29%|██▉       | 21/73 [02:11<05:45,  6.65s/it]\u001b[A\n"," 30%|███       | 22/73 [02:20<06:24,  7.53s/it]\u001b[A\n"," 32%|███▏      | 23/73 [02:26<05:51,  7.03s/it]\u001b[A\n"," 33%|███▎      | 24/73 [02:32<05:19,  6.51s/it]\u001b[A\n"," 34%|███▍      | 25/73 [02:37<04:58,  6.22s/it]\u001b[A\n"," 36%|███▌      | 26/73 [02:43<04:42,  6.00s/it]\u001b[A\n"," 37%|███▋      | 27/73 [02:48<04:30,  5.89s/it]\u001b[A\n"," 38%|███▊      | 28/73 [02:54<04:20,  5.78s/it]\u001b[A\n"," 40%|███▉      | 29/73 [03:02<04:52,  6.65s/it]\u001b[A\n"," 41%|████      | 30/73 [03:08<04:32,  6.34s/it]\u001b[A\n"," 42%|████▏     | 31/73 [03:16<04:48,  6.86s/it]\u001b[A\n"," 44%|████▍     | 32/73 [03:26<05:12,  7.62s/it]\u001b[A\n"," 45%|████▌     | 33/73 [03:35<05:27,  8.20s/it]\u001b[A\n"," 47%|████▋     | 34/73 [03:41<04:49,  7.43s/it]\u001b[A\n"," 48%|████▊     | 35/73 [03:46<04:20,  6.86s/it]\u001b[A\n"," 49%|████▉     | 36/73 [03:52<04:00,  6.50s/it]\u001b[A\n"," 51%|█████     | 37/73 [03:57<03:41,  6.16s/it]\u001b[A\n"," 52%|█████▏    | 38/73 [04:03<03:28,  5.96s/it]\u001b[A\n"," 53%|█████▎    | 39/73 [04:08<03:20,  5.89s/it]\u001b[A\n"," 55%|█████▍    | 40/73 [04:17<03:44,  6.80s/it]\u001b[A\n"," 56%|█████▌    | 41/73 [04:25<03:46,  7.07s/it]\u001b[A\n"," 58%|█████▊    | 42/73 [04:32<03:40,  7.13s/it]\u001b[A\n"," 59%|█████▉    | 43/73 [04:42<03:59,  7.98s/it]\u001b[A\n"," 60%|██████    | 44/73 [04:47<03:22,  7.00s/it]\u001b[A\n"," 62%|██████▏   | 45/73 [04:52<03:02,  6.50s/it]\u001b[A\n"," 63%|██████▎   | 46/73 [04:58<02:44,  6.08s/it]\u001b[A\n"," 64%|██████▍   | 47/73 [05:03<02:34,  5.94s/it]\u001b[A\n"," 66%|██████▌   | 48/73 [05:12<02:47,  6.72s/it]\u001b[A\n"," 67%|██████▋   | 49/73 [05:20<02:56,  7.34s/it]\u001b[A\n"," 68%|██████▊   | 50/73 [05:26<02:34,  6.70s/it]\u001b[A\n"," 70%|██████▉   | 51/73 [05:35<02:42,  7.37s/it]\u001b[A\n"," 71%|███████   | 52/73 [05:40<02:19,  6.66s/it]\u001b[A\n"," 73%|███████▎  | 53/73 [05:49<02:29,  7.48s/it]\u001b[A\n"," 74%|███████▍  | 54/73 [05:58<02:32,  8.03s/it]\u001b[A\n"," 75%|███████▌  | 55/73 [06:04<02:13,  7.40s/it]\u001b[A\n"," 77%|███████▋  | 56/73 [06:09<01:52,  6.59s/it]\u001b[A\n"," 78%|███████▊  | 57/73 [06:17<01:53,  7.07s/it]\u001b[A\n"," 79%|███████▉  | 58/73 [06:23<01:38,  6.58s/it]\u001b[A\n"," 81%|████████  | 59/73 [06:31<01:40,  7.21s/it]\u001b[A\n"," 82%|████████▏ | 60/73 [06:40<01:38,  7.56s/it]\u001b[A\n"," 84%|████████▎ | 61/73 [06:49<01:35,  7.97s/it]\u001b[A\n"," 85%|████████▍ | 62/73 [06:54<01:17,  7.08s/it]\u001b[A\n"," 86%|████████▋ | 63/73 [07:01<01:13,  7.31s/it]\u001b[A\n"," 88%|████████▊ | 64/73 [07:06<00:59,  6.58s/it]\u001b[A\n"," 89%|████████▉ | 65/73 [07:12<00:50,  6.30s/it]\u001b[A\n"," 90%|█████████ | 66/73 [07:17<00:41,  5.95s/it]\u001b[A\n"," 92%|█████████▏| 67/73 [07:25<00:40,  6.67s/it]\u001b[A\n"," 93%|█████████▎| 68/73 [07:30<00:30,  6.12s/it]\u001b[A\n"," 95%|█████████▍| 69/73 [07:36<00:24,  6.03s/it]\u001b[A\n"," 96%|█████████▌| 70/73 [07:42<00:17,  5.88s/it]\u001b[A\n"," 97%|█████████▋| 71/73 [07:50<00:13,  6.59s/it]\u001b[A\n"," 99%|█████████▊| 72/73 [07:59<00:07,  7.23s/it]\u001b[A\n","100%|██████████| 73/73 [07:59<00:00,  5.17s/it]\u001b[A\n"," 20%|██        | 1/5 [2:57:51<11:51:25, 10671.45s/it]"]},{"name":"stdout","output_type":"stream","text":["0.9023861171366594\n"]},{"name":"stderr","output_type":"stream","text":["\n","  0%|          | 0/360 [00:00<?, ?it/s]\u001b[A\n","  0%|          | 0/360 [00:37<?, ?it/s, loss=0.0187]\u001b[A\n","  0%|          | 1/360 [00:37<3:46:20, 37.83s/it, loss=0.0187]\u001b[A\n","  0%|          | 1/360 [01:04<3:46:20, 37.83s/it, loss=0.013] \u001b[A\n","  1%|          | 2/360 [01:04<3:07:08, 31.36s/it, loss=0.013]\u001b[A\n","  1%|          | 2/360 [01:34<3:07:08, 31.36s/it, loss=0.0188]\u001b[A\n","  1%|          | 3/360 [01:34<3:02:34, 30.68s/it, loss=0.0188]\u001b[A\n","  1%|          | 3/360 [02:01<3:02:34, 30.68s/it, loss=0.0165]\u001b[A\n","  1%|          | 4/360 [02:01<2:52:45, 29.12s/it, loss=0.0165]\u001b[A\n","  1%|          | 4/360 [02:29<2:52:45, 29.12s/it, loss=0.0181]\u001b[A\n","  1%|▏         | 5/360 [02:29<2:49:50, 28.71s/it, loss=0.0181]\u001b[A\n","  1%|▏         | 5/360 [02:57<2:49:50, 28.71s/it, loss=0.0126]\u001b[A\n","  2%|▏         | 6/360 [02:57<2:48:48, 28.61s/it, loss=0.0126]\u001b[A\n","  2%|▏         | 6/360 [03:25<2:48:48, 28.61s/it, loss=0.0134]\u001b[A\n","  2%|▏         | 7/360 [03:25<2:47:47, 28.52s/it, loss=0.0134]\u001b[A\n","  2%|▏         | 7/360 [04:04<2:47:47, 28.52s/it, loss=0.0171]\u001b[A\n","  2%|▏         | 8/360 [04:04<3:05:11, 31.57s/it, loss=0.0171]\u001b[A\n","  2%|▏         | 8/360 [04:29<3:05:11, 31.57s/it, loss=0.0104]\u001b[A\n","  2%|▎         | 9/360 [04:29<2:54:14, 29.78s/it, loss=0.0104]\u001b[A\n","  2%|▎         | 9/360 [04:55<2:54:14, 29.78s/it, loss=0.0237]\u001b[A\n","  3%|▎         | 10/360 [04:55<2:46:10, 28.49s/it, loss=0.0237]\u001b[A\n","  3%|▎         | 10/360 [05:22<2:46:10, 28.49s/it, loss=0.015] \u001b[A\n","  3%|▎         | 11/360 [05:22<2:43:24, 28.09s/it, loss=0.015]\u001b[A\n","  3%|▎         | 11/360 [05:51<2:43:24, 28.09s/it, loss=0.0222]\u001b[A\n","  3%|▎         | 12/360 [05:51<2:43:17, 28.15s/it, loss=0.0222]\u001b[A\n","  3%|▎         | 12/360 [06:20<2:43:17, 28.15s/it, loss=0.0147]\u001b[A\n","  4%|▎         | 13/360 [06:20<2:44:22, 28.42s/it, loss=0.0147]\u001b[A\n","  4%|▎         | 13/360 [06:47<2:44:22, 28.42s/it, loss=0.0204]\u001b[A\n","  4%|▍         | 14/360 [06:47<2:42:15, 28.14s/it, loss=0.0204]\u001b[A\n","  4%|▍         | 14/360 [07:21<2:42:15, 28.14s/it, loss=0.0166]\u001b[A\n","  4%|▍         | 15/360 [07:21<2:51:08, 29.76s/it, loss=0.0166]\u001b[A\n","  4%|▍         | 15/360 [07:51<2:51:08, 29.76s/it, loss=0.0197]\u001b[A\n","  4%|▍         | 16/360 [07:51<2:52:07, 30.02s/it, loss=0.0197]\u001b[A\n","  4%|▍         | 16/360 [08:18<2:52:07, 30.02s/it, loss=0.0154]\u001b[A\n","  5%|▍         | 17/360 [08:18<2:46:07, 29.06s/it, loss=0.0154]\u001b[A\n","  5%|▍         | 17/360 [08:45<2:46:07, 29.06s/it, loss=0.0163]\u001b[A\n","  5%|▌         | 18/360 [08:45<2:42:47, 28.56s/it, loss=0.0163]\u001b[A\n","  5%|▌         | 18/360 [09:14<2:42:47, 28.56s/it, loss=0.00716]\u001b[A\n","  5%|▌         | 19/360 [09:14<2:43:02, 28.69s/it, loss=0.00716]\u001b[A\n","  5%|▌         | 19/360 [09:43<2:43:02, 28.69s/it, loss=0.0102] \u001b[A\n","  6%|▌         | 20/360 [09:43<2:43:07, 28.79s/it, loss=0.0102]\u001b[A\n","  6%|▌         | 20/360 [10:15<2:43:07, 28.79s/it, loss=0.00896]\u001b[A\n","  6%|▌         | 21/360 [10:15<2:47:39, 29.67s/it, loss=0.00896]\u001b[A\n","  6%|▌         | 21/360 [10:45<2:47:39, 29.67s/it, loss=0.0106] \u001b[A\n","  6%|▌         | 22/360 [10:45<2:48:06, 29.84s/it, loss=0.0106]\u001b[A\n","  6%|▌         | 22/360 [11:14<2:48:06, 29.84s/it, loss=0.0158]\u001b[A\n","  6%|▋         | 23/360 [11:14<2:46:19, 29.61s/it, loss=0.0158]\u001b[A\n","  6%|▋         | 23/360 [11:42<2:46:19, 29.61s/it, loss=0.0195]\u001b[A\n","  7%|▋         | 24/360 [11:42<2:42:54, 29.09s/it, loss=0.0195]\u001b[A\n","  7%|▋         | 24/360 [12:11<2:42:54, 29.09s/it, loss=0.0136]\u001b[A\n","  7%|▋         | 25/360 [12:11<2:42:29, 29.10s/it, loss=0.0136]\u001b[A\n","  7%|▋         | 25/360 [12:39<2:42:29, 29.10s/it, loss=0.00856]\u001b[A\n","  7%|▋         | 26/360 [12:39<2:39:21, 28.63s/it, loss=0.00856]\u001b[A\n","  7%|▋         | 26/360 [13:05<2:39:21, 28.63s/it, loss=0.015]  \u001b[A\n","  8%|▊         | 27/360 [13:05<2:35:00, 27.93s/it, loss=0.015]\u001b[A\n","  8%|▊         | 27/360 [13:33<2:35:00, 27.93s/it, loss=0.00861]\u001b[A\n","  8%|▊         | 28/360 [13:33<2:34:54, 28.00s/it, loss=0.00861]\u001b[A\n","  8%|▊         | 28/360 [14:02<2:34:54, 28.00s/it, loss=0.0134] \u001b[A\n","  8%|▊         | 29/360 [14:02<2:35:58, 28.27s/it, loss=0.0134]\u001b[A\n","  8%|▊         | 29/360 [14:29<2:35:58, 28.27s/it, loss=0.0122]\u001b[A\n","  8%|▊         | 30/360 [14:29<2:33:14, 27.86s/it, loss=0.0122]\u001b[A\n","  8%|▊         | 30/360 [14:56<2:33:14, 27.86s/it, loss=0.0146]\u001b[A\n","  9%|▊         | 31/360 [14:56<2:31:14, 27.58s/it, loss=0.0146]\u001b[A\n","  9%|▊         | 31/360 [15:27<2:31:14, 27.58s/it, loss=0.0147]\u001b[A\n","  9%|▉         | 32/360 [15:27<2:35:59, 28.54s/it, loss=0.0147]\u001b[A\n","  9%|▉         | 32/360 [15:57<2:35:59, 28.54s/it, loss=0.0149]\u001b[A\n","  9%|▉         | 33/360 [15:57<2:38:27, 29.08s/it, loss=0.0149]\u001b[A\n","  9%|▉         | 33/360 [16:27<2:38:27, 29.08s/it, loss=0.00815]\u001b[A\n","  9%|▉         | 34/360 [16:27<2:38:32, 29.18s/it, loss=0.00815]\u001b[A\n","  9%|▉         | 34/360 [16:56<2:38:32, 29.18s/it, loss=0.0133] \u001b[A\n"," 10%|▉         | 35/360 [16:56<2:37:32, 29.09s/it, loss=0.0133]\u001b[A\n"," 10%|▉         | 35/360 [17:32<2:37:32, 29.09s/it, loss=0.0101]\u001b[A\n"," 10%|█         | 36/360 [17:32<2:48:15, 31.16s/it, loss=0.0101]\u001b[A\n"," 10%|█         | 36/360 [18:04<2:48:15, 31.16s/it, loss=0.0165]\u001b[A\n"," 10%|█         | 37/360 [18:04<2:50:25, 31.66s/it, loss=0.0165]\u001b[A\n"," 10%|█         | 37/360 [18:33<2:50:25, 31.66s/it, loss=0.0163]\u001b[A\n"," 11%|█         | 38/360 [18:33<2:45:28, 30.83s/it, loss=0.0163]\u001b[A\n"," 11%|█         | 38/360 [19:03<2:45:28, 30.83s/it, loss=0.00854]\u001b[A\n"," 11%|█         | 39/360 [19:03<2:43:03, 30.48s/it, loss=0.00854]\u001b[A\n"," 11%|█         | 39/360 [19:31<2:43:03, 30.48s/it, loss=0.0129] \u001b[A\n"," 11%|█         | 40/360 [19:31<2:38:36, 29.74s/it, loss=0.0129]\u001b[A\n"," 11%|█         | 40/360 [19:58<2:38:36, 29.74s/it, loss=0.0164]\u001b[A\n"," 11%|█▏        | 41/360 [19:58<2:33:11, 28.81s/it, loss=0.0164]\u001b[A\n"," 11%|█▏        | 41/360 [20:25<2:33:11, 28.81s/it, loss=0.0133]\u001b[A\n"," 12%|█▏        | 42/360 [20:25<2:30:58, 28.49s/it, loss=0.0133]\u001b[A\n"," 12%|█▏        | 42/360 [20:55<2:30:58, 28.49s/it, loss=0.00982]\u001b[A\n"," 12%|█▏        | 43/360 [20:55<2:31:59, 28.77s/it, loss=0.00982]\u001b[A\n"," 12%|█▏        | 43/360 [21:32<2:31:59, 28.77s/it, loss=0.014]  \u001b[A\n"," 12%|█▏        | 44/360 [21:32<2:45:03, 31.34s/it, loss=0.014]\u001b[A\n"," 12%|█▏        | 44/360 [22:00<2:45:03, 31.34s/it, loss=0.0112]\u001b[A\n"," 12%|█▎        | 45/360 [22:00<2:39:17, 30.34s/it, loss=0.0112]\u001b[A\n"," 12%|█▎        | 45/360 [22:25<2:39:17, 30.34s/it, loss=0.0154]\u001b[A\n"," 13%|█▎        | 46/360 [22:25<2:30:13, 28.70s/it, loss=0.0154]\u001b[A\n"," 13%|█▎        | 46/360 [22:53<2:30:13, 28.70s/it, loss=0.0141]\u001b[A\n"," 13%|█▎        | 47/360 [22:53<2:28:31, 28.47s/it, loss=0.0141]\u001b[A\n"," 13%|█▎        | 47/360 [23:20<2:28:31, 28.47s/it, loss=0.0171]\u001b[A\n"," 13%|█▎        | 48/360 [23:20<2:26:07, 28.10s/it, loss=0.0171]\u001b[A\n"," 13%|█▎        | 48/360 [23:46<2:26:07, 28.10s/it, loss=0.007] \u001b[A\n"," 14%|█▎        | 49/360 [23:46<2:21:21, 27.27s/it, loss=0.007]\u001b[A\n"," 14%|█▎        | 49/360 [24:12<2:21:21, 27.27s/it, loss=0.00656]\u001b[A\n"," 14%|█▍        | 50/360 [24:12<2:19:45, 27.05s/it, loss=0.00656]\u001b[A\n"," 14%|█▍        | 50/360 [24:38<2:19:45, 27.05s/it, loss=0.012]  \u001b[A\n"," 14%|█▍        | 51/360 [24:38<2:17:10, 26.64s/it, loss=0.012]\u001b[A\n"," 14%|█▍        | 51/360 [25:08<2:17:10, 26.64s/it, loss=0.0172]\u001b[A\n"," 14%|█▍        | 52/360 [25:08<2:22:48, 27.82s/it, loss=0.0172]\u001b[A\n"," 14%|█▍        | 52/360 [25:38<2:22:48, 27.82s/it, loss=0.0126]\u001b[A\n"," 15%|█▍        | 53/360 [25:38<2:24:34, 28.26s/it, loss=0.0126]\u001b[A\n"," 15%|█▍        | 53/360 [26:03<2:24:34, 28.26s/it, loss=0.0107]\u001b[A\n"," 15%|█▌        | 54/360 [26:03<2:19:38, 27.38s/it, loss=0.0107]\u001b[A\n"," 15%|█▌        | 54/360 [26:31<2:19:38, 27.38s/it, loss=0.02]  \u001b[A\n"," 15%|█▌        | 55/360 [26:31<2:20:28, 27.63s/it, loss=0.02]\u001b[A\n"," 15%|█▌        | 55/360 [26:59<2:20:28, 27.63s/it, loss=0.0107]\u001b[A\n"," 16%|█▌        | 56/360 [26:59<2:20:25, 27.72s/it, loss=0.0107]\u001b[A\n"," 16%|█▌        | 56/360 [27:24<2:20:25, 27.72s/it, loss=0.0156]\u001b[A\n"," 16%|█▌        | 57/360 [27:24<2:16:22, 27.00s/it, loss=0.0156]\u001b[A\n"," 16%|█▌        | 57/360 [27:52<2:16:22, 27.00s/it, loss=0.0127]\u001b[A\n"," 16%|█▌        | 58/360 [27:52<2:16:18, 27.08s/it, loss=0.0127]\u001b[A\n"," 16%|█▌        | 58/360 [28:19<2:16:18, 27.08s/it, loss=0.00738]\u001b[A\n"," 16%|█▋        | 59/360 [28:19<2:16:27, 27.20s/it, loss=0.00738]\u001b[A\n"," 16%|█▋        | 59/360 [28:49<2:16:27, 27.20s/it, loss=0.0215] \u001b[A\n"," 17%|█▋        | 60/360 [28:49<2:20:39, 28.13s/it, loss=0.0215]\u001b[A\n"," 17%|█▋        | 60/360 [29:19<2:20:39, 28.13s/it, loss=0.019] \u001b[A\n"," 17%|█▋        | 61/360 [29:19<2:21:54, 28.48s/it, loss=0.019]\u001b[A\n"," 17%|█▋        | 61/360 [29:46<2:21:54, 28.48s/it, loss=0.0168]\u001b[A\n"," 17%|█▋        | 62/360 [29:46<2:19:37, 28.11s/it, loss=0.0168]\u001b[A\n"," 17%|█▋        | 62/360 [30:13<2:19:37, 28.11s/it, loss=0.0108]\u001b[A\n"," 18%|█▊        | 63/360 [30:13<2:18:09, 27.91s/it, loss=0.0108]\u001b[A\n"," 18%|█▊        | 63/360 [30:41<2:18:09, 27.91s/it, loss=0.0196]\u001b[A\n"," 18%|█▊        | 64/360 [30:41<2:16:36, 27.69s/it, loss=0.0196]\u001b[A\n"," 18%|█▊        | 64/360 [31:08<2:16:36, 27.69s/it, loss=0.0157]\u001b[A\n"," 18%|█▊        | 65/360 [31:08<2:15:23, 27.54s/it, loss=0.0157]\u001b[A\n"," 18%|█▊        | 65/360 [31:35<2:15:23, 27.54s/it, loss=0.00739]\u001b[A\n"," 18%|█▊        | 66/360 [31:35<2:13:56, 27.33s/it, loss=0.00739]\u001b[A\n"," 18%|█▊        | 66/360 [32:01<2:13:56, 27.33s/it, loss=0.0178] \u001b[A\n"," 19%|█▊        | 67/360 [32:01<2:12:46, 27.19s/it, loss=0.0178]\u001b[A\n"," 19%|█▊        | 67/360 [32:29<2:12:46, 27.19s/it, loss=0.0126]\u001b[A\n"," 19%|█▉        | 68/360 [32:29<2:12:46, 27.28s/it, loss=0.0126]\u001b[A\n"," 19%|█▉        | 68/360 [32:56<2:12:46, 27.28s/it, loss=0.0161]\u001b[A\n"," 19%|█▉        | 69/360 [32:56<2:12:36, 27.34s/it, loss=0.0161]\u001b[A\n"," 19%|█▉        | 69/360 [33:24<2:12:36, 27.34s/it, loss=0.0118]\u001b[A\n"," 19%|█▉        | 70/360 [33:24<2:12:52, 27.49s/it, loss=0.0118]\u001b[A\n"," 19%|█▉        | 70/360 [33:52<2:12:52, 27.49s/it, loss=0.0151]\u001b[A\n"," 20%|█▉        | 71/360 [33:52<2:12:51, 27.58s/it, loss=0.0151]\u001b[A\n"," 20%|█▉        | 71/360 [34:20<2:12:51, 27.58s/it, loss=0.0163]\u001b[A\n"," 20%|██        | 72/360 [34:20<2:13:03, 27.72s/it, loss=0.0163]\u001b[A\n"," 20%|██        | 72/360 [34:47<2:13:03, 27.72s/it, loss=0.0144]\u001b[A\n"," 20%|██        | 73/360 [34:47<2:10:52, 27.36s/it, loss=0.0144]\u001b[A\n"," 20%|██        | 73/360 [35:14<2:10:52, 27.36s/it, loss=0.0156]\u001b[A\n"," 21%|██        | 74/360 [35:14<2:11:03, 27.50s/it, loss=0.0156]\u001b[A\n"," 21%|██        | 74/360 [35:46<2:11:03, 27.50s/it, loss=0.0116]\u001b[A\n"," 21%|██        | 75/360 [35:46<2:15:38, 28.56s/it, loss=0.0116]\u001b[A\n"," 21%|██        | 75/360 [36:14<2:15:38, 28.56s/it, loss=0.0148]\u001b[A\n"," 21%|██        | 76/360 [36:14<2:15:30, 28.63s/it, loss=0.0148]\u001b[A\n"," 21%|██        | 76/360 [36:41<2:15:30, 28.63s/it, loss=0.00938]\u001b[A\n"," 21%|██▏       | 77/360 [36:41<2:12:42, 28.14s/it, loss=0.00938]\u001b[A\n"," 21%|██▏       | 77/360 [37:10<2:12:42, 28.14s/it, loss=0.0178] \u001b[A\n"," 22%|██▏       | 78/360 [37:10<2:13:30, 28.40s/it, loss=0.0178]\u001b[A\n"," 22%|██▏       | 78/360 [37:41<2:13:30, 28.40s/it, loss=0.0123]\u001b[A\n"," 22%|██▏       | 79/360 [37:41<2:15:48, 29.00s/it, loss=0.0123]\u001b[A\n"," 22%|██▏       | 79/360 [38:12<2:15:48, 29.00s/it, loss=0.0114]\u001b[A\n"," 22%|██▏       | 80/360 [38:12<2:18:12, 29.62s/it, loss=0.0114]\u001b[A\n"," 22%|██▏       | 80/360 [38:36<2:18:12, 29.62s/it, loss=0.0219]\u001b[A\n"," 22%|██▎       | 81/360 [38:36<2:10:49, 28.14s/it, loss=0.0219]\u001b[A\n"," 22%|██▎       | 81/360 [39:03<2:10:49, 28.14s/it, loss=0.00894]\u001b[A\n"," 23%|██▎       | 82/360 [39:03<2:08:47, 27.80s/it, loss=0.00894]\u001b[A\n"," 23%|██▎       | 82/360 [39:31<2:08:47, 27.80s/it, loss=0.00941]\u001b[A\n"," 23%|██▎       | 83/360 [39:31<2:07:32, 27.63s/it, loss=0.00941]\u001b[A\n"," 23%|██▎       | 83/360 [39:57<2:07:32, 27.63s/it, loss=0.018]  \u001b[A\n"," 23%|██▎       | 84/360 [39:57<2:05:50, 27.36s/it, loss=0.018]\u001b[A\n"," 23%|██▎       | 84/360 [40:25<2:05:50, 27.36s/it, loss=0.0146]\u001b[A\n"," 24%|██▎       | 85/360 [40:25<2:06:23, 27.58s/it, loss=0.0146]\u001b[A\n"," 24%|██▎       | 85/360 [40:54<2:06:23, 27.58s/it, loss=0.0112]\u001b[A\n"," 24%|██▍       | 86/360 [40:54<2:07:36, 27.94s/it, loss=0.0112]\u001b[A\n"," 24%|██▍       | 86/360 [41:20<2:07:36, 27.94s/it, loss=0.00993]\u001b[A\n"," 24%|██▍       | 87/360 [41:20<2:03:30, 27.14s/it, loss=0.00993]\u001b[A\n"," 24%|██▍       | 87/360 [41:46<2:03:30, 27.14s/it, loss=0.0101] \u001b[A\n"," 24%|██▍       | 88/360 [41:46<2:02:17, 26.97s/it, loss=0.0101]\u001b[A\n"," 24%|██▍       | 88/360 [42:14<2:02:17, 26.97s/it, loss=0.00811]\u001b[A\n"," 25%|██▍       | 89/360 [42:14<2:03:02, 27.24s/it, loss=0.00811]\u001b[A\n"," 25%|██▍       | 89/360 [42:40<2:03:02, 27.24s/it, loss=0.00413]\u001b[A\n"," 25%|██▌       | 90/360 [42:40<2:01:23, 26.98s/it, loss=0.00413]\u001b[A\n"," 25%|██▌       | 90/360 [43:08<2:01:23, 26.98s/it, loss=0.0192] \u001b[A\n"," 25%|██▌       | 91/360 [43:08<2:01:26, 27.09s/it, loss=0.0192]\u001b[A\n"," 25%|██▌       | 91/360 [43:35<2:01:26, 27.09s/it, loss=0.0186]\u001b[A\n"," 26%|██▌       | 92/360 [43:35<2:01:28, 27.20s/it, loss=0.0186]\u001b[A\n"," 26%|██▌       | 92/360 [44:01<2:01:28, 27.20s/it, loss=0.00772]\u001b[A\n"," 26%|██▌       | 93/360 [44:01<1:59:38, 26.89s/it, loss=0.00772]\u001b[A\n"," 26%|██▌       | 93/360 [44:28<1:59:38, 26.89s/it, loss=0.011]  \u001b[A\n"," 26%|██▌       | 94/360 [44:28<1:58:36, 26.76s/it, loss=0.011]\u001b[A\n"," 26%|██▌       | 94/360 [44:54<1:58:36, 26.76s/it, loss=0.0118]\u001b[A\n"," 26%|██▋       | 95/360 [44:54<1:57:02, 26.50s/it, loss=0.0118]\u001b[A\n"," 26%|██▋       | 95/360 [45:24<1:57:02, 26.50s/it, loss=0.0185]\u001b[A\n"," 27%|██▋       | 96/360 [45:24<2:01:21, 27.58s/it, loss=0.0185]\u001b[A\n"," 27%|██▋       | 96/360 [45:52<2:01:21, 27.58s/it, loss=0.0103]\u001b[A\n"," 27%|██▋       | 97/360 [45:52<2:01:26, 27.70s/it, loss=0.0103]\u001b[A\n"," 27%|██▋       | 97/360 [46:18<2:01:26, 27.70s/it, loss=0.00996]\u001b[A\n"," 27%|██▋       | 98/360 [46:18<1:59:25, 27.35s/it, loss=0.00996]\u001b[A\n"," 27%|██▋       | 98/360 [46:47<1:59:25, 27.35s/it, loss=0.0176] \u001b[A\n"," 28%|██▊       | 99/360 [46:47<2:00:32, 27.71s/it, loss=0.0176]\u001b[A\n"," 28%|██▊       | 99/360 [47:19<2:00:32, 27.71s/it, loss=0.00936]\u001b[A\n"," 28%|██▊       | 100/360 [47:19<2:05:45, 29.02s/it, loss=0.00936]\u001b[A\n"," 28%|██▊       | 100/360 [47:45<2:05:45, 29.02s/it, loss=0.0125] \u001b[A\n"," 28%|██▊       | 101/360 [47:45<2:01:59, 28.26s/it, loss=0.0125]\u001b[A\n"," 28%|██▊       | 101/360 [48:13<2:01:59, 28.26s/it, loss=0.0108]\u001b[A\n"," 28%|██▊       | 102/360 [48:13<2:00:26, 28.01s/it, loss=0.0108]\u001b[A\n"," 28%|██▊       | 102/360 [48:41<2:00:26, 28.01s/it, loss=0.0142]\u001b[A\n"," 29%|██▊       | 103/360 [48:41<1:59:38, 27.93s/it, loss=0.0142]\u001b[A\n"," 29%|██▊       | 103/360 [49:10<1:59:38, 27.93s/it, loss=0.0117]\u001b[A\n"," 29%|██▉       | 104/360 [49:10<2:00:57, 28.35s/it, loss=0.0117]\u001b[A\n"," 29%|██▉       | 104/360 [49:46<2:00:57, 28.35s/it, loss=0.0129]\u001b[A\n"," 29%|██▉       | 105/360 [49:46<2:10:48, 30.78s/it, loss=0.0129]\u001b[A\n"," 29%|██▉       | 105/360 [50:13<2:10:48, 30.78s/it, loss=0.0126]\u001b[A\n"," 29%|██▉       | 106/360 [50:13<2:04:36, 29.44s/it, loss=0.0126]\u001b[A\n"," 29%|██▉       | 106/360 [50:43<2:04:36, 29.44s/it, loss=0.0135]\u001b[A\n"," 30%|██▉       | 107/360 [50:43<2:05:09, 29.68s/it, loss=0.0135]\u001b[A\n"," 30%|██▉       | 107/360 [51:09<2:05:09, 29.68s/it, loss=0.0142]\u001b[A\n"," 30%|███       | 108/360 [51:09<2:00:41, 28.74s/it, loss=0.0142]\u001b[A\n"," 30%|███       | 108/360 [51:36<2:00:41, 28.74s/it, loss=0.0143]\u001b[A\n"," 30%|███       | 109/360 [51:36<1:57:16, 28.03s/it, loss=0.0143]\u001b[A\n"," 30%|███       | 109/360 [52:02<1:57:16, 28.03s/it, loss=0.00482]\u001b[A\n"," 31%|███       | 110/360 [52:02<1:54:07, 27.39s/it, loss=0.00482]\u001b[A\n"," 31%|███       | 110/360 [52:28<1:54:07, 27.39s/it, loss=0.0169] \u001b[A\n"," 31%|███       | 111/360 [52:28<1:52:04, 27.00s/it, loss=0.0169]\u001b[A\n"," 31%|███       | 111/360 [52:55<1:52:04, 27.00s/it, loss=0.0123]\u001b[A\n"," 31%|███       | 112/360 [52:55<1:51:20, 26.94s/it, loss=0.0123]\u001b[A\n"," 31%|███       | 112/360 [53:23<1:51:20, 26.94s/it, loss=0.0127]\u001b[A\n"," 31%|███▏      | 113/360 [53:23<1:52:23, 27.30s/it, loss=0.0127]\u001b[A\n"," 31%|███▏      | 113/360 [53:52<1:52:23, 27.30s/it, loss=0.0122]\u001b[A\n"," 32%|███▏      | 114/360 [53:52<1:54:02, 27.81s/it, loss=0.0122]\u001b[A\n"," 32%|███▏      | 114/360 [54:20<1:54:02, 27.81s/it, loss=0.018] \u001b[A\n"," 32%|███▏      | 115/360 [54:20<1:53:28, 27.79s/it, loss=0.018]\u001b[A\n"," 32%|███▏      | 115/360 [54:46<1:53:28, 27.79s/it, loss=0.00765]\u001b[A\n"," 32%|███▏      | 116/360 [54:46<1:50:51, 27.26s/it, loss=0.00765]\u001b[A\n"," 32%|███▏      | 116/360 [55:13<1:50:51, 27.26s/it, loss=0.0138] \u001b[A\n"," 32%|███▎      | 117/360 [55:13<1:50:38, 27.32s/it, loss=0.0138]\u001b[A\n"," 32%|███▎      | 117/360 [55:41<1:50:38, 27.32s/it, loss=0.0148]\u001b[A\n"," 33%|███▎      | 118/360 [55:41<1:51:11, 27.57s/it, loss=0.0148]\u001b[A\n"," 33%|███▎      | 118/360 [56:08<1:51:11, 27.57s/it, loss=0.0145]\u001b[A\n"," 33%|███▎      | 119/360 [56:08<1:49:19, 27.22s/it, loss=0.0145]\u001b[A\n"," 33%|███▎      | 119/360 [56:35<1:49:19, 27.22s/it, loss=0.0137]\u001b[A\n"," 33%|███▎      | 120/360 [56:35<1:49:11, 27.30s/it, loss=0.0137]\u001b[A\n"," 33%|███▎      | 120/360 [57:04<1:49:11, 27.30s/it, loss=0.0122]\u001b[A\n"," 34%|███▎      | 121/360 [57:04<1:50:09, 27.65s/it, loss=0.0122]\u001b[A\n"," 34%|███▎      | 121/360 [57:32<1:50:09, 27.65s/it, loss=0.00903]\u001b[A\n"," 34%|███▍      | 122/360 [57:32<1:51:12, 28.03s/it, loss=0.00903]\u001b[A\n"," 34%|███▍      | 122/360 [58:02<1:51:12, 28.03s/it, loss=0.00735]\u001b[A\n"," 34%|███▍      | 123/360 [58:02<1:52:40, 28.53s/it, loss=0.00735]\u001b[A\n"," 34%|███▍      | 123/360 [58:31<1:52:40, 28.53s/it, loss=0.019]  \u001b[A\n"," 34%|███▍      | 124/360 [58:31<1:52:47, 28.67s/it, loss=0.019]\u001b[A\n"," 34%|███▍      | 124/360 [58:57<1:52:47, 28.67s/it, loss=0.00892]\u001b[A\n"," 35%|███▍      | 125/360 [58:57<1:48:47, 27.78s/it, loss=0.00892]\u001b[A\n"," 35%|███▍      | 125/360 [59:33<1:48:47, 27.78s/it, loss=0.0125] \u001b[A\n"," 35%|███▌      | 126/360 [59:33<1:58:27, 30.37s/it, loss=0.0125]\u001b[A\n"," 35%|███▌      | 126/360 [1:00:03<1:58:27, 30.37s/it, loss=0.00941]\u001b[A\n"," 35%|███▌      | 127/360 [1:00:03<1:57:21, 30.22s/it, loss=0.00941]\u001b[A\n"," 35%|███▌      | 127/360 [1:00:29<1:57:21, 30.22s/it, loss=0.0175] \u001b[A\n"," 36%|███▌      | 128/360 [1:00:29<1:51:35, 28.86s/it, loss=0.0175]\u001b[A\n"," 36%|███▌      | 128/360 [1:00:54<1:51:35, 28.86s/it, loss=0.012] \u001b[A\n"," 36%|███▌      | 129/360 [1:00:54<1:46:57, 27.78s/it, loss=0.012]\u001b[A\n"," 36%|███▌      | 129/360 [1:01:20<1:46:57, 27.78s/it, loss=0.0146]\u001b[A\n"," 36%|███▌      | 130/360 [1:01:20<1:44:03, 27.14s/it, loss=0.0146]\u001b[A\n"," 36%|███▌      | 130/360 [1:01:47<1:44:03, 27.14s/it, loss=0.0115]\u001b[A\n"," 36%|███▋      | 131/360 [1:01:47<1:43:31, 27.13s/it, loss=0.0115]\u001b[A\n"," 36%|███▋      | 131/360 [1:02:13<1:43:31, 27.13s/it, loss=0.00982]\u001b[A\n"," 37%|███▋      | 132/360 [1:02:13<1:41:28, 26.70s/it, loss=0.00982]\u001b[A\n"," 37%|███▋      | 132/360 [1:02:41<1:41:28, 26.70s/it, loss=0.0186] \u001b[A\n"," 37%|███▋      | 133/360 [1:02:41<1:43:09, 27.27s/it, loss=0.0186]\u001b[A\n"," 37%|███▋      | 133/360 [1:03:07<1:43:09, 27.27s/it, loss=0.0119]\u001b[A\n"," 37%|███▋      | 134/360 [1:03:07<1:40:50, 26.77s/it, loss=0.0119]\u001b[A\n"," 37%|███▋      | 134/360 [1:03:35<1:40:50, 26.77s/it, loss=0.0101]\u001b[A\n"," 38%|███▊      | 135/360 [1:03:35<1:41:51, 27.16s/it, loss=0.0101]\u001b[A\n"," 38%|███▊      | 135/360 [1:04:03<1:41:51, 27.16s/it, loss=0.0144]\u001b[A\n"," 38%|███▊      | 136/360 [1:04:03<1:42:01, 27.33s/it, loss=0.0144]\u001b[A\n"," 38%|███▊      | 136/360 [1:04:31<1:42:01, 27.33s/it, loss=0.0105]\u001b[A\n"," 38%|███▊      | 137/360 [1:04:31<1:42:32, 27.59s/it, loss=0.0105]\u001b[A\n"," 38%|███▊      | 137/360 [1:04:57<1:42:32, 27.59s/it, loss=0.0123]\u001b[A\n"," 38%|███▊      | 138/360 [1:04:57<1:41:10, 27.34s/it, loss=0.0123]\u001b[A\n"," 38%|███▊      | 138/360 [1:05:25<1:41:10, 27.34s/it, loss=0.013] \u001b[A\n"," 39%|███▊      | 139/360 [1:05:25<1:40:53, 27.39s/it, loss=0.013]\u001b[A\n"," 39%|███▊      | 139/360 [1:05:53<1:40:53, 27.39s/it, loss=0.00595]\u001b[A\n"," 39%|███▉      | 140/360 [1:05:53<1:40:58, 27.54s/it, loss=0.00595]\u001b[A\n"," 39%|███▉      | 140/360 [1:06:20<1:40:58, 27.54s/it, loss=0.0143] \u001b[A\n"," 39%|███▉      | 141/360 [1:06:20<1:40:25, 27.51s/it, loss=0.0143]\u001b[A\n"," 39%|███▉      | 141/360 [1:06:47<1:40:25, 27.51s/it, loss=0.0112]\u001b[A\n"," 39%|███▉      | 142/360 [1:06:47<1:38:55, 27.23s/it, loss=0.0112]\u001b[A\n"," 39%|███▉      | 142/360 [1:07:17<1:38:55, 27.23s/it, loss=0.0129]\u001b[A\n"," 40%|███▉      | 143/360 [1:07:17<1:41:35, 28.09s/it, loss=0.0129]\u001b[A\n"," 40%|███▉      | 143/360 [1:07:42<1:41:35, 28.09s/it, loss=0.00707]\u001b[A\n"," 40%|████      | 144/360 [1:07:42<1:38:19, 27.31s/it, loss=0.00707]\u001b[A\n"," 40%|████      | 144/360 [1:08:09<1:38:19, 27.31s/it, loss=0.0115] \u001b[A\n"," 40%|████      | 145/360 [1:08:09<1:37:17, 27.15s/it, loss=0.0115]\u001b[A\n"," 40%|████      | 145/360 [1:08:36<1:37:17, 27.15s/it, loss=0.0127]\u001b[A\n"," 41%|████      | 146/360 [1:08:36<1:36:52, 27.16s/it, loss=0.0127]\u001b[A\n"," 41%|████      | 146/360 [1:09:12<1:36:52, 27.16s/it, loss=0.0116]\u001b[A\n"," 41%|████      | 147/360 [1:09:12<1:45:31, 29.73s/it, loss=0.0116]\u001b[A\n"," 41%|████      | 147/360 [1:09:38<1:45:31, 29.73s/it, loss=0.0108]\u001b[A\n"," 41%|████      | 148/360 [1:09:38<1:40:38, 28.48s/it, loss=0.0108]\u001b[A\n"," 41%|████      | 148/360 [1:10:06<1:40:38, 28.48s/it, loss=0.00825]\u001b[A\n"," 41%|████▏     | 149/360 [1:10:06<1:40:06, 28.47s/it, loss=0.00825]\u001b[A\n"," 41%|████▏     | 149/360 [1:10:36<1:40:06, 28.47s/it, loss=0.00943]\u001b[A\n"," 42%|████▏     | 150/360 [1:10:36<1:40:46, 28.79s/it, loss=0.00943]\u001b[A\n"," 42%|████▏     | 150/360 [1:11:01<1:40:46, 28.79s/it, loss=0.0117] \u001b[A\n"," 42%|████▏     | 151/360 [1:11:01<1:36:58, 27.84s/it, loss=0.0117]\u001b[A\n"," 42%|████▏     | 151/360 [1:11:28<1:36:58, 27.84s/it, loss=0.0123]\u001b[A\n"," 42%|████▏     | 152/360 [1:11:28<1:35:23, 27.52s/it, loss=0.0123]\u001b[A\n"," 42%|████▏     | 152/360 [1:11:54<1:35:23, 27.52s/it, loss=0.00717]\u001b[A\n"," 42%|████▎     | 153/360 [1:11:54<1:33:34, 27.13s/it, loss=0.00717]\u001b[A\n"," 42%|████▎     | 153/360 [1:12:21<1:33:34, 27.13s/it, loss=0.0132] \u001b[A\n"," 43%|████▎     | 154/360 [1:12:21<1:32:53, 27.05s/it, loss=0.0132]\u001b[A\n"," 43%|████▎     | 154/360 [1:12:47<1:32:53, 27.05s/it, loss=0.0135]\u001b[A\n"," 43%|████▎     | 155/360 [1:12:47<1:31:13, 26.70s/it, loss=0.0135]\u001b[A\n"," 43%|████▎     | 155/360 [1:13:15<1:31:13, 26.70s/it, loss=0.00832]\u001b[A\n"," 43%|████▎     | 156/360 [1:13:15<1:31:56, 27.04s/it, loss=0.00832]\u001b[A\n"," 43%|████▎     | 156/360 [1:13:41<1:31:56, 27.04s/it, loss=0.00927]\u001b[A\n"," 44%|████▎     | 157/360 [1:13:41<1:30:30, 26.75s/it, loss=0.00927]\u001b[A\n"," 44%|████▎     | 157/360 [1:14:11<1:30:30, 26.75s/it, loss=0.00751]\u001b[A\n"," 44%|████▍     | 158/360 [1:14:11<1:32:53, 27.59s/it, loss=0.00751]\u001b[A\n"," 44%|████▍     | 158/360 [1:14:40<1:32:53, 27.59s/it, loss=0.0157] \u001b[A\n"," 44%|████▍     | 159/360 [1:14:40<1:34:00, 28.06s/it, loss=0.0157]\u001b[A\n"," 44%|████▍     | 159/360 [1:15:06<1:34:00, 28.06s/it, loss=0.00829]\u001b[A\n"," 44%|████▍     | 160/360 [1:15:06<1:32:10, 27.65s/it, loss=0.00829]\u001b[A\n"," 44%|████▍     | 160/360 [1:15:35<1:32:10, 27.65s/it, loss=0.0138] \u001b[A\n"," 45%|████▍     | 161/360 [1:15:35<1:32:22, 27.85s/it, loss=0.0138]\u001b[A\n"," 45%|████▍     | 161/360 [1:16:02<1:32:22, 27.85s/it, loss=0.00508]\u001b[A\n"," 45%|████▌     | 162/360 [1:16:02<1:31:06, 27.61s/it, loss=0.00508]\u001b[A\n"," 45%|████▌     | 162/360 [1:16:29<1:31:06, 27.61s/it, loss=0.00372]\u001b[A\n"," 45%|████▌     | 163/360 [1:16:29<1:30:14, 27.48s/it, loss=0.00372]\u001b[A\n"," 45%|████▌     | 163/360 [1:16:57<1:30:14, 27.48s/it, loss=0.00895]\u001b[A\n"," 46%|████▌     | 164/360 [1:16:57<1:30:12, 27.61s/it, loss=0.00895]\u001b[A\n"," 46%|████▌     | 164/360 [1:17:24<1:30:12, 27.61s/it, loss=0.0131] \u001b[A\n"," 46%|████▌     | 165/360 [1:17:24<1:29:14, 27.46s/it, loss=0.0131]\u001b[A\n"," 46%|████▌     | 165/360 [1:17:51<1:29:14, 27.46s/it, loss=0.00826]\u001b[A\n"," 46%|████▌     | 166/360 [1:17:51<1:27:56, 27.20s/it, loss=0.00826]\u001b[A\n"," 46%|████▌     | 166/360 [1:18:19<1:27:56, 27.20s/it, loss=0.00737]\u001b[A\n"," 46%|████▋     | 167/360 [1:18:19<1:28:45, 27.59s/it, loss=0.00737]\u001b[A\n"," 46%|████▋     | 167/360 [1:18:48<1:28:45, 27.59s/it, loss=0.00842]\u001b[A\n"," 47%|████▋     | 168/360 [1:18:48<1:29:33, 27.99s/it, loss=0.00842]\u001b[A\n"," 47%|████▋     | 168/360 [1:19:15<1:29:33, 27.99s/it, loss=0.0117] \u001b[A\n"," 47%|████▋     | 169/360 [1:19:15<1:27:52, 27.61s/it, loss=0.0117]\u001b[A\n"," 47%|████▋     | 169/360 [1:19:44<1:27:52, 27.61s/it, loss=0.00634]\u001b[A\n"," 47%|████▋     | 170/360 [1:19:44<1:28:35, 27.98s/it, loss=0.00634]\u001b[A\n"," 47%|████▋     | 170/360 [1:20:13<1:28:35, 27.98s/it, loss=0.00546]\u001b[A\n"," 48%|████▊     | 171/360 [1:20:13<1:29:40, 28.47s/it, loss=0.00546]\u001b[A\n"," 48%|████▊     | 171/360 [1:20:45<1:29:40, 28.47s/it, loss=0.0227] \u001b[A\n"," 48%|████▊     | 172/360 [1:20:45<1:31:58, 29.35s/it, loss=0.0227]\u001b[A\n"," 48%|████▊     | 172/360 [1:21:13<1:31:58, 29.35s/it, loss=0.00682]\u001b[A\n"," 48%|████▊     | 173/360 [1:21:13<1:30:45, 29.12s/it, loss=0.00682]\u001b[A\n"," 48%|████▊     | 173/360 [1:21:39<1:30:45, 29.12s/it, loss=0.00824]\u001b[A\n"," 48%|████▊     | 174/360 [1:21:39<1:26:55, 28.04s/it, loss=0.00824]\u001b[A\n"," 48%|████▊     | 174/360 [1:22:07<1:26:55, 28.04s/it, loss=0.011]  \u001b[A\n"," 49%|████▊     | 175/360 [1:22:07<1:26:18, 27.99s/it, loss=0.011]\u001b[A\n"," 49%|████▊     | 175/360 [1:22:33<1:26:18, 27.99s/it, loss=0.00854]\u001b[A\n"," 49%|████▉     | 176/360 [1:22:33<1:24:44, 27.63s/it, loss=0.00854]\u001b[A\n"," 49%|████▉     | 176/360 [1:23:00<1:24:44, 27.63s/it, loss=0.004]  \u001b[A\n"," 49%|████▉     | 177/360 [1:23:00<1:23:39, 27.43s/it, loss=0.004]\u001b[A\n"," 49%|████▉     | 177/360 [1:23:28<1:23:39, 27.43s/it, loss=0.0135]\u001b[A\n"," 49%|████▉     | 178/360 [1:23:28<1:23:03, 27.38s/it, loss=0.0135]\u001b[A\n"," 49%|████▉     | 178/360 [1:23:56<1:23:03, 27.38s/it, loss=0.00238]\u001b[A\n"," 50%|████▉     | 179/360 [1:23:56<1:23:40, 27.74s/it, loss=0.00238]\u001b[A\n"," 50%|████▉     | 179/360 [1:24:25<1:23:40, 27.74s/it, loss=0.00716]\u001b[A\n"," 50%|█████     | 180/360 [1:24:25<1:24:10, 28.06s/it, loss=0.00716]\u001b[A\n"," 50%|█████     | 180/360 [1:24:54<1:24:10, 28.06s/it, loss=0.00818]\u001b[A\n"," 50%|█████     | 181/360 [1:24:54<1:24:22, 28.28s/it, loss=0.00818]\u001b[A\n"," 50%|█████     | 181/360 [1:25:22<1:24:22, 28.28s/it, loss=0.00997]\u001b[A\n"," 51%|█████     | 182/360 [1:25:22<1:24:09, 28.37s/it, loss=0.00997]\u001b[A\n"," 51%|█████     | 182/360 [1:25:53<1:24:09, 28.37s/it, loss=0.0137] \u001b[A\n"," 51%|█████     | 183/360 [1:25:53<1:25:57, 29.14s/it, loss=0.0137]\u001b[A\n"," 51%|█████     | 183/360 [1:26:22<1:25:57, 29.14s/it, loss=0.00952]\u001b[A\n"," 51%|█████     | 184/360 [1:26:22<1:25:27, 29.13s/it, loss=0.00952]\u001b[A\n"," 51%|█████     | 184/360 [1:26:50<1:25:27, 29.13s/it, loss=0.0136] \u001b[A\n"," 51%|█████▏    | 185/360 [1:26:50<1:23:27, 28.62s/it, loss=0.0136]\u001b[A\n"," 51%|█████▏    | 185/360 [1:27:16<1:23:27, 28.62s/it, loss=0.00759]\u001b[A\n"," 52%|█████▏    | 186/360 [1:27:16<1:20:45, 27.85s/it, loss=0.00759]\u001b[A\n"," 52%|█████▏    | 186/360 [1:27:43<1:20:45, 27.85s/it, loss=0.0135] \u001b[A\n"," 52%|█████▏    | 187/360 [1:27:43<1:19:22, 27.53s/it, loss=0.0135]\u001b[A\n"," 52%|█████▏    | 187/360 [1:28:11<1:19:22, 27.53s/it, loss=0.00855]\u001b[A\n"," 52%|█████▏    | 188/360 [1:28:11<1:19:27, 27.72s/it, loss=0.00855]\u001b[A\n"," 52%|█████▏    | 188/360 [1:28:37<1:19:27, 27.72s/it, loss=0.0167] \u001b[A\n"," 52%|█████▎    | 189/360 [1:28:37<1:17:46, 27.29s/it, loss=0.0167]\u001b[A\n"," 52%|█████▎    | 189/360 [1:29:06<1:17:46, 27.29s/it, loss=0.00984]\u001b[A\n"," 53%|█████▎    | 190/360 [1:29:06<1:18:49, 27.82s/it, loss=0.00984]\u001b[A\n"," 53%|█████▎    | 190/360 [1:29:33<1:18:49, 27.82s/it, loss=0.0175] \u001b[A\n"," 53%|█████▎    | 191/360 [1:29:33<1:17:17, 27.44s/it, loss=0.0175]\u001b[A\n"," 53%|█████▎    | 191/360 [1:30:00<1:17:17, 27.44s/it, loss=0.00915]\u001b[A\n"," 53%|█████▎    | 192/360 [1:30:00<1:16:39, 27.38s/it, loss=0.00915]\u001b[A\n"," 53%|█████▎    | 192/360 [1:30:27<1:16:39, 27.38s/it, loss=0.00942]\u001b[A\n"," 54%|█████▎    | 193/360 [1:30:27<1:15:54, 27.27s/it, loss=0.00942]\u001b[A\n"," 54%|█████▎    | 193/360 [1:30:54<1:15:54, 27.27s/it, loss=0.00296]\u001b[A\n"," 54%|█████▍    | 194/360 [1:30:54<1:15:40, 27.35s/it, loss=0.00296]\u001b[A\n"," 54%|█████▍    | 194/360 [1:31:24<1:15:40, 27.35s/it, loss=0.0128] \u001b[A\n"," 54%|█████▍    | 195/360 [1:31:24<1:17:15, 28.09s/it, loss=0.0128]\u001b[A\n"," 54%|█████▍    | 195/360 [1:31:51<1:17:15, 28.09s/it, loss=0.00662]\u001b[A\n"," 54%|█████▍    | 196/360 [1:31:51<1:15:15, 27.53s/it, loss=0.00662]\u001b[A\n"," 54%|█████▍    | 196/360 [1:32:17<1:15:15, 27.53s/it, loss=0.00727]\u001b[A\n"," 55%|█████▍    | 197/360 [1:32:17<1:14:14, 27.33s/it, loss=0.00727]\u001b[A\n"," 55%|█████▍    | 197/360 [1:32:46<1:14:14, 27.33s/it, loss=0.0209] \u001b[A\n"," 55%|█████▌    | 198/360 [1:32:46<1:15:03, 27.80s/it, loss=0.0209]\u001b[A\n"," 55%|█████▌    | 198/360 [1:33:15<1:15:03, 27.80s/it, loss=0.00659]\u001b[A\n"," 55%|█████▌    | 199/360 [1:33:15<1:15:13, 28.04s/it, loss=0.00659]\u001b[A\n"," 55%|█████▌    | 199/360 [1:33:43<1:15:13, 28.04s/it, loss=0.0168] \u001b[A\n"," 56%|█████▌    | 200/360 [1:33:43<1:15:07, 28.17s/it, loss=0.0168]\u001b[A\n"," 56%|█████▌    | 200/360 [1:34:12<1:15:07, 28.17s/it, loss=0.00552]\u001b[A\n"," 56%|█████▌    | 201/360 [1:34:12<1:15:22, 28.44s/it, loss=0.00552]\u001b[A\n"," 56%|█████▌    | 201/360 [1:34:40<1:15:22, 28.44s/it, loss=0.0149] \u001b[A\n"," 56%|█████▌    | 202/360 [1:34:40<1:14:35, 28.32s/it, loss=0.0149]\u001b[A\n"," 56%|█████▌    | 202/360 [1:35:10<1:14:35, 28.32s/it, loss=0.00953]\u001b[A\n"," 56%|█████▋    | 203/360 [1:35:10<1:15:16, 28.77s/it, loss=0.00953]\u001b[A\n"," 56%|█████▋    | 203/360 [1:35:38<1:15:16, 28.77s/it, loss=0.00697]\u001b[A\n"," 57%|█████▋    | 204/360 [1:35:38<1:14:20, 28.60s/it, loss=0.00697]\u001b[A\n"," 57%|█████▋    | 204/360 [1:36:05<1:14:20, 28.60s/it, loss=0.00566]\u001b[A\n"," 57%|█████▋    | 205/360 [1:36:05<1:12:06, 27.91s/it, loss=0.00566]\u001b[A\n"," 57%|█████▋    | 205/360 [1:36:34<1:12:06, 27.91s/it, loss=0.0154] \u001b[A\n"," 57%|█████▋    | 206/360 [1:36:34<1:12:27, 28.23s/it, loss=0.0154]\u001b[A\n"," 57%|█████▋    | 206/360 [1:37:03<1:12:27, 28.23s/it, loss=0.0119]\u001b[A\n"," 57%|█████▊    | 207/360 [1:37:03<1:13:06, 28.67s/it, loss=0.0119]\u001b[A\n"," 57%|█████▊    | 207/360 [1:37:32<1:13:06, 28.67s/it, loss=0.0149]\u001b[A\n"," 58%|█████▊    | 208/360 [1:37:32<1:12:30, 28.62s/it, loss=0.0149]\u001b[A\n"," 58%|█████▊    | 208/360 [1:38:00<1:12:30, 28.62s/it, loss=0.0102]\u001b[A\n"," 58%|█████▊    | 209/360 [1:38:00<1:11:48, 28.53s/it, loss=0.0102]\u001b[A\n"," 58%|█████▊    | 209/360 [1:38:31<1:11:48, 28.53s/it, loss=0.0186]\u001b[A\n"," 58%|█████▊    | 210/360 [1:38:31<1:13:03, 29.22s/it, loss=0.0186]\u001b[A\n"," 58%|█████▊    | 210/360 [1:39:01<1:13:03, 29.22s/it, loss=0.00485]\u001b[A\n"," 59%|█████▊    | 211/360 [1:39:01<1:13:26, 29.57s/it, loss=0.00485]\u001b[A\n"," 59%|█████▊    | 211/360 [1:39:32<1:13:26, 29.57s/it, loss=0.0211] \u001b[A\n"," 59%|█████▉    | 212/360 [1:39:32<1:13:26, 29.77s/it, loss=0.0211]\u001b[A\n"," 59%|█████▉    | 212/360 [1:40:03<1:13:26, 29.77s/it, loss=0.0117]\u001b[A\n"," 59%|█████▉    | 213/360 [1:40:03<1:14:19, 30.34s/it, loss=0.0117]\u001b[A\n"," 59%|█████▉    | 213/360 [1:40:31<1:14:19, 30.34s/it, loss=0.00757]\u001b[A\n"," 59%|█████▉    | 214/360 [1:40:31<1:12:10, 29.66s/it, loss=0.00757]\u001b[A\n"," 59%|█████▉    | 214/360 [1:41:06<1:12:10, 29.66s/it, loss=0.0141] \u001b[A\n"," 60%|█████▉    | 215/360 [1:41:06<1:14:52, 30.98s/it, loss=0.0141]\u001b[A\n"," 60%|█████▉    | 215/360 [1:41:35<1:14:52, 30.98s/it, loss=0.00473]\u001b[A\n"," 60%|██████    | 216/360 [1:41:35<1:13:11, 30.50s/it, loss=0.00473]\u001b[A\n"," 60%|██████    | 216/360 [1:42:02<1:13:11, 30.50s/it, loss=0.0109] \u001b[A\n"," 60%|██████    | 217/360 [1:42:02<1:10:25, 29.55s/it, loss=0.0109]\u001b[A\n"," 60%|██████    | 217/360 [1:42:28<1:10:25, 29.55s/it, loss=0.0148]\u001b[A\n"," 61%|██████    | 218/360 [1:42:28<1:07:14, 28.41s/it, loss=0.0148]\u001b[A\n"," 61%|██████    | 218/360 [1:42:53<1:07:14, 28.41s/it, loss=0.0148]\u001b[A\n"," 61%|██████    | 219/360 [1:42:53<1:04:35, 27.49s/it, loss=0.0148]\u001b[A\n"," 61%|██████    | 219/360 [1:43:20<1:04:35, 27.49s/it, loss=0.021] \u001b[A\n"," 61%|██████    | 220/360 [1:43:20<1:03:35, 27.26s/it, loss=0.021]\u001b[A\n"," 61%|██████    | 220/360 [1:43:47<1:03:35, 27.26s/it, loss=0.00909]\u001b[A\n"," 61%|██████▏   | 221/360 [1:43:47<1:02:42, 27.07s/it, loss=0.00909]\u001b[A\n"," 61%|██████▏   | 221/360 [1:44:15<1:02:42, 27.07s/it, loss=0.0119] \u001b[A\n"," 62%|██████▏   | 222/360 [1:44:15<1:02:53, 27.35s/it, loss=0.0119]\u001b[A\n"," 62%|██████▏   | 222/360 [1:44:43<1:02:53, 27.35s/it, loss=0.00841]\u001b[A\n"," 62%|██████▏   | 223/360 [1:44:43<1:03:11, 27.67s/it, loss=0.00841]\u001b[A\n"," 62%|██████▏   | 223/360 [1:45:12<1:03:11, 27.67s/it, loss=0.0109] \u001b[A\n"," 62%|██████▏   | 224/360 [1:45:12<1:03:34, 28.05s/it, loss=0.0109]\u001b[A\n"," 62%|██████▏   | 224/360 [1:45:40<1:03:34, 28.05s/it, loss=0.0138]\u001b[A\n"," 62%|██████▎   | 225/360 [1:45:40<1:02:43, 27.88s/it, loss=0.0138]\u001b[A\n"," 62%|██████▎   | 225/360 [1:46:07<1:02:43, 27.88s/it, loss=0.00744]\u001b[A\n"," 63%|██████▎   | 226/360 [1:46:07<1:01:46, 27.66s/it, loss=0.00744]\u001b[A\n"," 63%|██████▎   | 226/360 [1:46:35<1:01:46, 27.66s/it, loss=0.0162] \u001b[A\n"," 63%|██████▎   | 227/360 [1:46:35<1:01:54, 27.93s/it, loss=0.0162]\u001b[A\n"," 63%|██████▎   | 227/360 [1:47:03<1:01:54, 27.93s/it, loss=0.0095]\u001b[A\n"," 63%|██████▎   | 228/360 [1:47:03<1:01:05, 27.77s/it, loss=0.0095]\u001b[A\n"," 63%|██████▎   | 228/360 [1:47:32<1:01:05, 27.77s/it, loss=0.00757]\u001b[A\n"," 64%|██████▎   | 229/360 [1:47:32<1:01:39, 28.24s/it, loss=0.00757]\u001b[A\n"," 64%|██████▎   | 229/360 [1:47:59<1:01:39, 28.24s/it, loss=0.0173] \u001b[A\n"," 64%|██████▍   | 230/360 [1:47:59<1:00:17, 27.83s/it, loss=0.0173]\u001b[A\n"," 64%|██████▍   | 230/360 [1:48:26<1:00:17, 27.83s/it, loss=0.00854]\u001b[A\n"," 64%|██████▍   | 231/360 [1:48:26<59:38, 27.74s/it, loss=0.00854]  \u001b[A\n"," 64%|██████▍   | 231/360 [1:48:54<59:38, 27.74s/it, loss=0.0146] \u001b[A\n"," 64%|██████▍   | 232/360 [1:48:54<58:50, 27.58s/it, loss=0.0146]\u001b[A\n"," 64%|██████▍   | 232/360 [1:49:21<58:50, 27.58s/it, loss=0.0113]\u001b[A\n"," 65%|██████▍   | 233/360 [1:49:21<58:09, 27.48s/it, loss=0.0113]\u001b[A\n"," 65%|██████▍   | 233/360 [1:49:47<58:09, 27.48s/it, loss=0.00676]\u001b[A\n"," 65%|██████▌   | 234/360 [1:49:47<56:37, 26.96s/it, loss=0.00676]\u001b[A\n"," 65%|██████▌   | 234/360 [1:50:14<56:37, 26.96s/it, loss=0.0135] \u001b[A\n"," 65%|██████▌   | 235/360 [1:50:14<56:29, 27.12s/it, loss=0.0135]\u001b[A\n"," 65%|██████▌   | 235/360 [1:50:43<56:29, 27.12s/it, loss=0.0176]\u001b[A\n"," 66%|██████▌   | 236/360 [1:50:43<57:25, 27.78s/it, loss=0.0176]\u001b[A\n"," 66%|██████▌   | 236/360 [1:51:10<57:25, 27.78s/it, loss=0.0146]\u001b[A\n"," 66%|██████▌   | 237/360 [1:51:10<56:23, 27.51s/it, loss=0.0146]\u001b[A\n"," 66%|██████▌   | 237/360 [1:51:39<56:23, 27.51s/it, loss=0.0128]\u001b[A\n"," 66%|██████▌   | 238/360 [1:51:39<56:39, 27.87s/it, loss=0.0128]\u001b[A\n"," 66%|██████▌   | 238/360 [1:52:06<56:39, 27.87s/it, loss=0.00763]\u001b[A\n"," 66%|██████▋   | 239/360 [1:52:06<55:37, 27.58s/it, loss=0.00763]\u001b[A\n"," 66%|██████▋   | 239/360 [1:52:34<55:37, 27.58s/it, loss=0.0075] \u001b[A\n"," 67%|██████▋   | 240/360 [1:52:34<55:40, 27.84s/it, loss=0.0075]\u001b[A\n"," 67%|██████▋   | 240/360 [1:53:03<55:40, 27.84s/it, loss=0.00762]\u001b[A\n"," 67%|██████▋   | 241/360 [1:53:03<55:53, 28.18s/it, loss=0.00762]\u001b[A\n"," 67%|██████▋   | 241/360 [1:53:29<55:53, 28.18s/it, loss=0.0125] \u001b[A\n"," 67%|██████▋   | 242/360 [1:53:29<53:54, 27.41s/it, loss=0.0125]\u001b[A\n"," 67%|██████▋   | 242/360 [1:53:58<53:54, 27.41s/it, loss=0.00677]\u001b[A\n"," 68%|██████▊   | 243/360 [1:53:58<54:36, 28.01s/it, loss=0.00677]\u001b[A\n"," 68%|██████▊   | 243/360 [1:54:27<54:36, 28.01s/it, loss=0.0104] \u001b[A\n"," 68%|██████▊   | 244/360 [1:54:27<54:31, 28.20s/it, loss=0.0104]\u001b[A\n"," 68%|██████▊   | 244/360 [1:54:55<54:31, 28.20s/it, loss=0.00793]\u001b[A\n"," 68%|██████▊   | 245/360 [1:54:55<53:50, 28.09s/it, loss=0.00793]\u001b[A\n"," 68%|██████▊   | 245/360 [1:55:24<53:50, 28.09s/it, loss=0.00927]\u001b[A\n"," 68%|██████▊   | 246/360 [1:55:24<54:02, 28.44s/it, loss=0.00927]\u001b[A\n"," 68%|██████▊   | 246/360 [1:55:53<54:02, 28.44s/it, loss=0.0081] \u001b[A\n"," 69%|██████▊   | 247/360 [1:55:53<53:51, 28.60s/it, loss=0.0081]\u001b[A\n"," 69%|██████▊   | 247/360 [1:56:23<53:51, 28.60s/it, loss=0.0121]\u001b[A\n"," 69%|██████▉   | 248/360 [1:56:23<54:14, 29.06s/it, loss=0.0121]\u001b[A\n"," 69%|██████▉   | 248/360 [1:56:53<54:14, 29.06s/it, loss=0.0115]\u001b[A\n"," 69%|██████▉   | 249/360 [1:56:53<53:59, 29.18s/it, loss=0.0115]\u001b[A\n"," 69%|██████▉   | 249/360 [1:57:19<53:59, 29.18s/it, loss=0.0182]\u001b[A\n"," 69%|██████▉   | 250/360 [1:57:19<51:41, 28.20s/it, loss=0.0182]\u001b[A\n"," 69%|██████▉   | 250/360 [1:57:49<51:41, 28.20s/it, loss=0.0102]\u001b[A\n"," 70%|██████▉   | 251/360 [1:57:49<52:44, 29.03s/it, loss=0.0102]\u001b[A\n"," 70%|██████▉   | 251/360 [1:58:18<52:44, 29.03s/it, loss=0.0132]\u001b[A\n"," 70%|███████   | 252/360 [1:58:18<51:57, 28.87s/it, loss=0.0132]\u001b[A\n"," 70%|███████   | 252/360 [1:58:46<51:57, 28.87s/it, loss=0.0127]\u001b[A\n"," 70%|███████   | 253/360 [1:58:46<50:52, 28.53s/it, loss=0.0127]\u001b[A\n"," 70%|███████   | 253/360 [1:59:14<50:52, 28.53s/it, loss=0.0193]\u001b[A\n"," 71%|███████   | 254/360 [1:59:14<50:19, 28.49s/it, loss=0.0193]\u001b[A\n"," 71%|███████   | 254/360 [1:59:42<50:19, 28.49s/it, loss=0.00516]\u001b[A\n"," 71%|███████   | 255/360 [1:59:42<49:34, 28.32s/it, loss=0.00516]\u001b[A\n"," 71%|███████   | 255/360 [2:00:12<49:34, 28.32s/it, loss=0.00688]\u001b[A\n"," 71%|███████   | 256/360 [2:00:12<49:48, 28.73s/it, loss=0.00688]\u001b[A\n"," 71%|███████   | 256/360 [2:00:41<49:48, 28.73s/it, loss=0.0116] \u001b[A\n"," 71%|███████▏  | 257/360 [2:00:41<49:25, 28.79s/it, loss=0.0116]\u001b[A\n"," 71%|███████▏  | 257/360 [2:01:09<49:25, 28.79s/it, loss=0.017] \u001b[A\n"," 72%|███████▏  | 258/360 [2:01:09<48:27, 28.51s/it, loss=0.017]\u001b[A\n"," 72%|███████▏  | 258/360 [2:01:38<48:27, 28.51s/it, loss=0.0074]\u001b[A\n"," 72%|███████▏  | 259/360 [2:01:38<48:19, 28.71s/it, loss=0.0074]\u001b[A\n"," 72%|███████▏  | 259/360 [2:02:07<48:19, 28.71s/it, loss=0.0091]\u001b[A\n"," 72%|███████▏  | 260/360 [2:02:07<48:10, 28.90s/it, loss=0.0091]\u001b[A\n"," 72%|███████▏  | 260/360 [2:02:36<48:10, 28.90s/it, loss=0.0127]\u001b[A\n"," 72%|███████▎  | 261/360 [2:02:36<47:37, 28.86s/it, loss=0.0127]\u001b[A\n"," 72%|███████▎  | 261/360 [2:03:14<47:37, 28.86s/it, loss=0.0152]\u001b[A\n"," 73%|███████▎  | 262/360 [2:03:14<51:34, 31.57s/it, loss=0.0152]\u001b[A\n"," 73%|███████▎  | 262/360 [2:03:40<51:34, 31.57s/it, loss=0.0182]\u001b[A\n"," 73%|███████▎  | 263/360 [2:03:40<48:35, 30.05s/it, loss=0.0182]\u001b[A\n"," 73%|███████▎  | 263/360 [2:04:07<48:35, 30.05s/it, loss=0.0179]\u001b[A\n"," 73%|███████▎  | 264/360 [2:04:08<46:45, 29.22s/it, loss=0.0179]\u001b[A\n"," 73%|███████▎  | 264/360 [2:04:35<46:45, 29.22s/it, loss=0.00905]\u001b[A\n"," 74%|███████▎  | 265/360 [2:04:35<45:12, 28.56s/it, loss=0.00905]\u001b[A\n"," 74%|███████▎  | 265/360 [2:05:05<45:12, 28.56s/it, loss=0.00732]\u001b[A\n"," 74%|███████▍  | 266/360 [2:05:05<45:40, 29.16s/it, loss=0.00732]\u001b[A\n"," 74%|███████▍  | 266/360 [2:05:33<45:40, 29.16s/it, loss=0.00962]\u001b[A\n"," 74%|███████▍  | 267/360 [2:05:33<44:26, 28.68s/it, loss=0.00962]\u001b[A\n"," 74%|███████▍  | 267/360 [2:06:02<44:26, 28.68s/it, loss=0.0179] \u001b[A\n"," 74%|███████▍  | 268/360 [2:06:02<44:05, 28.75s/it, loss=0.0179]\u001b[A\n"," 74%|███████▍  | 268/360 [2:06:29<44:05, 28.75s/it, loss=0.0112]\u001b[A\n"," 75%|███████▍  | 269/360 [2:06:29<43:12, 28.49s/it, loss=0.0112]\u001b[A\n"," 75%|███████▍  | 269/360 [2:06:57<43:12, 28.49s/it, loss=0.00395]\u001b[A\n"," 75%|███████▌  | 270/360 [2:06:57<42:24, 28.27s/it, loss=0.00395]\u001b[A\n"," 75%|███████▌  | 270/360 [2:07:25<42:24, 28.27s/it, loss=0.00944]\u001b[A\n"," 75%|███████▌  | 271/360 [2:07:25<41:41, 28.11s/it, loss=0.00944]\u001b[A\n"," 75%|███████▌  | 271/360 [2:07:54<41:41, 28.11s/it, loss=0.00771]\u001b[A\n"," 76%|███████▌  | 272/360 [2:07:54<41:31, 28.31s/it, loss=0.00771]\u001b[A\n"," 76%|███████▌  | 272/360 [2:08:21<41:31, 28.31s/it, loss=0.00585]\u001b[A\n"," 76%|███████▌  | 273/360 [2:08:21<40:24, 27.86s/it, loss=0.00585]\u001b[A\n"," 76%|███████▌  | 273/360 [2:08:49<40:24, 27.86s/it, loss=0.0148] \u001b[A\n"," 76%|███████▌  | 274/360 [2:08:49<40:17, 28.10s/it, loss=0.0148]\u001b[A\n"," 76%|███████▌  | 274/360 [2:09:18<40:17, 28.10s/it, loss=0.00603]\u001b[A\n"," 76%|███████▋  | 275/360 [2:09:18<40:06, 28.31s/it, loss=0.00603]\u001b[A\n"," 76%|███████▋  | 275/360 [2:09:48<40:06, 28.31s/it, loss=0.0103] \u001b[A\n"," 77%|███████▋  | 276/360 [2:09:48<40:16, 28.77s/it, loss=0.0103]\u001b[A\n"," 77%|███████▋  | 276/360 [2:10:14<40:16, 28.77s/it, loss=0.00973]\u001b[A\n"," 77%|███████▋  | 277/360 [2:10:14<38:52, 28.10s/it, loss=0.00973]\u001b[A\n"," 77%|███████▋  | 277/360 [2:10:43<38:52, 28.10s/it, loss=0.0205] \u001b[A\n"," 77%|███████▋  | 278/360 [2:10:43<38:27, 28.14s/it, loss=0.0205]\u001b[A\n"," 77%|███████▋  | 278/360 [2:11:11<38:27, 28.14s/it, loss=0.00395]\u001b[A\n"," 78%|███████▊  | 279/360 [2:11:11<38:09, 28.27s/it, loss=0.00395]\u001b[A\n"," 78%|███████▊  | 279/360 [2:11:42<38:09, 28.27s/it, loss=0.00563]\u001b[A\n"," 78%|███████▊  | 280/360 [2:11:42<38:43, 29.04s/it, loss=0.00563]\u001b[A\n"," 78%|███████▊  | 280/360 [2:12:10<38:43, 29.04s/it, loss=0.0103] \u001b[A\n"," 78%|███████▊  | 281/360 [2:12:10<37:37, 28.58s/it, loss=0.0103]\u001b[A\n"," 78%|███████▊  | 281/360 [2:12:36<37:37, 28.58s/it, loss=0.0105]\u001b[A\n"," 78%|███████▊  | 282/360 [2:12:36<36:31, 28.09s/it, loss=0.0105]\u001b[A\n"," 78%|███████▊  | 282/360 [2:13:06<36:31, 28.09s/it, loss=0.00669]\u001b[A\n"," 79%|███████▊  | 283/360 [2:13:06<36:42, 28.60s/it, loss=0.00669]\u001b[A\n"," 79%|███████▊  | 283/360 [2:13:33<36:42, 28.60s/it, loss=0.00854]\u001b[A\n"," 79%|███████▉  | 284/360 [2:13:33<35:31, 28.05s/it, loss=0.00854]\u001b[A\n"," 79%|███████▉  | 284/360 [2:14:03<35:31, 28.05s/it, loss=0.00824]\u001b[A\n"," 79%|███████▉  | 285/360 [2:14:03<35:50, 28.67s/it, loss=0.00824]\u001b[A\n"," 79%|███████▉  | 285/360 [2:14:40<35:50, 28.67s/it, loss=0.0077] \u001b[A\n"," 79%|███████▉  | 286/360 [2:14:40<38:18, 31.06s/it, loss=0.0077]\u001b[A\n"," 79%|███████▉  | 286/360 [2:15:07<38:18, 31.06s/it, loss=0.0124]\u001b[A\n"," 80%|███████▉  | 287/360 [2:15:07<36:28, 29.97s/it, loss=0.0124]\u001b[A\n"," 80%|███████▉  | 287/360 [2:15:35<36:28, 29.97s/it, loss=0.00968]\u001b[A\n"," 80%|████████  | 288/360 [2:15:35<35:09, 29.29s/it, loss=0.00968]\u001b[A\n"," 80%|████████  | 288/360 [2:16:02<35:09, 29.29s/it, loss=0.0184] \u001b[A\n"," 80%|████████  | 289/360 [2:16:02<34:01, 28.75s/it, loss=0.0184]\u001b[A\n"," 80%|████████  | 289/360 [2:16:31<34:01, 28.75s/it, loss=0.00843]\u001b[A\n"," 81%|████████  | 290/360 [2:16:31<33:19, 28.57s/it, loss=0.00843]\u001b[A\n"," 81%|████████  | 290/360 [2:16:57<33:19, 28.57s/it, loss=0.00721]\u001b[A\n"," 81%|████████  | 291/360 [2:16:57<32:12, 28.01s/it, loss=0.00721]\u001b[A\n"," 81%|████████  | 291/360 [2:17:22<32:12, 28.01s/it, loss=0.00721]\u001b[A\n"," 81%|████████  | 292/360 [2:17:22<30:44, 27.13s/it, loss=0.00721]\u001b[A\n"," 81%|████████  | 292/360 [2:17:53<30:44, 27.13s/it, loss=0.0077] \u001b[A\n"," 81%|████████▏ | 293/360 [2:17:53<31:38, 28.33s/it, loss=0.0077]\u001b[A\n"," 81%|████████▏ | 293/360 [2:18:20<31:38, 28.33s/it, loss=0.00947]\u001b[A\n"," 82%|████████▏ | 294/360 [2:18:20<30:34, 27.79s/it, loss=0.00947]\u001b[A\n"," 82%|████████▏ | 294/360 [2:18:51<30:34, 27.79s/it, loss=0.0109] \u001b[A\n"," 82%|████████▏ | 295/360 [2:18:51<31:07, 28.73s/it, loss=0.0109]\u001b[A\n"," 82%|████████▏ | 295/360 [2:19:20<31:07, 28.73s/it, loss=0.0132]\u001b[A\n"," 82%|████████▏ | 296/360 [2:19:20<30:50, 28.92s/it, loss=0.0132]\u001b[A\n"," 82%|████████▏ | 296/360 [2:19:48<30:50, 28.92s/it, loss=0.0127]\u001b[A\n"," 82%|████████▎ | 297/360 [2:19:48<29:59, 28.57s/it, loss=0.0127]\u001b[A\n"," 82%|████████▎ | 297/360 [2:20:15<29:59, 28.57s/it, loss=0.0157]\u001b[A\n"," 83%|████████▎ | 298/360 [2:20:15<29:09, 28.22s/it, loss=0.0157]\u001b[A\n"," 83%|████████▎ | 298/360 [2:20:44<29:09, 28.22s/it, loss=0.00767]\u001b[A\n"," 83%|████████▎ | 299/360 [2:20:44<28:46, 28.30s/it, loss=0.00767]\u001b[A\n"," 83%|████████▎ | 299/360 [2:21:12<28:46, 28.30s/it, loss=0.015]  \u001b[A\n"," 83%|████████▎ | 300/360 [2:21:12<28:05, 28.09s/it, loss=0.015]\u001b[A\n"," 83%|████████▎ | 300/360 [2:21:39<28:05, 28.09s/it, loss=0.015]\u001b[A\n"," 84%|████████▎ | 301/360 [2:21:39<27:23, 27.85s/it, loss=0.015]\u001b[A\n"," 84%|████████▎ | 301/360 [2:22:05<27:23, 27.85s/it, loss=0.0103]\u001b[A\n"," 84%|████████▍ | 302/360 [2:22:05<26:19, 27.23s/it, loss=0.0103]\u001b[A\n"," 84%|████████▍ | 302/360 [2:22:33<26:19, 27.23s/it, loss=0.00698]\u001b[A\n"," 84%|████████▍ | 303/360 [2:22:33<26:10, 27.55s/it, loss=0.00698]\u001b[A\n"," 84%|████████▍ | 303/360 [2:23:03<26:10, 27.55s/it, loss=0.00992]\u001b[A\n"," 84%|████████▍ | 304/360 [2:23:03<26:17, 28.18s/it, loss=0.00992]\u001b[A\n"," 84%|████████▍ | 304/360 [2:23:30<26:17, 28.18s/it, loss=0.0108] \u001b[A\n"," 85%|████████▍ | 305/360 [2:23:30<25:31, 27.84s/it, loss=0.0108]\u001b[A\n"," 85%|████████▍ | 305/360 [2:23:57<25:31, 27.84s/it, loss=0.00831]\u001b[A\n"," 85%|████████▌ | 306/360 [2:23:57<24:51, 27.63s/it, loss=0.00831]\u001b[A\n"," 85%|████████▌ | 306/360 [2:24:23<24:51, 27.63s/it, loss=0.00727]\u001b[A\n"," 85%|████████▌ | 307/360 [2:24:23<24:04, 27.26s/it, loss=0.00727]\u001b[A\n"," 85%|████████▌ | 307/360 [2:24:54<24:04, 27.26s/it, loss=0.015]  \u001b[A\n"," 86%|████████▌ | 308/360 [2:24:54<24:27, 28.22s/it, loss=0.015]\u001b[A\n"," 86%|████████▌ | 308/360 [2:25:23<24:27, 28.22s/it, loss=0.014]\u001b[A\n"," 86%|████████▌ | 309/360 [2:25:23<24:20, 28.63s/it, loss=0.014]\u001b[A\n"," 86%|████████▌ | 309/360 [2:25:54<24:20, 28.63s/it, loss=0.019]\u001b[A\n"," 86%|████████▌ | 310/360 [2:25:54<24:24, 29.28s/it, loss=0.019]\u001b[A\n"," 86%|████████▌ | 310/360 [2:26:23<24:24, 29.28s/it, loss=0.0104]\u001b[A\n"," 86%|████████▋ | 311/360 [2:26:23<23:46, 29.12s/it, loss=0.0104]\u001b[A\n"," 86%|████████▋ | 311/360 [2:26:50<23:46, 29.12s/it, loss=0.00946]\u001b[A\n"," 87%|████████▋ | 312/360 [2:26:50<22:50, 28.54s/it, loss=0.00946]\u001b[A\n"," 87%|████████▋ | 312/360 [2:27:20<22:50, 28.54s/it, loss=0.00862]\u001b[A\n"," 87%|████████▋ | 313/360 [2:27:20<22:45, 29.05s/it, loss=0.00862]\u001b[A\n"," 87%|████████▋ | 313/360 [2:27:57<22:45, 29.05s/it, loss=0.0114] \u001b[A\n"," 87%|████████▋ | 314/360 [2:27:57<24:10, 31.53s/it, loss=0.0114]\u001b[A\n"," 87%|████████▋ | 314/360 [2:28:27<24:10, 31.53s/it, loss=0.0191]\u001b[A\n"," 88%|████████▊ | 315/360 [2:28:27<23:10, 30.89s/it, loss=0.0191]\u001b[A\n"," 88%|████████▊ | 315/360 [2:28:54<23:10, 30.89s/it, loss=0.0123]\u001b[A\n"," 88%|████████▊ | 316/360 [2:28:54<21:44, 29.66s/it, loss=0.0123]\u001b[A\n"," 88%|████████▊ | 316/360 [2:29:23<21:44, 29.66s/it, loss=0.00743]\u001b[A\n"," 88%|████████▊ | 317/360 [2:29:23<21:07, 29.47s/it, loss=0.00743]\u001b[A\n"," 88%|████████▊ | 317/360 [2:29:51<21:07, 29.47s/it, loss=0.0127] \u001b[A\n"," 88%|████████▊ | 318/360 [2:29:51<20:27, 29.23s/it, loss=0.0127]\u001b[A\n"," 88%|████████▊ | 318/360 [2:30:29<20:27, 29.23s/it, loss=0.00879]\u001b[A\n"," 89%|████████▊ | 319/360 [2:30:29<21:39, 31.69s/it, loss=0.00879]\u001b[A\n"," 89%|████████▊ | 319/360 [2:31:01<21:39, 31.69s/it, loss=0.00674]\u001b[A\n"," 89%|████████▉ | 320/360 [2:31:01<21:09, 31.73s/it, loss=0.00674]\u001b[A\n"," 89%|████████▉ | 320/360 [2:31:30<21:09, 31.73s/it, loss=0.0109] \u001b[A\n"," 89%|████████▉ | 321/360 [2:31:30<20:10, 31.03s/it, loss=0.0109]\u001b[A\n"," 89%|████████▉ | 321/360 [2:31:58<20:10, 31.03s/it, loss=0.00981]\u001b[A\n"," 89%|████████▉ | 322/360 [2:31:58<19:00, 30.00s/it, loss=0.00981]\u001b[A\n"," 89%|████████▉ | 322/360 [2:32:24<19:00, 30.00s/it, loss=0.00905]\u001b[A\n"," 90%|████████▉ | 323/360 [2:32:24<17:54, 29.03s/it, loss=0.00905]\u001b[A\n"," 90%|████████▉ | 323/360 [2:32:52<17:54, 29.03s/it, loss=0.0118] \u001b[A\n"," 90%|█████████ | 324/360 [2:32:52<17:13, 28.70s/it, loss=0.0118]\u001b[A\n"," 90%|█████████ | 324/360 [2:33:20<17:13, 28.70s/it, loss=0.00849]\u001b[A\n"," 90%|█████████ | 325/360 [2:33:20<16:33, 28.40s/it, loss=0.00849]\u001b[A\n"," 90%|█████████ | 325/360 [2:33:48<16:33, 28.40s/it, loss=0.00816]\u001b[A\n"," 91%|█████████ | 326/360 [2:33:48<15:59, 28.22s/it, loss=0.00816]\u001b[A\n"," 91%|█████████ | 326/360 [2:34:14<15:59, 28.22s/it, loss=0.0102] \u001b[A\n"," 91%|█████████ | 327/360 [2:34:14<15:13, 27.69s/it, loss=0.0102]\u001b[A\n"," 91%|█████████ | 327/360 [2:34:43<15:13, 27.69s/it, loss=0.00568]\u001b[A\n"," 91%|█████████ | 328/360 [2:34:43<14:57, 28.06s/it, loss=0.00568]\u001b[A\n"," 91%|█████████ | 328/360 [2:35:13<14:57, 28.06s/it, loss=0.00937]\u001b[A\n"," 91%|█████████▏| 329/360 [2:35:13<14:42, 28.46s/it, loss=0.00937]\u001b[A\n"," 91%|█████████▏| 329/360 [2:35:38<14:42, 28.46s/it, loss=0.0134] \u001b[A\n"," 92%|█████████▏| 330/360 [2:35:38<13:47, 27.59s/it, loss=0.0134]\u001b[A\n"," 92%|█████████▏| 330/360 [2:36:07<13:47, 27.59s/it, loss=0.0115]\u001b[A\n"," 92%|█████████▏| 331/360 [2:36:07<13:27, 27.84s/it, loss=0.0115]\u001b[A\n"," 92%|█████████▏| 331/360 [2:36:36<13:27, 27.84s/it, loss=0.00841]\u001b[A\n"," 92%|█████████▏| 332/360 [2:36:36<13:10, 28.23s/it, loss=0.00841]\u001b[A\n"," 92%|█████████▏| 332/360 [2:37:06<13:10, 28.23s/it, loss=0.0148] \u001b[A\n"," 92%|█████████▎| 333/360 [2:37:06<13:01, 28.93s/it, loss=0.0148]\u001b[A\n"," 92%|█████████▎| 333/360 [2:37:33<13:01, 28.93s/it, loss=0.0122]\u001b[A\n"," 93%|█████████▎| 334/360 [2:37:33<12:18, 28.42s/it, loss=0.0122]\u001b[A\n"," 93%|█████████▎| 334/360 [2:38:01<12:18, 28.42s/it, loss=0.00609]\u001b[A\n"," 93%|█████████▎| 335/360 [2:38:01<11:46, 28.26s/it, loss=0.00609]\u001b[A\n"," 93%|█████████▎| 335/360 [2:38:33<11:46, 28.26s/it, loss=0.00663]\u001b[A\n"," 93%|█████████▎| 336/360 [2:38:33<11:42, 29.27s/it, loss=0.00663]\u001b[A\n"," 93%|█████████▎| 336/360 [2:39:00<11:42, 29.27s/it, loss=0.0105] \u001b[A\n"," 94%|█████████▎| 337/360 [2:39:00<10:59, 28.66s/it, loss=0.0105]\u001b[A\n"," 94%|█████████▎| 337/360 [2:39:28<10:59, 28.66s/it, loss=0.00949]\u001b[A\n"," 94%|█████████▍| 338/360 [2:39:28<10:23, 28.34s/it, loss=0.00949]\u001b[A\n"," 94%|█████████▍| 338/360 [2:39:57<10:23, 28.34s/it, loss=0.0135] \u001b[A\n"," 94%|█████████▍| 339/360 [2:39:57<09:58, 28.51s/it, loss=0.0135]\u001b[A\n"," 94%|█████████▍| 339/360 [2:40:27<09:58, 28.51s/it, loss=0.0125]\u001b[A\n"," 94%|█████████▍| 340/360 [2:40:27<09:42, 29.13s/it, loss=0.0125]\u001b[A\n"," 94%|█████████▍| 340/360 [2:40:58<09:42, 29.13s/it, loss=0.00567]\u001b[A\n"," 95%|█████████▍| 341/360 [2:40:58<09:22, 29.59s/it, loss=0.00567]\u001b[A\n"," 95%|█████████▍| 341/360 [2:41:35<09:22, 29.59s/it, loss=0.00939]\u001b[A\n"," 95%|█████████▌| 342/360 [2:41:35<09:32, 31.80s/it, loss=0.00939]\u001b[A\n"," 95%|█████████▌| 342/360 [2:42:10<09:32, 31.80s/it, loss=0.0123] \u001b[A\n"," 95%|█████████▌| 343/360 [2:42:10<09:15, 32.68s/it, loss=0.0123]\u001b[A\n"," 95%|█████████▌| 343/360 [2:42:36<09:15, 32.68s/it, loss=0.0133]\u001b[A\n"," 96%|█████████▌| 344/360 [2:42:36<08:13, 30.85s/it, loss=0.0133]\u001b[A\n"," 96%|█████████▌| 344/360 [2:43:02<08:13, 30.85s/it, loss=0.00625]\u001b[A\n"," 96%|█████████▌| 345/360 [2:43:02<07:19, 29.30s/it, loss=0.00625]\u001b[A\n"," 96%|█████████▌| 345/360 [2:43:29<07:19, 29.30s/it, loss=0.00773]\u001b[A\n"," 96%|█████████▌| 346/360 [2:43:29<06:41, 28.67s/it, loss=0.00773]\u001b[A\n"," 96%|█████████▌| 346/360 [2:43:58<06:41, 28.67s/it, loss=0.00797]\u001b[A\n"," 96%|█████████▋| 347/360 [2:43:58<06:14, 28.81s/it, loss=0.00797]\u001b[A\n"," 96%|█████████▋| 347/360 [2:44:30<06:14, 28.81s/it, loss=0.00886]\u001b[A\n"," 97%|█████████▋| 348/360 [2:44:30<05:55, 29.62s/it, loss=0.00886]\u001b[A\n"," 97%|█████████▋| 348/360 [2:44:58<05:55, 29.62s/it, loss=0.0101] \u001b[A\n"," 97%|█████████▋| 349/360 [2:44:58<05:20, 29.15s/it, loss=0.0101]\u001b[A\n"," 97%|█████████▋| 349/360 [2:45:26<05:20, 29.15s/it, loss=0.00652]\u001b[A\n"," 97%|█████████▋| 350/360 [2:45:26<04:47, 28.79s/it, loss=0.00652]\u001b[A\n"," 97%|█████████▋| 350/360 [2:45:56<04:47, 28.79s/it, loss=0.00767]\u001b[A\n"," 98%|█████████▊| 351/360 [2:45:56<04:23, 29.26s/it, loss=0.00767]\u001b[A\n"," 98%|█████████▊| 351/360 [2:46:25<04:23, 29.26s/it, loss=0.00938]\u001b[A\n"," 98%|█████████▊| 352/360 [2:46:25<03:53, 29.25s/it, loss=0.00938]\u001b[A\n"," 98%|█████████▊| 352/360 [2:46:52<03:53, 29.25s/it, loss=0.00888]\u001b[A\n"," 98%|█████████▊| 353/360 [2:46:52<03:19, 28.49s/it, loss=0.00888]\u001b[A\n"," 98%|█████████▊| 353/360 [2:47:20<03:19, 28.49s/it, loss=0.00334]\u001b[A\n"," 98%|█████████▊| 354/360 [2:47:20<02:50, 28.46s/it, loss=0.00334]\u001b[A\n"," 98%|█████████▊| 354/360 [2:47:49<02:50, 28.46s/it, loss=0.00562]\u001b[A\n"," 99%|█████████▊| 355/360 [2:47:49<02:23, 28.61s/it, loss=0.00562]\u001b[A\n"," 99%|█████████▊| 355/360 [2:48:17<02:23, 28.61s/it, loss=0.00424]\u001b[A\n"," 99%|█████████▉| 356/360 [2:48:17<01:53, 28.40s/it, loss=0.00424]\u001b[A\n"," 99%|█████████▉| 356/360 [2:48:47<01:53, 28.40s/it, loss=0.0202] \u001b[A\n"," 99%|█████████▉| 357/360 [2:48:47<01:26, 28.93s/it, loss=0.0202]\u001b[A\n"," 99%|█████████▉| 357/360 [2:49:14<01:26, 28.93s/it, loss=0.0115]\u001b[A\n"," 99%|█████████▉| 358/360 [2:49:14<00:56, 28.19s/it, loss=0.0115]\u001b[A\n"," 99%|█████████▉| 358/360 [2:49:42<00:56, 28.19s/it, loss=0.00844]\u001b[A\n","100%|█████████▉| 359/360 [2:49:42<00:28, 28.23s/it, loss=0.00844]\u001b[A\n","100%|█████████▉| 359/360 [2:50:09<00:28, 28.23s/it, loss=0.00842]\u001b[A\n","100%|██████████| 360/360 [2:50:09<00:00, 27.85s/it, loss=0.00842]\u001b[A\n","                                                                 \u001b[A\n","  0%|          | 0/73 [00:00<?, ?it/s]\u001b[A\n","  1%|▏         | 1/73 [00:07<08:27,  7.05s/it]\u001b[A\n","  3%|▎         | 2/73 [00:13<07:45,  6.55s/it]\u001b[A\n","  4%|▍         | 3/73 [00:19<07:24,  6.34s/it]\u001b[A\n","  5%|▌         | 4/73 [00:26<07:38,  6.64s/it]\u001b[A\n","  7%|▋         | 5/73 [00:32<07:19,  6.46s/it]\u001b[A\n","  8%|▊         | 6/73 [00:39<07:25,  6.65s/it]\u001b[A\n"," 10%|▉         | 7/73 [00:46<07:25,  6.74s/it]\u001b[A\n"," 11%|█         | 8/73 [00:53<07:19,  6.77s/it]\u001b[A\n"," 12%|█▏        | 9/73 [01:00<07:11,  6.74s/it]\u001b[A\n"," 14%|█▎        | 10/73 [01:06<07:07,  6.78s/it]\u001b[A\n"," 15%|█▌        | 11/73 [01:16<07:47,  7.55s/it]\u001b[A\n"," 16%|█▋        | 12/73 [01:22<07:13,  7.11s/it]\u001b[A\n"," 18%|█▊        | 13/73 [01:28<06:53,  6.89s/it]\u001b[A\n"," 19%|█▉        | 14/73 [01:37<07:12,  7.33s/it]\u001b[A\n"," 21%|██        | 15/73 [01:46<07:41,  7.95s/it]\u001b[A\n"," 22%|██▏       | 16/73 [01:52<07:04,  7.44s/it]\u001b[A\n"," 23%|██▎       | 17/73 [01:59<06:41,  7.17s/it]\u001b[A\n"," 25%|██▍       | 18/73 [02:05<06:22,  6.96s/it]\u001b[A\n"," 26%|██▌       | 19/73 [02:11<06:01,  6.69s/it]\u001b[A\n"," 27%|██▋       | 20/73 [02:20<06:26,  7.30s/it]\u001b[A\n"," 29%|██▉       | 21/73 [02:27<06:09,  7.11s/it]\u001b[A\n"," 30%|███       | 22/73 [02:36<06:39,  7.82s/it]\u001b[A\n"," 32%|███▏      | 23/73 [02:43<06:10,  7.41s/it]\u001b[A\n"," 33%|███▎      | 24/73 [02:49<05:45,  7.05s/it]\u001b[A\n"," 34%|███▍      | 25/73 [02:55<05:32,  6.93s/it]\u001b[A\n"," 36%|███▌      | 26/73 [03:02<05:15,  6.71s/it]\u001b[A\n"," 37%|███▋      | 27/73 [03:08<05:05,  6.63s/it]\u001b[A\n"," 38%|███▊      | 28/73 [03:14<04:43,  6.30s/it]\u001b[A\n"," 40%|███▉      | 29/73 [03:22<05:10,  7.07s/it]\u001b[A\n"," 41%|████      | 30/73 [03:28<04:49,  6.74s/it]\u001b[A\n"," 42%|████▏     | 31/73 [03:37<05:05,  7.28s/it]\u001b[A\n"," 44%|████▍     | 32/73 [03:46<05:21,  7.85s/it]\u001b[A\n"," 45%|████▌     | 33/73 [03:55<05:26,  8.17s/it]\u001b[A\n"," 47%|████▋     | 34/73 [04:01<04:57,  7.63s/it]\u001b[A\n"," 48%|████▊     | 35/73 [04:08<04:38,  7.32s/it]\u001b[A\n"," 49%|████▉     | 36/73 [04:15<04:21,  7.07s/it]\u001b[A\n"," 51%|█████     | 37/73 [04:21<04:13,  7.03s/it]\u001b[A\n"," 52%|█████▏    | 38/73 [04:28<04:00,  6.86s/it]\u001b[A\n"," 53%|█████▎    | 39/73 [04:35<03:52,  6.84s/it]\u001b[A\n"," 55%|█████▍    | 40/73 [04:44<04:07,  7.49s/it]\u001b[A\n"," 56%|█████▌    | 41/73 [04:52<04:09,  7.80s/it]\u001b[A\n"," 58%|█████▊    | 42/73 [05:01<04:10,  8.09s/it]\u001b[A\n"," 59%|█████▉    | 43/73 [05:11<04:15,  8.52s/it]\u001b[A\n"," 60%|██████    | 44/73 [05:16<03:43,  7.70s/it]\u001b[A\n"," 62%|██████▏   | 45/73 [05:23<03:24,  7.31s/it]\u001b[A\n"," 63%|██████▎   | 46/73 [05:28<03:04,  6.85s/it]\u001b[A\n"," 64%|██████▍   | 47/73 [05:35<02:54,  6.70s/it]\u001b[A\n"," 66%|██████▌   | 48/73 [05:43<02:56,  7.05s/it]\u001b[A\n"," 67%|██████▋   | 49/73 [05:52<03:03,  7.63s/it]\u001b[A\n"," 68%|██████▊   | 50/73 [05:58<02:43,  7.13s/it]\u001b[A\n"," 70%|██████▉   | 51/73 [06:07<02:51,  7.80s/it]\u001b[A\n"," 71%|███████   | 52/73 [06:13<02:31,  7.22s/it]\u001b[A\n"," 73%|███████▎  | 53/73 [06:23<02:40,  8.02s/it]\u001b[A\n"," 74%|███████▍  | 54/73 [06:32<02:37,  8.29s/it]\u001b[A\n"," 75%|███████▌  | 55/73 [06:38<02:16,  7.61s/it]\u001b[A\n"," 77%|███████▋  | 56/73 [06:44<02:04,  7.30s/it]\u001b[A\n"," 78%|███████▊  | 57/73 [06:53<02:03,  7.72s/it]\u001b[A\n"," 79%|███████▉  | 58/73 [06:59<01:48,  7.27s/it]\u001b[A\n"," 81%|████████  | 59/73 [07:08<01:48,  7.72s/it]\u001b[A\n"," 82%|████████▏ | 60/73 [07:16<01:41,  7.80s/it]\u001b[A\n"," 84%|████████▎ | 61/73 [07:25<01:36,  8.05s/it]\u001b[A\n"," 85%|████████▍ | 62/73 [07:31<01:23,  7.59s/it]\u001b[A\n"," 86%|████████▋ | 63/73 [07:39<01:17,  7.77s/it]\u001b[A\n"," 88%|████████▊ | 64/73 [07:46<01:06,  7.36s/it]\u001b[A\n"," 89%|████████▉ | 65/73 [07:52<00:56,  7.12s/it]\u001b[A\n"," 90%|█████████ | 66/73 [07:59<00:48,  6.86s/it]\u001b[A\n"," 92%|█████████▏| 67/73 [08:07<00:44,  7.46s/it]\u001b[A\n"," 93%|█████████▎| 68/73 [08:13<00:34,  6.97s/it]\u001b[A\n"," 95%|█████████▍| 69/73 [08:20<00:27,  6.80s/it]\u001b[A\n"," 96%|█████████▌| 70/73 [08:26<00:19,  6.53s/it]\u001b[A\n"," 97%|█████████▋| 71/73 [08:34<00:14,  7.20s/it]\u001b[A\n"," 99%|█████████▊| 72/73 [08:42<00:07,  7.50s/it]\u001b[A\n","100%|██████████| 73/73 [08:43<00:00,  5.36s/it]\u001b[A\n"," 40%|████      | 2/5 [5:56:49<8:55:32, 10710.75s/it] "]},{"name":"stdout","output_type":"stream","text":["0.9609544468546638\n"]},{"name":"stderr","output_type":"stream","text":["\n","  0%|          | 0/360 [00:00<?, ?it/s]\u001b[A\n","  0%|          | 0/360 [00:37<?, ?it/s, loss=0.00527]\u001b[A\n","  0%|          | 1/360 [00:37<3:41:28, 37.01s/it, loss=0.00527]\u001b[A\n","  0%|          | 1/360 [01:09<3:41:28, 37.01s/it, loss=0.0064] \u001b[A\n","  1%|          | 2/360 [01:09<3:25:18, 34.41s/it, loss=0.0064]\u001b[A\n","  1%|          | 2/360 [01:41<3:25:18, 34.41s/it, loss=0.00721]\u001b[A\n","  1%|          | 3/360 [01:41<3:17:08, 33.13s/it, loss=0.00721]\u001b[A\n","  1%|          | 3/360 [02:10<3:17:08, 33.13s/it, loss=0.00456]\u001b[A\n","  1%|          | 4/360 [02:10<3:06:55, 31.51s/it, loss=0.00456]\u001b[A\n","  1%|          | 4/360 [02:46<3:06:55, 31.51s/it, loss=0.013]  \u001b[A\n","  1%|▏         | 5/360 [02:46<3:16:11, 33.16s/it, loss=0.013]\u001b[A\n","  1%|▏         | 5/360 [03:21<3:16:11, 33.16s/it, loss=0.0057]\u001b[A\n","  2%|▏         | 6/360 [03:21<3:19:33, 33.82s/it, loss=0.0057]\u001b[A\n","  2%|▏         | 6/360 [03:47<3:19:33, 33.82s/it, loss=0.0146]\u001b[A\n","  2%|▏         | 7/360 [03:47<3:04:54, 31.43s/it, loss=0.0146]\u001b[A\n","  2%|▏         | 7/360 [04:25<3:04:54, 31.43s/it, loss=0.0162]\u001b[A\n","  2%|▏         | 8/360 [04:25<3:15:25, 33.31s/it, loss=0.0162]\u001b[A\n","  2%|▏         | 8/360 [04:51<3:15:25, 33.31s/it, loss=0.00837]\u001b[A\n","  2%|▎         | 9/360 [04:51<3:02:24, 31.18s/it, loss=0.00837]\u001b[A\n","  2%|▎         | 9/360 [05:18<3:02:24, 31.18s/it, loss=0.00309]\u001b[A\n","  3%|▎         | 10/360 [05:18<2:54:29, 29.91s/it, loss=0.00309]\u001b[A\n","  3%|▎         | 10/360 [05:46<2:54:29, 29.91s/it, loss=0.00188]\u001b[A\n","  3%|▎         | 11/360 [05:46<2:50:48, 29.37s/it, loss=0.00188]\u001b[A\n","  3%|▎         | 11/360 [06:15<2:50:48, 29.37s/it, loss=0.0137] \u001b[A\n","  3%|▎         | 12/360 [06:15<2:48:24, 29.04s/it, loss=0.0137]\u001b[A\n","  3%|▎         | 12/360 [06:43<2:48:24, 29.04s/it, loss=0.00638]\u001b[A\n","  4%|▎         | 13/360 [06:43<2:46:37, 28.81s/it, loss=0.00638]\u001b[A\n","  4%|▎         | 13/360 [07:12<2:46:37, 28.81s/it, loss=0.0019] \u001b[A\n","  4%|▍         | 14/360 [07:12<2:45:47, 28.75s/it, loss=0.0019]\u001b[A\n","  4%|▍         | 14/360 [07:41<2:45:47, 28.75s/it, loss=0.00359]\u001b[A\n","  4%|▍         | 15/360 [07:41<2:46:38, 28.98s/it, loss=0.00359]\u001b[A\n","  4%|▍         | 15/360 [08:13<2:46:38, 28.98s/it, loss=0.00451]\u001b[A\n","  4%|▍         | 16/360 [08:13<2:50:49, 29.79s/it, loss=0.00451]\u001b[A\n","  4%|▍         | 16/360 [08:42<2:50:49, 29.79s/it, loss=0.0121] \u001b[A\n","  5%|▍         | 17/360 [08:42<2:49:15, 29.61s/it, loss=0.0121]\u001b[A\n","  5%|▍         | 17/360 [09:18<2:49:15, 29.61s/it, loss=0.00729]\u001b[A\n","  5%|▌         | 18/360 [09:18<2:59:33, 31.50s/it, loss=0.00729]\u001b[A\n","  5%|▌         | 18/360 [09:49<2:59:33, 31.50s/it, loss=0.00726]\u001b[A\n","  5%|▌         | 19/360 [09:49<2:58:47, 31.46s/it, loss=0.00726]\u001b[A\n","  5%|▌         | 19/360 [10:17<2:58:47, 31.46s/it, loss=0.00287]\u001b[A\n","  6%|▌         | 20/360 [10:17<2:52:17, 30.40s/it, loss=0.00287]\u001b[A\n","  6%|▌         | 20/360 [10:44<2:52:17, 30.40s/it, loss=0.0056] \u001b[A\n","  6%|▌         | 21/360 [10:44<2:44:59, 29.20s/it, loss=0.0056]\u001b[A\n","  6%|▌         | 21/360 [11:11<2:44:59, 29.20s/it, loss=0.0125]\u001b[A\n","  6%|▌         | 22/360 [11:11<2:42:04, 28.77s/it, loss=0.0125]\u001b[A\n","  6%|▌         | 22/360 [11:40<2:42:04, 28.77s/it, loss=0.0118]\u001b[A\n","  6%|▋         | 23/360 [11:40<2:42:05, 28.86s/it, loss=0.0118]\u001b[A\n","  6%|▋         | 23/360 [12:08<2:42:05, 28.86s/it, loss=0.00774]\u001b[A\n","  7%|▋         | 24/360 [12:08<2:38:55, 28.38s/it, loss=0.00774]\u001b[A\n","  7%|▋         | 24/360 [12:35<2:38:55, 28.38s/it, loss=0.0041] \u001b[A\n","  7%|▋         | 25/360 [12:35<2:35:45, 27.90s/it, loss=0.0041]\u001b[A\n","  7%|▋         | 25/360 [13:01<2:35:45, 27.90s/it, loss=0.00625]\u001b[A\n","  7%|▋         | 26/360 [13:01<2:32:45, 27.44s/it, loss=0.00625]\u001b[A\n","  7%|▋         | 26/360 [13:38<2:32:45, 27.44s/it, loss=0.0109] \u001b[A\n","  8%|▊         | 27/360 [13:38<2:48:49, 30.42s/it, loss=0.0109]\u001b[A\n","  8%|▊         | 27/360 [14:06<2:48:49, 30.42s/it, loss=0.00437]\u001b[A\n","  8%|▊         | 28/360 [14:06<2:44:34, 29.74s/it, loss=0.00437]\u001b[A\n","  8%|▊         | 28/360 [14:33<2:44:34, 29.74s/it, loss=0.00558]\u001b[A\n","  8%|▊         | 29/360 [14:33<2:38:57, 28.81s/it, loss=0.00558]\u001b[A\n","  8%|▊         | 29/360 [15:02<2:38:57, 28.81s/it, loss=0.0136] \u001b[A\n","  8%|▊         | 30/360 [15:02<2:37:58, 28.72s/it, loss=0.0136]\u001b[A\n","  8%|▊         | 30/360 [15:29<2:37:58, 28.72s/it, loss=0.0057]\u001b[A\n","  9%|▊         | 31/360 [15:29<2:36:00, 28.45s/it, loss=0.0057]\u001b[A\n","  9%|▊         | 31/360 [15:57<2:36:00, 28.45s/it, loss=0.00573]\u001b[A\n","  9%|▉         | 32/360 [15:57<2:33:23, 28.06s/it, loss=0.00573]\u001b[A\n","  9%|▉         | 32/360 [16:24<2:33:23, 28.06s/it, loss=0.011]  \u001b[A\n","  9%|▉         | 33/360 [16:24<2:32:15, 27.94s/it, loss=0.011]\u001b[A\n","  9%|▉         | 33/360 [16:52<2:32:15, 27.94s/it, loss=0.00757]\u001b[A\n","  9%|▉         | 34/360 [16:52<2:31:16, 27.84s/it, loss=0.00757]\u001b[A\n","  9%|▉         | 34/360 [17:19<2:31:16, 27.84s/it, loss=0.0143] \u001b[A\n"," 10%|▉         | 35/360 [17:19<2:29:19, 27.57s/it, loss=0.0143]\u001b[A\n"," 10%|▉         | 35/360 [17:48<2:29:19, 27.57s/it, loss=0.0067]\u001b[A\n"," 10%|█         | 36/360 [17:48<2:31:12, 28.00s/it, loss=0.0067]\u001b[A\n"," 10%|█         | 36/360 [18:16<2:31:12, 28.00s/it, loss=0.00653]\u001b[A\n"," 10%|█         | 37/360 [18:16<2:31:27, 28.13s/it, loss=0.00653]\u001b[A\n"," 10%|█         | 37/360 [18:41<2:31:27, 28.13s/it, loss=0.00607]\u001b[A\n"," 11%|█         | 38/360 [18:41<2:25:33, 27.12s/it, loss=0.00607]\u001b[A\n"," 11%|█         | 38/360 [19:11<2:25:33, 27.12s/it, loss=0.00972]\u001b[A\n"," 11%|█         | 39/360 [19:11<2:29:29, 27.94s/it, loss=0.00972]\u001b[A\n"," 11%|█         | 39/360 [19:41<2:29:29, 27.94s/it, loss=0.00458]\u001b[A\n"," 11%|█         | 40/360 [19:41<2:32:31, 28.60s/it, loss=0.00458]\u001b[A\n"," 11%|█         | 40/360 [20:11<2:32:31, 28.60s/it, loss=0.00818]\u001b[A\n"," 11%|█▏        | 41/360 [20:11<2:34:55, 29.14s/it, loss=0.00818]\u001b[A\n"," 11%|█▏        | 41/360 [20:40<2:34:55, 29.14s/it, loss=0.00455]\u001b[A\n"," 12%|█▏        | 42/360 [20:40<2:33:32, 28.97s/it, loss=0.00455]\u001b[A\n"," 12%|█▏        | 42/360 [21:06<2:33:32, 28.97s/it, loss=0.0107] \u001b[A\n"," 12%|█▏        | 43/360 [21:06<2:29:14, 28.25s/it, loss=0.0107]\u001b[A\n"," 12%|█▏        | 43/360 [21:33<2:29:14, 28.25s/it, loss=0.0114]\u001b[A\n"," 12%|█▏        | 44/360 [21:33<2:26:43, 27.86s/it, loss=0.0114]\u001b[A\n"," 12%|█▏        | 44/360 [22:00<2:26:43, 27.86s/it, loss=0.0086]\u001b[A\n"," 12%|█▎        | 45/360 [22:00<2:24:01, 27.43s/it, loss=0.0086]\u001b[A\n"," 12%|█▎        | 45/360 [22:26<2:24:01, 27.43s/it, loss=0.00847]\u001b[A\n"," 13%|█▎        | 46/360 [22:26<2:21:50, 27.10s/it, loss=0.00847]\u001b[A\n"," 13%|█▎        | 46/360 [22:55<2:21:50, 27.10s/it, loss=0.00545]\u001b[A\n"," 13%|█▎        | 47/360 [22:55<2:24:43, 27.74s/it, loss=0.00545]\u001b[A\n"," 13%|█▎        | 47/360 [23:24<2:24:43, 27.74s/it, loss=0.0028] \u001b[A\n"," 13%|█▎        | 48/360 [23:24<2:25:20, 27.95s/it, loss=0.0028]\u001b[A\n"," 13%|█▎        | 48/360 [23:50<2:25:20, 27.95s/it, loss=0.0105]\u001b[A\n"," 14%|█▎        | 49/360 [23:50<2:22:29, 27.49s/it, loss=0.0105]\u001b[A\n"," 14%|█▎        | 49/360 [24:17<2:22:29, 27.49s/it, loss=0.0191]\u001b[A\n"," 14%|█▍        | 50/360 [24:17<2:21:01, 27.30s/it, loss=0.0191]\u001b[A\n"," 14%|█▍        | 50/360 [24:45<2:21:01, 27.30s/it, loss=0.00524]\u001b[A\n"," 14%|█▍        | 51/360 [24:45<2:20:53, 27.36s/it, loss=0.00524]\u001b[A\n"," 14%|█▍        | 51/360 [25:14<2:20:53, 27.36s/it, loss=0.00438]\u001b[A\n"," 14%|█▍        | 52/360 [25:14<2:23:42, 27.99s/it, loss=0.00438]\u001b[A\n"," 14%|█▍        | 52/360 [25:41<2:23:42, 27.99s/it, loss=0.0051] \u001b[A\n"," 15%|█▍        | 53/360 [25:41<2:20:48, 27.52s/it, loss=0.0051]\u001b[A\n"," 15%|█▍        | 53/360 [26:07<2:20:48, 27.52s/it, loss=0.015] \u001b[A\n"," 15%|█▌        | 54/360 [26:07<2:19:23, 27.33s/it, loss=0.015]\u001b[A\n"," 15%|█▌        | 54/360 [26:36<2:19:23, 27.33s/it, loss=0.0102]\u001b[A\n"," 15%|█▌        | 55/360 [26:36<2:20:18, 27.60s/it, loss=0.0102]\u001b[A\n"," 15%|█▌        | 55/360 [27:04<2:20:18, 27.60s/it, loss=0.00649]\u001b[A\n"," 16%|█▌        | 56/360 [27:04<2:21:15, 27.88s/it, loss=0.00649]\u001b[A\n"," 16%|█▌        | 56/360 [27:33<2:21:15, 27.88s/it, loss=0.00663]\u001b[A\n"," 16%|█▌        | 57/360 [27:33<2:21:36, 28.04s/it, loss=0.00663]\u001b[A\n"," 16%|█▌        | 57/360 [28:01<2:21:36, 28.04s/it, loss=0.00668]\u001b[A\n"," 16%|█▌        | 58/360 [28:01<2:21:09, 28.04s/it, loss=0.00668]\u001b[A\n"," 16%|█▌        | 58/360 [28:28<2:21:09, 28.04s/it, loss=0.00783]\u001b[A\n"," 16%|█▋        | 59/360 [28:28<2:20:02, 27.92s/it, loss=0.00783]\u001b[A\n"," 16%|█▋        | 59/360 [28:58<2:20:02, 27.92s/it, loss=0.0111] \u001b[A\n"," 17%|█▋        | 60/360 [28:58<2:21:37, 28.33s/it, loss=0.0111]\u001b[A\n"," 17%|█▋        | 60/360 [29:28<2:21:37, 28.33s/it, loss=0.00524]\u001b[A\n"," 17%|█▋        | 61/360 [29:28<2:23:56, 28.88s/it, loss=0.00524]\u001b[A\n"," 17%|█▋        | 61/360 [29:58<2:23:56, 28.88s/it, loss=0.00504]\u001b[A\n"," 17%|█▋        | 62/360 [29:58<2:25:59, 29.40s/it, loss=0.00504]\u001b[A\n"," 17%|█▋        | 62/360 [30:25<2:25:59, 29.40s/it, loss=0.00633]\u001b[A\n"," 18%|█▊        | 63/360 [30:25<2:21:33, 28.60s/it, loss=0.00633]\u001b[A\n"," 18%|█▊        | 63/360 [30:53<2:21:33, 28.60s/it, loss=0.00618]\u001b[A\n"," 18%|█▊        | 64/360 [30:53<2:19:49, 28.34s/it, loss=0.00618]\u001b[A\n"," 18%|█▊        | 64/360 [31:19<2:19:49, 28.34s/it, loss=0.00757]\u001b[A\n"," 18%|█▊        | 65/360 [31:19<2:16:47, 27.82s/it, loss=0.00757]\u001b[A\n"," 18%|█▊        | 65/360 [31:48<2:16:47, 27.82s/it, loss=0.012]  \u001b[A\n"," 18%|█▊        | 66/360 [31:48<2:16:51, 27.93s/it, loss=0.012]\u001b[A\n"," 18%|█▊        | 66/360 [32:19<2:16:51, 27.93s/it, loss=0.00958]\u001b[A\n"," 19%|█▊        | 67/360 [32:19<2:21:03, 28.89s/it, loss=0.00958]\u001b[A\n"," 19%|█▊        | 67/360 [32:46<2:21:03, 28.89s/it, loss=0.00579]\u001b[A\n"," 19%|█▉        | 68/360 [32:46<2:18:03, 28.37s/it, loss=0.00579]\u001b[A\n"," 19%|█▉        | 68/360 [33:12<2:18:03, 28.37s/it, loss=0.00859]\u001b[A\n"," 19%|█▉        | 69/360 [33:12<2:13:49, 27.59s/it, loss=0.00859]\u001b[A\n"," 19%|█▉        | 69/360 [33:48<2:13:49, 27.59s/it, loss=0.0116] \u001b[A\n"," 19%|█▉        | 70/360 [33:48<2:25:19, 30.07s/it, loss=0.0116]\u001b[A\n"," 19%|█▉        | 70/360 [34:13<2:25:19, 30.07s/it, loss=0.00753]\u001b[A\n"," 20%|█▉        | 71/360 [34:13<2:18:43, 28.80s/it, loss=0.00753]\u001b[A\n"," 20%|█▉        | 71/360 [34:41<2:18:43, 28.80s/it, loss=0.00692]\u001b[A\n"," 20%|██        | 72/360 [34:41<2:16:01, 28.34s/it, loss=0.00692]\u001b[A\n"," 20%|██        | 72/360 [35:08<2:16:01, 28.34s/it, loss=0.00935]\u001b[A\n"," 20%|██        | 73/360 [35:08<2:14:23, 28.10s/it, loss=0.00935]\u001b[A\n"," 20%|██        | 73/360 [35:36<2:14:23, 28.10s/it, loss=0.00402]\u001b[A\n"," 21%|██        | 74/360 [35:36<2:13:09, 27.94s/it, loss=0.00402]\u001b[A\n"," 21%|██        | 74/360 [36:05<2:13:09, 27.94s/it, loss=0.00742]\u001b[A\n"," 21%|██        | 75/360 [36:05<2:14:43, 28.36s/it, loss=0.00742]\u001b[A\n"," 21%|██        | 75/360 [36:35<2:14:43, 28.36s/it, loss=0.0106] \u001b[A\n"," 21%|██        | 76/360 [36:35<2:17:10, 28.98s/it, loss=0.0106]\u001b[A\n"," 21%|██        | 76/360 [37:06<2:17:10, 28.98s/it, loss=0.00702]\u001b[A\n"," 21%|██▏       | 77/360 [37:06<2:18:39, 29.40s/it, loss=0.00702]\u001b[A\n"," 21%|██▏       | 77/360 [37:35<2:18:39, 29.40s/it, loss=0.0118] \u001b[A\n"," 22%|██▏       | 78/360 [37:35<2:17:15, 29.20s/it, loss=0.0118]\u001b[A\n"," 22%|██▏       | 78/360 [38:01<2:17:15, 29.20s/it, loss=0.0135]\u001b[A\n"," 22%|██▏       | 79/360 [38:01<2:12:45, 28.35s/it, loss=0.0135]\u001b[A\n"," 22%|██▏       | 79/360 [38:29<2:12:45, 28.35s/it, loss=0.00428]\u001b[A\n"," 22%|██▏       | 80/360 [38:29<2:11:20, 28.14s/it, loss=0.00428]\u001b[A\n"," 22%|██▏       | 80/360 [38:58<2:11:20, 28.14s/it, loss=0.00729]\u001b[A\n"," 22%|██▎       | 81/360 [38:58<2:12:52, 28.57s/it, loss=0.00729]\u001b[A\n"," 22%|██▎       | 81/360 [39:24<2:12:52, 28.57s/it, loss=0.00281]\u001b[A\n"," 23%|██▎       | 82/360 [39:24<2:08:34, 27.75s/it, loss=0.00281]\u001b[A\n"," 23%|██▎       | 82/360 [39:52<2:08:34, 27.75s/it, loss=0.00298]\u001b[A\n"," 23%|██▎       | 83/360 [39:52<2:08:31, 27.84s/it, loss=0.00298]\u001b[A\n"," 23%|██▎       | 83/360 [40:22<2:08:31, 27.84s/it, loss=0.0116] \u001b[A\n"," 23%|██▎       | 84/360 [40:22<2:10:32, 28.38s/it, loss=0.0116]\u001b[A\n"," 23%|██▎       | 84/360 [40:52<2:10:32, 28.38s/it, loss=0.0115]\u001b[A\n"," 24%|██▎       | 85/360 [40:52<2:12:20, 28.87s/it, loss=0.0115]\u001b[A\n"," 24%|██▎       | 85/360 [41:21<2:12:20, 28.87s/it, loss=0.00861]\u001b[A\n"," 24%|██▍       | 86/360 [41:21<2:12:44, 29.07s/it, loss=0.00861]\u001b[A\n"," 24%|██▍       | 86/360 [41:47<2:12:44, 29.07s/it, loss=0.00898]\u001b[A\n"," 24%|██▍       | 87/360 [41:47<2:07:21, 27.99s/it, loss=0.00898]\u001b[A\n"," 24%|██▍       | 87/360 [42:17<2:07:21, 27.99s/it, loss=0.00996]\u001b[A\n"," 24%|██▍       | 88/360 [42:17<2:09:45, 28.62s/it, loss=0.00996]\u001b[A\n"," 24%|██▍       | 88/360 [42:46<2:09:45, 28.62s/it, loss=0.00667]\u001b[A\n"," 25%|██▍       | 89/360 [42:46<2:10:36, 28.92s/it, loss=0.00667]\u001b[A\n"," 25%|██▍       | 89/360 [43:15<2:10:36, 28.92s/it, loss=0.00585]\u001b[A\n"," 25%|██▌       | 90/360 [43:15<2:09:37, 28.81s/it, loss=0.00585]\u001b[A\n"," 25%|██▌       | 90/360 [43:42<2:09:37, 28.81s/it, loss=0.00689]\u001b[A\n"," 25%|██▌       | 91/360 [43:42<2:06:10, 28.14s/it, loss=0.00689]\u001b[A\n"," 25%|██▌       | 91/360 [44:09<2:06:10, 28.14s/it, loss=0.00308]\u001b[A\n"," 26%|██▌       | 92/360 [44:09<2:04:28, 27.87s/it, loss=0.00308]\u001b[A\n"," 26%|██▌       | 92/360 [44:35<2:04:28, 27.87s/it, loss=0.00521]\u001b[A\n"," 26%|██▌       | 93/360 [44:35<2:02:17, 27.48s/it, loss=0.00521]\u001b[A\n"," 26%|██▌       | 93/360 [45:04<2:02:17, 27.48s/it, loss=0.00775]\u001b[A\n"," 26%|██▌       | 94/360 [45:04<2:02:49, 27.70s/it, loss=0.00775]\u001b[A\n"," 26%|██▌       | 94/360 [45:32<2:02:49, 27.70s/it, loss=0.00243]\u001b[A\n"," 26%|██▋       | 95/360 [45:32<2:02:52, 27.82s/it, loss=0.00243]\u001b[A\n"," 26%|██▋       | 95/360 [45:59<2:02:52, 27.82s/it, loss=0.00462]\u001b[A\n"," 27%|██▋       | 96/360 [45:59<2:02:13, 27.78s/it, loss=0.00462]\u001b[A\n"," 27%|██▋       | 96/360 [46:28<2:02:13, 27.78s/it, loss=0.00631]\u001b[A\n"," 27%|██▋       | 97/360 [46:28<2:03:24, 28.16s/it, loss=0.00631]\u001b[A\n"," 27%|██▋       | 97/360 [46:57<2:03:24, 28.16s/it, loss=0.00583]\u001b[A\n"," 27%|██▋       | 98/360 [46:57<2:03:30, 28.28s/it, loss=0.00583]\u001b[A\n"," 27%|██▋       | 98/360 [47:27<2:03:30, 28.28s/it, loss=0.00621]\u001b[A\n"," 28%|██▊       | 99/360 [47:27<2:05:44, 28.91s/it, loss=0.00621]\u001b[A\n"," 28%|██▊       | 99/360 [47:55<2:05:44, 28.91s/it, loss=0.00329]\u001b[A\n"," 28%|██▊       | 100/360 [47:55<2:03:15, 28.44s/it, loss=0.00329]\u001b[A\n"," 28%|██▊       | 100/360 [48:22<2:03:15, 28.44s/it, loss=0.0041] \u001b[A\n"," 28%|██▊       | 101/360 [48:22<2:01:22, 28.12s/it, loss=0.0041]\u001b[A\n"," 28%|██▊       | 101/360 [48:49<2:01:22, 28.12s/it, loss=0.00737]\u001b[A\n"," 28%|██▊       | 102/360 [48:49<1:59:44, 27.85s/it, loss=0.00737]\u001b[A\n"," 28%|██▊       | 102/360 [49:17<1:59:44, 27.85s/it, loss=0.00645]\u001b[A\n"," 29%|██▊       | 103/360 [49:17<1:59:03, 27.80s/it, loss=0.00645]\u001b[A\n"," 29%|██▊       | 103/360 [49:44<1:59:03, 27.80s/it, loss=0.00598]\u001b[A\n"," 29%|██▉       | 104/360 [49:44<1:57:04, 27.44s/it, loss=0.00598]\u001b[A\n"," 29%|██▉       | 104/360 [50:19<1:57:04, 27.44s/it, loss=0.00685]\u001b[A\n"," 29%|██▉       | 105/360 [50:19<2:06:54, 29.86s/it, loss=0.00685]\u001b[A\n"," 29%|██▉       | 105/360 [50:49<2:06:54, 29.86s/it, loss=0.0066] \u001b[A\n"," 29%|██▉       | 106/360 [50:49<2:06:03, 29.78s/it, loss=0.0066]\u001b[A\n"," 29%|██▉       | 106/360 [51:16<2:06:03, 29.78s/it, loss=0.00348]\u001b[A\n"," 30%|██▉       | 107/360 [51:16<2:02:53, 29.15s/it, loss=0.00348]\u001b[A\n"," 30%|██▉       | 107/360 [51:45<2:02:53, 29.15s/it, loss=0.00772]\u001b[A\n"," 30%|███       | 108/360 [51:45<2:01:13, 28.86s/it, loss=0.00772]\u001b[A\n"," 30%|███       | 108/360 [52:11<2:01:13, 28.86s/it, loss=0.0087] \u001b[A\n"," 30%|███       | 109/360 [52:11<1:58:16, 28.27s/it, loss=0.0087]\u001b[A\n"," 30%|███       | 109/360 [52:40<1:58:16, 28.27s/it, loss=0.0114]\u001b[A\n"," 31%|███       | 110/360 [52:40<1:57:36, 28.23s/it, loss=0.0114]\u001b[A\n"," 31%|███       | 110/360 [53:05<1:57:36, 28.23s/it, loss=0.00663]\u001b[A\n"," 31%|███       | 111/360 [53:05<1:53:41, 27.40s/it, loss=0.00663]\u001b[A\n"," 31%|███       | 111/360 [53:33<1:53:41, 27.40s/it, loss=0.00502]\u001b[A\n"," 31%|███       | 112/360 [53:33<1:54:27, 27.69s/it, loss=0.00502]\u001b[A\n"," 31%|███       | 112/360 [54:02<1:54:27, 27.69s/it, loss=0.00523]\u001b[A\n"," 31%|███▏      | 113/360 [54:02<1:55:38, 28.09s/it, loss=0.00523]\u001b[A\n"," 31%|███▏      | 113/360 [54:38<1:55:38, 28.09s/it, loss=0.00402]\u001b[A\n"," 32%|███▏      | 114/360 [54:38<2:04:03, 30.26s/it, loss=0.00402]\u001b[A\n"," 32%|███▏      | 114/360 [55:07<2:04:03, 30.26s/it, loss=0.00393]\u001b[A\n"," 32%|███▏      | 115/360 [55:07<2:02:22, 29.97s/it, loss=0.00393]\u001b[A\n"," 32%|███▏      | 115/360 [55:35<2:02:22, 29.97s/it, loss=0.0109] \u001b[A\n"," 32%|███▏      | 116/360 [55:35<1:58:50, 29.23s/it, loss=0.0109]\u001b[A\n"," 32%|███▏      | 116/360 [56:04<1:58:50, 29.23s/it, loss=0.00523]\u001b[A\n"," 32%|███▎      | 117/360 [56:04<1:59:00, 29.39s/it, loss=0.00523]\u001b[A\n"," 32%|███▎      | 117/360 [56:33<1:59:00, 29.39s/it, loss=0.00873]\u001b[A\n"," 33%|███▎      | 118/360 [56:33<1:57:14, 29.07s/it, loss=0.00873]\u001b[A\n"," 33%|███▎      | 118/360 [57:01<1:57:14, 29.07s/it, loss=0.00668]\u001b[A\n"," 33%|███▎      | 119/360 [57:01<1:56:03, 28.89s/it, loss=0.00668]\u001b[A\n"," 33%|███▎      | 119/360 [57:31<1:56:03, 28.89s/it, loss=0.00998]\u001b[A\n"," 33%|███▎      | 120/360 [57:31<1:56:11, 29.05s/it, loss=0.00998]\u001b[A\n"," 33%|███▎      | 120/360 [57:58<1:56:11, 29.05s/it, loss=0.00923]\u001b[A\n"," 34%|███▎      | 121/360 [57:58<1:54:21, 28.71s/it, loss=0.00923]\u001b[A\n"," 34%|███▎      | 121/360 [58:28<1:54:21, 28.71s/it, loss=0.0107] \u001b[A\n"," 34%|███▍      | 122/360 [58:28<1:54:26, 28.85s/it, loss=0.0107]\u001b[A\n"," 34%|███▍      | 122/360 [58:56<1:54:26, 28.85s/it, loss=0.00781]\u001b[A\n"," 34%|███▍      | 123/360 [58:56<1:53:44, 28.79s/it, loss=0.00781]\u001b[A\n"," 34%|███▍      | 123/360 [59:23<1:53:44, 28.79s/it, loss=0.00751]\u001b[A\n"," 34%|███▍      | 124/360 [59:23<1:50:32, 28.11s/it, loss=0.00751]\u001b[A\n"," 34%|███▍      | 124/360 [59:50<1:50:32, 28.11s/it, loss=0.00606]\u001b[A\n"," 35%|███▍      | 125/360 [59:50<1:49:19, 27.91s/it, loss=0.00606]\u001b[A\n"," 35%|███▍      | 125/360 [1:00:19<1:49:19, 27.91s/it, loss=0.0123]\u001b[A\n"," 35%|███▌      | 126/360 [1:00:19<1:49:52, 28.17s/it, loss=0.0123]\u001b[A\n"," 35%|███▌      | 126/360 [1:00:47<1:49:52, 28.17s/it, loss=0.00997]\u001b[A\n"," 35%|███▌      | 127/360 [1:00:47<1:49:43, 28.25s/it, loss=0.00997]\u001b[A\n"," 35%|███▌      | 127/360 [1:01:14<1:49:43, 28.25s/it, loss=0.0115] \u001b[A\n"," 36%|███▌      | 128/360 [1:01:14<1:47:25, 27.78s/it, loss=0.0115]\u001b[A\n"," 36%|███▌      | 128/360 [1:01:41<1:47:25, 27.78s/it, loss=0.00379]\u001b[A\n"," 36%|███▌      | 129/360 [1:01:41<1:45:35, 27.43s/it, loss=0.00379]\u001b[A\n"," 36%|███▌      | 129/360 [1:02:11<1:45:35, 27.43s/it, loss=0.0041] \u001b[A\n"," 36%|███▌      | 130/360 [1:02:11<1:48:08, 28.21s/it, loss=0.0041]\u001b[A\n"," 36%|███▌      | 130/360 [1:02:41<1:48:08, 28.21s/it, loss=0.00499]\u001b[A\n"," 36%|███▋      | 131/360 [1:02:41<1:49:43, 28.75s/it, loss=0.00499]\u001b[A\n"," 36%|███▋      | 131/360 [1:03:10<1:49:43, 28.75s/it, loss=0.00489]\u001b[A\n"," 37%|███▋      | 132/360 [1:03:10<1:49:39, 28.86s/it, loss=0.00489]\u001b[A\n"," 37%|███▋      | 132/360 [1:03:36<1:49:39, 28.86s/it, loss=0.00401]\u001b[A\n"," 37%|███▋      | 133/360 [1:03:36<1:46:05, 28.04s/it, loss=0.00401]\u001b[A\n"," 37%|███▋      | 133/360 [1:04:02<1:46:05, 28.04s/it, loss=0.00339]\u001b[A\n"," 37%|███▋      | 134/360 [1:04:02<1:43:41, 27.53s/it, loss=0.00339]\u001b[A\n"," 37%|███▋      | 134/360 [1:04:33<1:43:41, 27.53s/it, loss=0.00514]\u001b[A\n"," 38%|███▊      | 135/360 [1:04:33<1:46:10, 28.31s/it, loss=0.00514]\u001b[A\n"," 38%|███▊      | 135/360 [1:05:03<1:46:10, 28.31s/it, loss=0.0098] \u001b[A\n"," 38%|███▊      | 136/360 [1:05:03<1:48:10, 28.98s/it, loss=0.0098]\u001b[A\n"," 38%|███▊      | 136/360 [1:05:30<1:48:10, 28.98s/it, loss=0.0072]\u001b[A\n"," 38%|███▊      | 137/360 [1:05:30<1:45:30, 28.39s/it, loss=0.0072]\u001b[A\n"," 38%|███▊      | 137/360 [1:06:00<1:45:30, 28.39s/it, loss=0.00666]\u001b[A\n"," 38%|███▊      | 138/360 [1:06:00<1:46:23, 28.75s/it, loss=0.00666]\u001b[A\n"," 38%|███▊      | 138/360 [1:06:29<1:46:23, 28.75s/it, loss=0.0157] \u001b[A\n"," 39%|███▊      | 139/360 [1:06:29<1:46:48, 29.00s/it, loss=0.0157]\u001b[A\n"," 39%|███▊      | 139/360 [1:06:59<1:46:48, 29.00s/it, loss=0.0119]\u001b[A\n"," 39%|███▉      | 140/360 [1:06:59<1:46:46, 29.12s/it, loss=0.0119]\u001b[A\n"," 39%|███▉      | 140/360 [1:07:31<1:46:46, 29.12s/it, loss=0.00409]\u001b[A\n"," 39%|███▉      | 141/360 [1:07:31<1:49:45, 30.07s/it, loss=0.00409]\u001b[A\n"," 39%|███▉      | 141/360 [1:07:58<1:49:45, 30.07s/it, loss=0.00863]\u001b[A\n"," 39%|███▉      | 142/360 [1:07:58<1:45:51, 29.14s/it, loss=0.00863]\u001b[A\n"," 39%|███▉      | 142/360 [1:08:25<1:45:51, 29.14s/it, loss=0.0169] \u001b[A\n"," 40%|███▉      | 143/360 [1:08:25<1:43:03, 28.49s/it, loss=0.0169]\u001b[A\n"," 40%|███▉      | 143/360 [1:08:54<1:43:03, 28.49s/it, loss=0.0123]\u001b[A\n"," 40%|████      | 144/360 [1:08:54<1:43:06, 28.64s/it, loss=0.0123]\u001b[A\n"," 40%|████      | 144/360 [1:09:22<1:43:06, 28.64s/it, loss=0.00716]\u001b[A\n"," 40%|████      | 145/360 [1:09:22<1:41:42, 28.38s/it, loss=0.00716]\u001b[A\n"," 40%|████      | 145/360 [1:09:49<1:41:42, 28.38s/it, loss=0.00372]\u001b[A\n"," 41%|████      | 146/360 [1:09:49<1:39:47, 27.98s/it, loss=0.00372]\u001b[A\n"," 41%|████      | 146/360 [1:10:16<1:39:47, 27.98s/it, loss=0.00268]\u001b[A\n"," 41%|████      | 147/360 [1:10:16<1:38:44, 27.81s/it, loss=0.00268]\u001b[A\n"," 41%|████      | 147/360 [1:10:44<1:38:44, 27.81s/it, loss=0.0101] \u001b[A\n"," 41%|████      | 148/360 [1:10:44<1:38:12, 27.79s/it, loss=0.0101]\u001b[A\n"," 41%|████      | 148/360 [1:11:15<1:38:12, 27.79s/it, loss=0.0128]\u001b[A\n"," 41%|████▏     | 149/360 [1:11:15<1:40:49, 28.67s/it, loss=0.0128]\u001b[A\n"," 41%|████▏     | 149/360 [1:11:43<1:40:49, 28.67s/it, loss=0.00504]\u001b[A\n"," 42%|████▏     | 150/360 [1:11:43<1:39:54, 28.55s/it, loss=0.00504]\u001b[A\n"," 42%|████▏     | 150/360 [1:12:10<1:39:54, 28.55s/it, loss=0.00737]\u001b[A\n"," 42%|████▏     | 151/360 [1:12:10<1:37:42, 28.05s/it, loss=0.00737]\u001b[A\n"," 42%|████▏     | 151/360 [1:12:38<1:37:42, 28.05s/it, loss=0.00562]\u001b[A\n"," 42%|████▏     | 152/360 [1:12:38<1:37:56, 28.25s/it, loss=0.00562]\u001b[A\n"," 42%|████▏     | 152/360 [1:13:08<1:37:56, 28.25s/it, loss=0.0139] \u001b[A\n"," 42%|████▎     | 153/360 [1:13:08<1:39:20, 28.79s/it, loss=0.0139]\u001b[A\n"," 42%|████▎     | 153/360 [1:13:39<1:39:20, 28.79s/it, loss=0.0139]\u001b[A\n"," 43%|████▎     | 154/360 [1:13:39<1:40:53, 29.39s/it, loss=0.0139]\u001b[A\n"," 43%|████▎     | 154/360 [1:14:07<1:40:53, 29.39s/it, loss=0.00949]\u001b[A\n"," 43%|████▎     | 155/360 [1:14:07<1:38:55, 28.96s/it, loss=0.00949]\u001b[A\n"," 43%|████▎     | 155/360 [1:14:34<1:38:55, 28.96s/it, loss=0.00919]\u001b[A\n"," 43%|████▎     | 156/360 [1:14:34<1:36:29, 28.38s/it, loss=0.00919]\u001b[A\n"," 43%|████▎     | 156/360 [1:15:01<1:36:29, 28.38s/it, loss=0.0125] \u001b[A\n"," 44%|████▎     | 157/360 [1:15:01<1:33:58, 27.77s/it, loss=0.0125]\u001b[A\n"," 44%|████▎     | 157/360 [1:15:29<1:33:58, 27.77s/it, loss=0.00824]\u001b[A\n"," 44%|████▍     | 158/360 [1:15:29<1:34:32, 28.08s/it, loss=0.00824]\u001b[A\n"," 40%|████      | 2/5 [7:12:29<10:48:44, 12974.92s/it]              \u001b[A\n"]},{"ename":"KeyboardInterrupt","evalue":"","output_type":"error","traceback":["\u001b[0;31m---------------------------------------------------------------------------\u001b[0m","\u001b[0;31mKeyboardInterrupt\u001b[0m                         Traceback (most recent call last)","Cell \u001b[0;32mIn[15], line 46\u001b[0m\n\u001b[1;32m     44\u001b[0m masks \u001b[38;5;241m=\u001b[39m data[\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mmasks\u001b[39m\u001b[38;5;124m\"\u001b[39m]\n\u001b[1;32m     45\u001b[0m target \u001b[38;5;241m=\u001b[39m data[\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mtarget\u001b[39m\u001b[38;5;124m\"\u001b[39m]\n\u001b[0;32m---> 46\u001b[0m preds \u001b[38;5;241m=\u001b[39m \u001b[43mmodel\u001b[49m\u001b[43m(\u001b[49m\u001b[43mids\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mmasks\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m     47\u001b[0m loss \u001b[38;5;241m=\u001b[39m loss_fn(preds\u001b[38;5;241m.\u001b[39mview(\u001b[38;5;241m-\u001b[39m\u001b[38;5;241m1\u001b[39m), target\u001b[38;5;241m.\u001b[39mview(\u001b[38;5;241m-\u001b[39m\u001b[38;5;241m1\u001b[39m))\n\u001b[1;32m     48\u001b[0m loss \u001b[38;5;241m/\u001b[39m\u001b[38;5;241m=\u001b[39m accumulation_steps\n","File \u001b[0;32m/usr/local/lib/python3.8/site-packages/torch/nn/modules/module.py:1501\u001b[0m, in \u001b[0;36mModule._call_impl\u001b[0;34m(self, *args, **kwargs)\u001b[0m\n\u001b[1;32m   1496\u001b[0m \u001b[38;5;66;03m# If we don't have any hooks, we want to skip the rest of the logic in\u001b[39;00m\n\u001b[1;32m   1497\u001b[0m \u001b[38;5;66;03m# this function, and just call forward.\u001b[39;00m\n\u001b[1;32m   1498\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m (\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_backward_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_backward_pre_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_forward_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_forward_pre_hooks\n\u001b[1;32m   1499\u001b[0m         \u001b[38;5;129;01mor\u001b[39;00m _global_backward_pre_hooks \u001b[38;5;129;01mor\u001b[39;00m _global_backward_hooks\n\u001b[1;32m   1500\u001b[0m         \u001b[38;5;129;01mor\u001b[39;00m _global_forward_hooks \u001b[38;5;129;01mor\u001b[39;00m _global_forward_pre_hooks):\n\u001b[0;32m-> 1501\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mforward_call\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m   1502\u001b[0m \u001b[38;5;66;03m# Do not call functions when jit is used\u001b[39;00m\n\u001b[1;32m   1503\u001b[0m full_backward_hooks, non_full_backward_hooks \u001b[38;5;241m=\u001b[39m [], []\n","Cell \u001b[0;32mIn[11], line 13\u001b[0m, in \u001b[0;36mPairwiseModel.forward\u001b[0;34m(self, ids, masks)\u001b[0m\n\u001b[1;32m     12\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mforward\u001b[39m(\u001b[38;5;28mself\u001b[39m, ids, masks):\n\u001b[0;32m---> 13\u001b[0m     out \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mmodel\u001b[49m\u001b[43m(\u001b[49m\u001b[43minput_ids\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mids\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m     14\u001b[0m \u001b[43m                       \u001b[49m\u001b[43mattention_mask\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mmasks\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m     15\u001b[0m \u001b[43m                       \u001b[49m\u001b[43moutput_hidden_states\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;28;43;01mFalse\u001b[39;49;00m\u001b[43m)\u001b[49m\u001b[38;5;241m.\u001b[39mlast_hidden_state\n\u001b[1;32m     16\u001b[0m     out \u001b[38;5;241m=\u001b[39m out[:,\u001b[38;5;241m0\u001b[39m]\n\u001b[1;32m     17\u001b[0m     outputs \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mfc(out)\n","File \u001b[0;32m/usr/local/lib/python3.8/site-packages/torch/nn/modules/module.py:1501\u001b[0m, in \u001b[0;36mModule._call_impl\u001b[0;34m(self, *args, **kwargs)\u001b[0m\n\u001b[1;32m   1496\u001b[0m \u001b[38;5;66;03m# If we don't have any hooks, we want to skip the rest of the logic in\u001b[39;00m\n\u001b[1;32m   1497\u001b[0m \u001b[38;5;66;03m# this function, and just call forward.\u001b[39;00m\n\u001b[1;32m   1498\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m (\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_backward_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_backward_pre_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_forward_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_forward_pre_hooks\n\u001b[1;32m   1499\u001b[0m         \u001b[38;5;129;01mor\u001b[39;00m _global_backward_pre_hooks \u001b[38;5;129;01mor\u001b[39;00m _global_backward_hooks\n\u001b[1;32m   1500\u001b[0m         \u001b[38;5;129;01mor\u001b[39;00m _global_forward_hooks \u001b[38;5;129;01mor\u001b[39;00m _global_forward_pre_hooks):\n\u001b[0;32m-> 1501\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mforward_call\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m   1502\u001b[0m \u001b[38;5;66;03m# Do not call functions when jit is used\u001b[39;00m\n\u001b[1;32m   1503\u001b[0m full_backward_hooks, non_full_backward_hooks \u001b[38;5;241m=\u001b[39m [], []\n","File \u001b[0;32m/usr/local/lib/python3.8/site-packages/transformers/models/roberta/modeling_roberta.py:852\u001b[0m, in \u001b[0;36mRobertaModel.forward\u001b[0;34m(self, input_ids, attention_mask, token_type_ids, position_ids, head_mask, inputs_embeds, encoder_hidden_states, encoder_attention_mask, past_key_values, use_cache, output_attentions, output_hidden_states, return_dict)\u001b[0m\n\u001b[1;32m    843\u001b[0m head_mask \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mget_head_mask(head_mask, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mconfig\u001b[38;5;241m.\u001b[39mnum_hidden_layers)\n\u001b[1;32m    845\u001b[0m embedding_output \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39membeddings(\n\u001b[1;32m    846\u001b[0m     input_ids\u001b[38;5;241m=\u001b[39minput_ids,\n\u001b[1;32m    847\u001b[0m     position_ids\u001b[38;5;241m=\u001b[39mposition_ids,\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    850\u001b[0m     past_key_values_length\u001b[38;5;241m=\u001b[39mpast_key_values_length,\n\u001b[1;32m    851\u001b[0m )\n\u001b[0;32m--> 852\u001b[0m encoder_outputs \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mencoder\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m    853\u001b[0m \u001b[43m    \u001b[49m\u001b[43membedding_output\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    854\u001b[0m \u001b[43m    \u001b[49m\u001b[43mattention_mask\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mextended_attention_mask\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    855\u001b[0m \u001b[43m    \u001b[49m\u001b[43mhead_mask\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mhead_mask\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    856\u001b[0m \u001b[43m    \u001b[49m\u001b[43mencoder_hidden_states\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mencoder_hidden_states\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    857\u001b[0m \u001b[43m    \u001b[49m\u001b[43mencoder_attention_mask\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mencoder_extended_attention_mask\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    858\u001b[0m \u001b[43m    \u001b[49m\u001b[43mpast_key_values\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mpast_key_values\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    859\u001b[0m \u001b[43m    \u001b[49m\u001b[43muse_cache\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43muse_cache\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    860\u001b[0m \u001b[43m    \u001b[49m\u001b[43moutput_attentions\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43moutput_attentions\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    861\u001b[0m \u001b[43m    \u001b[49m\u001b[43moutput_hidden_states\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43moutput_hidden_states\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    862\u001b[0m \u001b[43m    \u001b[49m\u001b[43mreturn_dict\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mreturn_dict\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    863\u001b[0m \u001b[43m\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    864\u001b[0m sequence_output \u001b[38;5;241m=\u001b[39m encoder_outputs[\u001b[38;5;241m0\u001b[39m]\n\u001b[1;32m    865\u001b[0m pooled_output \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mpooler(sequence_output) \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mpooler \u001b[38;5;129;01mis\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m \u001b[38;5;28;01melse\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m\n","File \u001b[0;32m/usr/local/lib/python3.8/site-packages/torch/nn/modules/module.py:1501\u001b[0m, in \u001b[0;36mModule._call_impl\u001b[0;34m(self, *args, **kwargs)\u001b[0m\n\u001b[1;32m   1496\u001b[0m \u001b[38;5;66;03m# If we don't have any hooks, we want to skip the rest of the logic in\u001b[39;00m\n\u001b[1;32m   1497\u001b[0m \u001b[38;5;66;03m# this function, and just call forward.\u001b[39;00m\n\u001b[1;32m   1498\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m (\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_backward_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_backward_pre_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_forward_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_forward_pre_hooks\n\u001b[1;32m   1499\u001b[0m         \u001b[38;5;129;01mor\u001b[39;00m _global_backward_pre_hooks \u001b[38;5;129;01mor\u001b[39;00m _global_backward_hooks\n\u001b[1;32m   1500\u001b[0m         \u001b[38;5;129;01mor\u001b[39;00m _global_forward_hooks \u001b[38;5;129;01mor\u001b[39;00m _global_forward_pre_hooks):\n\u001b[0;32m-> 1501\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mforward_call\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m   1502\u001b[0m \u001b[38;5;66;03m# Do not call functions when jit is used\u001b[39;00m\n\u001b[1;32m   1503\u001b[0m full_backward_hooks, non_full_backward_hooks \u001b[38;5;241m=\u001b[39m [], []\n","File \u001b[0;32m/usr/local/lib/python3.8/site-packages/transformers/models/roberta/modeling_roberta.py:527\u001b[0m, in \u001b[0;36mRobertaEncoder.forward\u001b[0;34m(self, hidden_states, attention_mask, head_mask, encoder_hidden_states, encoder_attention_mask, past_key_values, use_cache, output_attentions, output_hidden_states, return_dict)\u001b[0m\n\u001b[1;32m    518\u001b[0m     layer_outputs \u001b[38;5;241m=\u001b[39m torch\u001b[38;5;241m.\u001b[39mutils\u001b[38;5;241m.\u001b[39mcheckpoint\u001b[38;5;241m.\u001b[39mcheckpoint(\n\u001b[1;32m    519\u001b[0m         create_custom_forward(layer_module),\n\u001b[1;32m    520\u001b[0m         hidden_states,\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    524\u001b[0m         encoder_attention_mask,\n\u001b[1;32m    525\u001b[0m     )\n\u001b[1;32m    526\u001b[0m \u001b[38;5;28;01melse\u001b[39;00m:\n\u001b[0;32m--> 527\u001b[0m     layer_outputs \u001b[38;5;241m=\u001b[39m \u001b[43mlayer_module\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m    528\u001b[0m \u001b[43m        \u001b[49m\u001b[43mhidden_states\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    529\u001b[0m \u001b[43m        \u001b[49m\u001b[43mattention_mask\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    530\u001b[0m \u001b[43m        \u001b[49m\u001b[43mlayer_head_mask\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    531\u001b[0m \u001b[43m        \u001b[49m\u001b[43mencoder_hidden_states\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    532\u001b[0m \u001b[43m        \u001b[49m\u001b[43mencoder_attention_mask\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    533\u001b[0m \u001b[43m        \u001b[49m\u001b[43mpast_key_value\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    534\u001b[0m \u001b[43m        \u001b[49m\u001b[43moutput_attentions\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    535\u001b[0m \u001b[43m    \u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    537\u001b[0m hidden_states \u001b[38;5;241m=\u001b[39m layer_outputs[\u001b[38;5;241m0\u001b[39m]\n\u001b[1;32m    538\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m use_cache:\n","File \u001b[0;32m/usr/local/lib/python3.8/site-packages/torch/nn/modules/module.py:1501\u001b[0m, in \u001b[0;36mModule._call_impl\u001b[0;34m(self, *args, **kwargs)\u001b[0m\n\u001b[1;32m   1496\u001b[0m \u001b[38;5;66;03m# If we don't have any hooks, we want to skip the rest of the logic in\u001b[39;00m\n\u001b[1;32m   1497\u001b[0m \u001b[38;5;66;03m# this function, and just call forward.\u001b[39;00m\n\u001b[1;32m   1498\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m (\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_backward_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_backward_pre_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_forward_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_forward_pre_hooks\n\u001b[1;32m   1499\u001b[0m         \u001b[38;5;129;01mor\u001b[39;00m _global_backward_pre_hooks \u001b[38;5;129;01mor\u001b[39;00m _global_backward_hooks\n\u001b[1;32m   1500\u001b[0m         \u001b[38;5;129;01mor\u001b[39;00m _global_forward_hooks \u001b[38;5;129;01mor\u001b[39;00m _global_forward_pre_hooks):\n\u001b[0;32m-> 1501\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mforward_call\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m   1502\u001b[0m \u001b[38;5;66;03m# Do not call functions when jit is used\u001b[39;00m\n\u001b[1;32m   1503\u001b[0m full_backward_hooks, non_full_backward_hooks \u001b[38;5;241m=\u001b[39m [], []\n","File \u001b[0;32m/usr/local/lib/python3.8/site-packages/transformers/models/roberta/modeling_roberta.py:411\u001b[0m, in \u001b[0;36mRobertaLayer.forward\u001b[0;34m(self, hidden_states, attention_mask, head_mask, encoder_hidden_states, encoder_attention_mask, past_key_value, output_attentions)\u001b[0m\n\u001b[1;32m    399\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mforward\u001b[39m(\n\u001b[1;32m    400\u001b[0m     \u001b[38;5;28mself\u001b[39m,\n\u001b[1;32m    401\u001b[0m     hidden_states: torch\u001b[38;5;241m.\u001b[39mTensor,\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    408\u001b[0m ) \u001b[38;5;241m-\u001b[39m\u001b[38;5;241m>\u001b[39m Tuple[torch\u001b[38;5;241m.\u001b[39mTensor]:\n\u001b[1;32m    409\u001b[0m     \u001b[38;5;66;03m# decoder uni-directional self-attention cached key/values tuple is at positions 1,2\u001b[39;00m\n\u001b[1;32m    410\u001b[0m     self_attn_past_key_value \u001b[38;5;241m=\u001b[39m past_key_value[:\u001b[38;5;241m2\u001b[39m] \u001b[38;5;28;01mif\u001b[39;00m past_key_value \u001b[38;5;129;01mis\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m \u001b[38;5;28;01melse\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m\n\u001b[0;32m--> 411\u001b[0m     self_attention_outputs \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mattention\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m    412\u001b[0m \u001b[43m        \u001b[49m\u001b[43mhidden_states\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    413\u001b[0m \u001b[43m        \u001b[49m\u001b[43mattention_mask\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    414\u001b[0m \u001b[43m        \u001b[49m\u001b[43mhead_mask\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    415\u001b[0m \u001b[43m        \u001b[49m\u001b[43moutput_attentions\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43moutput_attentions\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    416\u001b[0m \u001b[43m        \u001b[49m\u001b[43mpast_key_value\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43mself_attn_past_key_value\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    417\u001b[0m \u001b[43m    \u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    418\u001b[0m     attention_output \u001b[38;5;241m=\u001b[39m self_attention_outputs[\u001b[38;5;241m0\u001b[39m]\n\u001b[1;32m    420\u001b[0m     \u001b[38;5;66;03m# if decoder, the last output is tuple of self-attn cache\u001b[39;00m\n","File \u001b[0;32m/usr/local/lib/python3.8/site-packages/torch/nn/modules/module.py:1501\u001b[0m, in \u001b[0;36mModule._call_impl\u001b[0;34m(self, *args, **kwargs)\u001b[0m\n\u001b[1;32m   1496\u001b[0m \u001b[38;5;66;03m# If we don't have any hooks, we want to skip the rest of the logic in\u001b[39;00m\n\u001b[1;32m   1497\u001b[0m \u001b[38;5;66;03m# this function, and just call forward.\u001b[39;00m\n\u001b[1;32m   1498\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m (\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_backward_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_backward_pre_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_forward_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_forward_pre_hooks\n\u001b[1;32m   1499\u001b[0m         \u001b[38;5;129;01mor\u001b[39;00m _global_backward_pre_hooks \u001b[38;5;129;01mor\u001b[39;00m _global_backward_hooks\n\u001b[1;32m   1500\u001b[0m         \u001b[38;5;129;01mor\u001b[39;00m _global_forward_hooks \u001b[38;5;129;01mor\u001b[39;00m _global_forward_pre_hooks):\n\u001b[0;32m-> 1501\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mforward_call\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m   1502\u001b[0m \u001b[38;5;66;03m# Do not call functions when jit is used\u001b[39;00m\n\u001b[1;32m   1503\u001b[0m full_backward_hooks, non_full_backward_hooks \u001b[38;5;241m=\u001b[39m [], []\n","File \u001b[0;32m/usr/local/lib/python3.8/site-packages/transformers/models/roberta/modeling_roberta.py:338\u001b[0m, in \u001b[0;36mRobertaAttention.forward\u001b[0;34m(self, hidden_states, attention_mask, head_mask, encoder_hidden_states, encoder_attention_mask, past_key_value, output_attentions)\u001b[0m\n\u001b[1;32m    328\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mforward\u001b[39m(\n\u001b[1;32m    329\u001b[0m     \u001b[38;5;28mself\u001b[39m,\n\u001b[1;32m    330\u001b[0m     hidden_states: torch\u001b[38;5;241m.\u001b[39mTensor,\n\u001b[0;32m   (...)\u001b[0m\n\u001b[1;32m    336\u001b[0m     output_attentions: Optional[\u001b[38;5;28mbool\u001b[39m] \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;01mFalse\u001b[39;00m,\n\u001b[1;32m    337\u001b[0m ) \u001b[38;5;241m-\u001b[39m\u001b[38;5;241m>\u001b[39m Tuple[torch\u001b[38;5;241m.\u001b[39mTensor]:\n\u001b[0;32m--> 338\u001b[0m     self_outputs \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mself\u001b[49m\u001b[43m(\u001b[49m\n\u001b[1;32m    339\u001b[0m \u001b[43m        \u001b[49m\u001b[43mhidden_states\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    340\u001b[0m \u001b[43m        \u001b[49m\u001b[43mattention_mask\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    341\u001b[0m \u001b[43m        \u001b[49m\u001b[43mhead_mask\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    342\u001b[0m \u001b[43m        \u001b[49m\u001b[43mencoder_hidden_states\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    343\u001b[0m \u001b[43m        \u001b[49m\u001b[43mencoder_attention_mask\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    344\u001b[0m \u001b[43m        \u001b[49m\u001b[43mpast_key_value\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    345\u001b[0m \u001b[43m        \u001b[49m\u001b[43moutput_attentions\u001b[49m\u001b[43m,\u001b[49m\n\u001b[1;32m    346\u001b[0m \u001b[43m    \u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m    347\u001b[0m     attention_output \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39moutput(self_outputs[\u001b[38;5;241m0\u001b[39m], hidden_states)\n\u001b[1;32m    348\u001b[0m     outputs \u001b[38;5;241m=\u001b[39m (attention_output,) \u001b[38;5;241m+\u001b[39m self_outputs[\u001b[38;5;241m1\u001b[39m:]  \u001b[38;5;66;03m# add attentions if we output them\u001b[39;00m\n","File \u001b[0;32m/usr/local/lib/python3.8/site-packages/torch/nn/modules/module.py:1501\u001b[0m, in \u001b[0;36mModule._call_impl\u001b[0;34m(self, *args, **kwargs)\u001b[0m\n\u001b[1;32m   1496\u001b[0m \u001b[38;5;66;03m# If we don't have any hooks, we want to skip the rest of the logic in\u001b[39;00m\n\u001b[1;32m   1497\u001b[0m \u001b[38;5;66;03m# this function, and just call forward.\u001b[39;00m\n\u001b[1;32m   1498\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m (\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_backward_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_backward_pre_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_forward_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_forward_pre_hooks\n\u001b[1;32m   1499\u001b[0m         \u001b[38;5;129;01mor\u001b[39;00m _global_backward_pre_hooks \u001b[38;5;129;01mor\u001b[39;00m _global_backward_hooks\n\u001b[1;32m   1500\u001b[0m         \u001b[38;5;129;01mor\u001b[39;00m _global_forward_hooks \u001b[38;5;129;01mor\u001b[39;00m _global_forward_pre_hooks):\n\u001b[0;32m-> 1501\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mforward_call\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m   1502\u001b[0m \u001b[38;5;66;03m# Do not call functions when jit is used\u001b[39;00m\n\u001b[1;32m   1503\u001b[0m full_backward_hooks, non_full_backward_hooks \u001b[38;5;241m=\u001b[39m [], []\n","File \u001b[0;32m/usr/local/lib/python3.8/site-packages/transformers/models/roberta/modeling_roberta.py:218\u001b[0m, in \u001b[0;36mRobertaSelfAttention.forward\u001b[0;34m(self, hidden_states, attention_mask, head_mask, encoder_hidden_states, encoder_attention_mask, past_key_value, output_attentions)\u001b[0m\n\u001b[1;32m    216\u001b[0m \u001b[38;5;28;01melse\u001b[39;00m:\n\u001b[1;32m    217\u001b[0m     key_layer \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtranspose_for_scores(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mkey(hidden_states))\n\u001b[0;32m--> 218\u001b[0m     value_layer \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtranspose_for_scores(\u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mvalue\u001b[49m\u001b[43m(\u001b[49m\u001b[43mhidden_states\u001b[49m\u001b[43m)\u001b[49m)\n\u001b[1;32m    220\u001b[0m query_layer \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mtranspose_for_scores(mixed_query_layer)\n\u001b[1;32m    222\u001b[0m use_cache \u001b[38;5;241m=\u001b[39m past_key_value \u001b[38;5;129;01mis\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m\n","File \u001b[0;32m/usr/local/lib/python3.8/site-packages/torch/nn/modules/module.py:1501\u001b[0m, in \u001b[0;36mModule._call_impl\u001b[0;34m(self, *args, **kwargs)\u001b[0m\n\u001b[1;32m   1496\u001b[0m \u001b[38;5;66;03m# If we don't have any hooks, we want to skip the rest of the logic in\u001b[39;00m\n\u001b[1;32m   1497\u001b[0m \u001b[38;5;66;03m# this function, and just call forward.\u001b[39;00m\n\u001b[1;32m   1498\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m (\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_backward_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_backward_pre_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_forward_hooks \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_forward_pre_hooks\n\u001b[1;32m   1499\u001b[0m         \u001b[38;5;129;01mor\u001b[39;00m _global_backward_pre_hooks \u001b[38;5;129;01mor\u001b[39;00m _global_backward_hooks\n\u001b[1;32m   1500\u001b[0m         \u001b[38;5;129;01mor\u001b[39;00m _global_forward_hooks \u001b[38;5;129;01mor\u001b[39;00m _global_forward_pre_hooks):\n\u001b[0;32m-> 1501\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mforward_call\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[38;5;241;43m*\u001b[39;49m\u001b[43mkwargs\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m   1502\u001b[0m \u001b[38;5;66;03m# Do not call functions when jit is used\u001b[39;00m\n\u001b[1;32m   1503\u001b[0m full_backward_hooks, non_full_backward_hooks \u001b[38;5;241m=\u001b[39m [], []\n","File \u001b[0;32m/usr/local/lib/python3.8/site-packages/torch/nn/modules/linear.py:114\u001b[0m, in \u001b[0;36mLinear.forward\u001b[0;34m(self, input)\u001b[0m\n\u001b[1;32m    113\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21mforward\u001b[39m(\u001b[38;5;28mself\u001b[39m, \u001b[38;5;28minput\u001b[39m: Tensor) \u001b[38;5;241m-\u001b[39m\u001b[38;5;241m>\u001b[39m Tensor:\n\u001b[0;32m--> 114\u001b[0m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mF\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mlinear\u001b[49m\u001b[43m(\u001b[49m\u001b[38;5;28;43minput\u001b[39;49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mweight\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mbias\u001b[49m\u001b[43m)\u001b[49m\n","\u001b[0;31mKeyboardInterrupt\u001b[0m: "]}],"source":["from sklearn.model_selection import GroupKFold\n","kfold = GroupKFold(n_splits=5)\n","import tensorflow as tf\n","\n","loss_fn = nn.BCEWithLogitsLoss()\n","epochs = 5\n","accumulation_steps = 8\n","error_ids = None\n","\n","# detect and init the TPU\n","tpu = tf.distribute.cluster_resolver.TPUClusterResolver.connect()\n","\n","# instantiate a distribution strategy\n","tpu_strategy = tf.distribute.TPUStrategy(tpu)\n","\n","# adjust the batch size and learning rate\n","BATCH_SIZE = 16 * tpu_strategy.num_replicas_in_sync # 128 per core\n","LEARNING_RATE = 0.001 * tpu_strategy.num_replicas_in_sync # scale up\n","\n","for fold, (train_index, test_index) in enumerate(kfold.split(df, df.label, df.group)):\n","    # instantiating the model in the strategy scope creates the model on the TPU\n","    with tpu_strategy.scope():\n","        model = PairwiseModel('nguyenvulebinh/vi-mrc-base')\n","        train_df = df\n","        val_df = df.iloc[test_index].reset_index(drop=True)\n","        \n","        train_dataset = SiameseDataset(train_df, tokenizer, 256)\n","        valid_dataset = SiameseDataset(val_df, tokenizer, 256)\n","        train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, collate_fn=collate_fn,\n","                                  num_workers=2, shuffle=True, pin_memory=True, drop_last=True)\n","        valid_loader = DataLoader(valid_dataset, batch_size=BATCH_SIZE, collate_fn=collate_fn,\n","                                  num_workers=2, shuffle=False, pin_memory=True)\n","        \n","        num_train_steps = len(train_loader) * epochs // accumulation_steps\n","        \n","        # use your custom optimizer and scheduler\n","        optimizer, scheduler = optimizer_scheduler(model, num_train_steps)\n","        \n","        for epoch in tqdm(range(epochs)):\n","            model.train()\n","            bar = tqdm(enumerate(train_loader), total=len(train_loader), leave=False)\n","            for step, data in bar:\n","                ids = data[\"ids\"]\n","                masks = data[\"masks\"]\n","                target = data[\"target\"]\n","                preds = model(ids, masks)\n","                loss = loss_fn(preds.view(-1), target.view(-1))\n","                loss /= accumulation_steps\n","                loss.backward()\n","                if (step + 1) % accumulation_steps == 0:\n","#                     optimizer.apply_gradients(zip(model.trainable_variables, model.gradients()))\n","                    optimizer.step()\n","                    optimizer.zero_grad()\n","                    scheduler.step()\n","                bar.set_postfix(loss=loss.item())\n","            model.eval()\n","            with torch.no_grad():\n","                bar = tqdm(enumerate(valid_loader), total=len(valid_loader), leave=False)\n","                targets = []\n","                all_preds = []\n","                for step, data in bar:\n","                    ids = data[\"ids\"]\n","                    masks = data[\"masks\"]\n","                    target = data[\"target\"]\n","                    preds = torch.sigmoid(model(ids, masks))\n","                    all_preds.extend(preds.cpu().view(-1).numpy())\n","                    targets.extend(target.cpu().view(-1).numpy())\n","                all_preds = np.array(all_preds)\n","                targets = np.array(targets)\n","            total = 0\n","            val_df[\"preds\"] = all_preds\n","            for group in val_df.group.unique():\n","                tmp = val_df[val_df.group == group]\n","                if np.argmax(tmp.label.values) == np.argmax(tmp.preds.values):\n","                    total += 1\n","            print(total/len(val_df.group.unique()))\n","        break\n"]},{"cell_type":"code","execution_count":16,"metadata":{"execution":{"iopub.execute_input":"2023-06-29T08:54:41.373753Z","iopub.status.busy":"2023-06-29T08:54:41.373191Z","iopub.status.idle":"2023-06-29T08:54:42.698384Z","shell.execute_reply":"2023-06-29T08:54:42.696862Z","shell.execute_reply.started":"2023-06-29T08:54:41.373706Z"},"trusted":true},"outputs":[],"source":["torch.save(model.state_dict(), f\"/kaggle/working/pairwise_stage2_seed0.bin\")"]}],"metadata":{"kernelspec":{"display_name":"Python 3","language":"python","name":"python3"},"language_info":{"codemirror_mode":{"name":"ipython","version":3},"file_extension":".py","mimetype":"text/x-python","name":"python","nbconvert_exporter":"python","pygments_lexer":"ipython3","version":"3.8.17"}},"nbformat":4,"nbformat_minor":4}