- vocab_size が 16384 サイズになるように作成した日本語 tokenizer - 学習元は wikpedia (日本語のみ) - unidic + sentencepiece(unigram) で学習