morphemizer - Morpheme-based Russian Tokenizer

Репозиторий содержит только токенизатор русского текста, данный токенизатор позволяет преобразовывать входные текстовые данные в последовательность токенов, каждый из которых представляет из себя морфемы из которых состоят слова.

https://github.com/EvilFreelancer/ruMorpheme

В данный момент проект на ранней стадии разработки.

Как пользоваться

Для начала необходимо скачать пару библиотек:

pip install transformers rumorpheme

Небольшой пример использования:

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("evilfreelancer/morphemizer", trust_remote_code=True)
test_text = "Философское восприятие мира."
input_ids = tokenizer.encode(test_text)

print("Text:", test_text)
print("Encoded:", input_ids)
print("Tokens:", tokenizer.convert_ids_to_tokens(input_ids))
print("Decoded:", tokenizer.decode(input_ids))
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The model has no library tag.