metadata
library_name: transformers
tags:
- legal
license: apache-2.0
language:
- ru
- en
metrics:
- f1
pipeline_tag: token-classification
Описание модели
Модель представляет собой дообученную версию nielsr/lilt-xlm-roberta-base для анализа документов, подтверждающих индивидуальные достижения, которая позволит автоматически извлекать важную информацию из отсканированных документов.
Модель способна распознавать следующие классы:
- Дата получения (DATE)
- ФИО владельца (FULL_NAME)
- Тип документа (DOC_TYPE)
- Причина получения (REASON_OBTAINING)
- Место, которое занял владелец (PLACE)
Датасет
Датасет PIAD
(Parsing Individual Ahievement Documents) включает в себя 215 отсканированных документов, подтверждающих индивидуальные достижения.
PIAD не выложен в открытый доступ, так как некоторые элементы содержат персональные данные.
Ссылки
- Разработчик: Agapitov Denis
- Репозиторий GitHub: lilt-finetuning-piad-ya-ocr
- Дообученная версия модели: nielsr/lilt-xlm-roberta-base