-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathsigns.txt
23 lines (21 loc) · 1.73 KB
/
signs.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
- Токен (форма из текста)
- Лемма (начальная форма из mystem)
- Регистр (BigBig/BigSmall/SmallSmall/Fence)
- Бинарный признак наличие гласной
- Диапазон длинны слова от оригинала(токена) (1/2-4/5-more)
- Часть речи (для слов — части речи, для пунктуации — вид знака (comma/dot/question/exclamation/quote/openBracket/closeBracket/semicolon/colon/dash)
- Кончается ли слово известным окончанием фамилии (файл)
- Является ли именем человека (файл)
- Список слов предшествующих организациям (файл)
- Список слов предшествующих локациям (файл)
- Список столиц (файл)
- Список государств (файл)
- Список фамилий (файл)
- Является ли токен концом предложения? (бинарный) (точка или последнее слово)
- Название валюты (файл)
- Список корней организаций (файл) -> диапазон количества корней в слове (0/1/2-more)
- Список отчеств
Сборка
- Токены с одинаковыми метками не прерывающиеся знаками препинания( кроме точки, которая не конец предложения) склеиваем в один
- Если встретился шаблон: ORG LOC, то соединяем в ORG
- Если встретился шаблон: ORG имени(им.) PER, то соединяем в ORG