Реализация системы.
Исследование вклада синтаксических признаков в распознавание анафоричесних отношений
В качестве материала для настоящей работы был использован корпус текстов, состоящий из 86 документов. Данный корпус использовался участниками конференции Dialog-2014 (Toldova et al 2014) для тестирования алгоритмов по разрешению анафорических связей. Весь исходный код программ для обработки текстов, извлечения признаков и для просмотра результатов машинного обучения доступен по ссылке… Читать ещё >
Реализация системы. Исследование вклада синтаксических признаков в распознавание анафоричесних отношений (реферат, курсовая, диплом, контрольная)
Весь исходный код программ для обработки текстов, извлечения признаков и для просмотра результатов машинного обучения доступен по ссылке в приложении 1. Развернутое описание программы для запуска доступно в readme-файле.
Материалы
В качестве материала для настоящей работы был использован корпус текстов, состоящий из 86 документов. Данный корпус использовался участниками конференции Dialog-2014 (Toldova et al 2014) для тестирования алгоритмов по разрешению анафорических связей.
Тексты разделены на группы, как показано в таблице 1.
Таблица 1.
Название группы. | Количество текстов. |
Fiction. | |
Lenta. | |
News. | |
OpenCorpora. | |
Otzyvy. | |
PhotoDescr. | |
Science. |
Тексты каждой группы различаются по жанрам. Объем каждого текста не превышает четырех тысяч слов. Все тексты обработаны синтаксическим парсером Malt-parserURL: http: //web-corpora.net/wsgi3/ru-syntax/, модель которого была разработана для русского языка (Medyankin and Droganova 2016). Данный парсер вместе с синтаксической информацией также выдает морфологическую информацию. Система, разрабатываемая в настоящей работе, получает на вход непосредственно синтаксически обработанные тексты, оригиналы текстов никак не учитываются.
Благодаря порядковому номеру узла, стоящего выше в дереве, можно построить синтаксическое дерево. Синтаксическое дерево для данного примера выглядит следующим образом (схема 1):
Схема 1.
Для наглядности работы синтаксического парсера, в синтаксическом дереве были обозначены ссылки к другим узлам.
Аннотированный корпус предоставляется в виде двух файлов. В первом — содержатся сами тексты. Тексты разбиты на токены и предложения и обработаны системой TreeTagger (Schmid 1994). Формат представления аналогичен формату. conll: информация о каждом токене, включая знаки препинания, содержится на отдельной строке. Для токена указывается: (1) ID текста, (2) ID токена, (3) токен, (4) смещение — смещение первого символа токена относительно начала текста; (5) длина токена в символах; (7) лемма, (8) грамматический тег. Кореферентные связи содержаться во втором документе, и выглядят следующим образом: все связи разделены по номеру документа; для каждого документа выделены кореферентные цепочки, то есть все именные группы, отображающие одну сущность в дискурсе, объединены в одну группу; каждое слово в группе имеет значение «shift» или сдвиг, которое показывает, на какое количество символов от начала документа стоит каждое слово, что помогает связывать обычный текст и данные цепочки; для каждого элемента также известна часть речи и вид связи; именные группы состоящие из нескольких слов сопровождаются добавочной информацией, указывающей на главное слово (вершину) в группе (указан сдвиг).