Реализация системы.
Исследование вклада синтаксических признаков в распознавание анафоричесних отношений

РефератПомощь в написанииУзнать стоимостьмоей работы

В качестве материала для настоящей работы был использован корпус текстов, состоящий из 86 документов. Данный корпус использовался участниками конференции Dialog-2014 (Toldova et al 2014) для тестирования алгоритмов по разрешению анафорических связей. Весь исходный код программ для обработки текстов, извлечения признаков и для просмотра результатов машинного обучения доступен по ссылке… Читать ещё >

Реализация системы. Исследование вклада синтаксических признаков в распознавание анафоричесних отношений (реферат, курсовая, диплом, контрольная)

Весь исходный код программ для обработки текстов, извлечения признаков и для просмотра результатов машинного обучения доступен по ссылке в приложении 1. Развернутое описание программы для запуска доступно в readme-файле.

Материалы

Тексты разделены на группы, как показано в таблице 1.

Таблица 1.


Название группы.	Количество текстов.
Fiction.
Lenta.
News.
OpenCorpora.
Otzyvy.
PhotoDescr.
Science.

Тексты каждой группы различаются по жанрам. Объем каждого текста не превышает четырех тысяч слов. Все тексты обработаны синтаксическим парсером Malt-parserURL: http: //web-corpora.net/wsgi3/ru-syntax/, модель которого была разработана для русского языка (Medyankin and Droganova 2016). Данный парсер вместе с синтаксической информацией также выдает морфологическую информацию. Система, разрабатываемая в настоящей работе, получает на вход непосредственно синтаксически обработанные тексты, оригиналы текстов никак не учитываются.

Благодаря порядковому номеру узла, стоящего выше в дереве, можно построить синтаксическое дерево. Синтаксическое дерево для данного примера выглядит следующим образом (схема 1):

Схема 1.

Для наглядности работы синтаксического парсера, в синтаксическом дереве были обозначены ссылки к другим узлам.

Аннотированный корпус предоставляется в виде двух файлов. В первом — содержатся сами тексты. Тексты разбиты на токены и предложения и обработаны системой TreeTagger (Schmid 1994). Формат представления аналогичен формату. conll: информация о каждом токене, включая знаки препинания, содержится на отдельной строке. Для токена указывается: (1) ID текста, (2) ID токена, (3) токен, (4) смещение — смещение первого символа токена относительно начала текста; (5) длина токена в символах; (7) лемма, (8) грамматический тег. Кореферентные связи содержаться во втором документе, и выглядят следующим образом: все связи разделены по номеру документа; для каждого документа выделены кореферентные цепочки, то есть все именные группы, отображающие одну сущность в дискурсе, объединены в одну группу; каждое слово в группе имеет значение «shift» или сдвиг, которое показывает, на какое количество символов от начала документа стоит каждое слово, что помогает связывать обычный текст и данные цепочки; для каждого элемента также известна часть речи и вид связи; именные группы состоящие из нескольких слов сопровождаются добавочной информацией, указывающей на главное слово (вершину) в группе (указан сдвиг).

Показать весь текст

Заполнить форму текущей работой

Другие работы

Правильно организованное чтение как условие эффективности усвоения содержания

Чтение учебной и научной литературы — сложная умственная деятельность, от эффективности которой зависят успешность обучения и самообразования, а также степень развития умственных способностей студента. Чтение является не только важнейшим средством приобретения суммы знаний, но и незаменимой школой мышления, способом овладения искусством письменной речи. Для того чтобы чтение было плодотворным…

Реферат