Дипломы, курсовые, рефераты, контрольные...
Срочная помощь в учёбе

Сравнительный анализ средств обработки языка

РефератПомощь в написанииУзнать стоимостьмоей работы

Для сравнительного анализа систем были сформулированы следующие критерии: Расположение. Показывает расположение искомого элемента в тексте. Рисунок 1.4. Представление статистики в системе AntConc. Рисунок 1.3. Домашняя страница системы AntConc. Формирование пользовательских отчетов. Поддержка различных форматов отчетов. Список параметров, заносимых в отчет. Возможность генерации отчетов. Язык… Читать ещё >

Сравнительный анализ средств обработки языка (реферат, курсовая, диплом, контрольная)

На данный момент реализовано огромное количество систем по обработке естественного языка. Для выяснения необходимого функционала для разрабатываемого программного модуля, необходимо провести обзор систем-аналогов, выявить существующие средства для сбора статистики и генерации отчетов, и каким образом они реализованы.

Для сравнительного анализа систем были сформулированы следующие критерии:

  • 1. Возможность генерации отчетов.
  • 2. Поддержка различных форматов отчетов.
  • 3. Список параметров, заносимых в отчет.
  • 4. Формирование пользовательских отчетов.
  • 5. Возможность расширения функционала, а именно встраивания дополнительных программных модулей в систему.
  • 6. Язык разработки.

Проанализируем наиболее популярные системы обработки естественного языка.

Система AntConc

Программа является настольным приложением, подходит под такие операционные системы как MS Windows, Linux и Mac. Приложение предоставляется бесплатно на официальном сайте [1] и не требует установки.

Приложение AntConc предназначено для многоцелевой обработки текста. Система содержит в себе 7 инструментов:

  • 1. Конкорданс. Показывает, как ключевое слово используется в разных контекстах исследуемого текста.
  • 2. График конкорданса. График позволяет увидеть, какие файлы содержат искомое ключевое слово.
  • 3. Просмотр файлов. Предоставляет возможность просмотреть оригинальный файл.
  • 4. Кластеры. Позволяют просмотреть упорядоченный список кластеров, которые появляются в процессе поиска.
  • 5. Расположение. Показывает расположение искомого элемента в тексте.
  • 6. Список слов. Данный инструмент производит подсчет всех слов в корпусе и представляет упорядоченный список, с помощью которого можно посмотреть наиболее употребляемые элементы.
  • 7. Список ключевых слов. Инструмент создает «Список слов» для ключевых слов, запрашиваемых пользователем.

Используя описанные инструменты, лингвист может провести исследование корпуса, найти языковые единицы и сравнить частотности их использования [3]. Домашняя страница программы показана на рисунке 1.3.

Домашняя страница системы AntConc.

Рисунок 1.3. Домашняя страница системы AntConc

После обработки текста, программа отображает данные в виде таблицы. Пользователю предоставляется возможность выгрузить результаты обработки текста в файлы нескольких форматов (*.txt,*.text, *.html,*.xml, *.ant) [3, 19] .Стоит отметить, что отображаемые параметры настроить нельзя, они определены в приложении. Содержание отчета зависит от того, какой раздел открыт в окне на данный момент. Несмотря на то, что данные представляются в табличном виде, программа не позволяет загрузить их в MS Excel.

Подсчет статистики в данной системе представлен в разделе «Collocates», который представляет собой таблицу с информацией о частотности использования искомого слова в сочетании с каким-либо словом/сочетанием букв. Интерфейс данного раздела представлен на рисунке 1.4.

Представление статистики в системе AntConc.

Рисунок 1.4. Представление статистики в системе AntConc

Система реализована на языке программирования Perl и поддерживает дальнейшее расширение функционала. Стоит отметить, что создание пользовательских отчетов система не поддерживает.

Показать весь текст
Заполнить форму текущей работой