Дипломы, курсовые, рефераты, контрольные...
Срочная помощь в учёбе

Обработка и классификация текстовых данных

РефератПомощь в написанииУзнать стоимостьмоей работы

Субъективность оценки качества классификации. В каждой классификации имеются элементы как субъективного, так и объективного. Качество классификации, казалось бы, определяется объективно по тому достигается ли поставленная цель, однако выбор цели опять-таки субъективен, и для одной цели данная классификация будет хорошей, а для другой нет. Далее идет выявление наиболее информативных признаков… Читать ещё >

Обработка и классификация текстовых данных (реферат, курсовая, диплом, контрольная)

Этапы обработки и анализа текстовых документов

Текстовые документы, написанные на естественном языке, обладают рядом недостатков с точки зрения машинной технологии обработки текстовой информации [7]:

  • 1) Многообразие средств передачи смысла. Несмотря на то, что основным средством передачи смысла сообщения является лексика естественного языка, в сообщениях на ЕЯ функцию передачи смысла выполняет и ряд других элементов: контекст, ссылки на слова, которые ранее упоминались в тексте.
  • 2) Семантическая неоднозначность. Семантическая неоднозначность возникает в основном из-за синонимии и многозначности слов. Синонимия представляет собой тождественность или близость по значению слов, выражающих одно и то же понятие.
  • 3) Высокая размерность задачи. Словарь использующихся терминов, как правило, очень большой, а количество терминов в одном документе мало по сравнению с размером словаря, поэтому хранение и обработка таких словарей стребует больших вычислительных затрат.
  • 4) Субъективность оценки качества классификации. В каждой классификации имеются элементы как субъективного, так и объективного. Качество классификации, казалось бы, определяется объективно по тому достигается ли поставленная цель, однако выбор цели опять-таки субъективен, и для одной цели данная классификация будет хорошей, а для другой нет.
  • 5) Различная длина документов. Каждый документ состоит из различного числа терминов, поэтому термины, встречающиеся в разных документах одинаковое количество раз, будут иметь разный вес.

Из-за этих недостатков обработка текстовой информации является нетривиальной и очень сложной. В данной работе будет рассмотрен комплексный подход к проблеме классификации текстовой информации. Задача заключается в формирования обучающих выборок, выборе модели представления текстовых документов, выявления информативных признаков, присвоение метки класса, оценки точности результатов классификации.

На рис. 2.1. показаны основные этапы, соответствующему проведению классификации.

База данных статей формируется из публикаций научных журналов, по которым в дальнейшем формируются выборки. Поскольку мы проводим обучение классификатора на примерах, то нам необходимо сформировать обучающие и экзаменационные выборки. Присвоение меток класса проводится экспертным образом.

Далее идет выявление наиболее информативных признаков, путем использования одного из способов снижения размерности. Процедура снижения размерности заключается в отборе из исходных признаков наиболее информативных, обладающих наилучшими разделяющими свойствами. Более подробно данный этап рассмотрен ниже (параграф 2.3.).

Для решения задачи классификации существует ряд методов, основанных на статистическом (наивный байесовский метод, метод центроидов, профильные методы), графовом (алгоритм определения связных компонент (клик) графа, Роккио (Rocchio), ФОРЭЛ) и иерархическом подходах (агломеративная кластеризация). Некоторые методы в данной работе рассмотрены более подробно [7].

Каждый метод необходимо проверить на экзаменационной выборке и подсчитать среднюю ошибку профиля по классу. Так мы сможем проверить возможно ли увеличение точности классификации.

Рассмотрим каждый этап более подробно.

Показать весь текст
Заполнить форму текущей работой