Дипломы, курсовые, рефераты, контрольные...
Срочная помощь в учёбе

Особенности сервиса и представления графиков

РефератПомощь в написанииУзнать стоимостьмоей работы

Каждая кривая графика маркируется цветом, в конце кривой указывается, какой N-грамме (слову или словосочетанию) она соответствует (рис.1). Возможно определение координат любой точки графика. Для этого достаточно установить курсор на любую точку над нужным годом. Система в этом случае выдаст сообщение о вертикальной и горизонтальной координатах этой точки для всех кривых. Если же установить курсор… Читать ещё >

Особенности сервиса и представления графиков (реферат, курсовая, диплом, контрольная)

Каждая кривая графика маркируется цветом, в конце кривой указывается, какой N-грамме (слову или словосочетанию) она соответствует (рис.1). Возможно определение координат любой точки графика. Для этого достаточно установить курсор на любую точку над нужным годом. Система в этом случае выдаст сообщение о вертикальной и горизонтальной координатах этой точки для всех кривых. Если же установить курсор непосредственно на кривую, то исследуемая кривая будет выделена (рис. 4).

Рис 4. Сообщение о координатах кривых (label for focus)

При активизации ссылки Embed Chart (встроить график) раскрывается окно, в котором находится описание данного графика в кодах языка гипертекстовой разметки (рис. 5). Описание может быть скопировано и встроено в любой HTML-текст или в пустой текстовый файл с последующим присвоением ему имени с расширением .html. Таким образом, график будет доступен в любой гипертекстовой системе, и функция определения координат останется активной.

Рис. 5. Раскрытое окно с описанием данного графика в кодах HTML

Лингвистические особенности системы

Имеется возможность при формулировке условий поиска задавать распознавание заглавных и строчных букв (case sensitive), или игнорировать различие между ними.

В системе нет грамматической нормализации лексических единиц, иначе говоря, поиск лексической единицы (слова или словосочетания) и построение графиков частоты ее встречаемости осуществляетcя для заданной словоформы.

Набор пользовательских тэгов Система предусматривает использование пользовательских тэгов для модификации условий построения графиков.

Тэги частей речи Тэги этой группы могут применяться изолированно (_NOUN_) в этом случае показывается частота употребления данной части речи, а также могут присоединяться к какому-либо знаменательному слову.

Тэг _NOUN_, Часть речи Существительное, Действие: находит только существительное или субстантивированное прилагательное. Напр. «больной» ср. «Больной находится в тяжелом состоянии» и «Больной ребенок» Нотация: больной_NOUN (Все тэги частей речи вводятся заглавными буквами без пробелов) (рис. 6).

Рис 6. График встречаемости слова «больной» как существительного и как прилагательного.

Аналогичным образом работают тэги для других частей речи.

Тэг _ADJ_ Часть речи Прилагательное Действие: находит только прилагательные.

Тэг _VERB_ Часть речи Глагол Действие: находит только глаголы.

Тэг _ADV_ Часть речи Наречие Действие: находит только наречия.

Тэг _PRON_ Часть речи Местоимение Действие: находит только местоимения.

Тэг _DET_ Часть речи Артикль Действие: Этот тэг позволяет игнорировать вид артикля Нотация: До и после подчерка должны быть пробелы (eat _DET_ sandwich). Число элементов N граммы не должно быть более трех (в последней версии системы (октябрь 2013 года) возможности применения этого тэга еще расширены).

Тэг _ADP_ Часть речи Предлог или послелог Действие: находит только предлоги.

Тэг _NUM_ Часть речи Числительное Действие: находит только числительные.

Тэг_CONJ_Часть речи Союз Действие: находит только союзы.

Тэг _PRT_ Часть речи Частица Действие: находит только частицы.

Тэг _INF (Inflections) строит кривые для всех форм словоизменительной парадигмы данного слова (рис.7). Следует отметить, что данная функция работает не всегда корректно, по крайней мере для русского языка.

Рис. 7. Частота встречаемости форм словоизменительной парадигмы существительного «корова»

Существуют также тэги позиционирования слов.

Тэг «_START_» — обеспечивает извлечение слова, в том случае, если оно находится в начале предложения.

Тэг «_END_» — обеспечивает извлечение слова, в том случае, если оно находится в конце предложения.

Имеется Тэг «_ROOT_=>» — обеспечивает поиск глагола, выполняющего роль основного предиката в предложении.

Теги выбора корпусов Система позволяет строить графики по разным корпусам одновременно (см. рис 8). Для этого используются тэги-идентификаторы корпусов:

Китайский 2012 chi_sim_2012, Английский 2012 eng_2012, Французский 2012 fre_2012, Немецкий 2012 ger_2012, Иврит 2012 heb_2012, Испанский 2012 spa_2012, Русский 2012 rus_2012, Итальянский 2012 — ita_2012 — идентификаторы корпусов 2012 года Рис. 8. График встречаемости слова «хлеб» и его английского и немецкого эквивалентов в русском, английском и немецком корпусах

Тег контекста. С октября 2013 года введен тег «подстановочный знак» * (wildcard). Ввод его через пробел после N-граммы (рис. 9) или до неё (рис. 10) позволяет строить график встречаемости десяти наиболее частотных сочетаний N-граммы и слова следующего за нею или ей предшествующего.

Рис. 9. Кривые встречаемости десяти биграмм с первым словом «Председатель» (использование подстановочного знака после N-граммы)

Рис 10. Кривые встречаемости десяти биграмм со вторым словом «аплодисменты» (использование подстановочного знака перед N-граммой)

Показать весь текст
Заполнить форму текущей работой