Дипломы, курсовые, рефераты, контрольные...
Срочная помощь в учёбе

Инструменты анализа лексики газет в корпусном менеджере Sketch Engine

РефератПомощь в написанииУзнать стоимостьмоей работы

Ещё одна лексема, частота которой существенно выросла во второй половине 1930;х гг. — это имя собственное Сталин. В подкорпусе «Известия 1935;1939» эта лексема входит в двадцать наиболее часто встречающихся с частотой 227 (freq/mill — 2090,09); в подкорпусе «Правда» (1935;1939) Сталин также имеет достаточно высокую частоту употребляемости — 102 (freq/mill — 1260,04). Частота встречаемости лексемы… Читать ещё >

Инструменты анализа лексики газет в корпусном менеджере Sketch Engine (реферат, курсовая, диплом, контрольная)

Частотные данные для лексических единиц

Первый этап анализа газетной лексики заключается в составлении упорядоченных частотных списков языковых элементов. В корпусном менеджере возможно создание как списка словоформ (words), так и списка лексем (lemmas); в данной работе рассматривается именно частотный список лексем. Поскольку элементы списка, имеющие наиболее высокий ранг, ожидаемо представляют собой служебные слова (предлоги и союзы), то был составлен частотный список терминов (terms), включающий только слова знаменательных частей речи (преимущественно имена существительные). В таблице 2 приводятся данные для первых двадцати наиболее частотных терминов по четырём тематическим и хронологическим подкорпусам. Для каждого термина в таблице указана его абсолютная частота (frequency), т. е. суммарное число вхождений данной единицы в корпусе, а также частота термина на миллион словоупотреблений (frequency per million, freq/mill), которая вычисляется на основе условного корпуса объёмом в миллион единиц вне зависимости от объёма реального корпуса, что позволяет сравнивать данные разных по объёму корпусов.

Стоит отметить, что в таблице для терминов рабочий и подсудимый приводятся данные об их употреблении только в качестве субстантивированных прилагательных в контекстах вида: у нас работают лучшие рабочие и инженеры, подсудимый переходит к последнему этапу своего политического падения. Это ограничение связано с тем, что в этом примере рассматривается частотный список терминов, т. е. преимущественно имён существительных, а не лемм. В списке лемм значения частот для этих слов будут существенно выше. Так, лемма рабочий в корпусе «Известий» имеет freq/mill 4067,05, в корпусе «Правды» — 3398,25. В подкорпусах статей о внешней политике получаются следующие значения для этой же леммы: «Известия» — 2778,99, «Правда» — 4585,14.

Сопоставление самых частотных терминов позволяет выделить элементы общественно-политического лексикона, образующие лексическое ядро: СССР, партия, организация, завод, работа, борьба, товарищ, рабочий, подсудимый. Отметим, что уже на минимальном наборе ядерных лексических элементов заметно противопоставление на смысловом уровне: партия — организация (наиболее частотные сочетания — меньшевистская, контрреволюционная, вредительская организация, т. е. эта лексема чаще употребляется в газетных текстах с отрицательной коннотацией), работа — борьба, рабочий — подсудимый, мир — война, войско, армия (однако в последнем примере следует учитывать многозначность слова мир).

Таблица 2. Наиболее частотные термины по четырём тематическим подкорпусам.

Инструменты анализа лексики газет в корпусном менеджере Sketch Engine.

В таблице 3 содержатся данные о двадцати самых частотных терминах для подкорпусов «Правды» и «Известий» по годам публикации (1930;34 гг., 1935;39 гг.).

В целом, лексическое ядро сохраняет одни и те же элементы, однако количественные данные для отдельных слов заметно отличаются в газетах первой и второй половины данного десятилетия.

Таблица 3. Наиболее частотные термины по четырём хронологическим подкорпусам

Инструменты анализа лексики газет в корпусном менеджере Sketch Engine.

Так, имя существительное народ появляется среди самых частотных терминов и «Правды», и «Известий» только в 1935;39 гг. Сравнив частоты этой лексемы для двух периодов, мы получили значительную разницу: в «Известиях» 1930;34 гг. частота на миллион словоупотреблений равна 173,31, а в «Известиях» 1935;39 гг. — 3461,99. В подкорпусах «Правды» то же соотношение для лексемы народ также демонстрирует существенную разность значений: 185,00 против 2310,07. Таким образом, во второй половине 1930;х гг. лексема народ встречается в текстах «Известий» чаще в 10,4 раза, а в текстах «Правды» — в 8 раз.

Ещё одна лексема, частота которой существенно выросла во второй половине 1930;х гг. — это имя собственное Сталин. В подкорпусе «Известия 1935;1939» эта лексема входит в двадцать наиболее часто встречающихся с частотой 227 (freq/mill — 2090,09); в подкорпусе «Правда» (1935;1939) Сталин также имеет достаточно высокую частоту употребляемости — 102 (freq/mill — 1260,04). Частота встречаемости лексемы Сталин в газетных текстах первой половины десятилетия оказалось значительно более низкой. В «Известиях» была получена частота на миллион словоупотреблений, равная 154,06; для «Правды» частота лексемы Сталин составила лишь 289,57. Отношение частот показывает, что данная лексема стала употребляться в 1935;39 гг. чаще в 7 раз в газете «Известия» и чаще в 2,8 раза в «Правде».

Подобным образом была проанализирована весьма частотная в газетных статьях лексема враг. Понятие врага занимало центральное место в советском политическом дискурсе, что проявилось в большом количестве различных выражений-штампов, регулярно воспроизводившихся в текстах советской эпохи. Так, исследование А. Ц. Масевича и В. П. Захарова, проведённое на основе русского корпуса Google Books, показало, что частота встречаемости лексемы враг возрастает с середины 1930;х гг. и достигает своего пика в годы войны [Масевич, Захаров 2017: 5]. При этом для данной лексемы характерно употребление в составе высокочастотных биграмм, представляющих собой «распространённые идеологические клише»: враг народа, классовый враг, общий враг, злейший враг, ненавистный враг [Масевич, Захаров 2017: 7]. Частотное поведение лексемы враг и её типичная сочетаемость позволяет говорить о ней как об идеологеме, типичной для советского политического дискурса. Для такой идеологемы характерно целенаправленное наложение на её собственную семантику идеологических компонентов значения, которые носят «догматический характер» [Чернова 2013: 157]. Сравнение частоты встречаемости лексемы враг в «Известиях» и «Правде» для двух периодов показало, что данная лексема действительно становится более употребительной во второй половине 1930;х гг. Так, на основе хронологических подкорпусов газеты «Известия» было получено соотношение частот 64 (freq/mill — 308,11) — 115 (freq/mill — 1058,85); на основе подкорпусов «Правды» получено соотношение 58 (freq/mill — 466,52) — 87 (freq/mill — 1074,74).

При анализе самых употребительных терминов в статьях советских газет также было обращено внимание на лексему подсудимый. В подкорпусах, включающих статьи первой половины 1930;х гг., эта единица встречается достаточно часто и входит в лексическое ядро с freq/mill, равной 1560,44 в «Правде» и 1622,42 в «Известиях». Однако в подкорпусах, охватывающих газетные статьи второй половины 1930;х гг. наблюдается заметное снижение частотности для данной единицы. В соответствующем подкорпусе «Правды» частота на миллион словоупотреблений составляет уже 827,67, а в подкорпусе «Известий» — 432,75. Тем не менее, среди двадцати самых частотных терминов статей «Правды» 1935;39 гг. мы видим термин обвиняемый, который имеет частоту 135 (freq/mill — 1667,70). В таблице 4 приводятся данные о частотах лемм подсудимый — обвиняемый по четырём хронологическим подкорпусам.

Таблица 4 Частоты синонимов подсудимый — обвиняемый по четырём подкорпусам.

Инструменты анализа лексики газет в корпусном менеджере Sketch Engine.

Хотя в статьях «Известий» второй половины рассматриваемого десятилетия встречаемость обеих лексических единиц заметно снизилась, в подкорпусах «Правды» с течением времени слово обвиняемый стало более употребительным, чем его синоним подсудимый.

Показать весь текст
Заполнить форму текущей работой