Разработка специального математического и программного обеспечения выявления веб-сообществ в информационно-поисковых системах

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Первая модель идентификации веб-сообществ былапредложена в работе 1998 г. Гибсона (D. Gibson), Клейнберга (J. Kleinberg) и Рахавана (Р. Raghavan). Она была основана на извлечении веб-сообществ с помощью-алгоритма ранжирования в поисковых системах, получившего название HITS^ (Hyperlink-Induced Topic Search). Далее в 1999;2000' гг. несколько исследователей и, прежде всего, Рахаван обобщили… Читать ещё >

Содержание

1. МОДЕЛИ И МЕТОДЫ ИДЕНТИФИКАЦИИ ВЕБ-СООБЩЕСТВ
- 1. 1. Основные задачи, решаемые современными информационно-поисковыми системами
- 1. 2. Анализ гиперссылочной структуры Сети
  - 1. 2. 1. Концентраторы (hubs) и авторитеты (authorities)
  - 1. 2. 2. Цитируемоств и степенной закон распределения гиперссылок
Г. 2.3 Анализ веб-графа на наличие организованных структур
- 1. 2. 4. Комплексные методы и алгоритмы учёта цитируемости: HITS и PageRank
- 1. 3. Потоковые методы идентификации веб-сообществ
- 1. 3. 1. Метод FLG
- 1. 3. 2. Модифицированный поиск веб-сообществ на базе метода FLG с настраиваемыми ё-мкостями рёбер
ВЫВОДЫ ПО КЛАВЕ
- 2. РАЗРАБОТКА МОДЕЛЕЙ И СОВЕРШЕНСТВОВАНИЕ МЕТОДОВ ЭФФЕКТШНОЙ ИДЕНТИФИКАЦИИ ВЕБ-СООБЩЕСТВ
- 2. 1. Модель имитации веб-графа и алгоритм машинной генерации- искусственного веб-графа
- 2. 1. 1. Модель имитации веб-графа на основе принципа хронологического возникновения ресурсов
- 2. 1. 2. Анализ искусственно сгенерированных веб-графов и их. применение для исследований^Сети
Т.2 Типизация веб-графов и оценка достижимости узлов
- 2. 2. 1. Типизация веб-графов
- 2. 2. 2. Оценка достижимости узлов
- 2. 3. Многоэтапная процедура идентификации веб-сообществ на основе сильно связанных компонент и контентного анализа
- 2. 4. Алгоритм автоматической численной оценки качества веб-сообществ
ВЫВОДЫ ПО ГЛАВЕ
- 3. ПРИНЦИПЫ ПОСТРОЕНИЯ АЛГОРИТМОВ И ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ ОБРАБОТКИ ИНФОРМАЦИИ В ИНТЕРЕСАХ ИССЛЕДОВАНИЯ ПРОЦЕССОВ САМООРГАНИЗАЦИИ В СЕТИ
- 3. 1. Общая структура разработанного программного комплекса для обработки данных при решении задачи информационного поиска и выявления веб-сообществ
- 3. 1. 1. Программные модули, реконструирующие (или генерирующие) веб-граф
- 3. 1. 2. Программные модули, преобразующие веб-граф
- 3. 1. 3. Программные модули, обрабатывающие веб-граф
- 3. 1. 4. Вспомогательные программные модули
- 3. 2. Используемые структуры данных
- 3. 2. 1. Формат хранения данных веб-графа в файловой системе
- 3. 2. 2. Размещение веб-графа в оперативной памяти
- 3. 3. Алгоритмы обработки веб-графа
- 3. 3. 1. Алгоритм генерации искусственного веб-графа
- 3. 3. 2. Алгоритм поиска максимального потока минимальной стоимости
- 3. 3. 3. Алгоритм поиска связанных компонент
ВЫВОДЫ ПО ГЛАВЕ
- 4. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ ВЕБ-ГРАФА И ВЕБ-СООБЩЕСТВ
- 4. 1. Анализ алгоритмов идентификации веб-сообществ на основе метода FLG для различных типов веб-графов
- 4. 2. Результаты экспериментальных исследований при идентификации веб-сообществ на основе разработанной многоэтапной процедуры
- 4. 2. 1. Оценка эффективности разработанной многоэтапной процедуры идентификации веб-сообществ
- 4. 2. 2. Сравнительный анализ разработанной многоэтапной процедуры идентификации веб-сообществ и метода FLG
- 4. 3. Экспериментальные исследования алгоритма автоматической численной оценки качества веб-сообществ
- 4. 4. Исследование Мобильного Интернета
- 4. 5. Применение разработанных алгоритмов обработки информации в информационно-поисковых системах
- 4. 5. 1. Уточнение результатов поиска
- 4. 5. 2. Автоматическое пополнение и оценка веб-каталогов
- 4. 5. 3. Интеграция в вертикальные информационно-поисковые системы
ВЫВОДЫ ПО ГЛАВЕ

Разработка специального математического и программного обеспечения выявления веб-сообществ в информационно-поисковых системах (реферат, курсовая, диплом, контрольная)

Самая фундаментальная и отличительная черта наступившего информационного века состоит в том, что почти вся информация стала цифровой. В конце концов, все библиотечные и печатные материалы будут отсканированы и сохранены в цифровом виде с возможностью свободного или контролируемого доступа.

Бурное развитие сетевых технологий, в том числе и сети Интернет (в дальнейшем Сети), способствуют значительному увеличению доступных информационных ресурсов и объемов передаваемой информации. На сегодняшний день каждый человек может внести свой вклад в формирование мировых информационных ресурсов Сети, что приводит к колоссальной динамике их роста. При сегодняшних объемах доступной в Сети информации решение задач информационного поиска становится не только приоритетным, но и жизненно необходимым для обеспечения своевременного доступа к интересующей информации. Накопленные к настоящему времени колоссальные объемы информации в совокупности с непрерывно увеличивающимися темпами ее роста определяют актуальность и значимость исследований в области информационного поиска.

Существует ряд авторитетных международных конференций' по информационному поиску, посвященных, в том числе, обсуждению вопросов информационного поиска в сети Интернет. Это такие известные конференции как TREC (http://trec.nist-gov), SIGIR (http://www.sigir.org), WWW Conference (http://www2006.org) и некоторые другие: CIKM (http://www.cikm.org), SIGMOD (http://www.sigmod.org), KDD (http://www.acm.org/sigs/sigkdd/). Высокий авторитет конференций TREC, SIGIR, WWW и участие в них ведущих исследовательских коллективов и разработчиков технологий информационного поиска во многом определяет приоритетные направления исследований и задает общие принципы развития поисковых систем.

Кроме того, существует три российские конференции, заслуживающие внимания: DIALOG-21 (http://www.dialog-21.ru), RCDL http://www.rcdl2006.uniyar.ac.ru) и РОМИП (http://romip.narod.ru).

Последние крупные исследования по оценке мировых информационных ресурсов и в том числе ресурсов сети Интернет проводились в 2000 и 2003 годах [72,73] и ожидаются в 2007. По данным за 2003 год суммарный объём веб-ресурсов составлял 92 017 терабайт, из них 167 терабайт принадлежало так называемому, «поверхностному» Интернет (surface Web) и 91 850 терабайт — «глубинному» Интернет (deep Web). Под «поверхностным» Интернет понимаются ресурсы, в основном в виде статичных страниц HTML, а под «глубинным» — те ресурсы которые, генерируются по запросу — т. е. это сайты, управляемые базами данных и активными языками разметки типа РНР и ASP. К этому гигантскому объёму информации в 2003 году имело доступ порядка 600 млн. человек [73].

По сравнению с подобными крупномасштабными исследованиями, 1 выполненными в 2000 году [72], объём данных вырос с 20 — 50 до 167 терабайт для «поверхностного» Web. А если учесть, что «глубинный» Web по некоторым оценкам [73] обычно больше в 400−450 раз, то и его объём за 3 года увеличился в 3 раза. Если предположить сохранение подобной динамики, то в 2006 году объём накопленной информации составил порядка 270 000 терабайт.

Не стоит также забывать и о многократном росте количества пользователей Сети, особенно за счёт появления в их рядах людей, не имеющих компьютеров, но пользующихся Мобильным Интернетом (МИ). Их потенциальное число сегодня составляет более 2 млрд. человек, и есть уверенность, что это наложит свой отпечаток на дальнейшее развитие всемирной Сети.

Одной из задач, призванных решить проблему доступа к необходимой информации при такой скорости роста Сети, является изучение закономерностей в системе её- гиперсвязей. Принято считать, что Сеть — это распределенный гипертекст. Однако это не совсем так. Гипертекст обычно подразумевает наличие концептуальной модели, которая накладывает ограничения согласованности на данные и гиперсвязи. В Сети подобной модели обычно не существует даже для тех её- частей, которые находятся под единым административным контролем.

Как показали многие исследования [79,84,86], структура гипертекстовых ссылок в Сети подчиняется степенному закону и законам Зипфа [82], что характерно для многих других структур, созданных человеком. При этом другие классические распределения, например распределение Пуассона, используемые для описания случайных сетей и графов, в данном случае не наблюдаются.

В современных информационно-поисковых системах (далее ИПС) Интернет данные закономерности не используются в достаточной мере, несмотря на то, что в ряде работ [78,79,83,87 и др.] исследуется возможность применения в информационном поиске уникальных свойств сети-Интернет, не присущих другим коллекциям данных, для которых разрабатывалась и на которых апробировалась классическая теория поиска. Ключевым в подобных исследованиях является то, что Интернет есть не только «склад информации», но и динамически изменяющаяся неоднородная Сеть, в которой всё- более явно проявляются процессы самоорганизации. Тем сложнее становится её- анализ не только в качественном, но и в количественном отношении — число гиперссылок во много раз превышает число самих веб-ресурсов, количество которых, как было показано выше, уже измеряется миллиардами. Феномен самоорганизации в сети Интернет приводит к формированию всё- более сложных структур — веб-сообществ, анализ которых потенциально может существенно улучшить эффективность классического поиска. Подобные самоорганизованные структуры и являются предметом исследования данной работы.

В литературе [70] даётся следующее неформализованное и наиболее общее определение понятия веб-сообщество: веб-сообщество — это множество веб-ресурсов, связанных общей тематикой. Соответственно, задача идентификации веб-сообществ представляет собой задачу выделения множества веб-ресурсов, связанных общей тематикой. В зависимости от конкретных требований к веб-сообществам (например, степень ссылочной связанности входящих в них веб-ресурсов) способы идентификации веб-сообществ могут существенно отличаться. В данной работе в основном рассматривается идентификация веб-сообществ на основе анализа ссылочной связанности веб-графа, что сводит задачу идентификации веб-сообществ к задаче нахождения веб-подграфа (часто с последующей обработкой). Решение задачи идентификации веб-сообществ имеет ряд важных практических приложений и может использоваться при разработке автоматических веб-порталов и рубрикаторовпоисковых систем направленного действия (так называемый вертикальный поиск) — а также для расширения возможностей поисковых систем, основанных на текстовом поиске.

Первая модель идентификации веб-сообществ былапредложена в работе 1998 г. Гибсона (D. Gibson), Клейнберга (J. Kleinberg) и Рахавана (Р. Raghavan) [70]. Она была основана на извлечении веб-сообществ с помощью-алгоритма ранжирования в поисковых системах, получившего название HITS^ (Hyperlink-Induced Topic Search) [78]. Далее в 1999;2000' гг. несколько исследователей и, прежде всего, Рахаван обобщили полученные закономерности, наблюдаемые при самоорганизации в Сети, и предложили ряд моделей, описывающих структуру Интернет [59,80], в том числе и веб-сообщества. Первые работы, развивающие идею идентификации веб-сообществ как отдельное направление и использующие альтернативные подходы (т.е. не основанные на HITS и т. п.), были опубликованы в 2000;2002 гг. Флэйком (G. Flake), Лоуренсом (S. Lawrence), и Гайлсом (С. L. Giles) [65,67]. Позже, в 2002;2004 гг. японские исследователи Ямафуджи (N. Imafuji) и Китсурегава (М. Kitsuregawa) провели подробный анализ работ Флэйка и других, выявив их недостатки и предложив улучшенные методы по идентификации веб-сообществ [74−76].

Задача идентификации самоорганизованных веб-сообществ — в большинстве работ так или иначе сводится к поиску максимального потока минимальной стоимости в транспортных st-сетях. Теория графов предоставляет достаточно адекватный математический' аппарат для решения подобных: задачМетодыи алгоритмы, теории графов, непосредственно применимы к Интернет, так как эта сеть может быть представлена? в виде гигантского. графа, где узлы — веб-страницы, а рёбра — гиперссылки. Проблемой при: идентификации веб-сообществ становится размер исследуемого графа, при котором он не поддается" ни полному, воспроизведениюни=обработке.

Анализ существующих работ Флейка, Лоуренса, I айлса, Ямафуджи и Китсурегавапосвященных процессам самоорганизации в Интернет и • идентификацишвеб-сообществ в интересах информационного поиска-, выявил незначительноечисло1 проведённых исследованийПри этом готовых w апробированных решений (способных непосредственно интегрироваться Всуществующиеинформационно-поисковые системы) — ещё-? практически не существует, что во многом связано с отсутствием достаточно проработанной теориии практики решения: задач идентификации веб-сообществ, и масштабностью требуемых исследований. В тоже: время*' учёт подобных-, факторов, как показывает анализ, выполненный в работах Д. Д. Козлова и А. А. Беловой [29], позволяет существенно повысить как эффективность функционирования информационно-поисковых систем, так и сформировать соответствующие рекомендации для их пользователей:

В имеющихся публикациях, рассматривающих вопросы идентификации самоорганизованных веб-сообществ в сети Интернет, не учитываются многие реалии современной Сети и, прежде-^. всего: существование «ложных» гиперссылочных связей, не характеризующих тематику веб-сообщества, но внешне удовлетворяющих всем предъявляемым критериям. Подобные факторы вызывают появление так называемых страниц-шумов, фактически не соответствующих, тематике. Кроме того, имеет место постепенное вытеснение поверхностного Web динамическими ресурсами, что приводит к неадекватности, результатов, полученных на основе реконструкций веб-графов, не учитывающих глубинный Web (т.е. ресурсы, генерируемые по запросу с помощью различных технологий с применением баз данных):

Указанные факторы определяют актуальность темы диссертации-1 направленнойнапоиск эффективныхрешений задачи идентификации полноценных веб-сообществ.

Цёлши задачи исследования. Целью диссертации является, разработка" моделей, алгоритмови программныхсредств для-? выявления и оценкивеб-сообществ: в сети? гипертекстовых' ресурсовна основе комплексногоучёта, гиперсвязей и содержания веб-ресурсов в. интересах повышения эффективности функционирования* информационно-поисковых систем и анализа* сетевых ресурсов.

В соответствии с указанной целью: в работе, поставлены и решены следующие основные задачи:

1. Анализ современных подходов к исследованию процессов самоорганизациив сети Интернет и? идентификации' самоорганизованных веб-сообществ;

2. Математическое моделирование веб-графов в интересах, понимания: процессов самоорганизации в Сети и анализаалгоритмов идентификации веб-сообществ.

3. Разработка алгоритмов идентификации и оценки самоорганизованных веб-сообществ, учитывающих современные тенденции в развитии Сети, в том числе и наличие ложных гиперсвязей.

4. Разработка программного обеспечения для проведения анализа структуры Сети, идентификации и оценки веб-сообществ.

5. Проведение экспериментальных исследований для проверки разработанных алгоритмов и моделей с выработкой рекомендаций по их практическому применению в информационно-поисковых системах.

Научная новизна. К основным результатам работы, отличающимся научной новизной, относятся:

1. Модель и алгоритм имитации искусственных веб-графов с контролируемыми параметрами, учитывающие эволюционное развитие Сети и неравномерное распределение гиперсвязей внутри1 веб-графа^ и обеспечивающие анализ свойств реального веб-графа, а также отработку технологий поиска тематически связанных веб-сообществ.

2. Многоэтапная процедура обработки информации для идентификации веб-сообществ и реализующий её- комплексный алгоритмотличающиеся учётом гиперссылочных связей в Сети совместно с проведением контентного анализа связанных документов и обеспечивающие идентификацию веб-сообществ с учётом ложных гиперссылочных связей и обнаруженных закономерностей в структуре Сети.

3. Алгоритм автоматической численной оценки качества веб-сообществ, отличающийся выявлением тематики веб-сообществас использованием1 «зерновых» ресурсов и обеспечивающий снятие ограничений-по размерам оцениваемых веб-сообществ и их количеству, свойственных методам, экспертной оценки, а также сокращение вычислительных затрат за счёт предложенного механизма определения смыслового соответствия словоформ.

4. Структура и способы организации данных программного обеспечения, реализующего полный цикл решения задач идентификации, анализа и оценки качества самоорганизованных веб-сообществ и отличающегося* применением разработанных моделей и алгоритмов, ориентированных на работу с веб-графами с учётом выявленных закономерностей в структуре Сети.

5. Результаты экспериментальных исследований по идентификации веб-сообществ в Интернет и Мобильном Интернет, позволяющие провести оценку совокупного объёма ресурсов, их структуры, степени самоорганизованности, темпов* роста и дать количественную оценку повышения точности поиска в современных информационно-поисковых системах с помощью предложенных алгоритмов обработки информации.

Практическая значимость работы. Практическая значимость диссертационной работы заключается в создании алгоритмов обработки информации и программных средств для моделирования, идентификации и исследования. самоорганизованных веб-сообществ, способных непосредственно интегрироваться в существующие ИПС и позволяющих улучшить точность и полноту получаемых с их помощью* результатов, а также провести автоматическую рубрикацию веб-ресурсов и оценить уровень организации сегментов Сети для выработки дальнейших рекомендаций по их поисковой оптимизации.

Реализация и внедрение1 результатов работьп Основные теоретические и практические результаты диссертационной* работы реализованы в виде специальной информационной системы исследования1 процессов самоорганизации в Сети. Система была использована для* анализа процессов самоорганизации воронежского сегмента Интернет, сети Воронежского госуниверситета и российской части Мобильного Интернета, а также в учебном процессе Воронежского госуниверситета при разработке учебных курсов «Информационно-поисковые системы» и «Корпоративные информационные системы», что подтверждается соответствующими актами внедрения. Результаты работы были использованы при выполнении гранта ООО «Яндекс» № 67−05/07.

Апробация работы. Основные положения и результаты работы обсуждались и получили одобрение на Международной научно-технической конференции «Кибернетика и технологии XXI века» (Воронеж, 2004, 2006) — Всероссийской научной конференции «Научный сервис в сети Интернет» (Новороссийск, 2003, 2004, 2005) — Региональной научно-методической конференции «Информатика: проблемы, методология, технологии» (Воронеж, 2004, 2005, 2006) — Всероссийской научно-методической конференции «Телематика» (Санкт-Петербург, 2004, 2006) — Всероссийской научной конференции «Электронные библиотеки» (Переславль-Залесский, 2007).

Публикации. Основные результаты диссертации опубликованы в- 15 научных работах, из них 2 — в изданиях, рекомендованных ВАК РФ.

Объём, и структура диссертационной ! работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы, включающего в? себя- 97 наименований-, и одного приложения. Основная часть работы изложена на 166 страницах, содержит 13 таблиц и 52 рисунка.

Выводы по главе.

1. Проведено обобщение и уточнение известных результатов в части экспериментальных исследований поведения потоковых методов идентификации веб-сообществ на различных типах веб-графов, к которым приводят разные стратегии их реконструкции. Из полученных результатов следует, что на полных веб-графах коэффициент ё-мкости пропускных способностей рёбер не влияет на количество идентифицируемых членов веб-сообщества для алгоритмов, реализованных на основе метода FLG. На частичных • веб-графах такая зависимость присутствует и имеет скачкообразный характер, что подтверждает результаты в ряде известных работ. Это позволяет сделать вывод о том, что эти эксперименты проводились авторами на частичных веб-графах.

2. Анализ полученных результатов по использованию известного метода FLG для идентификации веб-сообществ показал, что ядро реализующего его алгоритма — алгоритм поиска максимального потока минимальной стоимости, имеет существенные ограничения по масштабируемости как в направлении увеличения локального веб-графа, так и при больших пропускных способностях рёбер. Это, наряду с уменьшающейся актуальностью такого подхода в целом из-за существенного влияния «ложных» и информационных гиперссылок, ограничивает его использование для идентификации реальных веб-сообществ.

3. Результаты экспериментов по идентификации, самоорганизованных веб-сообществ на основе разработанной многоэтапной-процедуры, учитывающей как ссылочную структуру, так и содержимое документов, показали достаточно высокую эффективность этого подхода, показав точность около 77% при 97% полноты поиска. Проведена оценка зависимости качества идентификации веб-сообществ от выбираемого числа ключевых слов, отображающих тематику веб-сообщества. Даны возможные объяснения закономерности ухудшения"качества идентифицированных веб-сообществ при росте числа ключевых слов, вытекающие из законов Зипфа.

4. Предложенный алгоритм автоматической численной оценки веб-сообществ показал адекватные результаты в сравнении с результатами экспертной оценки. Разработанный в контексте этого алгоритма подход по нормализации словоформ показал удовлетворительные результаты в экспериментах, несмотря на принципиальное отсутствие учёта семантики и правил словообразования. В целом данный алгоритм может рассматриваться в качестве альтернативы методам экспертной оценки при обработке большого количества оцениваемых веб-сообществ за минимальное время, а также для оценки уже существующих тематических каталогов на соответствие документов основной тематике.

5. Выполнено исследование Мобильного Интернета и дана оценка динамики его роста за период исследований. Показана схожесть основных закономерностей формирования МИ с большим Интернет и проведён ряд экспериментов по идентификации веб-сообществ на веб-графе МИ. Сделан вывод о неразвитости МИ и дан прогноз его будущего развития в виде быстрого слияния с большим Интернетом.

6. Рассмотрены вопросы практического применения разработанных алгоритмов обработки информации и программных реализаций в интересах повышения эффективности поиска в Сети. Предложены и даны оценки эффективности возможностям применения алгоритмов, основанных на идентификации веб-сообществ, для создания уточняющих модулей ИПС, для автоматической рубрикации и/или оценки качества существующих веб-каталогов, а также для автоматизации части функций вертикальных ИПС.

Заключение

В ходе выполнения диссертационной работы поставлены. и< решены следующие задачи: проанализированы современные подходык исследованию процессов самоорганизации в сети Интернет и. к идентификациисамоорганизованных • веб-сообществразработана концептуальная модель веб-графа, реализующая идеюхронологического возникновения, ресурсов, и модель имитации искусственного веб-графа-: разработана многоэтапная процедура идентификации самоорганизованных веб-сообществ, учитывающая современную? структуру Сети-, разработан?: алгоритм автоматическойчисленной оценки качествавеб-сообществ-, разработанкомплекс: программ, реализующий как предложенные, так и уже известные подходык идентификации*! веб-сообществпроведены: экспериментальные исследования. предложенных моделей и алгоритмови их сравнение с существующими? подходамивнесены предложения и* даны оценки эффективности по применению результатов исследований в современных информационно-поисковых системах.

На' основе проведенных исследований? можно сделать следующие выводы:

1. Проведено обобщение известных результатов и дальнейшее их развитие в части исследования. поведения потоковых методов идентификации веб-сообществ на различных типах графов-, к которым приводят разные стратегии реконструкции веб-графа. Из полученных результатов следует, что на полных веб-графах коэффициент ё-мкости пропускных способностей рёбер не влияет на количество идентифицируемых членов веб-сообществадля'метода FLG и производных от него: потоковых подходов. На частичных веб-графах такая зависимость присутствует и имеет, скачкообразный характер: На основе этих данных введена типизация веб-графов:

2. Предложена концептуальная модель эволюции веб-графа, модель имитации веб-графа и алгоритм генерации искусственных веб-графов — с контролируемыми параметрами. Предложенная модель имитации веб-графа позволила объяснить различие зависимостей ранг-частота для разных тематических веб-графов. Показано, что степень выпуклости на графиках зависит от параметра dotd предложенной модели, определяющего долю рёбер со старых вершин на новую. Доказано утверждение, позволяющее вычислить вероятность достижимости двух случайно выбранных узлов в веб-графе. Из него следует, что в реальной Сети такие узлы достижимы не менее чем в 13% случаев.

3. Разработана многоэтапная процедура идентификации веб-сообществ, основанная на использовании^ информации о связях в веб-графе и анализе содержимого самих документов. Благодаря изначальной локализации только части веб-графа, последний, наиболее ресурсоёмкий этап анализа содержимого веб-ресурсов выполняется^ для наиболее вероятных кандидатов на члены веб-сообщества. Результаты экспериментов' по идентификации различных самоорганизованных веб-сообществ на основе разработанной многоэтапной процедуры показали её- высокую эффективность применительно к современной Сети.

4. Разработан алгоритм автоматической численной оценки качества идентифицированных веб-сообществ для* любого метода идентификации, имеющего несколько членов со 100%-й принадлежностью к веб-сообществу. Алгоритм показал достаточно хорошие результаты в сравнении с экспертной оценкой при определении качества веб-сообществ. Разработанный в контексте этого алгоритма подход по нормализации словоформ показал удовлетворительные результаты в экспериментах, несмотря на принципиальное отсутствие учёта семантики и словообразования. Вцелом алгоритм может рассматриваться как альтернатива экспертной оценки при обработке большого количества оцениваемых веб-сообществ, а также для оценки уже существующих тематических каталогов на соответствие документов выбранной тематике.

5. В рамках проведённых исследований реализован программный комплекс, предназначенный для идентификации, анализа и оценки качества самоорганизованных веб-сообществ. -Любой эксперимент, реализующий разработанные подходы, можнопредставить UML диаграммой последовательностей действий из цепочки модулей программного комплекса. Описаны особенности реализованных алгоритмов комплексуй использованных структур данных. Получена оценка. наиболее ресурсоёмких элементов программного комплекса на эффективность и масштабируемость. Обеспеченный уровень масштабируемости позволил работать с реальными данными из Сети. Крометого, использовалась! унификация данных, позволяющая выходныеданные одного* модуля использовать как. входные для-другого. Приэтом, все данные-хранятся в открытых форматах, что повышает их переносимость и позволяет использовать стандартные средства-для-постобработки.

6. Исследован Мобильный, Интернет и дана оценка динамики его-роста за период исследований. Показана схожесть МИ’с болыиим Интернет и проведён ряд экспериментов' по идентификации веб-сообществ на веб-графеМИ. Экспериментальные исследования по идентификации самоорганизованных веб-сообществ в МИ" показали, что с одной стороны такие сообщества в МИ' есть, с другой — они мало организованны (но не малочисленны) и относятся к специфическим для МИ тематикам, (сообщества любителей какой-либо модели или производителя телефона, сообщества бесплатного мобильного контента и т. п.). Из общих тематик пока более всего развиты новостные сообщества, и информационные сервисы о погоде, курсах валют и акций. Таким образом сделано заключение о слабой' развитости МИ и дан прогноз его развития в виде быстрого слияния с большим Интернетом.

7. Рассмотрены вопросы практического применения разработанных алгоритмов обработки информации и программных реализаций в интересах повышения эффективности поиска в Сети. Разработаны предложения и даны оценки эффективности по их использованию для решения следующих задач: уточнения результата поиска, автоматического пополнения веб-каталогов и автоматизации ряда функций вертикальных информационно-поисковых систем. Определены принципы интеграции предложенных программных средств в существующие структурные схемы информационно-поисковых систем.

Показать весь текст

Список литературы

Аветисян, Р. Д. Теоретические основы информатики / Р. Д. Аветисян, Д. О. Аветисян. -М.: Российск. гос. гуманит. ун-т, 1997. — 168 с.
Агеев, М. С. Экспериментальные алгоритмы поиска/классификации и сравнение с «basic line» / М. С. Агеев, Б. В. Добров- Н. В. Лукашевич, А. В. Сидоров // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004). Пущино, 2004. — С. 62−89.
Айзеке, С. Dynamic HTML / С. Айзеке. СПб.: BHV-Санкт-Петербург, 1998. -496 с.
Баженов, М. М-Автоматическая оценка качества алгоритма идентификации Веб-сообществ / М. М. Баженов, А. В. Сычёв // Кибернетика и высокие технологии 21 века: 7 Международ, науч.-техн: конф., 16−18 мая'2006-.-Воронеж, 2006- Т. 2. — С. 696−706-
Баженов- М. М. Анализ веб-графа мобильного рунета / М. М. Баженов, А. В- Сычёв//Информатика: проблемы, методология, технологии: материалы 6-ой международ, науч.-метод. конф., Воронеж, 9−10 февр. 2006. Воронеж, 2006. — С. 541−543.
Баженов, М. М. Анализ задачи идентификации самоорганизованных Web-сообществ / М. М. Баженов, А. В. Сычев // Информатика: проблемы, методология, технологии: Материалы 4-ей регион, науч.-метод. конф., 3−41 февр. 2004. С. 20−22.
Баженов, М. М. Идентификация веб-сообществ в глобальной сети WAP-ресурсов / М. М. Баженов, А. В: Сычёв // Информационные технологии, 2006.~№ 6. -С. 38−44.
Баженов, М. М. Исследование веб-графа МИ / М. М. Баженов, А. В. Сычёв // Информационные технологии моделирования и управления: науч.-техн. журн. 2006. — Вып. 2(27). — С. 230−238.
Баженов,. М- М. Модель выявления «идеологов» веб-сообществаи, стратегия, оптимизации индексирования / М. М. Баженов // Информатика: проблемы, методология, технологии .' материалы 5-ой регион, науч.-метод. конф., Воронеж, 8−9 февр. 2005. Ч. 1. — С. 32−34.
Ю.Баженов, М. М. Об одном подходе к исследованию структуры Веб-графа / М. М. Баженов, А. В. Сычёв // Новые технологии в. образовании: Сб. тр. (по итогам 8 Международ, электрон, науч. конф.) /ВГ11У. 2004. — Вып. 8. -С. 3−10.
П .Баженов, М. М. Силовой закон для распределения ссылок на примере веб-ресурсов ВГУ и Воронежа / М- М. Баженов, А. В. Сычев // Научный сервис в сети ИНТЕРНЕТ: тр. Всерос. науч. конф., Новороссийск, 20−25 сент. 2004.-С. 201−202.
Басакер, Р. Конечные:графы.и сети / Р. Басакер, Т. Саати- пер. с англ. В. Н. Бурков, С. Е. Ловецкий, В. Б. Соколов. М.: Наука- 1974. — 367 с.
Гб.Бондаренко, М. Ф. Автоматическая обработка информации наестественном языке: Учебное пособие /М. Ф. Бондаренко, А. Ф. Осыка. -К. :УМК ВО, 1991.- 144 с. .
Вебер- Д. Технология Java в, подлиннике / Д. Вебер. — СПб.: BHV-Санкт-Петербург, 1998. 1104 с.
Вирт, Н. Алгоритмы + структуры данных = программы / Н. Вирт. М.: Мир, 1985.-406 с.
Горев, А. Эффективная работа с СУБД / А. Горев, Р. Ахаян, С. Макашарипов. СПб.: Питер, 1997. — 704 с.
Грабер М. Справочное руководство по SQL / М. Грабер. Изд-во ЛОРИ, 1997.-292 с. 21 .Грабер, М. Введение в SQL / М. Грабер. Изд-во ЛОРИ, 1996 — 375 с.
Джамса, К. Программирование в Web для профессионалов / К. Джамса, С. Лалани, С. Уикли- пер. с англ. А. Й Панасюк. -Мн.: Попурри, 1997. -632 с.
Джейсон- М- JavaScript: основы программирование:/ М. Джейсон. — К.: Издательская группа BI-IV, 1997. 512 с.
Евстигнеев, В. А. Графы в программировании: обработка, визуализация и применение/В. А. Евстигнеев, В- Н: Касьянов. СПб.: BHV-Санкт-Петербург, 2003. — 1104 с.
Евстигнеев, В. А. Применение теории графов в программировании / В- А. Евстигнеев. М.: Наука, 1985. -352 с.
Евстигнеев, В- А. Теория графов: алгоритмы обработки бесконтурных графов / В. А. Евстигнеев, В! Н. Касьянов. Новосибирск: Наука, 1998. 385 с. -27.3олотов, С. Протоколы Internet / С. Золотов. СПб.: BHV-Оанкт-Петербург, 1998.-304 с.
Информационные технологии и программирование: Межвузовский сборник статей. М.: МГИУ, 2003. — Вып. 2 (7). — 62 с.
ЗО.Корн, Г. Справочник по математике для научных работников и инженеров / Г. Корн, Т. Корн. М.: Наука, 1968. — 720 с. 31 .Кудрявцев, Л. Д. Курс математического анализа / Л. Д. Кудрявцев. М.: Высш. школа, 1981. — Т.1.
Кульба, В. В. Модифицированные функциональные графы как аппарат моделирования сложных динамических систем / В. В. Кульба, В. М. Назаретов, И. П. Чухров. М.: Институт проблем управления, 1995. — 576 с.
Майника, Э. Алгоритмы оптимизации на сетях и графах / Э. Майника. — М.: Мир, 1981.-323 с.
Поисковая система Google Электронный ресурс. — Режим доступа: http://www.google.com
Поисковая система Yandex Электронный ресурс. Режим доступа: http ://www.yandex.ru
Рудин, У. Основы математического анализа / У. Рудин. М.: Мир, 1976. -320 с.
Седжвик, Р. Фундаментальные алгоритмы на С++. Алгоритмы на графах / Р. Седжвик. СПб.: ДиаСофтЮП, 2003. — 480 с.
Солтон, Дж. Динамические библиотечно-поисковые системы / Дж. Солтон- пер. с англ. В. Р. Хисамутдинова. М.: Мир, 1979. — 557 с.
Статистические и информационно-аналитические исследования состояния и основных тенденций развития инфраструктуры российского сегмента Интернета Электронный ресурс. Выпуск 1. — Режим доступа: http://stat.nic.ru
Статистические и информационно-аналитические исследования состояния и основных тенденций развития инфраструктуры российского сегмента
Интернета по итогам 2005 года. Электронный ресурс. Выпуск 4. — Режим доступа: http://stat.nic.ru
Статистические и информационно-аналитические исследования состояния и основных тенденций развития инфраструктуры российского сегмента Интернета. Хостинг через призму DNS. Электронный ресурс. Выпуск 2. — Режим доступа: http://stat.nic.ru
Сычев, А. В. Применение методов анализа сети гиперссылок для! оценки и диагностики веб-сайтов / А. В. Сычев, М. М. Баженов // Телематика'2004: тр. 11 Всерос. науч.-метод. конф., Санкт-Петербург, 7−10 июня 2004. Т. 1.-С. 231−232.
Уилсон, Р. Введение в теорию графов / Р. Уилсон. М.: Мир, 1977. — 208 с.46-Уинкуп, С. Microsoft SQL Server 6.5 в подлиннике / С. Уинкуп. СПб.:
Щепин, Е. В. Теория интерполяции Электронный ресурс. / Е. В. Щепин. -СУНЦ МГУ, 2006. Режим доступа: www.mi.ras.ru/~scepin/summation.pdf
Adler, М. Towards compressing web graphs / M. Adler, M. Mitzenmacher // In Proceedings of the IEEE data compression conference (DCC). March 2001.
Albert, R. Diameter of the World Wide Web / R. Albert, H. Jeong, A.-L. Barabasi// Nature. 1999. -401. -pages 130−131.
Bharat, K. Improved Algorithms for Topic Distillation in a Hyperlinked Environment / K. Bharat, M. Henzinger // In Proc. ACM SIGIR'98. 1998.
Bharat, K. When Experts Agree: Using Non-Affiliated Experts to Rank Popular Topics / 1С Bharat, G. A. Mihaila // In Proc. 10th WWW Conference. 2001.
Bianchini, M. Inside PageRank / M. Bianchini, M. Gori, F. Scarselli // ACM Transactions on Internet Technology. 2005. — Vol. 5. — No. 1. — pages 92−128.r
Borodin- A. Link Analysis Ranking: Algorithms, Theory, and Experiments / A. Borodin, G. 0. Roberts, J. S. Rosenthal, P. Tsaparas // ACM Transactions on-Internet Technology. 2005. — Vol: 5. — No. k — pages 231−297.
Brewington, В. E. How dynamic is the web? / В. E. Brewington, G. Cybenko // In Proc. 9th WWW Conference. 2000.
Brian, A. Does «authority» mean quality? Predicting expert quality ratings of web documents / A. Brian, T. Loren, H. Will // Proc. of the SIGIR'00. 2000. -pages 296−303.
Brin, S. The anatomy of a large scale hypertextual web search engine / S. Brin, L. Page // In Proc. 7th WWW. 1998.
Callan, J. P. The INQUERY Retrieval System / J.P. Callan, W.B. Croft, S.M. Harding// Proceedings of DEXA, 3rd International Conference on Databaseand Expert Systems Applications. Springer Verlag, New York, 1992. — pages 78−93.
Debajyoti, M. An Approach to Confidence Based Page Ranking for User Oriented Web Search / M. Debajyoti, G. Debasis, R. S. Sanasam // SIGMOD Record. 2003. — Vol. 32. — No. 2
Dempster- A. P. Maximum likelihood- from incomplete data via the EM algorithm / A. P. Dempster, N. M. Laird, D. B. Rubin // J. R. Statist: Soc. B: -1977.-39.-pages 185−197.
Flake, G. Graph clustering and mining cut trees / G. Flake, R. Tarjan, K. Tsioutsiouliklis // Internet Mathematics. 2004: — 1(3). — pages 355−378.
Flake, G. W. Self-Organization and Identification of Web Communities / G. W. Flake, S. R. Lawrence, C. L. Giles, F. M. Coetzee // IEEE Computer. 2002. -35(3).-pages 66−71.
Gibson, D. Inferring web communities from link topology / D. Gibson, J. Kleinberg, P. Raghavan // In Proc. 9th ACM Conf. on Hypertext and Hypermedia. -1998.
How Much Information? Электронный ресурс. / Peter Lyman [и др.]. -2000. Режим доступа: http://www.sims.berkeley.edu/research/projects/how-much-info/internet.html
How Much Information? Электронный ресурс. / Peter Lyman [и др.]. -2003. Режим доступа: http://www.sims.berkeley.edu/research/projects/how-much-info-2003/internet.htm
Imafuji, N. Effects of maximum flow algorithm on identifying web community / N. Imafuji, M. Kitsuregawa // In 4th International Workshop on Web Information and Data Management. 2002. — pages 43−48.
Kleinberg, J. M. Authoritative sources in a hyperlinked environment / J. M. Kleinberg // Journal of the ACM. 1999. — 46(5). — pages 604−632.
Kleinberg, J. The structure of the Web / J. Kleinberg, S. Lawrence // Science. -2001.-vol 294.-pages 1849−1850.
Kumar, R. Trawling the Web for emerging cyber-communities / R. Kumar, P. Raghavan, S. Rajagopalan, A. Tomkins // In Proceedings of the 8th International World Wide Web Conference. 1999. — pages 1481−1493.
Lawrence, S. Context in Web Search / S. Lawrence // IEEE Data Engineering Bulletin. 2000. — Vol. 23. — pages 25−32.
Newman. Power laws, Pareto distributions and Zipf s law / Newman, Mej // Contemporary Physics. 2005. — vol. 46, Issue 5. — pages 323−351.
Ng, A. Y. Link Analysis, Eigenvectors and Stability Электронный ресурс. / A. Y. Ng, A. X. Zheng, M. I. Jordan // In Proc. of the IJCAI'01. 2001. -Режим доступа: http://ai.stanford.edu/~ang/papers/ijcai01-linkanalysis.pdf
Page, L. The PageRank Citation Ranking: Bringing Order to the Web Электронный ресурс. / L. Page, S. Brin, R. Motwani, T. Winograd. Режим доступа: http://dbpubs.stanford.edu:8090/pub/l999−66
Pennock, D. M. Winners Don’t Take All: A Model of Web Link Accumulation / D. M. Pennock, C. L. Giles, G. W. Flake, S. Lawrence, E. Glover // Technical Report 2000−164. NEC Re-search Institute, Princeton, NJ. — 2000.
Salton, G. Extended Boolean information retrieval / G. Salton, E. A. Fox, H. Wu // Commun. ACM 26. 1983. — pages 1022−1036.
Salton, G. Introduction to modern information retrieval / G. Salton, M. J. McGill. New York, NY, USA: McGraw-Hill, 1986. — pages 400.
Salton, G. Term-Weighting Approaches / G. Salton, C. Buckley // Automatic Text Retrieval. Information Processing and Management. 1988. — 24, 5. -pages 513−523.
Salton, G. Term-weighting approaches in automatic text retrieval / G. Salton, C. Buckley // Information Processing & Management. 1988. — 24(5). — pages 513−523.
Shivakumar, N. Finding Near-Replicas of Documents on the Web
Электронный ресурс. / N. Shivakumar, H. Garcia-Molina // Proc. of the WebDB'99. 1999. — Режим доступа: http://dbpubs.stanford.edu:8090/pub/1998−31
Toyoda, M. Creating a Web Community Chart for Navigating Related/ Communities / M. Toyoda, M. Kitsuregawa // In Proc. Hypertext 2001. 2001. -pages 103−112.
Toyoda, M. Extracting Evolution of Web Communities from a Series of Web Archives / M. Toyoda, M. Kitsuregawa // HT'03, Nottingham, United Kingdom (ACM). August 26−30, 2003
Uniform Resource Identifiers (URI): Generic Syntax Электронный ресурс. / Т. Berners-Lee, R. Fielding, U. C. Irvine, L. Masinter // Network Working Group. 1998. — Режим доступа: http://rfc.net/rfc2396.html
Van Rijsbergen, C. J. Information Retrieval, 2nd edition / C. J. Van Rijsbergen. -Dept. of Computer Science, University of Glasgow. Newton MA, USA: Butterworth-Heinemann, 1979.-208 pages.

Заполнить форму текущей работой