Математическое и программное обеспечение полнотекстового поиска в базах данных на основе концептуального моделирования

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Разработана система полнотекстового поиска, которая внедрена в системе технической поддержки ООО «Автоматизированное обеспечение качества», филиале компании SmartBearSoftware, и применяется на сайте компании. Система полнотекстового поиска также внедрена в программное обеспечение для разработки документации, разрабатываемое в ООО «Тульский Стандарт», что подтверждается актами о внедрении… Читать ещё >

Содержание

1. Системы полнотекстового поиска: состояние и актуальные задачи развития
- 1. 1. Задача полнотекстового поиска
- 1. 2. Обзор существующих алгоритмов
  - 1. 2. 1. Теоретико-множественные модели
  - 1. 2. 2. Алгебраические модели
  - 1. 2. 3. Вероятностные модели
  - 1. 2. 4. Свойства моделей
  - 1. 2. 5. Обработка словосочетаний
- 1. 3. Применяемые модели и методы
  - 1. 3. 1. Концептуальные модели и их применение
  - 1. 3. 2. Обработка структуры документов
- 1. 4. Постановка задач исследования
  - 1. 4. 1. Особенности поставленной задачи
  - 1. 4. 2. Задачи исследования
Выводы к главе 1
2. Алгоритмическое и программное обеспечение поддержки концептуальных графов в информационных системах
- 2. 1. Концептуальный граф как семантическая модель текстовых данных
  - 2. 1. 1. Определение концептуального графа
- 2. 2. Применение концептуальных графов для идентификации словосочетаний
- 2. 3. Алгоритм построения концептуальных графов
  - 2. 3. 1. Общий принцип построения концептуальных графов
  - 2. 3. 2. Алгоритм концептнографического анализа
  - 2. 3. 3. Алгоритм формирования концептуального графа из элементов предложения
  - 2. 3. 4. Инвариантность алгоритма относительно последовательности слов предложений
- 2. 4. Применение концептуальных графов для идентификации словосочетаний
Выводы к главе 2
3. Технология концептуального моделирования для извлечения словосочетаний в системах полнотекстового поиска
- 3. 1. Разработка алгоритма индексирования документов с обработкой знаков препинания
- 3. 2. Применение концептуальных графов для идентификации словосочетаний в тексте
- 3. 3. Разработка алгоритма полнотекстового поиска с применением словосочетаний
  - 3. 3. 1. Булевский поиск
  - 3. 3. 2. Вычисление релевантности
Выводы к главе 3
4. Программная реализация технологии концептуального моделирования в системе полнотекстового поиска
- 4. 1. Архитектура системы
- 4. 2. Структура базы данных
- 4. 3. Разработка модуля взаимодействия с базой данных
- 4. 4. Разработка словарного модуля
- 4. 5. Разработка модуля индексирования
- 4. 6. Разработка модуля обработки текстов
- 4. 7. Разработка модуля обработки словосочетаний
- 4. 8. Разработка модуля поиска
- 4. 9. Пример применения разработанной технологии в системе технической поддержки
Выводы к главе 4
5. Экспериментальные исследования технологии концептуального моделирования
- 5. 1. Задачи экспериментальных исследований разработанной технологии
- 5. 2. Организация экспериментальных исследований
- 5. 3. Определение веса отношений
- 5. 4. Оценка качества выделения словосочетаний
- 5. 5. Оценка качества вычисления релевантности
- 5. 6. Выбор веса полей индексируемых документов
- 5. 7. Выбор величин искусственного изменения позиций слов
- 5. 8. Оценка качества алгоритма полнотекстового поиска
Выводы к главе 5

Математическое и программное обеспечение полнотекстового поиска в базах данных на основе концептуального моделирования (реферат, курсовая, диплом, контрольная)

Актуальность темы

исследований. Полнотекстовые базы данных играют все более важную роль в современных информационных ресурсах. Поэтому совершенствование математического и программного обеспечения полнотекстовых баз данных является одним из ключевых направлений развития индустрии программирования. В рамках данного направления решение задач полнотекстового поиска имеет принципиальное значение.

Традиционно полнотекстовый поиск выполняется по всем текстам хранящихся в базе данных документов с целью нахождения документов, близких в смысле некоторой меры близости к поисковому запросу. При этом поисковый запрос представляется в виде набора ключевых слов, а для оценки близости документов запросу применяются алгоритмы, основанные на анализе статистики появления ключевых слов в документах базы данных.

В настоящее время актуальны задачи разработки систем полнотекстового поиска в базах данных для случаев, когда сам запрос является не словом или фразой, а осмысленным текстом. Системы технической поддержки являются характерными примерами систем, где применяются подобные полнотекстовые запросы. В настоящее время в большинстве подобных систем обработка запросов и подготовка ответов выполняются вручную, исключая некоторые возможности автоматического поиска по ключевым словам. При большой нагрузке системы падает ее производительность, поскольку при ручной работе в системе невозможно обработать за приемлемое время большие объемы данных. Автоматизация поиска документов, релевантных полнотекстовым запросам, поступающим в систему, является чрезвычайно актуальной задачей.

Применение полнотекстовых запросов требует учета семантики в решении задачи полнотекстового поиска, что невозможно при традиционном подходе, поскольку семантика полнотекстовых запросов не может быть описана 6 ключевыми словами. В связи с этим тема данной диссертационной работы является актуальной, поскольку связана с разработкой математического и программного обеспечения полнотекстового поиска в базах данных, основанного на новых семантических моделях текстов.

Результаты, полученные в работе, опираются на известные ранее результаты в области информационного поиска, отраженные в работах российских (H.H. Леонтьева [97], С.О. Кузнецов[95], А. Е. Ермаков [90]) и зарубежных (J.Sowa [74] [75], S. Buttcher [17] [18] [19], S. Robertson [48] [64] [65] [66] [67]) исследователей, и ориентированы на практическое применение в программном обеспечении полнотекстовых баз данных.

Объектом исследования является ПО систем полнотекстового поиска.

Предметом исследования являются алгоритмы полнотекстового поиска, концептуальные графовые модели, алгоритмы выделения ключевых словосочетаний из текстов, конкретные технологии полнотекстового поиска.

Целью диссертационной работы является повышение точности решения задач полнотекстового поиска в базах данных.

Поставленная цель достигается решением следующих задач.

1. Формализация задачи полнотекстового поиска с применением концептуальных графовых моделей.

2. Разработка метода выделения ключевых словосочетаний из текстов запросов с применением концептуальных графов.

3. Разработка сопутствующего алгоритма индексирования документов, использующего обработку знаков препинания.

4. Разработка алгоритма полнотекстового поиска с контекстным окном плавающего размера, использующего при вычислении релевантности словосочетания и полнотекстовые индексы.

5. Разработка инструментального ПО системы полнотекстового поиска и ее интеграция в существующие информационные системы.

6. Экспериментальная проверка эффективности разработанных алгоритмов и их сравнение с существующими аналогами.

7. Разработка технологии полнотекстового поиска, реализующей разработанные алгоритмы для конкретной СУБД.

Методы исследований. Основные результаты работы получены с применением методов обработки естественного языка, математической логики и концептуального моделирования. Программные решения для систем технической поддержки реализованы в парадигме объектно-ориентированного программирования.

Основные научные результаты диссертационной работы заключаются в следующем.

1. Показано, что применение концептуальных графов в качестве семантической модели полнотекстовых запросов в инструментальном ПО полнотекстового поиска обеспечивает извлечение из текста запроса словосочетаний, независимо от близости слов в них.

2. Разработан алгоритм выделения ключевых словосочетаний из текстов, использующий, в отличие от существующих аналогов, не позиции слов, а морфологическую информацию при выделении семантических связей между словами.

3. Разработан новый алгоритм индексирования документов, учитывающий информацию о содержащихся в текстах знаках препинания при вычислении позиций слов, что позволяет делать предположения о наличии семантической связи между словами предложений уже на этапе индексирования.

4. Разработан эффективный алгоритм полнотекстового поиска, использующий в качестве запросов тексты на естественном языке с выделенным множеством ключевых словосочетаний и опирающийся, в отличие от существующих аналогов, на семантику текстов, а не на статистические данные.

Достоверность научных результатов подтверждена корректным использованием применяемых методов и экспериментальными исследованиями.

Результаты данной работы получены при выполнении следующих научных проектов:

— грантаРФФИ, № 11−07−97 542-рцентра,.

— проекта, поддержанного Фондом содействия развитию малых форм предприятий в научно-технической сфере, госконтракт № 9444р/15 234.

Практическая значимость результатов работы состоит в следующем.

1. Применение концептуальных графов в качестве семантических моделей текстов запросов обеспечивает повышение точности решения задачи автоматического выделения ключевых словосочетаний за счет непосредственного моделирования их семантики. В результате повышается точность решения задачи полнотекстового поиска в целом.

2. Разработанное программное обеспечение позволяет снизить время получения ответа для пользователей систем технической поддержки, форумов и других ресурсов, посвященных ответам на вопросы, сформулированным в виде текстов на естественном языке, благодаря автоматическому поиску документов, которые могут содержать искомый ответ.

3. Разработанная система полнотекстового поиска может быть интегрирована с любыми информационными ресурсами: корпоративными базами данных, базами знаний, электронными библиотеками, системами технической поддержки и т. п., что позволяет расширять возможности существующих систем в области полнотекстового поиска.

Положения, выносимые на защиту. На защиту выносятся следующие результаты диссертационной работы:

1. Алгоритм индексирования документов с учетом знаков препинания.

2. Метод выделения ключевых словосочетаний из текстов на естественном языке, использующий концептуальные графы для моделирования смысла текстов.

3. Алгоритм полнотекстового поиска, запросы для которого представляются в виде множества словосочетаний.

Реализация и внедрение результатов диссертационной работы.

Результаты диссертационного исследования внедрены в учебный процесс на кафедре Автоматики и телемеханики ТулГУ в лекционные курсы «Сетевое программирование», «Базы данных и знаний» и их лабораторный практикум.

Апробация работы. Основные результаты работы докладывались на международных и всероссийских научно-технических конференциях, совещаниях и семинарах: 1. 4-я международная конференция по распознаванию образов и искусственному интеллекту PReMI 2011 — Pattern Recognition and Machine Intelligence, Россия, Москва, 2011. 2. 13-я всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», Россия, Воронеж, 2011. 3. 14-я всероссийская объединенная научная конференция «Интернет и современное общество» IMS.

2011, Россия, Санкт-Петербург, 2011. 4. Всероссийский семинар «Natural Language Processing», Россия, Санкт-Петербург, 2011.

Публикации. По теме диссертационного исследования опубликовано 7 печатных работ, в том числе 3 рекомендованных ВАК РФ, получено два свидетельства о регистрации программ для ЭВМ.

Структура и объем работы. Диссертационная работа изложена на 153 страницах, включает 5 таблиц и 27 рисунков. Состоит из введения, пяти глав, заключения, списка литературы из 103 наименования и 3 приложений.

Результаты работы докладывались и обсуждались на:

• 4-й международной конференции по распознаванию образов и искусственному интеллекту PReMI 2011 — Pattern Recognition and Machine Intelligence, Россия, Москва, 2011.

• 13-й всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», Россия, Воронеж, 2011.

• 14-й всероссийской объединенной научной конференции «Интернет и современное общество» IMS-2011, Россия, Санкт-Петербург, 2011.

• Всероссийском семинаре «Natural Language Processing», Россия, Санкт-Петербург, 2011.

Основное содержание диссертации опубликовано в 7 печатных работах.

Заключение

Задача поиска документов по полным текстам подробных вопросов, состоящих из нескольких предложений на естественном языке, становится все более и более актуальной с каждым днем, по мере развития электронных ресурсов, посвященных ответам на вопросы, примерами которых могут быть форумы или системы служб технической поддержки. Рост актуальности обусловливается постоянным ростом объема индексируемых данных, который неизбежно затрудняет поиск по каждому такому ресурсу. К тому же, далеко не каждый пользователь способен кратко и емко сформулировать свой вопрос с использованием нескольких нужных терминов.

В работе получены следующие основные результаты:

1. Разработан алгоритм индексирования, позволяющий неявно сохранять информацию о знаках препинания в полнотекстовых индексах.

2. Разработан алгоритм, позволяющий выделять из текстов ключевые словосочетания с использованием концептуальных графов.

3. Разработан алгоритм полнотекстового поиска с контекстным окном плавающего размера, использующий при вычислении релевантности полученные ранее словосочетания и полнотекстовые индексы.

4. Разработано программное обеспечение, реализующее предложенные алгоритмы на практике.

В процессе выполнения работы был решен ряд практических задач:

• Исследовано поведение разработанных алгоритмов с различными настройками.

• На основе результатов экспериментов с несколькими корпусами текстов получены рациональные значения параметров алгоритмов.

• Разработана система полнотекстового поиска, которая может быть интегрирована со сторонними приложениями.

• Эффективность разработанных алгоритмов подтверждена экспериментально путем сравнения с существующими аналогами, а также с несколькими существующими системами полнотекстового поиска.

Разработанное в рамках данной работы программное обеспечение внедрено в практическое использование в ООО «Автоматизированное обеспечение качества», тульский филиал компании SmartBear Software.

Показать весь текст

Список литературы

Agrawal R. h «p. Diversifying search results// Proceedings of the 2nd ACM International Conference on Web Search and Data Mining. 2009. — CTp. 5−14.
Altman A. h Moshe T. Ranking Systems: The PageRank Axioms// Proceedings of the 6th ACM Conference on Electronic Commerce (EC-05). -Vancouver, BC, 2005.
Atre Anand Aran Meta-Search Engine based on Query-Expansion Using Latent Semantic Analysis and Probabilistic Latent Semantic Analysis/ Indian Institute of Information Technology. Allahabad, 2007.
Bani-Ahmad S.G. h Al-Dweik G. A new term-ranking approach that supports improved searching in literature digital libraries// Research Journal of Information Technology. 2011 r. -1: T. 3. — CTp. 44−52.
Bartell B., Cottrell G. h Belew R. Latent Semantic Indexing is an Optimal Special Case of Multidimensional Scaling // Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval. 1992. -CTp. 161−167.
Becker J. h Kuropka D. Topic-based Vector Space Model // Proceedings of Business Information Systems (BIS 2003) / pe^. Abramowicz W. h Klein G. 2003.
Berry M.W. h flp. Using Linear Algebra for Intelliget Information Retrieval // SIAM Review. 1994 r. — 37: T. 4. — CTp. 573−595.
Blei D.M. h flp. Hierarchical Topic Models and the Nested Chinese Restaurant Process// Advances in Neural Information Processing Systems 16: Proceedinsg of the 2003 Conference: MIT Press, 2004. ISBN 0−262−20 152−6.
Blei D.M. h Lafferty J.D. Correlated topic models // Advances in Neural Information Processing Systems. 2006 r. — T. 18.
Blei D.M., Ng A.Y. h Jordan M.I. Latent Dirichlet Allocation // Journal of
Machine Learning Research. 2003 r. — 4: T. 3. — CTp. 993−1022.143
Botev C. Expressiveness and performance of full-text search languages// EDBT: Springer, Heidelberg, 2006. стр. 349−367.
Bradford R. An Empirical Study of Required Dimensionality for Large-scale Latent Semantic Indexing Applications// Proceedings of the 17th ACM Conference on Information and Knowledge Management. 2008. — стр. 153−162.
Brin S. и Page L. The anatomy of a large-scale hypertextual Web search engine // Proceedings of the 7th International World Wide Web Conference. 1998. -T. 30.-стр. 107−117.
Burges C.J.C. и др. Learning to rank using gradient descent // Proceedings of the 22nd International Conference on Machine Learning. Bonn, Germany, 2005. -стр. 89−96.
Buttcher S. и Clarke C.L.A. Efficiency vs. effectiveness in terabyte-scale information retrieval // Proceedings of the Text Retrival Confecence (TREC). 2005.
Buttcher S., Clarke C.L.A. и Cormack G.V. Information Retrieval: Implementing and Evaluating Search Engines: MIT Press, 2010.
Cangelosi R. и Goriely A. Component Retention in Principal Component Analysis With Application to Cdna Microarray Data // BMC Biology Direct. 2007 г. — 2: T. 2.
Challis John Lateral Thinking in Information Retrieval// Information Management and Technology. Август 2003 г. — 4: T. 36. — стр. 169−173.
Chang M. и Poon C.K. Efficient phrase querying with common phrase index // ECIR: Springer, Heidelberg, 2006. стр. 61−71.
Chaudhiri S. и др. Probabilistic information retrieval approach for ranking of database query results// ACM Transactions of Database Systems. 2006 г. — 31: T. 3.
Chein M. и Mugnier M. Conceptual Graphs: fundamental notions // Revue d’Intelligence Artificielle. 1992 г. — 4: T. 6. — стр. 365−406.
Clarke C.L.A, Cormack G.V. и Tudhope E.A. Relevance ranking for one to three term queries // Information Processing and Management. 2000 г. — 36: T. 2. -стр. 291−311.
Cormack G.V. и Lynam T.R. Statistical precision of information retrieval evaluation // Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2006. — стр. 533−540.
Croft В., Metzler D. и Strohman T. Search Engines: Information Retrieval in Practice: Addison Wesley, 2009.28 de Kretser О. и Moffat A. Effective document presentation with a locality-based similarity heuristic // SIGIR. 1999. — стр. 113−120.
Deerwester S. и др. Improving Information Retrieval with Latent Semantic Indexing// Proceedings of the 51st Annual Meeting of the American Society for Information Science. 1988. — стр. 36−40.
Deerwester S.C. и др. Indexing by latent semantic analysis // Journal of the American Society of Information Science. 1990 г. — 41: T. 6. — стр. 391−407.
Ding С. A Similarity-based Probability Model for Latent Semantic Indexing // Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval. 1999. — стр. 59−65.
Dubin D. The Most Influential Paper Gerard Salton Never Wrote // Library Trends. 2004 г. — 52: Т. 4. — стр. 748−764.
Dumais S.T. Latent semantic analysis // Annual Review of Information Science and Technology. 2004 г. — 1: Т. 38. — стр. 188−230.
Fox E. и др. Information Retrieval: Algorithms and Data Structures: Prentice-Hall, Inc., 1992.
Furnas G. и др. The Vocabulary Problem in Human-System Communication// Communications of the ACM. 1987 г. — 30: T. 11. — стр. 964 971.
Garcia E. A Tutorial on Okapi Simple BM25 °F. 02 08 2011 г. — 12 01 2012 г. — http://www.miisHta.com/information-retrieval-tutorial/okapi-simple-bm25f-tutorial.pdf.
Girolami M. и Kaban A. On an Equivalence between PLSI and LDA// Proceedings of SIGIR 2003. 2003. — ISBN 1−58 113−646−3.
Graesser А. и Karnavat A. Latent Semantic Analysis Captures Causal, Goal-oriented and Taxonomic Structures // Proceedings of CogSci 2000. 2000. -стр. 184−189.
Grossman D.A. и Frieder O. Information Retrieval. Heidelberg: Springer, 2005.
Hjorland B. The foundation of the concept of relevance // Journal of the American Society for Information Science and Technology. 2010 г. — 61: Т. 2. -стр. 217−237.
Ни X., Cai Z. и др. LSA: First Dimension and Dimensional Weighting// 25th Annual Meeting of the Cognitive Science Society. Boston, MA.
Hulth A.// GitHub. 28 04 2010 г. — 23 12 2011 г.-https://githubxom/snkim/AutomaticKeyphraseExtraction/blob/master/Hulth2003.tz.
Hulth A. Improved automatic keyword extraction given more linguistic knowledge // Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing. 2003.
Institution of Engineering and Technology Inspec the IET // IET: The Institution of Engineering and Technology.- 24 12 2011 г.-http://www.theiet.org/resources/inspec/.
Jarvelin К. и Kekalainen J. Cumulated gain-based evaluation of IR techniques // ACM Transactions on Information Systems. 2002 г. — 20: T. 4. — стр. 422−446.
Jolliffe L.T. Principal Component Analysis. New York: Springer-Verlag, 1986.
Jones K.S., Walker S. и Robertson S.E. A Probabilistic Model of Information Retrieval: Development and Comparative Experiments// Information Processing and Management. 2000 г. — 36: T. 6. — стр. 779−840.
Jurafsky D. и Gilde D. Automatic Labeling of Semantic Roles// Association for Computational Linguistics. ACL-02. Philadelphia, 2002.
Karypis G. и Han E. Fast Supervised Dimensionality Reduction Algorithm with Applications to Document Categorization and Retrieval // Proceedings of CIKM-00, 9th ACM Conference on Information and Knowledge Management. 2000.
Lancaster F.W. и Fayen E.G. Information Retrieval On-Line. Los Angeles: Melville Publishing Co., 1973.
Landauer Т.К., Foltz P.W. и Laham D. An Introduction to Latent Semantic Analysis //Discourse Processes. 1998 г. — Т. 25. — стр. 259−284.
Manning С., Raghavan P. и Schutze H. Introduction to Information Retrieval: Cambridge University Press, 2008. ISBN 9 780 521 865 719.
Metzler D. и др. Indri at TREC 2004: Terabyte track // TREC. 2004.
Mihalcea R. Graph-based ranking algorithms for sentence extraction, applied to text summarization // Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL 2004). Barcelona, Spain, 2004.
Mihalcea R. и Tarau P. TextRank: Bringing Order into Texts // Proceedings of the Conference on Empirical Methods in Natural Language Processing. 2004.
Miller G.A. и др. WordNet: An online lexical database// International Journal of Lexicography. 1990 г. — 3: Т. 4. — стр. 235−244.
Minka Т. и Lafferty J. Expectation-propagation for the generative aspect model // Proceedings of the 18th Conference on Uncertainty in Artificial Intelligence. San Francisco. San Francisco, CA: Morgan Kaufmann, 2002. — ISBN 1−55 860−8974.
Monz C. Minimal span weighting retrieval for question answering// IR4QA. 2004.
Online Help // SmartBear Software Support Portal. SmartBear Software. -11 01 2012 г. — http://smartbear.com/support/onlinehelp/.
Papka R. и Allan J. Why bigger windows are better than small ones: Технический отчет / CIIR. 1997.
Ponte J.M. и Croft W.B. A Language Modeling Approach to Information Retrieval // Research and Development in Information Retrieval. 1998 г. — стр. 275 281.
Rasolfo Y. и Savoy J. Term proximity scoring for keyword-based retrieval systems // ECIR / ред. Sebastiani F.: Springer, Heidelberg, 2003. стр. 207−218.
Robertson S.E. и Jones K.S. Relevance weighting of search terms // Journal of the American Society for Information Science. 1976 г. — 27. — стр. 129−146.
Robertson S.E. и Zaragoza H. The Probabilistic Relevance Framework: BM25 and Beyond // Foundations and Trends in Information Retrieval. 2009 г. — 4: Т. 3. — стр. 333−389.
Robertson S.E., Walker S. и Hancock-Beaulieu M. Okapi at TREC-7// Proceedings of the 7th Text Retrieval Conference. 1998.
Robertson S.E., Zaragoza H. и Taylor M. Simple BM25 extension to multiple weighted fields// Proceedings of the 2004 ACM CIKM International Conference on Information and Knowledge Management: ACM, 2004. стр. 42−49.
Salton G., Fox E.A. и Wu H. Extended Boolean information retrieval // Communications of the ACM. 1983 г. — 11: T. 26.
Saptaditya M. и др. Sentence Ranking for Document Indexing // PReMI 2011, LNCS 6744: Springer-Verlag, 2011. T. 6744. — стр. 274−279.
Shanmukha Rao В., Rao S. V. и Sajith G. A user-profile assisted meta search engine // TENCON-2003 Conference on Convergent Technologies for Asia-Pacific Region. 2003. — T. 2. — стр. 713−717.
Song F. и Croft W.B. A General Language Model for Information Retrieval // Research and Development in Information Retrieval. 1999 г. — стр. 279 280.
Song R. и др. Viewing term proximity from a different perspective: Технический отчет / Microsoft Research Asia. 2005. — MSR-TR-2005−69.
Sowa J.F. Conceptual Graphs: Draft Proposed American National Standard // International Conference on Conceptual Structures (ICCS-99). Berlin: Springer, 1999.
Sowa J.F. Knowledge Representation: Logical, Philosophical, and Computational Foundations. Pacific Groove, CA: Brooks Cole Publishing Co., 2000.
Williams H.E. и др. Fast phrase qerying with combined indexes // ACM Transactions on Infromation Systems. 2004 г. — 22: Т. 4. — стр. 573−594.
Williams H.E. и др. What’s next? Index structures for efficient phrase querying//Australasian Database Conference. 1999. — стр. 141−152.
Witten I.H., Moffat А. и Bell T.C. Managing gigabytes: compressing and indexing documents and images. San Francisco: Morgan Kaufmann Publishing, 1999. — ISBN 1−55 860−552−5.
Wong S.K.M., Wojciech Z. и Wong P.C.N. Generalized vector spaces model in information retrieval // SIGIR. 1985.
Wu H.C. и др. A retrospective study of probabilistic context-based retrieval // Proceedings of the 28th annual international ACM SIGIR Conference on Research and development in information retrieval (SIGIR'05). 2005. — ISBN:1−59 593−034−5.
Yu C.T. и Salton G. Precision Weighting An Effective Automatic Indexing Method // Journal of the ACM. — 1976 г. — 23: Т. 1. — стр. 76−88.
Zaragoza H. и др. Microsoft Cambridge at TREC-13: Web and HARD tracks // Proceedings ofTREC-2004. 2004.
Агеев M., Кураленок И. и Некрестьянов И. Официальные метрики РОМИП 2010 // РОМИП. 2010 г.- 10.2.2012 г.-http://romip.ru/romip2010/20appendixametrics.pdf.
Демьянков В.З. Семантические роли и образы языка// Когнитивные аспекты лексикографии. 24 11 2008 г. — http://www.infolex.ru/deml.html.
Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии, 2000 г. 11.
Колосов А.П. Алгоритм полнотекстового поиска с обучением на основе статистических данных // Известия ТулГУ: Технические науки. Тула: Издательство ТулГУ, 2011 г. — 6: Т. 2. — стр. 462−471.
Колосов А.П. Выделение словосочетаний из текстов при помощи концептуальных графов. Красноярск: НИЦ, 2012 г. — 1.1(25). — стр. 181−191.
Колосов А.П. и Богатырев М.Ю. Алгоритм полнотекстового поиска по длинным запросам // Труды XIII Всероссийской научной конференции RCDL'2011.- Воронеж: Издательско-полиграфический центр Воронежского государственного университета, 2011. стр. 151−157.
Колосов А.П. и Богатырев М.Ю. Полнотекстовый поиск в порталах технической поддержки // Интернет и современное общество: сборник тезисов докладов. СПб: МультиПроджектСистемСервис, 2011. — стр. 57−62.
Кузнецов С.О., О некоторых вопросах анализа понятий // Научно-техническая информация (НТИ). 1999 г. 1−2. — стр. 57−61.
Ландэ Д.В., Снарский A.A. и Безсуднов И.В. Интернетика: Навигация в сложных сетях: модели и алгоритмы. М.: Либроком, 2009. — ISBN 978−5-39 700 497−8.
Люгер Дж.Ф. Искусственный интеллект: стратегии и методы решения сложных проблем, 4-е изд. Москва: Издательский дом «Вильяме», 2003.
Маннинг К., Рагхаван П. и ПЬотце X. Введение в информационный поиск: Вильяме, 2011. ISBN 978−5-8459−1623−5.
Мельчук И.А. Опыт теории лингвистических моделей «Смысл-Текст». Семантика, синтаксис. Москва: Школа «Языки русской культуры», 1999.
Фримен А. и Раттц Дж. LINQ: язык интегрированных запросов в С# 2010 для профессионалов: Вильяме, 2011. ISBN 978−5-8459−1701−0.
Шаров С.А. Средства компьютерного представления лингвистической информации // Информационные технологии и телерадиокоммуникации. 2000 г. — 2.

Заполнить форму текущей работой