Научный отчет № 5183

Название
Анализ алгоритмов мониторинга цифрового контента с целью решения задач безопасности.
Авторы
Васенин В.А., Афонин А.С., Козицын А.С., Голомазов Д.Д., Занчурин М.А., Коршунов А.А. Шундеев А.С.
Аннотация
Объектом исследования является процесс автоматического анализа больших коллекций документов при решении задач обеспечения безопасности. Целью работы является проведение экспериментальных исследований и аппробация на программных макетах предлагаемых математических моделей и алгоритмов в области интелектуального анализа текстов для решения задач обеспечения безопасности. Методология отбора информационных источников для последующего анализа состоит в проведении поиска по ключевым словам в специализированных поисковых систем по научно-техническим источникам и расширении полученного множества источников за счет анализа графа цитируемости. В число используемых поисковых систем входят ISI Web of Science, Springer Online, ScienceDirect, ACM Digital Library, содержащие данные о научных публикациях в англоязычных изданиях, а также elibrary.ru, которая охватывает ведущие отечественные периодические издания. В ходе работы были решены следующие задачи. Выработан перечень наиболее перспективных для использования в составе государственных АИС методик и алгоритмов поиска и интеллектуального анализа информации. Исследована целесообразность использования конкретных методов интеллектуального анализа при создании государственных автоматизированных информационных системах (АИС) на основе использования сетей Интернет, включая корпоративные АИС (объектовые и территориально-распределенные). Проведена адаптация существующих и создание новых методик и алгоритмов поиска и интеллектуального анализа информации в интересах органов государственной власти. Определены основные типы информационных источников СМИ, требующих мониторинга на предмет террористической направленности. Выработаны основные технические требования к системе мониторинга СМИ. Проведены поисковые исследования и разработка новых математических моделей и алгоритмов выделения дат, имен, географических объектов, источников и других параметров из информационных сообщений для увеличения точности информационного поиска по конкретным событиям и персонам. Проведены поисковые исследования и разработка новых математических моделей и алгоритмов, позволяющих: автоматизировать выделение фактов и описаний, а также предоставляющих возможность определять их достоверность из коллекций текстовых документов; автоматически выделять из информационного потока новостей новые тематические направления, которые могут на раннем этапе предупреждать аналитика о возникновении проблемных вопросов в обществе; Осуществлена разработка требований к техническим средствам поиска и интеллектуального анализа с целью их использования при разработке и реконструкции государственных АИС. Сделан обзор, анализ и классификация наиболее распределенных информационных потребностей пользователей. Проведена адаптация уже существующих и создание новых методик и алгоритмов поиска и интеллектуального анализа информации в интересах органов государственной власти, в том числе в областях: тематического поиска информации; автоматической классификации текстов по нескольким классификаторам с возможностью последующего поиска с пересечениями по классам; распознавания и классификации информации террористической направленности на основе современных методов контент анализа; анализа массивов текстов для выявления новых тематических направлений; анализа текстовой информации для выявления специальных терминов; анализа взаимосвязей разнородных текстов для выявления скрытой структуры информационных ресурсов; выделения фактов, дат, имен, географических объектов, источников и других параметров; выявления крытых характеристик информации; визуализация информации; автоматического реферирования информации для возможности быстрой оценки экспертом результатов поиска; ранжирования результатов выполнения поискового запроса с использованием информации о времени загрузки при визуализации результатов поиска. Основной областью применения полученных результатов может стать разработка прототипа системы интеллектуального поиска в Интернете с целью выявления информации: террористической направленности; в области нарушений информационной безопасности и о потенциальных угрозах критически важным объектам. Результаты данного этапа НИР рекомендуется использовать при построении специализированных систем обработки текстов на естественном языке в различных предметных, в частности, в области безопасности, анализа научно-технических данных, в области медицины.
Год публикации
2012 г.
Объём
263 с.
Научный руководитель
Васенин В.А.
о нас
Об институте
60 лет
Библиотека
Презентация
регистрация