Научный отчет № 5183
- Название
- Анализ алгоритмов мониторинга цифрового контента с целью решения задач безопасности.
- Авторы
- Васенин В.А., Афонин А.С., Козицын А.С., Голомазов Д.Д., Занчурин М.А., Коршунов А.А. Шундеев А.С.
- Аннотация
- Объектом исследования является процесс автоматического анализа больших коллекций документов при решении задач обеспечения безопасности. Целью работы является проведение экспериментальных исследований и аппробация на программных макетах предлагаемых математических моделей и алгоритмов в области интелектуального анализа текстов для решения задач обеспечения безопасности. Методология отбора информационных источников для последующего анализа состоит в проведении поиска по ключевым словам в специализированных поисковых систем по научно-техническим источникам и расширении полученного множества источников за счет анализа графа цитируемости. В число используемых поисковых систем входят ISI Web of Science, Springer Online, ScienceDirect, ACM Digital Library, содержащие данные о научных публикациях в англоязычных изданиях, а также elibrary.ru, которая охватывает ведущие отечественные периодические издания. В ходе работы были решены следующие задачи. Выработан перечень наиболее перспективных для использования в составе государственных АИС методик и алгоритмов поиска и интеллектуального анализа информации. Исследована целесообразность использования конкретных методов интеллектуального анализа при создании государственных автоматизированных информационных системах (АИС) на основе использования сетей Интернет, включая корпоративные АИС (объектовые и территориально-распределенные). Проведена адаптация существующих и создание новых методик и алгоритмов поиска и интеллектуального анализа информации в интересах органов государственной власти. Определены основные типы информационных источников СМИ, требующих мониторинга на предмет террористической направленности. Выработаны основные технические требования к системе мониторинга СМИ. Проведены поисковые исследования и разработка новых математических моделей и алгоритмов выделения дат, имен, географических объектов, источников и других параметров из информационных сообщений для увеличения точности информационного поиска по конкретным событиям и персонам. Проведены поисковые исследования и разработка новых математических моделей и алгоритмов, позволяющих: автоматизировать выделение фактов и описаний, а также предоставляющих возможность определять их достоверность из коллекций текстовых документов; автоматически выделять из информационного потока новостей новые тематические направления, которые могут на раннем этапе предупреждать аналитика о возникновении проблемных вопросов в обществе; Осуществлена разработка требований к техническим средствам поиска и интеллектуального анализа с целью их использования при разработке и реконструкции государственных АИС. Сделан обзор, анализ и классификация наиболее распределенных информационных потребностей пользователей. Проведена адаптация уже существующих и создание новых методик и алгоритмов поиска и интеллектуального анализа информации в интересах органов государственной власти, в том числе в областях: тематического поиска информации; автоматической классификации текстов по нескольким классификаторам с возможностью последующего поиска с пересечениями по классам; распознавания и классификации информации террористической направленности на основе современных методов контент анализа; анализа массивов текстов для выявления новых тематических направлений; анализа текстовой информации для выявления специальных терминов; анализа взаимосвязей разнородных текстов для выявления скрытой структуры информационных ресурсов; выделения фактов, дат, имен, географических объектов, источников и других параметров; выявления крытых характеристик информации; визуализация информации; автоматического реферирования информации для возможности быстрой оценки экспертом результатов поиска; ранжирования результатов выполнения поискового запроса с использованием информации о времени загрузки при визуализации результатов поиска. Основной областью применения полученных результатов может стать разработка прототипа системы интеллектуального поиска в Интернете с целью выявления информации: террористической направленности; в области нарушений информационной безопасности и о потенциальных угрозах критически важным объектам. Результаты данного этапа НИР рекомендуется использовать при построении специализированных систем обработки текстов на естественном языке в различных предметных, в частности, в области безопасности, анализа научно-технических данных, в области медицины.
- Год публикации
- 2012 г.
- Объём
- 263 с.
- Научный руководитель
- Васенин В.А.
регистрация
наука
экспериментальная база
инновации