Аннотация

Доступ к Большим Данным, представленным, в частности, текстами в социальных медиа, дает социологам новые возможности для исследований. Однако анализ этих текстовых данных осложнен их большими объемами и неструктурированностью. Значительную помощь в работе с такой информацией предоставляют статистические методы, а именно тематическое моделирование. Проблема состоит в том, что получаемая в результате такого анализа тематическая структура не гарантирует отсутствия ошибок, порождаемых как интерпретативной работой исследователя, так и свойствами самих моделей. В статье рассмотрен способ валидизации результатов тематического моделирования при помощи сравнения с результатами другого метода — построения сетевой модели. В качестве эмпирического материала в исследовании были использованы тексты с ресурса Youtube, представляющие собой комментарии к фильму «Чайка» Фонда Борьбы с Коррупцией. В ходе исследования были построены две тематические модели — «базовая» и «расширенная», в результате анализа которых была получена тематическая структура дискуссии. Методом, использованным для валидизации полученных тем, стала семантическая сеть на биграммах. Данный метод показал свою эффективность, как в качестве инструмента валидизации, так и как способ расширить множество обнаруженных тем. Одним из преимуществ метода стала возможность визуализации тематической структуры. Представленная работа показывает, каким образом можно существенно облегчить «ручную» работу социолога при работе с большим объемом неструктурированных текстовых данных при помощи математических и статистических методов.

Ключевые слова: большие данные, тематическое моделирование, сетевой анализ, семантическая сеть, анализ текста