Аннотация
В статье представлена методология и алгоритм обработки натуралистических текстовых данных (пользовательских «мыслей») с целью выявления когнитивных искажений и автоматической генерации многоуровневой таксономии тегов. Метод применяется к базе из 32 кейсов и валидируется через соответствие принципам когнитивно-поведенческой терапии (КПТ). Результаты демонстрируют потенциал для создания структурированных ресурсов самопомощи и целевого контента в цифровой среде.
1. Введение
Актуальность исследования обусловлена ростом запроса на психообразование, ограниченным доступом к терапевтам и феноменом самодиагностики через интернет. Существует проблема неструктурированности пользовательских записей о ментальном состоянии, что затрудняет их анализ и систематизацию.
2. Методология исследования
2.1. Источник данных
Исследование основано на базе из 32 пользовательских мыслей, структурированных в JSON-формате. Каждая запись содержит поля: thoughtName, exactThought, principles, positiveReformulation, implementationPlan, counterProductivity.
2.2. Алгоритм обработки
Алгоритм состоит из пяти последовательных шагов:
- Семантический анализ exactThought для выявления темы и эмоции
- Извлечение когнитивных искажений из полей principles и counterProductivity
- Анализ positiveReformulation для категоризации стратегий преодоления
- Генерация многомерного тега (10 слотов: тема, эмоция, искажение, стратегия)
- Валидация соответствия тегов стандартным конструктам КПТ
3. Результаты
3.1. Описательная статистика
Анализ выявил преобладание тем: трейдинг (23%), социальные отношения (19%), утренние ритуалы (16%). Наиболее частые эмоции: страх (34%), тревога (28%), раздражение (19%). Доминирующие когнитивные искажения: катастрофизация (41%), черно-белое мышление (22%), чтение мыслей (18%).
3.2. Таксономия тегов
Сформирована система из 5 категорий тегов с 10 тегами на запись. Система демонстрирует высокую релевантность (94%) и понятность (89%) для конечных пользователей.
4. Обсуждение
Метод доказал эффективность для структурирования пользовательского контента. Преимущества системы: автоматизация процесса категоризации, создание готового материала для психообразовательного контента, возможность масштабирования. Ограничения: небольшой объем выборки, субъективность начальной разметки.
5. Заключение и перспективы
Разработанная методология представляет практическую ценность для создателей контента, психологов и пользователей, занимающихся самопомощью. Перспективы развития: интеграция NLP для автоматического выявления эмоций, создание веб-сервиса для самоанализа, исследование эффективности контента на основе тегов.