Мера косинусного сходства для обработки неоконченных предложений (на примере изучения образа патриота)

Научная статья
Выражение признательности
Исследование выполнено за счёт гранта Российского научного фонда № 24-28-00549 «Культурная маргинальность российских студентов: развитие человеческого потенциала новых поколений как проблема и ресурс развития патриотизма в основных положениях и мерах по реализации государственной молодёжной политики» (руководитель: кандидат социологических наук Д. А. Тихомиров).
Для цитирования
Пинчук А. Н., Тихомиров Д. А., Вахненко Е. В. Мера косинусного сходства для обработки неоконченных предложений (на примере изучения образа патриота). — Социологическая наука и социальная практика, 2025. Т. 13. № 3. С. 178-196. DOI: https://doi.org/10.19181/snsp.2025.13.3.9. EDN: BAPPMQ

Аннотация

В условиях интенсивного развития науки об обработке естественного языка возникает вопрос об интеграции инновационных технологий в рабочие процессы социологов. Социальные учёные нередко сталкиваются с необходимостью обработки текстовых данных, полученных как в рамках собственных исследовательских проектов, так и в сети интернет. Очевидно, что использование в качестве базы данных доступных онлайн-источников выдвигает повышенные требования к техникам и процедурам обработки корпуса документов огромного объёма, нередко превышающего несколько сот тысяч строк. Однако не остаётся за рамками внимания работа с материалами авторских социологических исследований гораздо меньшего объёма, которые часто требуют значительных трудовых и временны́х ресурсов, если их обрабатывать вручную. В этом случае возникает проблема согласованности кодирования текстов группой исследователей, где особую роль играет субъективное мнение специалистов при обобщении или группировке данных. В статье показаны возможности и ограничения использования меры косинусного сходства для анализа текстовых данных, полученных методом неоконченных предложений. Эмпирической базой исследования послужили материалы, полученные в ходе изучения образа патриота в одном из московских вузов в марте 2025 г. Всего в исследовании приняло участие 70 студентов. В работе представлена обработка ответов на стимульное предложение, которое респондентам нужно было завершить своими словами: «Патриот всегда…». Результаты расчёта меры косинусного сходства показали, что данная метрика может выступать полезным инструментом в первичном поиске близких по содержательному контенту утверждений. В случае сомнений и необходимости проверки выводов или решения проблемы согласованности коллективного кодирования использование меры семантической близости может выступить в качестве значимого дополнительного количественного показателя для определения тематической направленности высказывания каждого из респондентов. Так, применяя оценку косинусного сходства, можно сгруппировать тексты, наиболее близкие по семантической нагрузке, тем самым приближая к пониманию общей структуры изучаемого образа и тезауруса участников исследования. В заключении делается вывод о современных требованиях к подготовке специалистов социально-гуманитарного профиля, что порождает новые методологические вопросы и открывает дискуссии об оптимальной интеграции технологических достижений в области обработки естественного языка в аналитические практики социальных учёных и исследователей.
Ключевые слова:
метод неоконченных предложений, семантическое сходство, косинусное сходство, языковая модель BERT, образ патриота

Биографии авторов

Антонина Николаевна Пинчук, РЭУ имени Г. В. Плеханова, Москва, Россия
кандидат социологических наук, доцент
Дмитрий Андреевич Тихомиров, РЭУ имени Г. В. Плеханова, Москва, Россия
кандидат социологических наук, доцент
Егор Васильевич Вахненко, РЭУ имени Г. В. Плеханова, Москва, Россия
Студент

Литература

1. Бызов А. А. Интеллектуальный анализ текстов в социальных науках // Социология: методология, методы, математическое моделирование (Социология: 4М). 2019. № 49. С. 131–160. EDN GCIIVL.

2. Hampton K. N. Studying the Digital: Directions and Challenges for Digital Methods // Annual Review of Sociology. 2017. № 43 (1). P. 167–188. DOI 10.1146/annurevsoc-060116-053505.

3. Пузанова Ж. В. «Одиночество» как предмет эмпирического анализа // Социология: методология, методы, математическое моделирование (Социология: 4М). 2009. № 29. С. 132–154. EDN KNOYNZ.

4. Зубова О. Г. Проективные методики в социологических исследованиях: теория и практика // Вестник Московского университета. Серия 18. Социология и политология. 2023. № 29 (1). С. 194–218. DOI 10.24290/1029-3736-2023-29-1-194-218. EDN RUIPJM.

5. Татарова Г. Г. Основы типологического анализа в социологических исследованиях. М. : Высшее Образование и Наука, 2007. 236 с. ISBN 5-94084-047-7. EDN QOGTDB.

6. Троцук И. В., Субботина М. В. «Ядро» и «периферия» понятий «счастье» и «справедливость»: метод неоконченных предложений как инструмент валидизации // Вестник РУДН. Серия: Социология. 2022. Т. 22, № 4. С. 782–801. DOI 10.22363/23132272-2022-22-4-782-801. EDN TAPIWN.

7. Климова С. Г. Опыт использования методики неоконченных предложений в социологическом исследовании // Социология: методология, методы, математические модели (Социология: 4М). 1995. № 5-6. С. 49–64. EDN PFTWHV.

8. Ольшанский В. Б. Становление метода неоконченных предложений в Советском Союзе 70-х гг. // Социология: методология, методы, математические модели (Социология: 4М). 1997. № 9. С. 82–97. EDN PFTWRB.

9. Татарова Г. Г., Бурлов А. В. Метод неоконченных предложений в изучении образа («культурный человек») // Социология: методология, методы, математическое моделирование (Социология: 4М). 1997. № 9. С. 5–31. EDN PFTWPN.

10. Татарова Г. Г., Бурлов А. В. Логическая организация анализа данных, полученных методом неоконченных предложений // Социологические исследования. 1999. № 8. С. 123–133. EDN SNBITP.

11. Бурлов А. В. Метод неоконченных предложений в социологии: стратегии использования и логика анализа данных : дис. ...канд. соцол. наук : 22.00.01 / Бурлов Антон Вячеславович. М. : ИС РАН, 2001. 179 с. EDN QDMELN.

12. Тихомиров Д. А., Новицкая К. В. Представления молодёжи Москвы о гендерных ролях и характеристиках современной женщины // Горизонты гуманитарного знания. 2018. № 3. С. 90–102. DOI 10.17805/ggz.2018.3.6. EDN VMKDDA.

13. Сикевич З. В., Фёдорова А. А. «Мы – русские» (ассоциативные этнические образы молодых петербуржцев) // Социологическая наука и социальная практика. 2019. Т. 7, № 3 (27). С. 40–56. DOI 10.19181/snsp.2019.7.3.6688. EDN CPKOVO.

14. Субботина М. В. Применение метода неоконченных предложений в изучении понятий со сложными коннотациями: концептуализация героизма и справедливости // Общество: социология, психология, педагогика. 2021. № 5 (85). С. 88–96. DOI 10.24158/spp.2021.5.15. EDN EXIGEF.

15. Бубнов А. Ю., Савельева М. А. Память о Великой Отечественной войне: сравнительный анализ взглядов российской и белорусской молодёжи // Наука. Общество. Оборона. 2021. Т. 9, № 2 (27). С. 13. DOI 10.24412/2311-1763-2021-2-13-13. EDN VCTHOA.

16. Савенкова А. С., Субботина М. В. Возможности метода неоконченных предложений в изучении «культуры отмены» // Вестник РУДН. Серия: Социология. 2024. Т. 24, № 3. С. 660–683. DOI 10.22363/2313-2272-2024-24-3-660-683. EDN DXLFCJ.

17. Татарова Г. Г., Чиркова А. В. Здоровьесберегающее поведение молодёжи: формирование типообразующих признаков методом неоконченных предложений // Социологическая наука и социальная практика. 2024. Т. 12, № 1. С. 25–61. DOI 10.19181/snsp.2024.12.1.2. EDN GWRDZA.

18. Сикевич З. В. Опыт применения процедуры неоконченных предложений в социологическом исследовании // Вестник Санкт-Петербургского университета. Социология. 2019. Т. 12, № 4. С. 317–328. DOI 10.21638/spbu12.2019.402. EDN XKAFTS.

19. Андриевская Н. К. Гибридная интеллектуальная мера оценки семантической близости // Проблемы искусственного интеллекта. 2021. № 1 (20). С. 4–17. EDN ZDZKGK.

20. Меры семантической близости в онтологии / К. В. Крюков, Л. А. Панкова, В. А. Пронина [и др.] // Проблемы управления. 2010. № 5. С. 2–14. EDN MUVNSP.

21. Бермудес С. Х. Г. Метод измерения семантического сходства текстовых документов // Известия ЮФУ. Технические науки. 2017. № 3 (188). С. 17–29. DOI 10.23683/23113103-2017-3-17-29. EDN ZDHXJR.

22. Белова К. М., Судаков В. А. Исследование эффективности методов оценки релевантности текстов // Препринты ИПМ им. М. В. Келдыша. 2020. № 68. С. 1–16. DOI 10.20948/prepr-2020-68. EDN CYCEWZ.

23. Рассел М., Классен М. Data Mining. Извлечение информации из Facebook, Twitter, LinkedIn, Instagram, GitHub. СПб. : Питер, 2020. 464 с. ISBN 978-5-4461-1246-3.

24. Sarika K., Vijay Kumar A., Vijay R. Beyond Text: Exploring Multimodal BERT Models // Journal of Computer Science Applications and Information Technology. 2025. № 10 (1). P. 1–6. DOI 10.15226/2474-9257/10/1/00164.

25. BERT applications in natural language processing: a review / N. M. Gardazi, A. Daud, M. K. Malik [et al.] // Artif Intell Rev. 2025. Vol. 58. № 166. DOI 10.1007/s10462-02511162-5.

26. Semantic Textual Similarity in Japanese Clinical Domain Texts Using BERT / F. W. Mutinda, Sh. Yada, Sh. Wakamiya, E. Aramaki // Methods of Information in Medicine. 2021. Т. 60, № S01. Р. e56–64. DOI 10.1055/s-0041-1731390. EDN QQSZZL.

27. Syaifudin M. F., Adiatmaja G., Hidayaturrohman B. Calculation of Similarity between MUI Fatwas: A Comparison of Text Extraction Features and String Matching Algorithms // Halal Research Journal (HRJ). 2025. Vol. 5, № 1. Р. 1–13. DOI 10.12962/j22759970. v5i1.1226. EDN SWVYVB.

28. Пузанова Ж. В., Тертышникова А. Г. Метод неоконченных предложений в исследовании социальных представлений (на примере образа террориста) // Tеория и практика общественного развития. 2015. № 4. С. 12–15. EDN TKAMQH.

29. Пинчук А. Н., Тихомиров Д. А. Образ коррупционера в восприятии российской молодёжи: применение метода неоконченных предложений // Вестник Института социологии. 2019. Т. 10, № 2. С. 12–27. DOI 10.19181/vis.2019.29.2.573. EDN UFIZXB.

30. Желизнык М. Н. Опыт использования метода неоконченных предложений в изучении образов «героя» и «антигероя» нашего времени // Мониторинг общественного мнения: экономические и социальные перемены. 2024. № 1 (179). С. 257–275. DOI 10.14515/monitoring.2024.1.2460. EDN TKBIIJ.

31. Пинчук А. Н., Карепова С. Г., Тихомиров Д. А. Технологии Text Mining в социологическом анализе (на примере изучения представлений студентов о миссии современного вуза) // Социологическая наука и социальная практика. 2024. Т. 12, № 1. С. 62–79. DOI 10.19181/snsp.2024.12.1.3. EDN LOUOJW.
Статья

Поступила: 01.05.2025

Опубликована: 24.09.2025

Форматы цитирования
Другие форматы цитирования:

Harvard
Пинчук, А. Н., Тихомиров, Д. А. и Вахненко, Е. В. (2025) ’Мера косинусного сходства для обработки неоконченных предложений (на примере изучения образа патриота)’, Социологическая наука и социальная практика, 13(3), сс. 178-196. doi: https://doi.org/10.19181/snsp.2025.13.3.9.
Раздел
МЕТОДОЛОГИЯ И МЕТОДЫ СОЦИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ