@ARTICLE{26583223_910245836_2024, 
	author = {Е. А. Валуева and А. С. Панфилова and А. С. Рафикова}, 
	keywords = {, дивергентные тесты, оригинальность, автоматическая обработка, семантические расстояния, дистрибутивная семантика, латентно-семантический анализбольшие языковые модели},
	title = {Автоматическая оценка тестов на вербальную креативность: от лексических баз данных к большим языковым моделям},
	journal = {Психология. Журнал Высшей школы экономики},
	year = {2024},
	volume = {21},
	number = {1},
	pages = {202-225},
	url = {https://psy-journal.hse.ru/2024-21-1/910245836.html},
	publisher = {},
	abstract = {В статье рассматривается эволюция методов автоматической оценки вербальных тестов на дивергентное мышление. Основным предметом внимания исследователей становится возможность оценить оригинальность ответов испытуемых с помощью подсчета их семантической удаленности от стимульной задачи. В период с 2009 по 2019 г. главным методом оценки семантических расстояний стал латентно-семантический анализ. В целом, с точки зрения внутренней согласованности и корреляции с экспертными оценками, его применение давало удовлетворительные результаты, позволяя сохранить допустимый баланс качества и затраченных усилий. Однако выявились проблемы (зависимость оценок от используемого корпуса, нестабильность результатов, систематические искажения, связанные с длиной анализируемых ответов), которые заставили исследователей перейти к более продвинутым моделям дистрибутивной семантики (GloVe, Word2Vec), большим языковым моделям и обучению с учителем. Большие языковые модели (особенно дообученные на материале тестов креативности) показали более высокую эффективность, чем модели, оценивающие семантические расстояния, и приблизились к оценкам, которые дают эксперты. Помимо оценки оригинальности, в статье рассматриваются работы, в которых предлагаются методы автоматической оценки разработанности, гибкости, ассоциативного потока и дивергентной семантической интеграции. Приводятся ссылки на онлайн-платформы, позволяющие получать автоматические оценки оригинальности ответов на дивергентные тесты. Обсуждается проблема интерпретации полученных с помощью больших языковых моделей результатов. Недостатком применения этих моделей является отсутствие понимания, на каких основаниях выносится суждение об оригинальности творческих продуктов. Обсуждаются перспективы применения объяснимого искусственного интеллекта для оценки результатов вербальных и невербальных тестов творческого мышления.},
	annote = {В статье рассматривается эволюция методов автоматической оценки вербальных тестов на дивергентное мышление. Основным предметом внимания исследователей становится возможность оценить оригинальность ответов испытуемых с помощью подсчета их семантической удаленности от стимульной задачи. В период с 2009 по 2019 г. главным методом оценки семантических расстояний стал латентно-семантический анализ. В целом, с точки зрения внутренней согласованности и корреляции с экспертными оценками, его применение давало удовлетворительные результаты, позволяя сохранить допустимый баланс качества и затраченных усилий. Однако выявились проблемы (зависимость оценок от используемого корпуса, нестабильность результатов, систематические искажения, связанные с длиной анализируемых ответов), которые заставили исследователей перейти к более продвинутым моделям дистрибутивной семантики (GloVe, Word2Vec), большим языковым моделям и обучению с учителем. Большие языковые модели (особенно дообученные на материале тестов креативности) показали более высокую эффективность, чем модели, оценивающие семантические расстояния, и приблизились к оценкам, которые дают эксперты. Помимо оценки оригинальности, в статье рассматриваются работы, в которых предлагаются методы автоматической оценки разработанности, гибкости, ассоциативного потока и дивергентной семантической интеграции. Приводятся ссылки на онлайн-платформы, позволяющие получать автоматические оценки оригинальности ответов на дивергентные тесты. Обсуждается проблема интерпретации полученных с помощью больших языковых моделей результатов. Недостатком применения этих моделей является отсутствие понимания, на каких основаниях выносится суждение об оригинальности творческих продуктов. Обсуждаются перспективы применения объяснимого искусственного интеллекта для оценки результатов вербальных и невербальных тестов творческого мышления.}
}