Российские ученые разработали бенчмарк для проверки нейросетей на культурные коды

По информации Известий ученые разработали методики и алгоритмы для проверки больших языковых моделей на соответствие российскому культурному коду. Эти системы, применяемые в сервисах типа Chat GPT, были протестированы с помощью программного комплекса SLAVA, включающего более 14 тысяч вопросов. Результаты показали, что ни одна из 25 протестированных моделей не смогла ответить правильно хотя бы на половину вопросов.

Большие языковые модели, такие как Chat GPT, помогают в переводах, создании текстов и генерации идей, но часто дают некорректные ответы в русскоязычном сегменте. Это связано с тем, что обучение моделей в основном происходит на англоязычных данных, не всегда соответствующих российским культурным и ценностным системам.

Разработанный бенчмарк SLAVA (Sociopolitical Landscape and Value Analysis) включает вопросы по истории, обществознанию, политологии и другим гуманитарным наукам. Он призван обезопасить пользователей от искаженной информации и повысить доверие к интеллектуальным помощникам. Эксперты считают, что предложенный алгоритм может стать основой для разработки технологий, обеспечивающих корректность и надежность ответов в соответствии с российскими культурными кодами.