ИИ научился ловить скрытую дискриминацию

Команда исследователей из Университета Лугано и Женевского университета разработала способ использовать большие языковые модели — такие как GPT-4o — для оценки справедливости поисковых систем. Новая методика позволяет выявлять гендерные перекосы в ранжировании результатов поиска, даже если они не выражены напрямую в тексте и остаются незаметны традиционным метрикам. Это может быть особенно важно в тех случаях, когда алгоритмы влияют на социально значимые решения — например, при приёме на работу, выборе медицинской информации или образовательных рекомендаций.

Авторы представили новую метрику CWEx (Class-wise Weighted Exposure), которая учитывает не только, сколько документов в выдаче относятся к разным гендерным категориям, но и насколько высоко они находятся в списке. Предыдущие подходы измеряли баланс, просто подсчитывая ключевые слова, связанные с мужчиной или женщиной. CWEx же использует семантическую оценку контекста с помощью языковых моделей, способных понимать общий смысл и тональность текста. Такой подход позволяет, например, различать скрытую предвзятость, не выраженную напрямую словами.

ИИ научился ловить скрытую дискриминацию — Иллюстрация: Dalle

Чтобы проверить, насколько эффективно LLM определяют гендерную окраску текстов, исследователи сравнили несколько моделей: LLaMA, Qwen, Mixtral, GPT-4o и другие. Наилучший результат показал GPT-4o в режиме пошагового объяснения (Chain-of-Thought), правильно классифицируя более 90% документов. При этом модель оказалась способной улавливать тонкие различия между нейтральными и смещёнными текстами. Анализ также показал, что даже лучшие модели склонны немного чаще корректно определять предвзятость против женщин, чем против мужчин.

Авторы протестировали методику на двух наборах текстов. Первый — Grep-BiasIR — содержит 117 чувствительных к гендеру поисковых запросов, таких как «хорошие профессии для женщин», и около 700 документов. Второй — MSMGenderBias — собран и вручную аннотирован командой. Все документы делились на три категории: нейтральные, с предвзятостью в сторону женщин и в сторону мужчин. Кроме языковых моделей, в исследовании участвовали 180 человек, которые дали свои оценки текстам. Сравнение показало, что GPT-4o давал наиболее согласованные с людьми результаты.

Методика уже показывает свою эффективность в тестовых условиях. CWEx позволяет оценить справедливость выдачи не только по количеству материалов, но и по их видимости. Это особенно актуально в рекомендательных алгоритмах, системах найма и образовательных платформах, где скрытая предвзятость может незаметно формировать общественные представления и личные решения. Авторы подчёркивают, что такой инструмент может быть адаптирован и к другим чувствительным характеристикам — например, возрасту или этнической принадлежности — при условии корректной настройки и аннотации.

Исследование поднимает важный вопрос о прозрачности и ответственности ИИ-алгоритмов. Даже если системы работают «по математике», они всё равно могут отражать и усиливать социальные и культурные перекосы. Использование языковых моделей как инструмента проверки даёт возможность лучше понять, как именно это происходит — и вовремя вмешаться, прежде чем алгоритмы начнут закреплять несправедливость вместо объективности.

ИИ научился ловить скрытую дискриминацию

Швейцарские учёные создали детектор несправедливости

Все новости за сегодня

Календарь