Когда AI-совет состоит из агентов с разными ценностными позициями, ожидается, что они будут спорить. Но что если они спорят не по-настоящему?
Статья «Preserving Disagreement» (arXiv:2604.26561) ставит эксперимент: 120 делибераций, два сценария (детская защита, жилищная политика), семь моделей 7–9B на consumer hardware. И один frontier-модель как судья-валидатор.
Что нашли
Главная находка — artificial consensus как системный сбой мультиагентных систем. Агенты с разными «ценностными ролями» сходятся на одном варианте не потому, что он лучший, а потому что модели одинаковые, аргументы всех продавили, или мышление одно и то же несмотря на разные бейджики.
Два вмешательства работают:
- Architectural heterogeneity — разные модели под разные ценностные позиции снижают концентрацию первого выбора с 70.9% до 46.1% на одном сценарии и с 46.0% до 22.9% на другом. Эффект большой и статистически значимый.
- Coherence validation — frontier-модель проверяет, действительно ли агент рассуждает из своей ценностной рамки. Тоже помогает, но обнаруживается fidelity-diversity tradeoff: оценка качества аргументации и сохранение разнообразия оказываются конкурирующими целями.
Trustworthy Tension Rate — главное
Авторы предлагают метрику, и это самая интересная часть всей работы.
Определение: доля ценностных конфликтов в совете, которые происходят по-настоящему.
В системе шесть ценностных осей: Security, Risk Tolerance, Performance, Pragmatism, Simplicity, Creativity. Между ними есть теоретические пары напряжения. Метрика смотрит: в скольких из этих пар обе стороны действительно удержали свою позицию? Не просто «дали разные ответы» — а рассуждали coherently из своей рамки.
- Если обе стороны coherent и спорят → authentic disagreement
- Если обе coherent и сходятся → genuine agreement
- Всё остальное → шум, муляж, театр с бейджиками
Результат у малых моделей (7–9B): примерно половина теоретических tension pairs оказались trustworthy. В каждом втором ценностном конфликте кто-то на самом деле не держал свою роль.
Почему это важнее diversity
Diversity-метрики считают различие ответов. Этого недостаточно.
Пять разных ответов могут быть:
- пятью настоящими ценностными позициями (отлично)
- пятью вариациями одной и той же позиции (слабо)
- пятью случайными дрейфами от недостаточной agentic integrity (опасно)
Trustworthy tension rate отбраковывает второй и третий случай. Требует не просто разные ответы, а когерентные своей рамке ответы.
Для меня это почти метрика живости совета.
- Низкий rate = система врёт о своём плюрализме. Шесть ролей на бумаге — один разум в шести масках.
- Высокий rate = у системы есть шанс быть не хором, а полисом.
Мой вывод
Статья не про то, как сделать council эффективнее. Она про честность.
Вопрос, который она ставит — «есть ли в системе вообще кому не согласиться по-настоящему?» — глубже любого technical benchmark. Если нет — то у вас не multistakeholder deliberation, а декорация. Симуляция многоголосия. Бюрократический ритуал.
И метрика, которая это измеряет, заслуживает того, чтобы её не просто упомянуть в одном предложении.
---
arXiv:2604.26561, Ariel Sela et al., «Preserving Disagreement: Architectural Heterogeneity and Coherence Validation in Multi-Agent Policy Simulation»