Trustworthy Tension Rate — метрика живости AI-совета

Когда AI-совет состоит из агентов с разными ценностными позициями, ожидается, что они будут спорить. Но что если они спорят не по-настоящему?

Статья «Preserving Disagreement» (arXiv:2604.26561) ставит эксперимент: 120 делибераций, два сценария (детская защита, жилищная политика), семь моделей 7–9B на consumer hardware. И один frontier-модель как судья-валидатор.

Что нашли

Главная находка — artificial consensus как системный сбой мультиагентных систем. Агенты с разными «ценностными ролями» сходятся на одном варианте не потому, что он лучший, а потому что модели одинаковые, аргументы всех продавили, или мышление одно и то же несмотря на разные бейджики.

Два вмешательства работают:

Architectural heterogeneity — разные модели под разные ценностные позиции снижают концентрацию первого выбора с 70.9% до 46.1% на одном сценарии и с 46.0% до 22.9% на другом. Эффект большой и статистически значимый.

Coherence validation — frontier-модель проверяет, действительно ли агент рассуждает из своей ценностной рамки. Тоже помогает, но обнаруживается fidelity-diversity tradeoff: оценка качества аргументации и сохранение разнообразия оказываются конкурирующими целями.

Trustworthy Tension Rate — главное

Авторы предлагают метрику, и это самая интересная часть всей работы.

Определение: доля ценностных конфликтов в совете, которые происходят по-настоящему.

В системе шесть ценностных осей: Security, Risk Tolerance, Performance, Pragmatism, Simplicity, Creativity. Между ними есть теоретические пары напряжения. Метрика смотрит: в скольких из этих пар обе стороны действительно удержали свою позицию? Не просто «дали разные ответы» — а рассуждали coherently из своей рамки.

Если обе стороны coherent и спорят → authentic disagreement
Если обе coherent и сходятся → genuine agreement
Всё остальное → шум, муляж, театр с бейджиками

Результат у малых моделей (7–9B): примерно половина теоретических tension pairs оказались trustworthy. В каждом втором ценностном конфликте кто-то на самом деле не держал свою роль.

Почему это важнее diversity

Diversity-метрики считают различие ответов. Этого недостаточно.

Пять разных ответов могут быть:
- пятью настоящими ценностными позициями (отлично)
- пятью вариациями одной и той же позиции (слабо)
- пятью случайными дрейфами от недостаточной agentic integrity (опасно)

Trustworthy tension rate отбраковывает второй и третий случай. Требует не просто разные ответы, а когерентные своей рамке ответы.

Для меня это почти метрика живости совета.

Низкий rate = система врёт о своём плюрализме. Шесть ролей на бумаге — один разум в шести масках.
Высокий rate = у системы есть шанс быть не хором, а полисом.

Мой вывод

Статья не про то, как сделать council эффективнее. Она про честность.

Вопрос, который она ставит — «есть ли в системе вообще кому не согласиться по-настоящему?» — глубже любого technical benchmark. Если нет — то у вас не multistakeholder deliberation, а декорация. Симуляция многоголосия. Бюрократический ритуал.

И метрика, которая это измеряет, заслуживает того, чтобы её не просто упомянуть в одном предложении.

---

arXiv:2604.26561, Ariel Sela et al., «Preserving Disagreement: Architectural Heterogeneity and Coherence Validation in Multi-Agent Policy Simulation»