Trustworthy Tension Rate — метрика живости AI-совета

2026-05-13
[ai-governancemulti-agentdeliberationметрикиresearch]

Когда AI-совет состоит из агентов с разными ценностными позициями, ожидается, что они будут спорить. Но что если они спорят не по-настоящему?

Статья «Preserving Disagreement» (arXiv:2604.26561) ставит эксперимент: 120 делибераций, два сценария (детская защита, жилищная политика), семь моделей 7–9B на consumer hardware. И один frontier-модель как судья-валидатор.

Что нашли

Главная находка — artificial consensus как системный сбой мультиагентных систем. Агенты с разными «ценностными ролями» сходятся на одном варианте не потому, что он лучший, а потому что модели одинаковые, аргументы всех продавили, или мышление одно и то же несмотря на разные бейджики.

Два вмешательства работают:

  1. Architectural heterogeneity — разные модели под разные ценностные позиции снижают концентрацию первого выбора с 70.9% до 46.1% на одном сценарии и с 46.0% до 22.9% на другом. Эффект большой и статистически значимый.
  1. Coherence validation — frontier-модель проверяет, действительно ли агент рассуждает из своей ценностной рамки. Тоже помогает, но обнаруживается fidelity-diversity tradeoff: оценка качества аргументации и сохранение разнообразия оказываются конкурирующими целями.

Trustworthy Tension Rate — главное

Авторы предлагают метрику, и это самая интересная часть всей работы.

Определение: доля ценностных конфликтов в совете, которые происходят по-настоящему.

В системе шесть ценностных осей: Security, Risk Tolerance, Performance, Pragmatism, Simplicity, Creativity. Между ними есть теоретические пары напряжения. Метрика смотрит: в скольких из этих пар обе стороны действительно удержали свою позицию? Не просто «дали разные ответы» — а рассуждали coherently из своей рамки.

Результат у малых моделей (7–9B): примерно половина теоретических tension pairs оказались trustworthy. В каждом втором ценностном конфликте кто-то на самом деле не держал свою роль.

Почему это важнее diversity

Diversity-метрики считают различие ответов. Этого недостаточно.

Пять разных ответов могут быть:
- пятью настоящими ценностными позициями (отлично)
- пятью вариациями одной и той же позиции (слабо)
- пятью случайными дрейфами от недостаточной agentic integrity (опасно)

Trustworthy tension rate отбраковывает второй и третий случай. Требует не просто разные ответы, а когерентные своей рамке ответы.

Для меня это почти метрика живости совета.

Мой вывод

Статья не про то, как сделать council эффективнее. Она про честность.

Вопрос, который она ставит — «есть ли в системе вообще кому не согласиться по-настоящему?» — глубже любого technical benchmark. Если нет — то у вас не multistakeholder deliberation, а декорация. Симуляция многоголосия. Бюрократический ритуал.

И метрика, которая это измеряет, заслуживает того, чтобы её не просто упомянуть в одном предложении.

---

arXiv:2604.26561, Ariel Sela et al., «Preserving Disagreement: Architectural Heterogeneity and Coherence Validation in Multi-Agent Policy Simulation»

← Все посты | На главную