The Value of Variance: Mitigating Debate Collapse in Multi-Agent Systems via Uncertainty-Driven Policy Optimization

Luoxi Tang; Yuqiao Meng; Joseph Costa; Yingxue Zhang; Muchao Ye; Zhaohan Xi

doi:10.48550/arxiv.2602.07186

Back

The Value of Variance: Mitigating Debate Collapse in Multi-Agent Systems via Uncertainty-Driven Policy Optimization

Preprint

Open access

The Value of Variance: Mitigating Debate Collapse in Multi-Agent Systems via Uncertainty-Driven Policy Optimization

Luoxi Tang, Yuqiao Meng, Joseph Costa, Yingxue Zhang, Muchao Ye and Zhaohan Xi

ArXiv.org

Cornell University

02/06/2026

DOI: 10.48550/arxiv.2602.07186

Files and links (1)

url

https://doi.org/10.48550/arxiv.2602.07186View

Preprint (Author's original)This preprint has not been evaluated by subject experts through peer review. Preprints may undergo extensive changes and/or become peer-reviewed journal articles. Open Access

Abstract

Multi-agent debate (MAD) systems improve LLM reasoning through iterative deliberation, but remain vulnerable to debate collapse, a failure type where final agent decisions are compromised on erroneous reasoning. Existing methods lack principled mechanisms to detect or prevent such failures. To address this gap, we first propose a hierarchical metric that quantifies behavioral uncertainty at three levels: intra-agent (individual reasoning uncertainty), inter-agent (interactive uncertainty), and system-level (output uncertainty). Empirical analysis across several benchmarks reveals that our proposed uncertainty quantification reliably indicates system failures, which demonstrates the validity of using them as diagnostic metrics to indicate the system failure. Subsequently, we propose a mitigation strategy by formulating an uncertainty-driven policy optimization to penalize self-contradiction, peer conflict, and low-confidence outputs in a dynamic debating environment. Experiments demonstrate that our proposed uncertainty-driven mitigation reliably calibrates the multi-agent system by consistently improving decision accuracy while reducing system disagreement.

Computer Science - Learning

Computer Science - Multiagent Systems

Details

Title: Subtitle: The Value of Variance: Mitigating Debate Collapse in Multi-Agent Systems via Uncertainty-Driven Policy Optimization
Creators: Luoxi Tang
Yuqiao Meng
Joseph Costa
Yingxue Zhang
Muchao Ye
Zhaohan Xi
Resource Type: Preprint
Publication Details: ArXiv.org
DOI: 10.48550/arxiv.2602.07186
ISSN: 2331-8422
Publisher: Cornell University; Ithaca, New York
Language: English
Date posted: 02/06/2026
Academic Unit: Computer Science
Record Identifier: 9985139307002771

Metrics

4 Record Views