← Voltar para Artigos1 de setembro de 2025

Entropy-Guided Loop: raciocínio em LLMs com 30% do custo

Paper publicado no arXiv (ago/2025) sobre um loop de refinamento guiado por entropia que entrega ~95% da qualidade de modelos de raciocínio a um terço do custo. Co-autoria com Andrew G. A. Correa.

Paper técnico co-escrito com Andrew G. A. Correa (Monostate) e publicado no arXiv em agosto de 2025. Uma virada de área: saí do rigor estatístico aplicado à metrologia de combustíveis (mestrado) para rigor estatístico aplicado a modelos de linguagem. A ponte entre os dois é a mesma: transformar incerteza em decisão melhor.

O problema

Modelos de raciocínio (os chamados reasoning models, como o4-mini, Claude 3.5 Sonnet, etc.) entregam qualidade superior em tarefas técnicas, mas custam 3 a 5 vezes mais que modelos menores e adicionam latência significativa. Para sistemas em produção, essa equação raramente fecha: ou você paga muito caro por qualidade, ou você aceita respostas piores para economizar.

A maioria das tentativas de mitigar esse custo — self-consistency, tree-of-thought, auto-critique — funciona a custo de ainda mais chamadas ao modelo. Queríamos o oposto: refinamento seletivo que dispara apenas quando realmente é necessário.

A ideia: incerteza como gatilho

Todo modelo de linguagem, ao gerar um token, produz uma distribuição de probabilidade sobre o vocabulário. Dessa distribuição podemos extrair sinais de incerteza em tempo real: perplexidade média, entropia máxima por token, contagem de tokens abaixo de um threshold de confiança.

Analisando 50 mil tokens em queries técnicas, observamos algo interessante: a distribuição de entropia é bimodal. 71% dos tokens são de baixa incerteza (< 0.5 nats) — tipicamente palavras funcionais onde o contexto praticamente força a escolha. 18% são de alta incerteza (> 1.0 nats) — quase sempre pontos de decisão semântica, onde múltiplas respostas são plausíveis. É exatamente nesses 18% que os erros aparecem.

O loop

Nosso método roda em tempo de inferência (sem retraining). Primeira passada: geração normal, com logprobs. Calculamos as três métricas de incerteza e aplicamos uma lógica OR simples — se QUALQUER uma ultrapassa seu threshold, disparamos uma segunda passada.

O diferencial está no que passamos de volta ao modelo: não apenas "refine" ou "try again", mas um relatório compacto de incerteza com os tokens problemáticos, suas confianças, as alternativas top-k que o modelo considerou, e contexto suficiente para uma edição cirúrgica. O modelo corrige pontualmente em vez de reescrever tudo.

Resultados

Em benchmarks representativos de raciocínio, matemática e geração de código, um modelo pequeno com o nosso loop alcança ~95% da qualidade de um reasoning model de referência, a aproximadamente 1/3 do custo total. O refinamento dispara em ~31% das respostas (o resto passa direto). Acurácia sobe em 16 pontos percentuais contra inferência single-pass.

Para engenheiros que colocam LLMs em produção, isso é um meio-termo prático: qualidade quase equivalente a reasoning models, custo próximo ao de modelos simples, latência extra só quando há motivo para duvidar.

Abstract (EN)

Reasoning models often outperform smaller models but at 3–5× higher cost and added latency. We present entropy-guided refinement: a lightweight, test-time loop that uses token-level uncertainty to trigger a single, targeted refinement pass. We extract logprobs, compute Shannon entropy on top-k alternatives, and apply a simple OR-logic trigger over perplexity, maximum token entropy, and low-confidence-token count. Unlike approaches that use entropy only for measurement or decoding, we pass a compact uncertainty report (tokens, confidences, alternatives, context) back to the model to guide corrective edits. On representative technical queries across reasoning, mathematics, and code generation tasks, a small model with our loop approaches 95% of a reference reasoning model's quality at approximately one-third of the cost. The method achieves selective refinement on ~31% of responses while improving accuracy by 16 percentage points over single-pass inference. We demonstrate that this uncertainty-aware loop provides an effective middle ground between single-pass inference and expensive reasoning chains, making it practical for production deployments where both quality and cost matter.

Referência

Correa, A. G. A.; Matos, A. C. H. de. Entropy-Guided Loop: Achieving Reasoning through Uncertainty-Aware Generation. arXiv:2509.00079 [cs.AI], ago. 2025. 9 páginas, 2 figuras, 4 tabelas. arXiv · Blog da Monostate.