LHC v0.2: Um Benchmark para Coerência de Longo Horizonte em Agentes (e a Metodologia que Tornou os Resultados Honestos)
Acabei de publicar o LHC v0.2, um benchmark aberto para coerência de longo horizonte em modelos de agentes da classe 8B, mais um baseline de parser determinÃstico que coloca um piso útil sobre o que fine-tuning vale para tarefas de estado estruturado. Este post explica para que servem, como usá-los, e o arco metodológico que os produziu ao longo de cinco rodadas de revisão externa.