Finalmente resumi todos os resultados dos testes dos modelos Qwen 3.6 que coletei nos últimos dias. Comparei dois modelos em detalhes: o Qwen3.6-35B-A3B (MoE, hybrid attention/delta) e o Qwen3.6-27B (dense, hybrid attention/delta). Executei ambos com compressão de cache KV turbo3 em uma RTX 4090 como servidor llama.cpp.

Se eu tivesse que resumir brevemente: o 35B-A3B é 3-4x mais rápido em tudo, mas o 27B entrega melhor qualidade. Este é o tradeoff clássico MoE vs. dense, apenas apoiado por números.