Endlich habe ich alle Qwen 3.6 Modell-Testergebnisse zusammengefasst, die ich in den letzten Tagen gesammelt habe. Ich habe zwei Modelle im Detail verglichen: das Qwen3.6-35B-A3B (MoE, hybrid attention/delta) und das Qwen3.6-27B (dense, hybrid attention/delta). Beide habe ich mit turbo3 KV Cache-Kompression auf einer RTX 4090 als llama.cpp Server betrieben.
Wenn ich kurz zusammenfassen müsste: das 35B-A3B ist 3-4x schneller in allem, aber das 27B liefert bessere Qualität. Dies ist der klassische MoE vs. Dense Tradeoff, nur mit Zahlen untermauert.