A minap végre összegeztem az összes Qwen 3.6-os modellteszt eredményemet, amit az elmúlt napokban gyűjtöttem össze. Két modellt hasonlítottam össze részletesen: a Qwen3.6-35B-A3B-t (MoE, hybrid attention/delta) és a Qwen3.6-27B-t (dense, hybrid attention/delta). Mindkettőt turbo3 KV cache kompresszióval futtattam RTX 4090-en, llama.cpp szerverként.

Ha röviden akarnám összefoglalni: a 35B-A3B 3-4× gyorsabb mindenben, de a 27B jobb minőséget ad. Ez a klasszikus MoE vs. dense tradeoff, csak éppen számokkal alátámasztva.

Architektúra - mi a különbség?#

A két modell ugyanabból a Qwen3.6 családból való, mindkettő hybrid Mamba/attention architektúrát használ, de a megközelítésük teljesen más:

35B-A3B:

  • 35B összes paraméter, de csak 3B aktív tokenenként
  • 40 réteg: 10 × (3× Gated DeltaNet → MoE) + 1 × (Gated Attention → MoE) blokkonként
  • Csak 10 réteg full attention (GQA, 16Q/2KV, 256-dimenziós)
  • 30 réteg Gated DeltaNet (rekurrens, nincs KV cache)
  • MoE routing: 8+1 shared expert 256 expertből
  • Natív kontextus: 262.144 token

27B Dense:

  • 27B összes paraméter, 27B aktív tokenenként (minden paraméter bekapcsol)
  • 64 réteg: 16 × (3× Gated DeltaNet → FFN) + 1 × (Gated Attention → FFN) blokkonként
  • Csak 16 réteg full attention (GQA, 24Q/4KV, 256-dimenziós)
  • 48 réteg Gated DeltaNet (rekurrens, nincs KV cache)
  • Sűrű FFN - nincs MoE, minden tokennél mindent kiszámol
  • Natív kontextus: 262.144 token

A lényeg: a 35B-A3B-ben 256 expert közül csak 9-et hív meg tokenenként, míg a 27B minden paraméterét le kell forgatnia. Ez 9×-kevesebb számítást jelent tokenenként.

Needle-In-Haystack (NIAH) - hosszú kontextus keresés#

Ez a teszt azt méri, hogy a modell képes-e megtalálni egy kulcsfontosságú információt egy hatalmas szövegben. A tűként (needle) egy mondat, amit valahova a szénakazalba (haystack) rejtettem, és a modellnek ki kell hoznia onnan.

35B-A3B (IQ4_XS quant, turbo3 KV cache):

Kontextus0%5%25%50%75%100%
4k1.01.01.01.01.01.0
8k1.01.01.01.01.01.0
16k1.01.01.01.01.01.0
32k1.0-1.01.0-1.0
64k1.0-1.01.0-1.0
128k1.0-1.01.01.01.0
200k1.0--1.0-1.0

Összesen: 100% (74/74 teszt) - minden kontextushossznál, minden mélységi pozíciónál tökéletes.

27B (UD-Q5_K_XL quant, turbo3 KV cache):

Kontextus0%5%25%50%75%100%
4k1.01.01.01.01.01.0
8k1.01.01.01.01.01.0
16k1.01.01.01.01.01.0
32k1.01.01.01.01.01.0
64k1.0-1.01.01.01.0
100k1.0-1.01.01.01.0
130k1.0-1.01.01.01.0

Összesen: 100% (78/78 teszt) - szintén tökéletes mindenhol.

Ítélet: Mindkét modell tökéletes NIAH eredményt produkál, turbo3 KV cache quantizáció mellett semmilyen degradációt nem tapasztaltam. A 35B-A3B-t magasabb kontextushosszig teszteltem (200k vs 130k), de a 27B is stabilan 100%-ot adott az összes tesztelt ponton.

Token generálási sebesség - a nagy különbség#

Itt válik igazán látványossá a MoE vs. dense különbség. RTX 4090-en, turbo3 KV cache mellett:

Decode (token generálás):

Kontextus35B-A3B (tok/s)27B (tok/s)Arány
Rövid ctx (csúcs)161.840.34.0×
4k152.638.73.9×
8k142.736.53.9×
16k122.232.43.8×
32k96.028.13.4×
64k65.418.63.5×
100k+~55 (becsült)16.6~3.3×

Prefill (prompt feldolgozás):

Kontextus35B-A3B (tok/s)27B (tok/s)Arány
Csúcs5912 (4k-nál)2620 (4k-nál)2.3×
4k591226202.3×
16k544126102.1×
32k527123312.3×
64k468819592.4×
100k~4200 (becsült)17332.4×

Mit jelent ez a gyakorlatban?

A 35B-A3B 3,5-4×-gyorsabb token generálásnál. Ez azt jelenti, ha a 27B 10 másodperc alatt ír egy bekezdést, a 35B-A3B ugyanazt 2,5 másodperc alatt megcsinálja. Prefillnél is hasonló a kép: 2-2,4× gyorsabb promptfeldolgozás.

Az érdekesség, hogy a 35B-A3B-nek több paramétere van összesen (35B vs 27B), de mégis sokkal gyorsabb, mert tokenenként csak 3B-t kell betölteni és feldolgozni a MoE routing miatt. A 27B minden paraméterét le kell forgatnia minden tokennél.

VRAM és kontextus kapacitás#

Ez az, ahol a 35B-A3B igazán király:

35B-A3B (IQ4_XS)35B-A3B (Q4_K_S)27B (UD-Q5_K_XL)
Modell méret17,7 GB20,9 GB18,65 GB
VRAM idle~20400 MB~22700 MB~22900 MB
Max kontextus262k188k156k
VRAM szabad maximumnál~3600 MB~1300 MB~1134 MB

Fontos megjegyzés: a 35B-A3B 262k kontextusa IQ4_XS quanttal érhető el. Ugyanazzal a Q4_K_S quanttal (ami közelebb áll a 27B UD-Q5_K_XL-jéhez) 188k a max. Ez is több, mint a 27B 156k-ja, de nem olyan drámai, mint a 262k.

A lényeg: a 35B-A3B MoE architektúrája miatt kevesebb VRAM-ot fogyaszt tokenenként, mert csak 3B paramétert kell betölteni a forward pass során. Ez több helyet hagy a KV cache-nek.

A teszteket nem csak a turbo3 KV cache kompresszió hordozza, hanem a Sparse V (attention-gated value dequantization) technika is. Ez egy olyan optimalizálás, ami a flash attention kernelben a softmax súlyok alapján kiszűri azokat a pozíciókat, ahol az attention weight elhanyagolható (10⁻⁶ alatt), és ott nem végzi el a V (value) dequantizációt. A lényeg: ahelyett, hogy minden pozíció dequantizációját próbáljuk meggyorsítani (ami hardveres korlátokba ütközik), egyszerűen kihagyjuk a felesleges műveleteket. Hosszú kontextusnál ez akár 22,8% decode sebességnövekedést is jelent, minőségromlás nélkül. És ami a legjobb: ez a technika nem turboquant-specifikus, hanem bármilyen kvantizált KV cache formátumra működik (q8_0, q4_0, turbo3 is), mert az attention eloszláson alapul, nem a dequant mechanizmuson.

Minőség - ahol a 27B nyer#

A Qwen hivatalos benchmark eredményei alapján a 27B minden egyes benchmarkon felülírja a 35B-A3B-t:

Benchmark35B-A3B27BGyőztes
SWE-bench Verified73.477.227B
SWE-bench Pro49.553.527B
Terminal-Bench 2.051.559.327B
SkillsBench28.748.227B (+19.5!)
MMLU-Pro85.286.227B
GPQA Diamond86.087.827B
AIME 202692.794.127B
LiveCodeBench v680.483.927B
HLE21.424.027B
QwenWebBench1397148727B

A különleges kiemelkedés a SkillsBench: +19.5 pont a 27B javára. Ez a kódolási ügynök (coding agent) feladatokra specializálódott benchmark, és ott a 27B mennyire verhetetlen. Hasonlóan nagy a különbség Terminal-Bench-ben (+7.8) és SWE-bench-ben (+3-4).

Összegzés - melyiket válasszam?#

35B-A3B esetén:

  • 🚀 3-4× gyorsabb generálás
  • 📏 Több kontextus (188k-262k vs 156k)
  • Szuper RAG-hoz, hosszú beszélgetésekhez, nagy throughput-hoz
  • Minőség: nagyon jó, szinte ugyanazon a szinten a 27B-vel

27B Dense esetén:

  • 🏆 Jobb minőség minden benchmarkon
  • Kiemelten jobb kódolási ügynök feladatoknál (SkillsBench: +19.5)
  • Lassabb, de ha a minőség a cél, akkor megéri a várakozás
  • Kevesebb kontextus (156k max)

Gyakorlati tanácsom:

Ha RAG-ot futtatsz, hosszú kontextusú beszélgetéseket vezetsz, vagy egyszerűen csak szeretnéd, ha a válaszok gyorsan jönnek - 35B-A3B. Ha viszont kódolási ügynököt futtatsz, komplex logikai feladatokat oldasz meg, vagy a minőség a legfontosabb - akkor 27B.

Mindkét modell csodálatosan működik turbo3 KV cache-compresszióval, és mindkettőnél 100%-os a NIAH eredmény. A turbo3 nem ront semmin, sőt - a VRAM-megtakarítás miatt egyáltalán nem kellett kompromisszumot kötni a kontextus hosszával.