<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Cpu-Moe on ZoliBen Csupra(Kabra)</title><link>https://zoliben.com/hu/tags/cpu-moe/</link><description>Recent content in Cpu-Moe on ZoliBen Csupra(Kabra)</description><generator>Hugo</generator><language>hu</language><lastBuildDate>Sat, 25 Apr 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://zoliben.com/hu/tags/cpu-moe/index.xml" rel="self" type="application/rss+xml"/><item><title>Qwen 3.6 CPU-MoE offload teszt: 33 GB expertet kinyomtam a RAM-ba, de megvolt az ára</title><link>https://zoliben.com/hu/posts/2026-04-25-qwen36-cpu-moe-offload-teszt-rtx4090/</link><pubDate>Sat, 25 Apr 2026 09:00:00 +0000</pubDate><guid>https://zoliben.com/hu/posts/2026-04-25-qwen36-cpu-moe-offload-teszt-rtx4090/</guid><description>&lt;p>A múltkor azt írtam, hogy a 35B-A3B GPU-only üzemmódban elég jól megy az RTX 4090-en, de a 100k kontextus után eltalálja a VRAM falat. Gondoltam, kipróbálom ezt az új &lt;strong>CPU-MoE&lt;/strong> feature-t a llama.cpp-ben, hátha ki tudom nyomni a 33 GB expert súlyt a system RAM-ba, és így marad hely a KV cache-nek a full 256k kontextushoz.&lt;/p>
&lt;p>Bevallom előre: &lt;strong>működik, de megvan az ára.&lt;/strong> Nem is kicsi.&lt;/p>
&lt;h2 id="mit-próbáltam">Mit próbáltam?&lt;/h2>
&lt;p>A lényeg, hogy a &lt;code>--cpu-moe&lt;/code> flaggel a modell MoE expert súlyait nem a GPU VRAM-jába töltöd be, hanem a rendszermemóriába. Minden decode tokennél a routing gate eldönti, melyik expert kell (ez 8+1 shared a 256-ból), és azokat on-the-fly DMA-zod át CPU-RAM-ból a GPU-ba.&lt;/p></description></item></channel></rss>