<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Ai on ZoliBen Csupra(Kabra)</title><link>https://zoliben.com/hu/tags/ai/</link><description>Recent content in Ai on ZoliBen Csupra(Kabra)</description><generator>Hugo</generator><language>hu</language><lastBuildDate>Sat, 25 Apr 2026 09:00:00 +0000</lastBuildDate><atom:link href="https://zoliben.com/hu/tags/ai/index.xml" rel="self" type="application/rss+xml"/><item><title>Qwen 3.6 CPU-MoE offload teszt: 33 GB expertet kinyomtam a RAM-ba, de megvolt az ára</title><link>https://zoliben.com/hu/posts/2026-04-25-qwen36-cpu-moe-offload-teszt-rtx4090/</link><pubDate>Sat, 25 Apr 2026 09:00:00 +0000</pubDate><guid>https://zoliben.com/hu/posts/2026-04-25-qwen36-cpu-moe-offload-teszt-rtx4090/</guid><description>&lt;p>A múltkor azt írtam, hogy a 35B-A3B GPU-only üzemmódban elég jól megy az RTX 4090-en, de a 100k kontextus után eltalálja a VRAM falat. Gondoltam, kipróbálom ezt az új &lt;strong>CPU-MoE&lt;/strong> feature-t a llama.cpp-ben, hátha ki tudom nyomni a 33 GB expert súlyt a system RAM-ba, és így marad hely a KV cache-nek a full 256k kontextushoz.&lt;/p>
&lt;p>Bevallom előre: &lt;strong>működik, de megvan az ára.&lt;/strong> Nem is kicsi.&lt;/p>
&lt;h2 id="mit-próbáltam">Mit próbáltam?&lt;/h2>
&lt;p>A lényeg, hogy a &lt;code>--cpu-moe&lt;/code> flaggel a modell MoE expert súlyait nem a GPU VRAM-jába töltöd be, hanem a rendszermemóriába. Minden decode tokennél a routing gate eldönti, melyik expert kell (ez 8+1 shared a 256-ból), és azokat on-the-fly DMA-zod át CPU-RAM-ból a GPU-ba.&lt;/p></description></item><item><title>Memorito — saját tudástár automatizált kereséssel</title><link>https://zoliben.com/hu/posts/2026-04-24-memorito-sajat-tudastar-automatizalt-keresessel/</link><pubDate>Fri, 24 Apr 2026 12:00:00 +0000</pubDate><guid>https://zoliben.com/hu/posts/2026-04-24-memorito-sajat-tudastar-automatizalt-keresessel/</guid><description>&lt;p>Sokat keresgéltem az interneten, mire rájöttem, hogy a személyes tudásom szétszóródott mindenfelé: noteszek, PDF-ek, bookmarkok, jegyzetek, linkek, képek, hangfelvételek — mind máshol, soha nem találom meg, amikor szükségem van rá. A Notion jó volt, de nem akartam egy másik SaaS szolgáltatásba rakni az agyam tartalmát.&lt;/p>
&lt;p>Aztán gondoltam: &amp;ldquo;Miért ne csinálnék magamnak egyet?&amp;rdquo;&lt;/p>
&lt;p>És csináltam.&lt;/p>
&lt;h2 id="mi-az-a-memorito">Mi az a Memorito?&lt;/h2>
&lt;p>A Memorito egy self-hosted, multimodális tudásbázis, amit magamnak írtam — nem egy kész terméket használok, hanem magamnak kódtam meg, amit aztán folyamatosan fejlesztgetek. A kódot az AI generálta, de az ötlet, az architektúra és a design teljesen az enyém. Szövegeket, URL-eket, képeket, hangfájlokat és PDF-eket tud feldolgozni, indexelni, és aztán szöveges kereséssel lehet rájuk rákeresni. Nem csak keyword search — semantic search, azaz a jelentés alapján találja meg a releváns tartalmakat.&lt;/p></description></item><item><title>Qwen 3.6: 35B vs 27B összehasonlítás - teszteredmények</title><link>https://zoliben.com/hu/posts/2026-04-23-qwen-36-35b-vs-27b-osszehasonlitas-teszteredmenyek/</link><pubDate>Thu, 23 Apr 2026 12:00:00 +0000</pubDate><guid>https://zoliben.com/hu/posts/2026-04-23-qwen-36-35b-vs-27b-osszehasonlitas-teszteredmenyek/</guid><description>&lt;p>A minap végre összegeztem az összes Qwen 3.6-os modellteszt eredményemet, amit az elmúlt napokban gyűjtöttem össze. Két modellt hasonlítottam össze részletesen: a &lt;strong>Qwen3.6-35B-A3B&lt;/strong>-t (MoE, hybrid attention/delta) és a &lt;strong>Qwen3.6-27B&lt;/strong>-t (dense, hybrid attention/delta). Mindkettőt turbo3 KV cache kompresszióval futtattam RTX 4090-en, llama.cpp szerverként.&lt;/p>
&lt;p>Ha röviden akarnám összefoglalni: a 35B-A3B &lt;strong>3-4× gyorsabb&lt;/strong> mindenben, de a 27B &lt;strong>jobb minőséget&lt;/strong> ad. Ez a klasszikus MoE vs. dense tradeoff, csak éppen számokkal alátámasztva.&lt;/p>
&lt;h2 id="architektúra---mi-a-különbség">Architektúra - mi a különbség?&lt;/h2>
&lt;p>A két modell ugyanabból a Qwen3.6 családból való, mindkettő hybrid Mamba/attention architektúrát használ, de a megközelítésük teljesen más:&lt;/p></description></item><item><title>A blog átalakítása WordPressből Hugóba az OpenCode segítségével</title><link>https://zoliben.com/hu/posts/2026-04-17-a-blog-atalakitasa-wordpressbol-hugoba-az-opencode-segitsegevel/</link><pubDate>Fri, 17 Apr 2026 20:00:00 +0000</pubDate><guid>https://zoliben.com/hu/posts/2026-04-17-a-blog-atalakitasa-wordpressbol-hugoba-az-opencode-segitsegevel/</guid><description>&lt;p>Az utolsó posztom 2021 márciusában jelent meg, és azóta szinte semmi sem történt a bloggal – annak ellenére, hogy közben költözés, szervercsere és számos más változás is történt. A WordPress már régóta inkább idegesített, mint segítette volna a posztok írásához való visszatérést: lassú volt, folyamatos plugin frissítések és biztonsági rések záporoztak rá, miközben egy évente pár bejegyzésből álló blog számára túlzottan bonyolult rendszer.&lt;/p>
&lt;p>Évek óta fontolgattam a statikus oldalgenerátorokra való átállást, de a migráció gondolata – 87 bejegyzés, rengeteg HTML maradvány, médiafájlok – mindig elrettentett. Aztán rátaláltam az OpenCode-ra, és minden megváltozott.&lt;/p></description></item></channel></rss>