Qwen 3.6 CPU-MoE offload teszt: 33 GB expertet kinyomtam a RAM-ba, de megvolt az ára

A múltkor azt írtam, hogy a 35B-A3B GPU-only üzemmódban elég jól megy az RTX 4090-en, de a 100k kontextus után eltalálja a VRAM falat. Gondoltam, kipróbálom ezt az új CPU-MoE feature-t a llama.cpp-ben, hátha ki tudom nyomni a 33 GB expert súlyt a system RAM-ba, és így marad hely a KV cache-nek a full 256k kontextushoz.

Bevallom előre: működik, de megvan az ára. Nem is kicsi.

Mit próbáltam?

A lényeg, hogy a --cpu-moe flaggel a modell MoE expert súlyait nem a GPU VRAM-jába töltöd be, hanem a rendszermemóriába. Minden decode tokennél a routing gate eldönti, melyik expert kell (ez 8+1 shared a 256-ból), és azokat on-the-fly DMA-zod át CPU-RAM-ból a GPU-ba.

[Tovább olvasom]

Memorito — saját tudástár automatizált kereséssel

Sokat keresgéltem az interneten, mire rájöttem, hogy a személyes tudásom szétszóródott mindenfelé: noteszek, PDF-ek, bookmarkok, jegyzetek, linkek, képek, hangfelvételek — mind máshol, soha nem találom meg, amikor szükségem van rá. A Notion jó volt, de nem akartam egy másik SaaS szolgáltatásba rakni az agyam tartalmát.

Aztán gondoltam: “Miért ne csinálnék magamnak egyet?”

És csináltam.

Mi az a Memorito?

A Memorito egy self-hosted, multimodális tudásbázis, amit magamnak írtam — nem egy kész terméket használok, hanem magamnak kódtam meg, amit aztán folyamatosan fejlesztgetek. A kódot az AI generálta, de az ötlet, az architektúra és a design teljesen az enyém. Szövegeket, URL-eket, képeket, hangfájlokat és PDF-eket tud feldolgozni, indexelni, és aztán szöveges kereséssel lehet rájuk rákeresni. Nem csak keyword search — semantic search, azaz a jelentés alapján találja meg a releváns tartalmakat.

[Tovább olvasom]

Qwen 3.6: 35B vs 27B összehasonlítás - teszteredmények

A minap végre összegeztem az összes Qwen 3.6-os modellteszt eredményemet, amit az elmúlt napokban gyűjtöttem össze. Két modellt hasonlítottam össze részletesen: a Qwen3.6-35B-A3B-t (MoE, hybrid attention/delta) és a Qwen3.6-27B-t (dense, hybrid attention/delta). Mindkettőt turbo3 KV cache kompresszióval futtattam RTX 4090-en, llama.cpp szerverként.

Ha röviden akarnám összefoglalni: a 35B-A3B 3-4× gyorsabb mindenben, de a 27B jobb minőséget ad. Ez a klasszikus MoE vs. dense tradeoff, csak éppen számokkal alátámasztva.

Architektúra - mi a különbség?

A két modell ugyanabból a Qwen3.6 családból való, mindkettő hybrid Mamba/attention architektúrát használ, de a megközelítésük teljesen más:

[Tovább olvasom]

A blog átalakítása WordPressből Hugóba az OpenCode segítségével

Az utolsó posztom 2021 márciusában jelent meg, és azóta szinte semmi sem történt a bloggal – annak ellenére, hogy közben költözés, szervercsere és számos más változás is történt. A WordPress már régóta inkább idegesített, mint segítette volna a posztok írásához való visszatérést: lassú volt, folyamatos plugin frissítések és biztonsági rések záporoztak rá, miközben egy évente pár bejegyzésből álló blog számára túlzottan bonyolult rendszer.

Évek óta fontolgattam a statikus oldalgenerátorokra való átállást, de a migráció gondolata – 87 bejegyzés, rengeteg HTML maradvány, médiafájlok – mindig elrettentett. Aztán rátaláltam az OpenCode-ra, és minden megváltozott.

[Tovább olvasom]

Docker – Matrix Synapse homeserver, federation, nginx reverse proxy és TURN szerver beállítás docker-compose segítségével

A minap beállítottam egy Matrix home szervert a baráti körnek. Gondolkoztam rajta, hogy szükségem van-e a federation-re, és végül úgy döntöttem, hogy igen. Emellé még be kellett állítanom egy TURN szervert, hogy a hívások normálisan működjenek mindenki számára, mivel ha valaki NAT-olva van, akkor ott rendszerint nem hajlandó rendesen csatlakozni. A konténert egy Hetzner cloud VPS-en indítottam, Debian 10 alatt.

 

Szükséged lesz egy futó docker service-re, ha még nincs fent, akkor a https://get.docker.com/ segítségével egyszerűen telepíteni tudod. Javaslom egy git repository létrehozását ahová a docker-compose és nginx config fájlokat fel tudod pusholni.

[Tovább olvasom]

Ubuntu 19.04 IPv6 kikapcsolása VPN-re csatlakozásnál

Ubuntu 19.04 IPv6 kikapcsolása VPN-re csatlakozásnál

A minap szembesültem azzal, hogy amikor Pop_OS alól (Ubuntu 19.10 alapokon) felcsatlakozok VPN-re, akkor a kommunikáció a VPN interfész mellett tovább folytatódik a sima adapteren, IPv6-on keresztül.

Természetesen ez nem ideális, mivel ha privát célokra használjuk a VPN-t, akkor ez leak-eli az IP címünket ezáltal minden féle erőfeszítés nélkül visszakövethetőek leszünk. A legjobb megoldás, hogyha az IPv6 cím szerzés teljesen ki van kapcsolva, már a kernelben is (GRUB-ot szerkesztve), de általában használom egyéb célra, így csak akkor akarom kikapcsolni, amikor éppen csatlakozva vagyok a VPN-re.

[Tovább olvasom]

Dinamikus DNS beállítása Cloudflare-re Raspberry Pi 4-en – ddclient

Dinamikus DNS beállítása Cloudflare-re Raspberry Pi 4-en – ddclient

Frissites 2024/06/25-en:  a cikk irasa ota valaki irt erre egy scriptet, amit itt talaltok meg: https://github.com/K0p1-Git/cloudflare-ddns-updater . Koszonet az infoert a tesztszerverem.hu-nak!

 

Otthoni szerver esetén, ha az internetről is el akarja érni az ember (pl. OpenVPN) az adott service-t, akkor érdemes beállítani egy dinamikus DNS rekordot. A cikk a Cloudflare – ddclient kombinált beállítását részletezi.

Először is hozzunk létre egy ‘A’ rekordot egy téves IP címmel (hogy később lássuk, hogy sikerült-e update-elni), valamint 5 perces TTL-lel.

[Tovább olvasom]

[LINUX] Megtelt boot partíció kitisztítása

[LINUX] Megtelt boot partíció kitisztítása

Ritkán, de előfordulhat, hogy betelik a /boot partíció a linux gépeken, ilyenkor a régi kerneleket érdemes törölni, de ez nem mindig egyszerű.

A lemez kihasználtságát az alábbi paranccsal tudod megnézni:

df -h

A képen már a tisztogatás utáni állapot látható, így már csak 39%-os foglaltságon áll a /boot partíció

Ilyenkor az apt-get upgrade megszakad a kernel frissítése közben, mivel nincs több hely az adott partíción. Ez folyamatosan hibákat dob, és van olyan is (mint az én esetemben), hogy emiatt már egyáltalán nem futnak le a frissítések, mivel a  korábbiak hibával zárultak le.

[Tovább olvasom]

Dell Visor – „Budget” VR

Már jó ideje szemeztem a VR-ral, mint szórakozási lehetőséggel és májusban tudtam meg, hogy a Microsoft rendelkezik egy saját templáttal a VR szemüvegekre vonatkozik. Elég félrevezető a neve, mivel semmi köze nincs a kevert valósághoz, hiába van az elején két kamera.

Mindenesetre meglehetősen „olcsó” – legalábbis a HTC Vive Próhoz és az Oculus Rift-hez képest. Az USA-ban már potom 200 dollárért meg lehet venni újonnan, sajnos kicsiny hazánkban ez 100k+ a legolcsóbb helyeken is, ami még elérhető közelségben van.  Az Ebay-en sokadik hirdetésnél sikerült választ kapnom a kérdésemre, miszerint szállítanak-e magyarországra

[Tovább olvasom]

Visszavonva – Költözés Discord-ra a Teamspeak szerverről

Visszavonva – Költözés Discord-ra a Teamspeak szerverről

Sziasztok,

A Discord szerverre itt tudtok csatlakozni.

A teamspeak kliens frissítette magát, és az új 3.3.0-s verzió már nem kompatibilis a régi teamspeak szerveremmel. Frissítettem a szervert, de az összes beállítás elveszett és nem tudom átmigrálni őket. A non-profit licencemet felismeri, viszont ha 32 főnél többet állítok be, akkor automatikusan leállítja magát a szerver. Egy jó ideig szórakoztam ezzel, de elegem van ebből, így a szerver a továbbiakban már nem fog üzemelni.

[Tovább olvasom]