Tjena!
Funderar ofta pÄ om folk faktiskt anvÀnder AI. Det marknadsförs sÄ otroligt mycket, dÄ tÀnker jag att det mÄste finnas en marknad nÄgonstans.
Samtidigt sÄ Àr det ingen som pratar om AI verktyg, att dem anvÀnt det ena eller det andra.
Jag som jobbar inom IT tycker det Àr lite konstigt ÀndÄ att det Àr sÄ pass lite prat om folk som personligen anvÀnder olika AI verktyg.
Jag vet att AI har anvÀnts i mÄnga Är. Det jag menar specifikt Àr alla dessa nya AI verktyg som kommit ut pÄ marknaden sedan de stora sprÄkmodellerna blev mer tillgÀngliga.
Aldrig hört talas om Serge, men det ser ut som att projektet fortfarande lever och uppdateras iaf. Det Àr baserat pÄ llama.cpp, sÄ jag tror det ska fungera med ROCm (dvs. AMD gpu). Och eftersom det bygger pÄ llama.cpp sÄ behöver du en modell i GGUF-format. Sen har llama.cpp en unik funktion att den klarar av att dela upp arbetet mellan CPU och GPU, vilket gör att du kan köra större modeller ifall du Àr villig att offra en del hastighet, men jag tror det Àr en bra start att köra nÄgon sorts standardmodell som fÄr plats helt i VRAM, sÄ kan du experimentera med finetune:ade modeller och annat nÀr du vet att saker fungerar som det ska.
Det som avgör hur mkt VRAM som behövs Àr en kombination av antalet parametrar i modellen (e.g. 7B, 12B, osv), hur stor kontext du anvÀnder (typ. hur pass lÄngt korttidsminne AI:n fÄr. Mer kontext -> lÀngre konversation innan den glömmer bort de Àldsta meddelandena) och vilken kvantiseringsnivÄ av modellen du laddat hem (typ motsvarande komprimering av film/bilder). Sen tappar du Àven lite VRAM till operativsystemet ifall du bara har ett grafikkort i datorn. Jag tror Mistral Nemo Instruct med Q4_K_M kvantisering, och kanske 8000 kontext, skulle gÄ in i VRAM för dig, den gÄr att ladda ner hÀr: https://huggingface.co/bartowski/Mistral-Nemo-Instruct-2407-GGUF/tree/main
De flesta modellerna som trĂ€nas Ă€r censurerade till nĂ„gon grad, men det Ă€r mĂ„nga privatpersoner som gör sitt bĂ€sta för att ta bort det av olika anledningar. Vill du ha en sĂ„n modell sĂ„ har de ofta OAS eller âabliteratedâ i namnet.
Vill du testa att köra lite större modeller med partial offloading (CPU+GPU) sÄ kolla in CmdR och Mixtral 8x7b. Mixtral börjar bli lite gammal, men den Àr snabb att köra pÄ CPU tack vare MoE arkitekturen. Du kan Àven testa 70B modeller som Miqu etc. men dÄ fÄr du nog rÀkna med max 0.5 ord/sekunden.
Kan Ă€ven rekommendera TheBlokeâs discord server ifall du behöver hjĂ€lp med nĂ„got, eller tips om de senaste modellerna.
Det blev Ollama, fick igÄng det förut och har provat Llama 3.1 8B, Codegemma 7b och fick precis igÄng Mistral Nemo Instruct du tipsade om. Var lite pilligt att fÄ den att anvÀnda GPUn, 6700XT har inte stöd Àn av ROCm tydligen men funkar om man lurar den att det Àr ett 6800 med en miljövariabel. DÄ gick det genast mycket fortare mot CPUn som det var först. Ja sant med VRAMen det gÄr Ät en del, eftersom Plasma med Firefox och lite annat igÄng vill ha runt 3 GB. Llama 3.1 8B vill ha 7GB VRAM sÄ har 20% ungefÀr kvar att anvÀnda.
Har ju bara doppat tÄrna precis men kul att vara igÄng. Skönt att inte mata nÄn modell i molnet lÀngre den hÀr vÀgen blir det i fortsÀttningen. Ska fördjupa mig lite senare nÀr jag fÄr mer tid över. Sparar ditt inlÀgg, bra info. Tack för hjÀlpen.
Kör du Wayland, och/eller har flera högupplösta skÀrmar? Jag kör X11 och har en 1440p skÀrm och en 1080p, men jag tappar bara 1.15GiB vram till OS:et enligt nvtop. Kör ocksÄ Plasma och Firefox dÄ. För ett tag sedan sÄ försökte jag fÄ datorn att anvÀnda Ryzen APU:n för OS:et, och lÀmna hela GPU:n ledig för LLM och spel etc. Det svÄra var att fÄ GPU forwarding att fungera, sÄ jag inte skulle behöva dubbla uppsÀttningar skÀrmkablar, och förstÄs lite meck med att köra bÄde AMD och Nvidia samtidigt, men det kanske Àr lÀttare med ett AMD-kort ifall det Àr nÄgot du Àr intresserad av att undersöka i framtiden.
Oj det var rimligare, ja jag har misstÀnkt jag legat lite vÀl högt i VRAM anvÀndning. Yep, jag kör Wayland men Àr rÀtt sÀker pÄ jag lÄg högt pÄ X11 ocksÄ. Ska prova X11 imorn för sÀkerhets skull. Ser inga direkta syndabockar nÀr jag kör nvtop, 2.7 GB idag med min vanliga anvÀndning. Firefox vill ha 564 MB och sen 147 MB i nÄn -contentproc process som jag inte vet vad den gör. Det Àr vÀl det enda som sticker ut. Men kör HW acceleration med VAAPI sÄ antar att det Àr det. Vill nog helst ha det dÄ jag tittar pÄ mÄnga streams i webblÀsaren. AnvÀnda APU samtidigt till sÄnt Àr fiffigt men har tyvÀrr ingen sÄdan i min dator bara ett 6700XT och en Ryzen 3700x. Har bara en 144hz skÀrm och en TV inkopplad kan prova dra ur sladden till TVn imorn ocksÄ, anvÀnder bara en skÀrm Ät gÄngen. Jao APU eller en till GPU att avlasta med hade varit nÄgot det, fÄr skriva upp det pÄ önskelistan. Med nuvarande bygge blir det nog försöka fÄ ner VRAM anvÀndningen en aning pÄ nÄt sÀtt ska pröva lite mer imorn.
För mig sÄ drar Xorg ca 300MB, Firefox 150MB, kwin_x11 100MB, Discord och plasmashell 50MB vardera. Compositing i KDE Àr pÄ, men VAAPI i Firefox Àr avstÀngt. Har för mig jag stÀngde av det för det var problem nÀr jag skulle streama nÄgot, men jag tycker CPU-avkodning har funkat bra sÄ jag hade glömt bort att jag ens Àndrade det.
Om du ska försöka fÄ igÄng GPU passthrough i framtiden sÄ finns det en del resurser för hur laptops gör det, men det verkar som att det endera Àr Intel CPU + Nvidia GPU, eller AMD + AMD, sÄ ifall du ska uppgradera nÄgot sÄ kan det vara vÀrt att ha i Ätanke. Jag fick AMD + Nvidia att typ fungera, men jag lyckades inte fÄ den att stÀnga av GPU:n helt nÀr den inte anvÀndes sÄ den lÄg och drog 30W i onödan.
SjĂ€lv jag ett begagnat RTX3090 för att fĂ„ 24GB VRAM. Kollade blocket varje dag tills jag hittade ett för 7300kr med köpskydd, vilket kĂ€ndes som ett nĂ€stan rimligt pris :) Hade dock behövt det dubbla för att kunna köra Ă€nnu finare modeller, men dĂ„ kostar det verkligen skjortanâŠ
Det var nog Wayland, 1.2-1.7GB med X11. Har iofs stĂ€ngt av HW acceleration i nĂ„gra program ocksĂ„ men verkar Ă€ndĂ„ ligga minst 500MB lĂ€gre. AlltsĂ„ vi fĂ„r nog vĂ€nta ett tag till innan Wayland Ă€r bĂ€ttre Ă€n X11 tycker mest det Ă€r nackdelar fortfarande. Hade nĂ„got mĂ€rkligt blinkande pĂ„ X11 sĂ„ det var dĂ€rför jag bytte men verkar ha löst det ocksĂ„ med att köra skĂ€rmen pĂ„ 120 HZ istĂ€llet. Ska prova lite tyngre modeller dĂ„ nĂ€r det finns lite mer utrymme. Ăr glad jag inte snĂ„lade med ett 6700, 10GB VRAM men skulle gĂ„tt pĂ„ 16 eller mer med facit i hand. Aja det hĂ€r duger sĂ„ lĂ€nge Ă€r mest glad det funkar sĂ„ hĂ€r pass bra jĂ€mfört med gratis varianterna i molnet.
Ja det blir nog GPU passthrough i framtiden kan man ju köra Windows i ett VM ocksÄ för vissa spel hade varit nice. Aha ja Team Red Àr det som gÀller hÀr sÄ det lÄter ju bra det kan funka sÄ man slipper byta lag.
Det var en riktigt bra deal. 3090 var ett monster nÀr det var nytt sÄ borde hÄlla rÀtt bra. Generöst med VRAM Àr ju trevligt för att vara Nvidia.
Kanske minns fel och blandar ihop termerna, men den sortens GPU passthrough jag tÀnkte pÄ Àr att lÄta signalen frÄn det bÀttre grafikkortet skickas genom APU:ns kontakt sÄ man slipper ha dubbla monitorkablar. Men det Àr klart, ifall jag skulle kunna köra Windows i VM med 100% prestanda sÄ skulle jag slippa dual boota för VR.
Uppgraderade frÄn 3080 sÄ minimal skillnad bortsett frÄn minnet :D Men vi fÄr hoppas att AMD satsar mer pÄ ROCm i framtiden, de har ju varit mer generösa med VRAM pÄ sina kort.
Ok ja det kan va olika passthrough, Àr inte jÀttepÄlÀst, det verkar rÀtt komplicerat. TÀnkte nÄt sÄnt hÀr. Eller detta typ som man lÄter ett VM ta full kontroll över en USB-enhet men iom grafikkortet Àven ger bild sÄ försvinner ju den frÄn hosten ifall man skickar det till VMet sÄ dÄ mÄste ju nÄgot annat ta över. Verkar krÀva tvÄ uppsÀttningar kablar kopplade till vardera GPU. Du pratar om en slags laptoplösning för en desktop?
Exakt, men det var nog hybrid graphics det hette. Tanken var dels att lÀmna 100% vram ledigt för AI och dels för att spara ström genom att sÀtta Nvidia-kortet i sovlÀge nÀr det inte anvÀnds. Fick det typ att fungera, men de ÄterstÄende problemen var att Xorg alltid körde pÄ Nvidia-kortet (andra program default:ade till iGPUn, om jag inte explicit sa att de skulle köra pÄ Nvidia) och jag kunde inte fÄ nÄgot annat Àn 60Hz till skÀrmarna. Sen sa rocm-smi eller ngt liknande program att iGPU:n drog 30W nÀr den anvÀndes, vilket Àr lika mkt som RTX-kortet drar i idle, sÄ ifall det Àr korrekt sÄ skulle det ÀndÄ inte bli nÄgon strömbesparing.