Korpus, licencje, jakosc
Na sesjach budujemy dataset, usuwamy smieci, deduplikujemy, odcinamy benchmark contamination i zapisujemy provenance.
To nie jest kurs wideo. To warsztatowa spolecznosc na Discordzie, w ktorej spotykamy sie 2-3 razy w tygodniu, robimy zadania jak na cwiczeniach na uniwersytecie i uczymy sie treningu modeli przez realne uruchamianie pipeline'u.
Slayer jest dla osob technicznych, ktore chca zrozumiec, co dzieje sie pod spodem. Mamy plan, slajdy i repozytoria, ale material nie jest produktem samym w sobie. Produktem jest praca w grupie: sesje, zadania, review i decyzje treningowe.
Na sesjach budujemy dataset, usuwamy smieci, deduplikujemy, odcinamy benchmark contamination i zapisujemy provenance.
Wspolnie trenujemy tokenizer, mierzymy kompresje na polskich danych i sprawdzamy, kiedy vocabulary niszczy koszt treningu.
Przechodzimy przez blok transformera, attention, MLP, normy, embeddingi i rope tak, zeby umiec debugowac training run.
Robimy batching, optimizer, scheduler, mixed precision, gradient clipping, checkpointing i czytamy realne logi z loss curve.
Projektujemy proxy benchmark, sanity checki generacji, regresje i metryki, ktore zatrzymuja slaby run przed spaleniem GPU.
Przerabiamy eksport, kwantyzacje, vLLM/llama.cpp, OpenAI-compatible endpoint i podstawy monitoringu kosztu tokenow.
Krotkie sesje robocze: kontekst, decyzja techniczna, live coding albo review, potem konkretne zadanie do wykonania.
Wrzucamy logi, configi, wykresy, sample i bledy. Grupa widzi, co nie dziala, i uczy sie na realnych awariach.
Repozytoria sa punktem startowym, nie gotowa odpowiedzia. Uczestnicy dopisuja pipeline, uruchamiaja runy i porownuja wyniki.
Slajdy porzadkuja pojecia, ale nie zastepuja pracy. Najwazniejsze rzeczy dzieja sie podczas sesji i po nich.
Finalem nie jest obejrzany material. Finalem jest wlasne repo, logi, checkpoint, benchmark i intuicja, ktora powstaje dopiero wtedy, gdy samemu naprawia sie training run.
Wspolnie opracowana lista zrodel, filtry, licencje, deduplikacja, holdout i audit trail danych.
Porownanie tokenizacji, kompresji i kosztu z wynikami omawianymi na sesjach.
Konfiguracja, krzywa loss, checkpointy, sample, awarie i decyzje omawiane na Discordzie.
Minimalny prywatny benchmark, sanity checks, scoring i bramki przed kolejnym kosztem GPU.
Zapisy i szczegoly kohorty przez email. Kontakt: k.wikiel@gmail.com.