Materiał jest nagraniem archiwalnym Stacji IT (warsztatów z różnych technologii w trybie 4- lub 8-godzinnym).
➡️ Czego się nauczysz?
– Czym są modele typu transformer i jak działają,
– Jak korzystać z gotowych modeli Hugging Face (pipeline, klasyfikacja, analiza sentymentu),
– Jak przetwarzać dane tekstowe i przygotować je do analizy,
– Tworzenie własnych pipeline’ów NLP i tokenizacja tekstów,
– Wprowadzenie do embeddingów i analizy semantycznej tekstu,
– Wykorzystanie modeli w aplikacjach: klasyfikacja, ekstrakcja informacji, clustering.
➡️ Dla kogo jest ten materiał
Materiał jest skierowany do osób, które chcą wykorzystać możliwości dużych modeli językowych w praktyce. Będzie szczególnie przydatny dla:
– Analityków danych pracujących z tekstem,
– Data scientistów i badaczy NLP,
– Specjalistów AI i osób zajmujących się automatyzacją analizy danych,
– Osób zainteresowanych wykorzystaniem Hugging Face w biznesie, nauce i projektach open source.
➡️ Wymagania wstępne
– Podstawowa znajomość Pythona i pracy z danymi (np. pandas),
– Nie wymaga instalacji – wszystko realizujemy w Google Colab,
– Uczestnik potrzebuje jedynie konta Google i przeglądarki.
➡️ Program
1. Wprowadzenie do NLP i modeli typu transformer:
– NLP w praktyce: zastosowania i wyzwania,
– Co to są modele transformer, LLM, embeddingi.
2. Hugging Face w praktyce – szybki start z pipeline’ami:
– Gotowe modele i ich zastosowania: analiza sentymentu, klasyfikacja,
– Dekodowanie, tokenizacja i predykcja tekstu.
3. Embeddingi tekstowe i eksploracja semantyki:
– Co to są embeddingi? Jak je uzyskać i jak porównywać teksty,
– Wizualizacja i clustering tekstu z wykorzystaniem PCA/UMAP.
4. Case study i ćwiczenia praktyczne:
– Praca z własnymi danymi,
– Praktyczne zadania i sesja Q&A.
Materiał „Hugging Face Transformers w analizie danych tekstowych – NLP w praktyce” (C) Sages 2025.
➡️ Informacje o prowadzącym:
Analityk danych, badacz AI i wykładowca na Uniwersytecie Warszawskim, współpracował z Instytutem Max Planck w Berlinie. Specjalizuje się w uczeniu maszynowym, analizie danych genetycznych i zakresu przetwarzania danych na dużą skalę. Prowadzi kursy z analizy danych i deep learningu. Autor publikacji naukowych i popularnonaukowych, współpracował m.in. z deepsense.ai i Sano Centre for Computational Medicine.