Przetwarzanie języka naturalnego (NLP)
Zdobądź kompetencje najszybciej rozwijającego się obszaru Sztucznej Inteligencji
Dlaczego kurs Przetwarzanie języka naturalnego?
Kurs przekrojowo omawia tematykę przetwarzania języka naturalnego – od wprowadzenia teoretycznego, przez wykorzystanie najnowszych metod uczenia maszynowego, aż po zastosowania praktyczne.
Przetwarzanie języka naturalnego to obecnie jeden z najszybciej rozwijających się obszarów Sztucznej Inteligencji, dzięki czemu stale powiększa się zakres zastosowań metod NLP w praktyce – w nauce, biznesie i codziennym życiu. Zdobywając kompetencje z tego obszaru, stajesz się jedną z najbardziej poszukiwanych osób na rynku pracy, a także otwierasz sobie furtkę do samodzielnej pracy biznesowej na perspektywicznym rynku. Jest to też okazja do tego, by jednocześnie zdobyć kompetencje w obszarze ogólnej Sztucznej Inteligencji, a więc poznać metody analizy danych, uczenia maszynowego, a także sieci neuronowe i deep learning.
Co będę umieć, gdy zrobię cały kurs z Przetwarzania Języka Naturalnego?
- Będziesz w stanie podjąć pracę w obszarze przetwarzania języka naturalnego lub – znając problematykę i specyfikę tego obszaru – rozwijać własne przedsięwzięcia biznesowe w tym obszarze.
- Będziesz posiadać unikalne kompetencje, pozwalające Ci podejmować projekty związane z obszarem analizy danych, sztucznej inteligencji i przetwarzania języka naturalnego – w szczególności języka polskiego.
Co otrzymam, kupując kurs?
Otrzymasz unikalny, kompleksowy kurs, który omawia zarówno niezbędne podstawy w zakresie metody analizy danych i uczenia maszynowego, jak i najbardziej aktualne zagadnienia z obszaru przetwarzania języka naturalnego. Kurs jest unikalny, ponieważ zawiera specyficzną wiedzę na temat przetwarzania języka polskiego, pochodzącą od najlepszych ekspertów z tego obszaru – twórców poszczególnych metod, modeli i zbiorów danych.
Skuteczna nauka online
40 h nagrań e-learningowych
Poziom
średniozaawansowany
Doświadczeni trenerzy
Skorzystaj na doświadczeniu najlepszych ekspertów w branży
PROGRAM KURSU
Wprowadzenie
- Czym jest Przetwarzanie języka naturalnego (NLP)?
- Dlaczego warto się tym zajmować i dlaczego właśnie teraz?
- Co stanowi największe wyzwanie w NLP?
- Najciekawsze zastosowania NLP
- Co jest potrzebne, aby zajmować się NLP (narzędzia, algorytmy, matematyka)
Czy maszyny mogą zrozumieć język naturalny?
- Poziomy analizy języka naturalnego
- Jak analizować język mówiony?
- Jak maszyna “widzi” tekst?
- Potoki przetwarzania
- Architektura rozwiązań NLP
Podstawy: słowa, zdania i dokumenty
- Tokenizacja: podział tekstu na słowa
- Stemming i lematyzacja
- Reprezentacja bag-of-words
- Odległość edycyjna
- Wyrażenia regularne
- N-gramy
- Podział na zdania
- TF-IDF
- Regularyzacja modelu
Nieco lingwistyki: znakowanie morfosyntaktyczne i gramatyki
- Zasoby językowe
- Analiza morfosyntaktyczna
- Znakowanie morfosyntaktyczne
- Gramatyki
- Rozkład zależnościowy
Podstawy uczenia maszynowego w NLP
- Uczenie nadzorowane a nienadzorowane
- Latent Semantic Indexing (LSI)
- Liniowa analiza dyskryminacyjna (LDA)
- Regresja logistyczna
- Typowe algorytmy uczenia maszynowego: Naive Bayes, SVM, CRF
Zastosowania I
- Indeksowanie i przeszukiwanie tekstu
- Grupowanie i klasyfikacja tekstów (podejścia ML)
- Ujednoznacznianie sensu słów (word sense disambiguation)
- Rozpoznawanie jednostek nazewniczych (named entity recognition)
Sieci neuronowe
- Najprostsza sieć neuronowa
- Czym jest głębokie uczenie (deep learning)?
- Reprezentacje wektorowe (zanurzenia słów i dokumentów), word2vec, glove, elmodoc2vec
- Sieci RNN
- Sieci CNN
- Sieci LSTM
- Mechanizm uwagi i modele typu Encoder-Decoder
- Typowe architektury sieci i wykorzystanie pretrenowanych modeli:BERT, RoBERTa, DistillBERT GPT, GPT-2, GPT-3, XLM, Transformers
Zastosowania II
- Grupowanie i klasyfikacja tekstów (podejścia DL)
- Ekstrakcja informacji (information extraction)
- Wyszukiwanie semantyczne w tekście
- Analiza wydźwięku (sentiment analysis)
- Systemy dialogowe (chatboty)
- Analiza koreferencji (coreference analysis)
- Tworzenie podsumowań (summarization)
Rozpoznawanie mowy
- Opis problemu
- Historia i różne podejścia: izolowane/regułowe, HMM, WFST, hybrydowe, E2E
- Wprowadzenie do modelowania akustycznego
- Modelowanie języka w rozpoznawaniu mowy: gramatyki formalne, statystyczne modele języka
- Dekodowanie w rozpoznawaniu mowy: n-best i kraty, rescoring i wykorzystanie NNLM
Zakończenie
- Ciekawe zasoby: materiały edukacyjne, zasoby dla języka polskiego, konkursy: SemEval, PolEval, GLUE, KLEJ
- Dalsze kroki
- Obiecujące kierunki badawcze
Kurs „Przetwarzanie języka naturalnego (NLP)” (C) Sages 2021.
Przeczytaj opinie o kursie
⭐⭐⭐⭐⭐
Kurs przewyższył moje oczekiwania.
⭐⭐⭐⭐⭐
Podczas całego kursu nie zdarzyło mi się siedzieć bezczynnie.
Poznaj autorów kursu
dr inż. Łukasz Kobyliński
Chief Science Officer w Sages, Data Scientist w SigDelta oraz adiunkt w Instytucie Podstaw Informatyki PAN. Uczestnik takich konferencji, jak PKDD, LREC, TSD, czy LTC. Pracował w projektach komercyjnych związanych z ekstrakcją informacji, agentami dialogowymi, czy odpowiadaniem na pytania.
dr hab. Piotr Pęzik
Profesor UŁ w Instytucie Anglistyki, autor prac naukowych i rozwiązań informatycznych z dziedziny językoznawstwa korpusowego i komputerowego. Obszarem jego zainteresowań językoznawczych jest frazeologia dystrybucyjna w ujęciu korpusowym. Był wykonawcą i kierownikiem krajowych i europejskich projektów badawczo-rozwojowych, m.in. NKJP, CESAR, PLEC, BootStrep.
dr inż. Michał Marcińczuk
Adiunkt w Katedrze Inteligencji Obliczeniowej na Wydziale Informatyki i Zarządzania Politechniki Wrocławskiej. Posiada rozległe doświadczenie w zakresie ekstrakcji informacji, automatyzacji wyszukiwania danych tekstowych, rozpoznawania jednostek nazewniczych, czy ujednoznaczniania sensu słów.
dr inż.Danijel Korzinek
Adiunkt w Polsko-Japońskiej Akademii Technik Komputerowych. Wykonawca w wielu projektach naukowych i badawczo rozwojowych, w tym CLARIN-PL, EU-Bridge, SYNAT, SENAT, czy LUNA. Autor i współautor ponad 20 artykułów naukowych.
dr Alina Wróblewska
Adiunkt w Zespole Inżynierii Lingwistycznej Instytutu Podstaw Informatyki PAN. Specjalistka w dziedzinie morfoskładniowego oraz semantycznego przetwarzania języka naturalnego, w szczególności parsowania zależnościowego oraz semantyki wektorowej. Posiada doświadczenie w tworzeniu zasobów do trenowania modeli NLP. Wyniki swoich badań naukowych prezentowała na konferencjach, m.in. ACL, EMNLP, LREC.
Patryk Pilarski
Data scientist i trener z kilkuletnim doświadczeniem. Pracuje z danymi w każdym rozmiarze i kształcie – od dużych po małe, od liczb po tekst. Nieustannie poszukuje interesujących wyzwań oraz możliwości pracy z ciekawymi technologiami, w związku z czym pracował w licznych projektach łączących w sobie wyzwania z zakresu analizy i inżynierii danych.