
Za pośrednictwem technologii ICT, właściwie wszystkie dziedziny gospodarki wytwarzają olbrzymie ilości danych. O ile składowanie tych danych nie stanowi obecnie problemu, to ich przetwarzanie i analizowanie jest już dużym wyzwaniem. Istnieje potrzeba rozwijania specjalistycznych narzędzi i systemów, za pomocą których będzie możliwe utworzenie z danych nowych produktów, służących do ich rafinacji w celu wyciągania nowych i cennych wniosków. Odpowiadając na potrzeby rynku pracy utworzone zostały studia podyplomowe Inżynieria danych – Data Science. W naszym regionie występuje duże zapotrzebowanie na interdyscyplinarne kształcenie w zakresie statystki, analizy dużych wolumenów danych, programowania, baz danych i specjalistycznych narzędzi do modelowania eksploracyjno-predykcyjnego danych oraz raportowania i wizualizowania danych. Program naszych studiów zapewnia kształcenie w powyższym zakresie.
Data rozpoczęcia kolejnej edycji: 10 października 2026 r.
Czas trwania studiów: 2 semestry
Program ramowy
|
I semestr |
II semestr |
|||
|---|---|---|---|---|
|
1. Uczenie głębokie i modele generatywne: praktyczne podejście w Phythonie |
40 godz. wykł. |
|
|
|
|
2. Metody eksploracji danych |
35 godz. wykł. |
|
|
|
|
3. Uczenia maszynowe w języku Python |
|
40 godz. lab. |
|
|
|
4. Bazy danych i hurtownie danych |
|
|
|
40 godz. lab. |
|
5. Narzędzia inżynierii danych |
|
|
|
55 godz. lab. |
|
6. Seminarium dyplomowe |
|
|
15 godz. sem. |
|
Semestr I
1. Uczenie głębokie i modele generatywne: praktyczne podejście w Phythonie, 40 godz. wykładu
Nowoczesne metody uczenia głębokiego (deep learning) oraz modele generatywne, ze szczególnym naciskiem na praktyczne zastosowania w języku Python. Kurs obejmuje zarówno fundamentalne koncepcje sieci neuronowych, jak i zaawansowane architektury wykorzystywane w wizji komputerowej (Computer Vision), przetwarzaniu języka naturalnego (NLP) oraz dużych modelach językowych (LLM).
Przedstawione zostaną kluczowe mechanizmy uczenia głębokiego, takie jak propagacja wsteczna, optymalizacja i regularyzacja, a także współczesne architektury: konwolucyjne sieci neuronowe, modele sekwencyjne oraz transformery. Szczególna uwaga poświęcona zostanie modelom generatywnym, w tym autoenkoderom, sieciom GAN oraz modelom opartym na mechanizmie uwagi i dyfuzji.
Kurs ma charakter praktyczny i aplikacyjny – prezentowane zagadnienia ilustrowane są przykładami implementacyjnymi, a uczestnicy zapoznają się z procesem trenowania, dostrajania (fine-tuning) i wykorzystywania modeli uczenia głębokiego w rzeczywistych zadaniach analitycznych.
Praca z bibliotekami TensorFlow/Keras, PyTorch i Hugging Face Transformers
Literatura:
[1] Ian Goodfellow, Yoshua Bengio, Aaron Courville Deep Learning, MIT Press, 2019
[2] François Chollet Deep Learning with Python (2nd Edition), Helion, 2019
[3] Aurélien Géron Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow (rozdziały dotyczące deep learningu), O'Reilly Media, 2025
2. Metody eksploracji danych, 35 godz. wykładu
Podstawowe zadania używane w eksploracji danych. Obróbka danych, w tym normalizacja i standaryzacja. Zmienne jakościowe i numeryczne. Relacje wielowymiarowe. Dyskretyzacja. Wnioskowanie statystyczne. Regresja wielokrotna. Algorytm najbliższych sąsiadów. Funkcje decyzyjne. Drzewa klasyfikacyjne i regresyjne. Porównanie różnych algorytmów. Wykorzystanie sieci neuronowych do szacowania i przewidywania. Sigmoidalna funkcja aktywacji. Reguły propagacji wstecznej. Metody grupowania hierarchicznego. Pojedyncze i całkowite połączenia. Algorytm k-średnich. Algorytm a priori. Reguły asocjacyjne.
Literatura:
[1] Daniel T. Larose, „Okrywanie wiedzy z danych”, PWN 2006
[2] Daniel T. Larose, „Metody i modele eksploracji danych”, PWN 2016
[3] Tadeusz Morzy, „Eksploracja danych. Metody i algorytmy”, PWN 2013
3. Uczenie maszynowe w języku Python, 40 godz. laboratorium
Środowisko programistyczne dla języka Python. Składnia, struktury danych, bloki sterujące i operacje w języku Python. Python jako język obiektowy. Pakiety języka Python i ich funkcjonalności. Rozkłady prawdopodobieństwa i ich analiza. Testowanie hipotez statystycznych. Przygotowanie danych do analizowania i modelowania. Eksploracyjna analiza danych w języku Python. Metody uczenia maszynowego w języku Python: regresja, klasyfikacja i klasteryzacja. Inżynieria cech, analiza metryk i walidacja modeli. Optymalizacja hiperparametrów modeli. Metody wyjaśnialnej sztucznej inteligencji.
Literatura:
[1] Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, Jonathan Taylor, “An Introduction to Statistical Learning”, https://www.statlearning.com/
[2] Sebastian Raschka, Vahid Mirjalili, "Python. Uczenie maszynowe.", Wydanie II, Helion 2019
[3] Yuxi (Hayden) Liu, „Python. Uczenie maszynowe w przykładach. Najlepsze praktyki w realnych zastosowaniach.”, Wydanie IV, Helion, 2026
Semestr II
4. Bazy danych i hurtownie danych, 40 godz. laboratorium
Typy baz danych. Relacyjne bazy danych, język SQL. Rozszerzenia relacyjnych baz danych. Elementy baz danych NoSQL na przykładzie MongoDB. Pojęcia stowarzyszone z hurtowniami danych. Przygotowanie danych dla hurtowni danych, proces ETL. Wymiary w hurtowni danych. Analiza danych (OLAP cube, analiza w bazach nosql).
Literatura:
[1] Adam Pelikant, „Hurtownie danych. Od przetwarzania analitycznego do raportowania”, Helion 2011
[2] Kristina Chodorow, „Mongodb: The Definitive Guide”, O'Reilly Media 2013
[3] Jason Price, „Oracle Database 12c i SQL. Programowanie”, Helion 2015
5. Narzędzia inżynierii danych, 55 godz. laboratorium
Przegląd dostępnych narzędzi inżynierii danych. Zalety i wady wybranych narzędzi. Uczenie maszynowe z wykorzystaniem najnowszych pakietów języka Python, w tym analizowanie i modelowanie szeregów czasowych. Apache Hadoop jako narzędzia do rozproszonego składowania i przetwarzania wielkich zbiorów danych przy pomocy klastrów komputerowych. Przypadki użycia z wykorzystaniem Apache Spark i Apache Hive. Przykładowe możliwości wykorzystania oprogramowania H2O w Big Data. Wprowadzenie do metod wyjaśnialnej sztucznej inteligencji (XAI).
Literatura:
[1] Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills, „Zaawansowana analiza danych w PySpark”, Helion, 2023.
[2] Tom White, „Hadoop. Kompletny przewodnik. Analiza i przechowywanie danych”, Helion 2015
[3] Aileen Nielsen, „Szeregi czasowe. Praktyczna analiza i predykcja z wykorzystaniem statystyki i uczenia maszynowego”, Helion, 2020
[4] Artur Suchwałko, Adam Zagdański, „Analiza i prognozowanie szeregów czasowych”, PWN, 2015
[5] DALEX - https://dalex.drwhy.ai/
[6] H2O - https://h2o.ai/products/
6. Seminarium dyplomowe, 15 godz. seminarium
Przedstawianie celu i wymagań. Elementy inżynierii oprogramowania, w tym proces budowy oprogramowania, zbieranie i podział wymagań, architektura programu, odpowiednie schematy i diagramy, testowanie. Schemat pracy dyplomowej, w tym wymagania formalne i podział treści. Propozycje tematów, podział na grupy, ustalenie ról poszczególnych osób, ustalenie harmonogramów. Prezentacje końcowe wytworzonego oprogramowania i napisanych prac dyplomowych przygotowanych przez kierowników grup. Przeprowadzenie testów końcowych.
Studia podyplomowe Inżynieria Danych Data Science są wspierane przez DataCamp, najbardziej intuicyjną platformę edukacyjną do nauki w zakresie analizowania i modelowania danych. Przy pomocy DataCamp możesz uczyć się dowolnym miejscu i czasie oraz zostać ekspertem w zakresie języków R, Python, SQL i nie tylko. Metodologia uczenia się przez DataCamp polega na połączeniu krótkich filmów eksperckich z samodzielnie wykonywanymi ćwiczeniami praktycznymi. DataCamp oferuje ponad 350 kursów prowadzonych przez doświadczonych instruktorów na tematy takie jak: importowanie danych, wizualizacja danych, czy uczenie maszynowe. DataCamp nieustannie rozwija swoje programy nauczania, aby nadążyć za najnowszymi trendami technologicznymi oraz zapewnić kursantom wysokie kompetencje na wszystkich poziomach umiejętności. Dołącz do ponad 6 milionów studentów na całym świecie i stań się specjalistą w dziedzinie Data Science.