Za pośrednictwem technologii ICT, właściwie wszystkie dziedziny gospodarki wytwarzają olbrzymie ilości danych. O ile składowanie tych danych nie stanowi obecnie problemu, to ich przetwarzanie i analizowanie jest już dużym wyzwaniem. Istnieje potrzeba rozwijania specjalistycznych narzędzi i systemów, za pomocą których będzie możliwe utworzenie z danych nowych produktów, służących do ich rafinacji w celu wyciągania nowych i cennych wniosków. Odpowiadając na potrzeby rynku pracy utworzone zostały studia podyplomowe Inżynieria danych – Data Science. W naszym regionie występuje duże zapotrzebowanie na interdyscyplinarne kształcenie w zakresie statystki, analizy dużych wolumenów danych, programowania, baz danych i specjalistycznych narzędzi do modelowania eksploracyjno-predykcyjnego danych oraz raportowania i wizualizowania danych. Program naszych studiów zapewnia kształcenie w powyższym zakresie.
Data rozpoczęcia kolejnej edycji: 12 października 2024 r.
Czas trwania studiów: 2 semestry
Program ramowy
I semestr |
II semestr |
|||
---|---|---|---|---|
1. Metody statystyczne i analityczne Big Data |
30 godz. wykł. |
|
|
|
2. Metody eksploracji danych |
30 godz. wykł. |
|
|
|
3. Uczenia maszynowe w języku Python |
|
30 godz. lab. |
|
|
4. Bazy danych i hurtownie danych |
|
|
|
30 godz. lab. |
5. Narzędzia inżynierii danych |
|
|
|
45 godz. lab. |
6. Seminarium dyplomowe |
|
|
15 godz. sem. |
|
Semestr I
1. Metody statystyczne i analityczne Big Data, 30 godz. wykładu/laboratorium
[1] Trevor Hastie, Robert Tibshirani, Jerome Friedman, „The Elements of Statistical Learning: Data Mining, Inference, and Prediction”.
[2] Francois Chollet, Joseph J Allaire, "Deep Learning with R"
2. Metody eksploracji danych, 30 godz. wykładu
Podstawowe zadania używane w eksploracji danych. Obróbka danych, w tym normalizacja i standaryzacja. Zmienne jakościowe i numeryczne. Relacje wielowymiarowe. Dyskretyzacja. Wnioskowanie statystyczne. Regresja wielokrotna. Algorytm najbliższych sąsiadów. Funkcje decyzyjne. Drzewa klasyfikacyjne i regresyjne. Porównanie różnych algorytmów. Wykorzystanie sieci neuronowych do szacowania i przewidywania. Sigmoidalna funkcja aktywacji. Reguły propagacji wstecznej. Metody grupowania hierarchicznego. Pojedyncze i całkowite połączenia. Algorytm k-średnich. Algorytm a priori. Reguły asocjacyjne.
Literatura:
[1] Daniel T. Larose, „Okrywanie wiedzy z danych”, PWN 2006
[2] Daniel T. Larose, „Metody i modele eksploracji danych”, PWN 2016
[3] Tadeusz Morzy, „Eksploracja danych. Metody i algorytmy”, PWN 2013
3. Uczenie maszynowe w języku Python, 30 godz. laboratorium
Środowisko programistyczne dla języka Python. Składnia, struktury danych, bloki sterujące i operacje w języku Python. Python jako język obiektowy. Pakiety języka Python i ich funkcjonalności. Uczenie maszynowe języku Python. Przygotowanie danych do analizowania i modelowania. Eksploracyjna analiza danych w języku Python. Metody uczenia maszynowego w języku Python: regresja, klasyfikacja i klasteryzacja. Inżynieria cech, analiza metryk i walidacja modeli. Optymalizacja hiperparametrów modeli.
Literatura:
[1] Marek Gągolewski, Maciej Bartoszuk, Anna Cena, „Przetwarzanie i analiza danych w języku Python”, PWN 2016
[2] Sebastian Raschka, Vahid Mirjalili, "Python. Uczenie maszynowe.", Wydanie II, Helion 2019
[3] Laurence Moroney, „Sztuczna inteligencja i uczenie maszynowe dla programistów. Praktyczny przewodnik po sztucznej inteligencji”, Helion, 2021
Semestr II
4. Bazy danych i hurtownie danych, 30 godz. laboratorium
Typy baz danych. Relacyjne bazy danych, język SQL. Rozszerzenia relacyjnych baz danych. Elementy baz danych NoSQL na przykładzie MongoDB. Pojęcia stowarzyszone z hurtowniami danych. Przygotowanie danych dla hurtowni danych, proces ETL. Wymiary w hurtowni danych. Analiza danych (OLAP cube, analiza w bazach nosql).
Literatura:
[1] Adam Pelikant, „Hurtownie danych. Od przetwarzania analitycznego do raportowania”, Helion 2011
[2] Kristina Chodorow, „Mongodb: The Definitive Guide”, O'Reilly Media 2013
[3] Jason Price, „Oracle Database 12c i SQL. Programowanie”, Helion 2015
5. Narzędzia inżynierii danych, 45 godz. laboratorium
Przegląd dostępnych narzędzi inżynierii danych. Zalety i wady wybranych narzędzi. Uczenie maszynowe z wykorzystaniem najnowszych pakietów języka Python, w tym analizowanie i modelowanie szeregów czasowych. Apache Hadoop jako narzędzia do rozproszonego składowania i przetwarzania wielkich zbiorów danych przy pomocy klastrów komputerowych. Przypadki użycia z wykorzystaniem Apache Spark i Apache Hive. Przykładowe możliwości wykorzystania oprogramowania H2O w Big Data. Wprowadzenie do metod wyjaśnialnej sztucznej inteligencji (XAI).
Literatura:
[1] Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills, „Zaawansowana analiza danych w PySpark”, Helion, 2023.
[2] Tom White, „Hadoop. Kompletny przewodnik. Analiza i przechowywanie danych”, Helion 2015
[3] Aileen Nielsen, „Szeregi czasowe. Praktyczna analiza i predykcja z wykorzystaniem statystyki i uczenia maszynowego”, Helion, 2020
[4] Artur Suchwałko, Adam Zagdański, „Analiza i prognozowanie szeregów czasowych”, PWN, 2015
[5] DALEX - https://dalex.drwhy.ai/
[6] H2O - https://h2o.ai/products/
6. Seminarium dyplomowe, 15 godz. seminarium
Przedstawianie celu i wymagań. Elementy inżynierii oprogramowania, w tym proces budowy oprogramowania, zbieranie i podział wymagań, architektura programu, odpowiednie schematy i diagramy, testowanie. Schemat pracy dyplomowej, w tym wymagania formalne i podział treści. Propozycje tematów, podział na grupy, ustalenie ról poszczególnych osób, ustalenie harmonogramów. Prezentacje końcowe wytworzonego oprogramowania i napisanych prac dyplomowych przygotowanych przez kierowników grup. Przeprowadzenie testów końcowych.
Studia podyplomowe Inżynieria Danych Data Science są wspierane przez DataCamp, najbardziej intuicyjną platformę edukacyjną do nauki w zakresie analizowania i modelowania danych. Przy pomocy DataCamp możesz uczyć się dowolnym miejscu i czasie oraz zostać ekspertem w zakresie języków R, Python, SQL i nie tylko. Metodologia uczenia się przez DataCamp polega na połączeniu krótkich filmów eksperckich z samodzielnie wykonywanymi ćwiczeniami praktycznymi. DataCamp oferuje ponad 350 kursów prowadzonych przez doświadczonych instruktorów na tematy takie jak: importowanie danych, wizualizacja danych, czy uczenie maszynowe. DataCamp nieustannie rozwija swoje programy nauczania, aby nadążyć za najnowszymi trendami technologicznymi oraz zapewnić kursantom wysokie kompetencje na wszystkich poziomach umiejętności. Dołącz do ponad 6 milionów studentów na całym świecie i stań się specjalistą w dziedzinie Data Science.