Inżynieria Danych - Data Science | FTiMS - Politechnika Gdańska

Szukaj

Treść strony

Inżynieria Danych - Data Science

Za pośrednictwem technologii ICT, właściwie wszystkie dziedziny gospodarki wytwarzają olbrzymie ilości danych. O ile składowanie tych danych nie stanowi obecnie problemu, to ich przetwarzanie i analizowanie jest już dużym wyzwaniem. Istnieje potrzeba rozwijania specjalistycznych narzędzi i systemów, za pomocą których będzie możliwe utworzenie z danych nowych produktów, służących do ich rafinacji w celu wyciągania nowych i cennych wniosków. Odpowiadając na potrzeby rynku pracy utworzone zostały studia podyplomowe Inżynieria danych – Data Science. W naszym regionie występuje duże zapotrzebowanie na interdyscyplinarne kształcenie w zakresie statystki, analizy dużych wolumenów danych, programowania, baz danych i specjalistycznych narzędzi do modelowania eksploracyjno-predykcyjnego danych oraz raportowania i wizualizowania danych. Program naszych studiów zapewnia kształcenie w powyższym zakresie.
 

Data rozpoczęcia kolejnej edycji: 12 października 2024 r.
Czas trwania studiów: 2 semestry

Program ramowy

 

I semestr

II semestr

1. Metody statystyczne i analityczne Big Data

30 godz. wykł.

 

 

 

2. Metody eksploracji danych

30 godz. wykł.

 

 

 

3. Uczenia maszynowe w języku Python

 

30 godz. lab.

 

 

4. Bazy danych i hurtownie danych

 

 

 

30 godz. lab.

5. Narzędzia inżynierii danych

 

 

 

45 godz. lab.

6. Seminarium dyplomowe

 

 

15 godz. sem.

 


 

Semestr I

1. Metody statystyczne i analityczne Big Data, 30 godz. wykładu/laboratorium
Typy zmiennych i rozkłady prawdopodobieństwa. Testowanie hipotez statystycznych. Regresja liniowa. Regresja logistyczna. Drzewa klasyfikacyjne i regresyjne (CART). Random Forest i Gradient Boosting. Systemy rekomendacyjne. Sieci neuronowe.
Literatura:
[1] Trevor Hastie, Robert Tibshirani, Jerome Friedman, „The Elements of Statistical Learning: Data Mining, Inference, and Prediction”.
[2] Francois Chollet, Joseph J Allaire, "Deep Learning with R"

 

2. Metody eksploracji danych, 30 godz. wykładu

Podstawowe zadania używane w eksploracji danych. Obróbka danych, w tym normalizacja i standaryzacja. Zmienne jakościowe i numeryczne. Relacje wielowymiarowe. Dyskretyzacja. Wnioskowanie statystyczne. Regresja wielokrotna. Algorytm najbliższych sąsiadów. Funkcje decyzyjne. Drzewa klasyfikacyjne i regresyjne. Porównanie różnych algorytmów. Wykorzystanie sieci neuronowych do szacowania i przewidywania. Sigmoidalna funkcja aktywacji. Reguły propagacji wstecznej. Metody grupowania hierarchicznego. Pojedyncze i całkowite połączenia. Algorytm k-średnich. Algorytm a priori. Reguły asocjacyjne.
Literatura:
[1] Daniel T. Larose, „Okrywanie wiedzy z danych”, PWN 2006
[2] Daniel T. Larose, „Metody i modele eksploracji danych”, PWN 2016
[3] Tadeusz Morzy,  „Eksploracja danych. Metody i algorytmy”, PWN 2013

 

3. Uczenie maszynowe w języku Python, 30 godz. laboratorium

Środowisko programistyczne dla języka Python. Składnia, struktury danych, bloki sterujące i operacje w języku Python. Python jako język obiektowy. Pakiety języka Python i ich funkcjonalności. Uczenie maszynowe języku Python. Przygotowanie danych do analizowania i modelowania. Eksploracyjna analiza danych w języku Python. Metody uczenia maszynowego w języku Python: regresja, klasyfikacja i klasteryzacja. Inżynieria cech, analiza metryk i walidacja modeli. Optymalizacja hiperparametrów modeli.
Literatura:
[1] Marek Gągolewski, Maciej Bartoszuk, Anna Cena, „Przetwarzanie i analiza danych w języku Python”, PWN 2016
[2] Sebastian Raschka, Vahid Mirjalili, "Python. Uczenie maszynowe.", Wydanie II, Helion 2019
[3] Laurence Moroney, „Sztuczna inteligencja i uczenie maszynowe dla programistów. Praktyczny przewodnik po sztucznej inteligencji”, Helion, 2021

 

Semestr II

4. Bazy danych i hurtownie danych, 30 godz. laboratorium

Typy baz danych. Relacyjne bazy danych, język SQL. Rozszerzenia relacyjnych baz danych. Elementy baz danych NoSQL na przykładzie MongoDB. Pojęcia stowarzyszone z hurtowniami danych. Przygotowanie danych dla hurtowni danych, proces ETL. Wymiary w hurtowni danych. Analiza danych (OLAP cube, analiza w bazach nosql).
Literatura:
[1] Adam Pelikant, „Hurtownie danych. Od przetwarzania analitycznego do raportowania”, Helion 2011
[2] Kristina Chodorow, „Mongodb: The Definitive Guide”, O'Reilly Media 2013
[3] Jason Price, „Oracle Database 12c i SQL. Programowanie”, Helion 2015

 

5. Narzędzia inżynierii danych, 45 godz. laboratorium

Przegląd dostępnych narzędzi inżynierii danych. Zalety i wady wybranych narzędzi. Uczenie maszynowe z wykorzystaniem najnowszych pakietów języka Python, w tym analizowanie i modelowanie szeregów czasowych. Apache Hadoop jako narzędzia do rozproszonego składowania i przetwarzania wielkich zbiorów danych przy pomocy klastrów komputerowych. Przypadki użycia z wykorzystaniem Apache Spark i Apache Hive. Przykładowe możliwości wykorzystania oprogramowania H2O w Big Data. Wprowadzenie do metod wyjaśnialnej sztucznej inteligencji (XAI).

Literatura:

[1] Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills, „Zaawansowana analiza danych w PySpark”, Helion, 2023.

[2] Tom White, „Hadoop. Kompletny przewodnik. Analiza i przechowywanie danych”, Helion 2015

[3] Aileen Nielsen, „Szeregi czasowe. Praktyczna analiza i predykcja z wykorzystaniem statystyki i uczenia maszynowego”, Helion, 2020

[4] Artur Suchwałko, Adam Zagdański, „Analiza i prognozowanie szeregów czasowych”, PWN, 2015

[5] DALEX - https://dalex.drwhy.ai/

[6] H2O - https://h2o.ai/products/

6. Seminarium dyplomowe, 15 godz. seminarium

Przedstawianie celu i wymagań. Elementy inżynierii oprogramowania, w tym proces budowy oprogramowania, zbieranie i podział wymagań, architektura programu, odpowiednie schematy i diagramy, testowanie. Schemat pracy dyplomowej, w tym wymagania formalne i podział treści. Propozycje tematów, podział na grupy, ustalenie ról poszczególnych osób, ustalenie harmonogramów. Prezentacje końcowe wytworzonego oprogramowania i napisanych prac dyplomowych przygotowanych przez kierowników grup. Przeprowadzenie testów końcowych.

 

 

 

 

 

 

Studia podyplomowe Inżynieria Danych Data Science są wspierane przez DataCamp, najbardziej intuicyjną platformę edukacyjną do nauki w zakresie analizowania i modelowania danych. Przy pomocy DataCamp możesz uczyć się dowolnym miejscu i czasie oraz zostać ekspertem w zakresie języków R, Python, SQL i nie tylko. Metodologia uczenia się przez DataCamp polega na połączeniu krótkich filmów eksperckich z samodzielnie wykonywanymi ćwiczeniami praktycznymi. DataCamp oferuje ponad 350 kursów prowadzonych przez doświadczonych instruktorów na tematy takie jak: importowanie danych, wizualizacja danych, czy uczenie maszynowe. DataCamp nieustannie rozwija swoje programy nauczania, aby nadążyć za najnowszymi trendami technologicznymi oraz zapewnić kursantom wysokie kompetencje na wszystkich poziomach umiejętności. Dołącz do ponad 6 milionów studentów na całym świecie i stań się specjalistą w dziedzinie Data Science.