STUDIA PODYPLOMOWE "Inżynieria danych - Data Science"

Za pośrednictwem technologii ICT, właściwie wszystkie dziedziny gospodarki wytwarzają olbrzymie ilości danych. O ile składowanie tych danych nie stanowi obecnie problemu, to ich przetwarzanie i analizowanie jest już dużym wyzwaniem. Istnieje potrzeba rozwijania specjalistycznych narzędzi i systemów, za pomocą których będzie możliwe utworzenie z danych nowych produktów, służących do ich rafinacji w celu wyciągania nowych i cennych wniosków. Odpowiadając na potrzeby rynku pracy utworzone zostały studia podyplomowe Inżynieria danych – Data Science. W naszym regionie występuje duże zapotrzebowanie na interdyscyplinarne kształcenie w zakresie statystki, analizy dużych wolumenów danych, programowania, baz danych i specjalistycznych narzędzi do modelowania eksploracyjno-predykcyjnego danych oraz raportowania i wizualizowania danych. Program naszych studiów zapewnia kształcenie w powyższym zakresie.

 

PROGRAM RAMOWY

 

I semestr

II semestr

1. Metody statystyczne i analityczne Big Data

30 godz. wykł.

 

 

 

2. Metody eksploracji danych

30 godz. wykł.

 

 

 

3. Języki programowania Python i R

 

30 godz. lab.

 

 

4. Bazy danych i hurtownie danych

 

 

 

30 godz. lab.

5. Narzędzia inżynierii danych

 

 

 

45 godz. lab.

6. Seminarium dyplomowe

 

 

15 godz. sem.

 


 

SEMESTR I

1. Metody statystyczne i analityczne Big Data, 30 godz. wykładu

Dane kategoryzowane - regresja logistyczna. Regresja liniowa - dwa odmienne modele - model gaussowski i model regresji wielorakiej. Uogólnione modele liniowe (GLM), kryteria doboru modelów optymalnych. Modele mieszane (Mixed models). Algorytm locality-sensitive hashing.

Literatura:
[1] Trevor Hastie, Robert Tibshirani, Jerome Friedman, „The Elements of Statistical Learning: Data Mining, Inference, and Prediction”, Springer 2008.
[2] Alan Agresti, “An Introduction to Categorical Data Analysis”, Wiley - Interscience 2007.
[3] Jeff M. Phillips, http://www.cs.utah.edu/~jeffp/teaching/cs5140.html, tematy: Statistics Principles, Chernoff Bounds, Jaccard + k-Grams, Min Hashing, LSH, Distances

 

2. Metody eksploracji danych, 30 godz. wykładu

Podstawowe zadania używane w eksploracji danych. Obróbka danych, w tym normalizacja i standaryzacja. Zmienne jakościowe i numeryczne. Relacje wielowymiarowe. Dyskretyzacja. Wnioskowanie statystyczne. Regresja wielokrotna. Algorytm najbliższych sąsiadów. Funkcje decyzyjne. Drzewa klasyfikacyjne i regresyjne. Porównanie różnych algorytmów. Wykorzystanie sieci neuronowych do szacowania i przewidywania. Sigmoidalna funkcja aktywacji. Reguły propagacji wstecznej. Metody grupowania hierarchicznego. Pojedyncze i całkowite połączenia. Algorytm k-średnich. Algorytm a priori. Reguły asocjacyjne.

Literatura:
[1] Daniel T. Larose, „Okrywanie wiedzy z danych”, PWN 2006
[2] Daniel T. Larose, „Metody i modele eksploracji danych”, PWN 2016
[3] Tadeusz Morzy,  „Eksploracja danych. Metody i algorytmy”, PWN 2013

 

3. Języki programowania Python i R, 30 godz. laboratorium

Zintegrowane środowiska programistyczne dla języków Python i R. Składnia języków Python i R oraz porównanie z innymi językami programowania. Struktury danych, bloki sterujące i operacje w językach Python i R. Python jako język obiektowy. Python jako język skryptowy z dynamicznym systemem typów. Moduły, pakiety i biblioteki języka Python wykorzystywane w inżynierii danych. Język R jako pakiet statystyczny. Możliwości języka R w zakresie analizy i eksploracji danych. Moduły i pakiety języka R.

Literatura:
[1] Mark Lutz, „Python. Wprowadzenie. Wydanie IV”, O'Reilly 2010
[2] Russell Jurney, „Zwinna analiza danych. Apache Hadoop dla każdego”, Helion 2015
[3] Marek Gogolewski, „Programowanie w języku R. Analiza danych. Obliczenia. Symulacje”, PWN 2014
[4] Drew Conway, John Myles White, „Uczenie maszynowe dla programistów”, Helion 2014
[5]
DataCamp - Learn Data Science Online - https://www.datacamp.com/

 

SEMESTR II

4. Bazy danych i hurtownie danych, 30 godz. laboratorium

Typy baz danych. Relacyjne bazy danych, język SQL. Rozszerzenia relacyjnych baz danych. Elementy baz danych NoSQL na przykładzie MongoDB. Pojęcia stowarzyszone z hurtowniami danych. Przygotowanie danych dla hurtowni danych, proces ETL. Wymiary w hurtowni danych. Analiza danych (OLAP cube, analiza w bazach nosql).

Literatura:
[1] Adam Pelikant, „Hurtownie danych. Od przetwarzania analitycznego do raportowania”, Helion 2011
[2] Kristina Chodorow, „Mongodb: The Definitive Guide”, O'Reilly Media 2013
[3] Jason Price, „Oracle Database 12c i SQL. Programowanie”, Helion 2015

 

5. Narzędzia inżynierii danych, 45 godz. laboratorium

Przegląd dostępnych narzędzi inżynierii danych. Zalety i wady wybranych narzędzi. Apache Hadoop jako narzędzie do rozproszonego składowania i przetwarzania wielkich zbiorów danych przy pomocy klastrów komputerowych. Przykłady wykorzystania środowiska SAS w inżynierii danych. Przykładowe możliwości wykorzystania oprogramowania H2O w Big Data. Wprowadzenie do uczenia maszynowego na przykładzie wybranego oprogramowania.

Literatura:
[1] Russell Jurney, „Zwinna analiza danych. Apache Hadoop dla każdego”, Helion 2015
[2] Tom White, „Hadoop. Kompletny przewodnik. Analiza i przechowywanie danych”, Helion 2015
[3] Drew Conway, John Myles White, „Uczenie maszynowe dla programistów”, Helion 2014
[4] “Getting Started with SAS. Enterprise Miner 14.1”, SAS Institute Inc. 2015
[5] H2O - http://www.h2o.ai/product/
[6] Vowpal Wabbit - https://github.com/JohnLangford/vowpal_wabbit/wiki

 

6. Seminarium dyplomowe, 15 godz. seminarium

Przedstawianie celu i wymagań. Elementy inżynierii oprogramowania, w tym proces budowy oprogramowania, zbieranie i podział wymagań, architektura programu, odpowiednie schematy i diagramy, testowanie. Schemat pracy dyplomowej, w tym wymagania formalne i podział treści. Propozycje tematów, podział na grupy, ustalenie ról poszczególnych osób, ustalenie harmonogramów. Prezentacje końcowe wytworzonego oprogramowania i napisanych prac dyplomowych przygotowanych przez kierowników grup. Przeprowadzenie testów końcowych.

 

Kierownik studiów: dr inż. Patryk Jasik, e-mail: p.jasik@mif.pg.gda.pl, tel. +48 58 347 2949