Przetwarzanie danych ustrukturyzowanych¶

aka Structured Data Processing

Studia inżynierskie, II sem. (letni), Inżynieria i Analiza Danych (Data Science), Wydział Matematyki i Nauk Informacyjnych Politechniki Warszawskiej

The aim of this subject is to learn a variety of methods for processing structured data (vectors, matrices, data frames) or data that can be converted into structured form (e.g., text). This includes programming in R and Python (numpy, scipy, pandas, matplotlib, seaborn, scikit-learn), learning how to extract data of different types and from different sources, store and retrieve them, clean them by identifying outliers/anomalies, apply sampling techniques, handle missing data, transform, select and extract features, perform exploratory analysis, visualise using various tools, summarise data appropriately, perform basic statistical analysis, and model using basic machine learning algorithms. You will also learn techniques for maintaining data privacy and ethics in data manipulation.

Plan zajęć i program przedmiotu¶

Semestr letni 2024/2025:

Wykład (+ „godzina wychowawcza” dla IAD): poniedziałki, 12:15–14:00, s. 328 MiNI
Laboratoria i projekt: poniedziałki, 15:15–17:30
- dr hab. inż. Marek Gągolewski, prof. uczelni (grupa „zaawansowana”), s. 218 MiNI
- inż. Szymon Maksymiuk, s. 219 MiNI
- dr Barbara Żogała-Siudem, s. 203 MiNI
- mgr inż. Łukasz Brzozowski (grupa „podstawowa”), s. 217 MiNI

Konsultacje z prowadzącymi odbywają się w godzinach projektowych. Polecamy też kontakt przez M$ Teams.

Data	Wykład	Laboratoria i projekt
2025-02-24	Sprawy organizacyjne Wektory w numpy cz. I Lektura obowiązkowa: Gągolewski M., Minimalist Data Wrangling with Python, 2025, podrozdz. 4.1 i 4.2.	Konfiguracja środowiska: zob. Oprogramowanie poniżej Wprowadzenie do programowania w Pythonie w Code-OSS pod Linuxem: skrypty `.py`, uruchamianie skryptów na konsoli dostęp do dokumentacji: `?funkcja` lub `help(funkcja)` własne moduły (`import modul`) Jupyteropodobne bloki kodu w skryptach `.py` (`# %%`) Markdown (bloki `# %% [markdown]`) zadanie: funkcja `gini` (wzór) () Dodatkowo: `jupytext --to notebook hello.py` `jupyter-nbconvert hello.ipynb --to html --execute` edytowanie notatników Jupytera w Code-OSS (pliki `.ipynb`) Lektura obowiązkowa: Gągolewski M., Minimalist Data Wrangling with Python, 2025, rozdziały: Getting started with Python, Scalar types and control structures in Python, Sequential and other types in Python*
2025-03-03	Wektory w numpy cz. II funkcje agregujące zwektoryzowane funkcje matematyczne operatory arytmetyczne, logiczne, relacyjne indeksowanie wektorów inne zwektoryzowane funkcje Lektura obowiązkowa: Gągolewski M., Minimalist Data Wrangling with Python, 2025, rozdz. 5	Wektory w numpy – zestaw zadań nr 1
2025-03-10	Macierze w numpy reprezentacja macierzy („płaskie” wektory…) tworzenie macierzy operacje na macierzach (agregacja, operatory arytmetyczne, indeksowanie) Lektura obowiązkowa: Gągolewski M., Minimalist Data Wrangling with Python, 2025, rozdz. 7 i 8	Wektory w numpy – zestaw zadań nr 1 (cd.)
2025-03-17	Ramki danych w pandas cz. I Lektura obowiązkowa: Gągolewski M., Minimalist Data Wrangling with Python, 2025, rozdz. 10	Sprawdzian I (15 p.): wektory w numpy
2025-03-24	Ramki danych w pandas cz. II Lektura obowiązkowa: Gągolewski M., Minimalist Data Wrangling with Python, 2025, rozdz. 10 (cd.)	Macierze w numpy – zestaw zadań nr 2
2025-03-31	Ramki danych w pandas cz. III Lektura obowiązkowa: Gągolewski M., Minimalist Data Wrangling with Python, 2025, podrozdz. 11.1, 11.2, 12.1	Sprawdzian II (15 p.): macierze w numpy
2025-04-07	Wizualizacja i agregacja danych w matplotlib i seaborn (podrozdz 4.3, 5.1, 7.4, 9.1, 11.3, 11.4, 12.2.1–5) Lektura obowiązkowa: Gągolewski M., Minimalist Data Wrangling with Python, 2025, podrozdz. zob. wyż.	Ramki danych w pandas – zestaw zadań nr 3 (cd.)
2025-04-14	Przetwarzanie danych nieliczbowych w pandas i numpy: dane tekstowe i listy (podrozdz. 14.1–14.2) braki danych, dane cenzorowane, obserwacje odstające (rozdz. 15) data i czas (rozdz. 16) R cz. I: wprowadzenie do R klasyfikacja typów w R Lektura obowiązkowa: Gągolewski M., Minimalist Data Wrangling with Python, 2025, podrozdz. zob. wyż. Gągolewski M., Deep R Programming, 2025, rozdz. 1 Materiał nadobowiązkowy: () Gągolewski M., Minimalist Data Wrangling with Python, 2025, rozdz. 6 (rozkłady prawdopodobieństwa) i podrozdz. 12.2.6–7 () Gągolewski M., Minimalist Data Wrangling with Python, 2025, podrozdz. 9.2 (regresja), 9.3 (analiza składowych głównych), 12.3 (klasyfikacja), 12.4 (analiza skupień)	Ramki danych w pandas – zestaw zadań nr 3 (cd.) Lektura obowiązkowa: Gągolewski M., Minimalist Data Wrangling with Python, 2025, rozdz. 13
2025-04-28	R cz. II: wektory liczbowe wektory logiczne listy i atrybuty Lektura obowiązkowa: Gągolewski M., Deep R Programming, 2025, rozdz. 2–4	Sprawdzian III (15 p.): ramki danych w pandas
2025-05-05	R cz. III: indeksowanie wektorów i list własne funkcje funkcje wyższych rzędów: do.call, Map/lapply korzystanie z pakietów R (CRAN) Lektura obowiązkowa: Gągolewski M., Deep R Programming, 2025, rozdz. 5, 7	Wektory i macierze w R – zestaw zadań nr 4 Uwaga: pracujemy w RStudio
2025-05-12	R cz. IV: wyrażenia sterujące: if, for, while programowanie obiektowe w stylu S3 matrix Lektura obowiązkowa: Gągolewski M., Deep R Programming, 2025, rozdz. 8, 10, 11	Wektory i macierze w R – zestaw zadań nr 4 (cd.)
2025-05-19	R cz. V: factor data.frame Lektura obowiązkowa: Gągolewski M., Deep R Programming, 2025, rozdz. 12	Sprawdzian IV (15 p.): wektory ~~i macierze~~ w R
2025-05-26	napisy Lektura obowiązkowa: Gągolewski M., Deep R Programming, 2025, rozdz. 6 Gagolewski M., stringi: Fast and portable character string processing in R, Journal of Statistical Software, 103(2):1–59, 2022, DOI:10.18637/jss.v103.i02	Macierze, ramki danych, dane tekstowe, data i czas w R – zestaw zadań nr 5
2025-06-02	grafika w R Lektura obowiązkowa: Gągolewski M., Deep R Programming, 2025, rozdz. 13	Sprawdzian V (15 p.): ramki danych w R, dane tekstowe, data i czas
2025-06-09	R – zagadnienia zaawansowane () Lektura zalecana (): Gągolewski M., Deep R Programming, 2025, rozdz. 14–17	Termin przesłania projektów (prezentacje w PDF, kod źródłowy, wyniki pośrednie): 2025-06-08 Prezentacje projektów (10 min. na grupę dwuosobową, 15 min. na grupę trzyosobową + 5 min. dyskusja) w godz. 15:15–18:00 (25 p.)

Regulamin i zasady zaliczenia¶

Na zaliczenie składają się:

pięć sprawdzianów na laboratoriach (po 15 p. każdy), w ramach których studenci rozwiązują po kilka problemów różnego typu: pytania teoretyczne (z wykładu i literatury obowiązkowej), zadania programistyczne, generowanie wykresów, analiza danych, opis wyników, dyskusja itp. Zadania rozwiązywane są na komputerach laboratoryjnych pod Linuxem.
zespołowy projekt analizodanowy (w grupach 2- lub 3-osobowych) z prezentacją wyników (25 p.). Można skorzystać z własnego laptopa.

Podczas sprawdzianów można jedynie korzystać z edytora plików, wbudowanej dokumentacji (help() do pakietów Python i R oraz man) oraz jednej odręcznie zapisanej kartki A4 („ściągawki”). Nie można otwierać żadnych plików poza tymi, które polecenie pozwala edytować.

Nie można korzystać z żadnych dodatkowych urządzeń elektronicznych ani programów. Dostęp do zewnętrznych stron internetowych lub użycie narzędzi typu GenAI (ChatGPG, Copilot, DeepSeek itp.) będzie uznane za ściąganie. Na Wydziale MiNI kształcimy przyszłych liderów branży, których nie zastąpi sztuczna „inteligencja”, a nie „wiecznych juniorów”.

Przesyłane kody źródłowe (skrypty, notatniki itp.) muszą być wolne od błędów (nie wrzuca się na produkcję niedziałających programów!) oraz powinny dać się uruchomić od początku do końca. Fragmenty, których poprawności nie da się ocenić z powodu błędów w kodzie, będą ocenione na 0.

Zgodnie z Regulaminem Studiów w Politechnice Warszawskiej (par. 19 ust. 4), jeżeli podczas weryfikacji osiągnięcia efektów uczenia się zostanie stwierdzona niesamodzielność pracy studenta lub korzystanie przez niego z materiałów lub urządzeń innych niż dozwolone w regulaminie przedmiotu, student uzyskuje ocenę niedostateczną i traci prawo do zaliczenia przedmiotu w jego bieżącej realizacji.

Za każdą nieusprawiedliwioną nieobecność (np. formalnym zaświadczeniem lekarskim) obniża się wynik łączny o 5 p.

Wyniki sprawdzianów ogłaszane będą na kanale przedmiotu w M$ Teams.

Ocena końcowa jest funkcją sumy uzyskanych punktów: wynik ≤50 p. oznacza ocenę 2,0; (50, 60] – 3,0; (60, 70] – 3,5; (70, 80] – 4,0; (80, 90] – 4,5; >90 – 5,0.

Literatura¶

Materiały dydaktyczne są dostępne na kanale przedmiotu w M$ Teams.

Obowiązkowa:

Gągolewski M., Minimalist Data Wrangling with Python, 2025

za wyjątkiem rozdz. 6 (rozkłady prawdopodobieństwa), podrozdz. 12.2.6–7 (testowanie hipotez), 9.2 (regresja), 9.3 (analiza składowych głównych), 12.3 (klasyfikacja), 12.4 (analiza skupień)
Gągolewski M., Deep R Programming, 2025

za wyjątkiem rozdz. 14–17

Dodatkowa:

R Development Core Team, An Introduction to R, 2025
R Development Core Team, Writing R Extensions, 2025
R Development Core Team, R Data Import/Export, 2025
McKinney W., Python for Data Analysis, O’Reilly, 2022
Aggarwal C.C., Data Mining: The Textbook, Springer, 2015
Deisenroth M.P., Faisal A.A., Ong C.S., Mathematics for Machine Learning, Cambridge University Press, 2020
Gagolewski M., stringi: Fast and portable character string processing in R, Journal of Statistical Software, 103(2):1–59, 2022, DOI:10.18637/jss.v103.i02
Wickham H., The split-apply-combine strategy for data analysis, Journal of Statistical Software, 40(1):1–29, 2011, DOI:10.18637/jss.v040.i01
Wickham H., Tidy data, Journal of Statistical Software, 59(10):1–23, 2014, DOI:10.18637/jss.v059.i10

Oprogramowanie¶

GNU/Linux
Python + pakiety numpy, scipy, pandas, matplotlib, seaborn, scikit-learn, …
R + pakiety knitr, stringi, …
Code-OSS (VSCodium) oraz Jupyter
RStudio

Konfiguracja środowiska wirtualnego¶

Sprzątamy po sobie:

rm -rf ~/.virtualenvs
rm -rf ~/.local/share/jupyter
rm -rf ~/.ipython
rm -rf ~/.vscode-oss
rm -rf ~/.config/VSCodium
rm -rf ~/.config/Code\ -\ OSS

Następnie edytujemy plik ~/.bashrc i usuwamy z niego wiersze export PYTHONNOUSERSITE=1 oraz VIRTUAL_ENV_DISABLE_PROMPT=1 source ~/.virtualenvs/python3-default/bin/activate.

I teraz:

echo 'PATH=~/.local/bin:/opt/anaconda/bin:$PATH' >> ~/.bashrc
echo 'source /opt/anaconda/bin/activate' >> ~/.bashrc

Po tych czynnościach należy zamknąć i uruchomić ponownie terminal.

Instalacja wymaganych pakietów¶

python3 -m pip install numpy scipy pandas matplotlib seaborn
python3 -m pip install ewmh mss  # dla Fairgo, zob. niżej
python3 -m pip install jupyter notebook ipykernel
python3 -m ipykernel install --user

Code-OSS (VSCode)¶

Uwaga: ~~Nie korzystamy już z VSCodium.~~ Laboratoryjne Code OSS zostało zaktualizowane.

Code OSS (VSCode) uruchamiamy z Menu Start i wybieramy File → Open Folder (katalog, w którym będziemy pracować).

Instalujemy wymagane wtyczki (extensions) (takie i żadne inne!):

python (ms-python.python)
jupyter (ms-toolsai.jupyter)

Konfigurujemy Code:

CTRL+SHIFT+P → Python: Select Interpreter → base z /opt/anaconda/bin/python (Conda Env)
CTRL+SHIFT+P → Jupyter: Select Interpreter to Start Jupyter Server → base z /opt/anaconda/bin/python (Conda Env)

Fairgo¶

System Fairgo (czyli każdy ma równe szanse) przesyła prowadzącym podczas zadań punktowanych m.in. następujące dane:

to, co się dzieje na ekranie (zrzuty),
wszystkie uruchomione aplikacje, tytuły otwartych okien,
uprawnienia dostępu do plików (inni nie mogą czytać),
zainstalowane wtyczki Code-OSS,
zainstalowane pakiety Pythona i R,
pliki, nad którymi pracujemy.

Uruchomienie skryptu (ścieżka będzie się zmieniać):

mkdir -p ~/Desktop/pdu/lab01  # przykładowo
cd ~/Desktop/pdu/lab01  # to musi być pusty katalog
python3 /home2/samba/gagolewskim/pdu/fairgo.py X  # dostępne tylko w I tyg. zajęć

Skrypt utworzy w katalogu bieżącym kilka plików, które możemy edytować. Będą one automatycznie przesyłane prowadzącemu.