KNF Rekomendacja S a syntetyczne dane: testowanie modeli hipotecznych bez naruszenia RODO

Author: Arek Kordos, Founder, Infundum

Published: May 22, 2026

Estimated reading time: ~8 minut

Arek Kordos — 13 lat w inżynierii danych dla europejskiego sektora financial services (fintech, ubezpieczenia, finanse). Pierwszą wersję CAUSA AI Data Engine ukończył pod koniec 2024 roku jako projekt autorski. Założyciel Infundum.

Ewolucja Rekomendacji S: rosnąca złożoność walidacji modeli

Rekomendacja S Komisji Nadzoru Finansowego (KNF), dotycząca dobrych praktyk w zakresie zarządzania ekspozycjami kredytowymi zabezpieczonymi hipotecznie, jest jednym z fundamentów stabilności polskiego sektora bankowego. Od momentu swojej pierwszej edycji w 2006 roku, dokument ten ewoluował w odpowiedzi na zmieniające się warunki rynkowe i rosnącą złożoność instrumentów finansowych.

Kluczowe nowelizacje Rekomendacji S miały miejsce w:

Dla szefów walidacji modeli (Head of Model Validation), każda z tych dat reprezentuje nieliniowe załamanie (cliff) w historycznych danych. Model hipoteczny weryfikowany w 2026 roku musi poprawnie interpretować zachowanie kredytów udzielonych w różnych reżimach regulacyjnych (np. pre-2014 LTV 100%+ vs post-2020 LTV 90%). To wymaga dostępu do historycznych danych produkcyjnych obejmujących dekady, co w kontekście RODO jest wyzwaniem niemal niemożliwym do pokonania bez technologii syntetyzacji.

Dlaczego historical mortgage book testing narusza RODO Artykuł 9

Zgodnie z Rekomendacją 14 Rekomendacji S, banki są zobowiązane do okresowej walidacji modeli, w tym przeprowadzania back-testów na historycznych danych. Portfel hipoteczny (mortgage book) zgromadzony przed 2026 r. zawiera pełne spectrum danych osobowych, finansowych, a często również wrażliwych (np. dane o stanie zdrowia w polisach ubezpieczeniowych powiązanych z kredytem).

RODO Artykuł 9 generalnie zabrania przetwarzania danych wrażliwych (szczególnych kategorii danych). Chociaż istnieją wyjątki dla sektora bankowego, testowanie i walidacja modeli rzadko kwalifikują się jako cel "niezbędny ze względów ważnego interesu publicznego" (Art 9.2.g), jeśli istnieją alternatywne metody. Użycie pełnych danych historycznych do walidacji, gdzie re-identyfikacja klienta jest możliwa, naraża bank na kary administracyjne (do 20 mln euro lub 4% obrotu).

Maskowanie danych w historycznych portfelach hipotecznych jest nieskuteczne. Re-identyfikacja jest łatwa przy użyciu danych nieliniowych, takich jak trajektoria spłaty, specyficzna kombinacja lokalizacji nieruchomości i kwoty kredytu czy zmiany w dochodach w czasie. Jedyną audytowalną drogą jest użycie danych syntetycznych klasy regulacyjnej, które reprodukują statystyczne i kauzalne właściwości portfela, nie zawierając żadnych PII.

Reprodukcja regulatory transitions: kauzalna siła CAUSA

Głównym problemem konwencjonalnych metod generowania danych syntetycznych jest ich niezdolność do modelowania nieliniowych zmian regulacyjnych. Modele oparte na korelacjach statystycznych "wygładzają" historical regulatory transitions.

Rozważmy zmianę LTV z 2014 r. Przed rokiem 2014, klastry kredytów z LTV 100% i 110% były powszechne. Po wprowadzeniu Rekomendacji S z 2014 r., nastąpiło nagłe odcięcie (cliff) — klastry LTV skupiły się wokół 95% i 80%. Legacy synthetic data approaches często generują w syntetycznym portfelu kredyty z LTV np. 98% dla roku 2015, co jest operacyjnie niemożliwe i niszczy wierność testu modelu.

Infundum's CAUSA AI Data Engine rozwiązuje ten problem dzięki podejściu Causal AI. CAUSA engine nie uczy się tylko korelacji LTV-rok, ale modeluje kauzalny mechanizm regulacyjny. CAUSA rozumie, że data udzielenia kredytu kauzalnie determinuje dopuszczalny zakres LTV w myśl Rekomendacji S. CAUSA reprodukuje te regulatory transitions i LTV cliffs z 2014 i 2020 roku bez rygorystycznego hardcodingu reguł biznesowych. CAUSA generuje structurally realistic banking data, gdzie syntetyczne dane są zgodne z reżimem prawnym obowiązującym w momencie ich generowania w kauzalnej linii czasu.

Wpływ na pre-2026 mortgage book: precyzyjna walidacja

Banki w Polsce posiadają ogromne portfele hipoteczne wygenerowane przed 2026 rokiem, w okresach skrajnie różnych stóp procentowych, inflacji i reżimów LTV. Walidacja modeli dla tych portfeli wymaga testowania na danych, które poprawnie odzwierciedlają kauzalny wpływ tych czynników na prawdopodobieństwo niewypłacalności (PD) i stratę w przypadku niewypłacalności (LGD).

CAUSA AI Data Engine pozwala na wygenerowanie syntetycznych odzwierciedleń tych historycznych portfeli. Dzięki multi-table fidelity, CAUSA engine generuje nie tylko syntetyczny portfel kredytów, ale też powiązane kauzalnie dane o syntetycznych nieruchomościach, syntetyczną historię dochodów kredytobiorców i kauzalnie spójne trajektorie spłat w warunkach zmieniających się stóp procentowych.

To umożliwia Head of Model Validation przeprowadzenie rygorystycznych testów walidacyjnych:

Wszystko to odbywa się bez dotykania ani jednego rekordu realnego klienta, eliminując ryzyko RODO.

Wewnętrzne podlinkowanie

Aby dowiedzieć się, jak zautomatyzować dokumentację audytową niezbędną dla KNF, przeczytaj nasz artykuł o BCBS 239 — priorytet ECB 2025-2027 dla polskich banków znaczących oraz Migracja Oracle do Snowflake w polskim banku. Dla analizy zabezpieczenia danych testowych przed cyberatakami, zobacz DORA Artykuł 26 TLPT: dane testowe dla polskich banków przed cyklem 2028.

Cytowania regulatorów

Wniosek

KNF Rekomendacja S wymaga od banków niemożliwego: rygorystycznej walidacji modeli hipotecznych na historycznych danych przy jednoczesnym zakazie przetwarzania danych wrażliwych. Banki, które wejdą w ten proces z maskowanymi danymi, narażą się na ryzyko negatywnej oceny audytorów KNF z powodu niskiej wierności modeli. Banki, które użyją danych produkcyjnych, ryzykują kary RODO. Jedyną drogą jest wdrożenie kauzalnej syntetyzacji danych testowych, takiej jak CAUSA, która jako jedyna potrafi wiernie reprodukować nieliniowe dependencies LTV i regulatory transitions niezbędne do wiarygodnej walidacji modeli hipotecznych, gwarantując jednocześnie 100% anonimowość audytowalną przez regulatora.