Łukasz Olejnik. Prywatność, bezpieczeństwo, technologie, strategie. Analizy i opinie.

Sztuczna inteligencja i zarządzanie (nadzór nad?) sztuczną inteligencją to ważne tematy w tej dekadzie. Unia Europejska podejmuje dość ambitną próbę uregulowania sztucznej inteligencji (projekt tutaj). Docelowo na tej podstawie powstanie polska ustawa o sztucznej inteligencji (chociażby metodą kopiuj-wklej). W tym wpisie przyglądam się propozycji UE przez pryzmat technologii, w tym zwracając uwagę na cyberbezpieczeństwo i prywatność.

Celem tej regulacji jest „rozwój, marketing i wykorzystanie sztucznej inteligencji zgodnie z wartościami unijnymi”. Ale co to jest AI? Sztuczna inteligencja to algorytmiczne przetwarzanie danych w celu wnioskowania lub klasyfikacji. Definicja jest następująca:

““system sztucznej inteligencji” (system AI) oznacza oprogramowanie, które zostało opracowane przy użyciu co najmniej jednej z technik i podejść wymienionych w załączniku I i może, dla danego zestawu celów zdefiniowanych przez człowieka, generować wyniki, takie jak treści, prognozy, zalecenia lub decyzje wpływające na środowiska, z którymi wchodzą w interakcje”

Czy można zatem regulować stosowanie matematyki? Oczywiście!

Następujące techniki lub podejścia wykorzystujące sztuczną inteligencję podlegają regulacji (załącznik):

Podejścia do uczenia maszynowego (machine learning), w tym uczenie nadzorowane (supervised), nienadzorowane (unsupervised) i reinforcement learning, przy użyciu szerokiej gamy metod, w tym deep learning;

Podejścia oparte na logice i wiedzy, w tym reprezentacja wiedzy, programowanie indukcyjne (logiczne), bazy wiedzy, mechanizmy wnioskowania i dedukcji, rozumowanie (symboliczne) i systemy ekspertowe;

Podejścia statystyczne, estymacja bayesowska, metody wyszukiwania i optymalizacji.

To wszechstronne. Może się wydawać, że ktoś tu wziął losową książkę o uczeniu maszynowym i po prostu skopiował tytuły ze spisu treści. Nie żebym narzekał. Pozostawiam czytelnikowi ustalenie, czy proste heurystyki tego rodzaju, if(random ()>0.5) {…} również podlegają tej regulacji („podejście oparte na logice”?).

catbook2

Regulacja przewiduje szczególne podejście w przypadku tzw. AI wysokiego ryzyka. W takim przypadku muszą obowiązywać bardzo szczegółowe wymagania. Istnieją również przypadki wykraczające poza (to zabronione AI) i zastosowania, które nie podlegają przepisom: np. niektóre zastosowania sztucznej inteligencji przez organy ścigania, sztuczna inteligencja stosowana w warunkach wojskowych np. systemach uzbrojenia. Lub dla AI niskiego ryzyka. Większość roboty w związku z tą regulacją jest potrzebna w przypadku sztucznej inteligencji wysokiego ryzyka, na tym też się skoncentruję. Ale oto przykład zakazanych systemów:

„… wprowadzanie do obrotu, oddawanie do użytku lub używanie pewnych systemów AI, których celem jest zakłócanie ludzkich zachowań, przy czym prawdopodobne jest wystąpienie szkód fizycznych lub psychicznych, powinno być zabronione. Takie systemy sztucznej inteligencji wykorzystują elementy podprogowe,... “

Chodzi więc głównie o zastosowania. Innym godnym uwagi zakazem jest social score, punktacja społeczna.

Dzięki załącznikowi znamy od razu listę systemów AI wysokiego ryzyka:

Biometryczna identyfikacja i kategoryzacja osób fizycznych
Zarządzanie i eksploatacja infrastruktury krytycznej
Edukacja i szkolenie zawodowe
Zatrudnienie, zarządzanie pracownikami i dostęp do samozatrudnienia
Dostęp do podstawowych usług prywatnych i korzystanie z nich oraz usługi i świadczenia publiczne.
Organy ścigania
Zarządzanie migracją, azylem i kontrolą granic
Wymiar sprawiedliwości i procesy demokratyczne

Czasami z interesującymi szczegółami. Na przykład w egzekwowaniu prawa to „systemy AI przeznaczone do wykorzystania przez organy ścigania do wykrywania deepfake”.

Inne przykłady systemów AI wysokiego ryzyka: „maszyny, zabawki, windy, sprzęt i systemy ochronne przeznaczone do użytku w przestrzeniach zagrożonych wybuchem, sprzęt radiowy, urządzenia ciśnieniowe, sprzęt rekreacyjnych jednostek pływających, instalacje kolei linowych, urządzenia spalające paliwa gazowe, wyroby medyczne i wyroby medyczne do diagnostyki in vitro… systemy AI przeznaczone do wykorzystania jako elementy bezpieczeństwa w zarządzaniu ruchem drogowym i zaopatrzeniu w nie oraz w ich eksploatacji wody, gazu, ogrzewania i energii elektrycznej… Systemy AI wykorzystywane do wysyłania lub ustalania priorytetów w wysyłaniu służb ratowniczych pierwszego reagowania również powinny być klasyfikowane jako systemy wysokiego ryzyka, ponieważ podejmują decyzje w bardzo krytycznych sytuacjach dla życia i zdrowia osób ...".

W przypadku zastosowań związanych z egzekwowaniem prawa przykładami sztucznej inteligencji wysokiego ryzyka są następujące zastosowania: „wariografy i podobne narzędzia, lub do wykrywania stanu emocjonalnego osoby fizycznej, do wykrywania deepfake…”

Przejrzystość w systemach AI.

Artykuł (przepis) ten wymaga możliwości wyjaśnienia użytkownikowi, nie tylko czy/kiedy używana jest sztuczna inteligencja, ale także w jaki sposób jest używana i w jaki sposób podejmuje decyzje. Nie wspomina się o explainable AI bezpośrednio. Ustalenie tego będzie prawdopodobnie zależało od podmiotu wdrażającego / użytkownika, chyba że Europejska Rada ds. AI (bo powstanie takie ciało/instytucja) wyda odpowiednie wytyczne.

„W przypadku systemów AI wysokiego ryzyka należy wymagać pewnego stopnia przejrzystości. Użytkownicy powinni być w stanie zinterpretować dane wyjściowe systemu i odpowiednio je wykorzystać”

Jeśli chodzi o niezbędną dokumentację techniczną (artykuł 11), na szczęście wyjaśniono, że ciężar tutaj jest na aspekty techniczne, a nie czysto prawne. Lista punktów do rozważenia jest bardzo długa i szczegółowa. Chodzi nie tylko o

„wersje odpowiedniego oprogramowania i wszelkie wymagania związane z aktualizacją wersji”, ale „specyfikacje projektowe systemu, ogólna logika systemu AI i algorytmów; kluczowe decyzje projektowe, w tym uzasadnienie i przyjęte założenia, również w odniesieniu do osób lub grup osób, w których system ma być używany; główne wybory klasyfikacyjne”, “ opis architektury systemu wyjaśniający, w jaki sposób komponenty oprogramowania działają, także wspólnie i integrują się z ogólnym przetwarzaniem; zasoby obliczeniowe wykorzystywane do opracowywania, trenowania, testowania i walidacji systemu sztucznej inteligencji ”, „ wymagania dotyczące danych w zakresie arkuszy danych [data sheets] opisujących metodologie i techniki trenpwania oraz wykorzystywane zestawy danych trenujących, w tym informacje o pochodzeniu tych zbiorów danych, ich zakresie i główna charakterystyka; w jaki sposób dane zostały pozyskane i wybrane; procedury etykietowania (np. do nadzorowanego uczenia się), metodologie “czyszczenia” danych (np. wykrywanie wartości odstających/outliers); „ Metryki używane do pomiaru dokładności, solidności, cyberbezpieczeństwa”.

Taka ocena i ćwiczenie z przejrzystości będzie w dużej mierze oparte na analizie technologii i oparte na danych projektowych. To nie jest analiza czysto prawna.

Zabroniona sztuczna inteligencja

Te zastosowania sztucznej inteligencji są zabronione (np. wprowadzanie na rynek itp.):

„System sztucznej inteligencji, który wykorzystuje techniki podprogowe poza świadomością danej osoby w celu zniekształcenia zachowania osoby w sposób, który powoduje lub może spowodować tej osobie lub innej osobie fizyczną lub psychiczna krzywdę … wprowadzenie do obrotu, oddanie do użytku lub użycie systemu AI, który wykorzystuje techniki podprogowe poza świadomością danej osoby, w celu zniekształcenia zachowania osoby … ”

Ocena AI

Systemy AI zidentyfikowane jako spełniające warunki “wysokiego ryzyka” będą musiały przejść bardzo specyficzny rodzaj oceny/audytu/badania, obejmującą:

„identyfikację i analizę znanego i przewidywalnego ryzyka. Oszacowanie i ocena zagrożeń, które mogą wystąpić, ... ”

Obejmuje to również walidację, testy itp. Czy to brzmi na złożony proces?

Należy zastosować zarządzanie ryzykiem. Taka analiza musi mieć charakter techniczny i być wykonana ze znajomością metod sztucznej inteligencji, także standardów rozwoju i projektowania w tej dziedzinie. Trzeba to potraktować jako rodzaj zaawansowanej ocenę skutków na ochronę danych (DPIA). Zaawansowanej, ponieważ dotyczy ona w mniejszym stopniu aspektów prawnych, a w większym - aspektów technicznych.

Ocena techniczna

Dalsze podstawy do zaawansowanych ocen technicznych.

„Metody i kroki podjęte w celu opracowania systemu AI, w tym, w stosownych przypadkach, odwołanie się do wstępnie wytrenpwanych systemów lub narzędzi dostarczonych przez strony trzecie oraz sposób ich wykorzystania, integracji lub modyfikacji przez dostawcę; ... specyfikacje projektowe systemu, ogólna logika systemu AI i algorytmów; kluczowe wybory projektowe, w tym uzasadnienie i przyjęte założenia, również w odniesieniu do osób lub grup osób, dla których system ma być używany … w stosownych przypadkach, wymagania dotyczące danych w zakresie arkuszy danych opisujących metodologie i techniki szkoleniowe oraz dane szkoleniowe wykorzystywane zbiory, w tym informacje o pochodzeniu tych zbiorów danych, ich zakresie i głównych cechach"

Ale jak to zrobić w praktyce? Nie ma standardów tworzenia tak zaawansowanych raportów zapewniających przejrzystość, jakich wymaga niniejsze rozporządzenie. Jedną z rzeczy jest opisanie, w jaki sposób projektowany jest system AI i jak działa, co można zrobić za pomocą szeregu różnych metodologii, bo AI doczekało się tu już pewnych propozycji standardów. Trzeba je tylko znać, rozumieć i zastosować. Szczęśliwie, można to sobie całkiem dobrze wyobrazić.

Jakość danych

Z przyczyn technicznych regulacja ta wymaga technicznego podejścia do zapewnienia jakości danych i testów:

„Wysokiej jakości trenowanie (uczenie), walidacja i testowanie zbiorów danych wymagają wdrożenia odpowiednich praktyk zarządzania danymi. Zestawy danych dla uczenia, walidacji i testowania powinny być wystarczająco istotne, reprezentatywne i wolne od błędów oraz kompletne w świetle zamierzonego celu systemu… zestawy danych uczenia, walidacji i testowania powinny uwzględniać w zakresie wymaganym w świetle ich zamierzony cel, cechy lub elementy, które są specyficzne dla określonego otoczenia geograficznego, behawioralnego lub funkcjonalnego”

Inżynierowie ML często po prostu dostaną dane i wykorzystują stosują swą magię. Niekoniecznie zagłębiają się w szczegóły budowy zbioru danych, ich charakteru, reprezentatywności i tak dalej. Jednak rozporządzenie wyraźnie obejmuje cały proces:

“uczenie modeli z danymi powinno być opracowane na podstawie uczenia, walidacji i testowania danych, które spełniają kryteria jakości… “

Artykuł 10.2 wymienia niezbędne etapy analizy i jej kąt: "decyzje projektowe; zbieranie danych; operacje przetwarzania danych, takie jak adnotacje, etykietowanie, czyszczenie, wzbogacanie i agregacja; sformułowanie odpowiednich założeń, w szczególności w odniesieniu do informacji, które dane mają mierzyć i przedstawiać; uprzednia ocena dostępności, ilości i przydatności potrzebnych danych; badanie pod kątem możliwych uprzedzeń; identyfikacja ewentualnych luk w danych lub niedociągnięć oraz sposoby zaradzenia tym lukom i niedociągnięciom ”

To dużo roboty. Ale może w wyniku tego rozporządzenia ocena sztucznej inteligencji (prywatność, cyberbezpieczeństwo, solidność, etyka) będzie w mniejszym stopniu polegała na procesie machania rękami, a bardziej na rzeczywistej ocenie? Oznacza to również konieczność posiadania odpowiedniej dokumentacji technicznej (art. 11), dzienników użytkowania (art. 12) itp. W art. 15 ust. 2 jasno określono, że należy uwzględnić: „Poziomy dokładności i odpowiednie wskaźniki dokładności systemów AI wysokiego ryzyka.”

AI dotyczy odpowiedzialności:

“Rozwiązania techniczne mające na celu wyeliminowanie specyficznych podatności AI obejmują, w stosownych przypadkach, środki zapobiegania i kontroli ataków usiłujących manipulować zbiorem danych szkoleniowych (“data poisoning”), dane wejściowe zaprojektowane w celu spowodowania popełnienia błędu przez model (adversarial examples”) lub wady modelu.

Uwaga o atakach na systemy AI

Ataki zatruwające (itp.) lub nowsze stosujące reorganizację danych,demonstrują możliwości ataków integralności lub dostępności i ryzyko dla modeli (także wbudowywanie tylnych drzwi w systemy). Chociaż w regulacji uwzględniono ryzyko zatruwania, w tekście rozporządzenia nie uwzględniono ataków polegających na zmianie kolejności danych (reordering). Pewnie dlatego, że są to nowe ryzyka. To pokazuje, jak szybko regulacja ta przestaje być aktualna w stosunku do technik i ryzyk. Stało się to w ciągu kilku dni między ogłoszeniem rozporządzenia a wyjawieniem nowych technik ataku na proces uczenia modeli ML.

Ale czy faktycznie była to kwestia “bycia na bieżąco”, czy po prostu stosowania modnych słów kluczowych? Regulacja ta nie odnosi się do żadnych ataków na prywatność, takich jak wnioskowanie o danych (inferencja), gdy dane prywatne są wyłuskiwane bezpośrednio z wyuczonego modelu. Trudno uzasadnić takie przeoczenie na gruncie merytorycznym.

Ataki obejmują techniki umieszczania sfałszowanych danych treningowych (lub wejściowych) w celu zakłócania działania systemu AI/ML. Na przykład, aby model klasyfikował koty jako psy.

catdog

Rzeczywiście, systemy AI/ML mogą być stronnicze, na wiele sposobów. Chociaż rozporządzenie w sprawie sztucznej inteligencji chciało być aktualne i mówiło o zagrożeniach dla cyberbezpieczeństwa, o zagrożeniach dla prywatności, takich jak wnioskowanie o danych z modelu (odwrócenie modelu, lub kradzież modelu) z jakiegoś powodu nie wspomniano. To podkreśla stronniczość autorów rozporządzenia o sztucznej inteligencji, którzy zwrócili uwagę na cyberbezpieczeństwo, ale na prywatność i ochronę danych już mniej. Okazuje się, że nie tylko modele AI mogą być stronnicze?

Deepfake

Rozporządzenie zezwala na stosowanie deepfakes, z zastrzeżeniem pewnych środków przejrzystości, takich jak adnotacja o takiej zawartości syntetycznej. Wciąż jest to ryzykowne. Tu mam osobną analizę w GW.

“Deepfake to np. film, w którym “główny bohater” mówi rzeczy, których prawdziwa postać nigdy nie wypowiedziała, a materiał mógł powstać bez wiedzy bohatera. Tworząc filmy, dźwięk lub zdjęcia, można “włożyć słowa w usta” wybranemu celowi: Einsteinowi, Bidenowi, Putinowi, Dudzie, Tuskowi lub innym osobom. Być może już wkrótce realistycznie zachowujący się i brzmiący Einstein faktycznie będzie oferował sprzedaż pizzy. Do wygenerowania deepfake'a wystarczą odpowiednie dane, algorytmy i komputery. Efekt często jest tak realistyczny, że niewprawne oko nie zauważy "podróbki". … Projekt KE zakłada, że każdy deepfake będzie odpowiednio opisany. Jak taka informacja miałaby wyglądać, tego dzisiaj nie wiemy, nie wiadomo zatem, czy widzowie “wyjaśnienia” w ogóle dostrzegą. Być może będzie to niewielki dopisek, podobny do informacji przy reklamach politycznych na Facebooku.

… Kto wie, być może już wkrótce polityk nie będzie nawet musiał osobiście występować w spotach lub wygłaszać przemówień. Wszystko zostanie przemysłowo stworzone w sposób automatyczny. Automat wygeneruje zapis, w którym wypowiedziano pewne słowa. Inny automat je dostarczy, a człowiek w tym czasie będzie mógł beztrosko spożywać sernik. O ile jeszcze w ogóle będzie żył, bo za pomocą technologii deepfake realistycznie “przemawiać” mogą też ludzie, których już nie ma wśród żywych. … Niestety, można wyobrazić sobie wiele negatywnych zastosowań. Sam fakt zalegalizowania deepfake'ów i ryzyko “zastosowań profesjonalnych” oznacza, że technologia ta będzie rozwijana. Można się więc spodziewać, że pojawią się nowe możliwości oraz pomysły na jej wykorzystanie, z których dziś nie zdajemy sobie sprawy. ...”

Zakres zastosowania jest szeroki

Art. 2 ust. 1 lit. c) wyjaśnia, że regulacja ta ma zastosowanie do całego świata: „dostawcy i użytkownicy systemów AI, którzy znajdują się w państwie trzecim, gdzie wyniki wytworzone przez system są wykorzystywane w Unii”.

W szczególności, nawet jeśli wykorzystanie sztucznej inteligencji ma miejsce w kraju trzecim, ale wyniki / efekty docierają do Europy, takie wykorzystanie sztucznej inteligencji podlega temu rozporządzeniu. Jest to nawet wyjaśnione w motywie: „… systemy AI wysokiego ryzyka dostępne w Unii lub których produkty są w inny sposób wykorzystywane w Unii nie stanowią niedopuszczalnego ryzyka dla ważnych unijnych interesów publicznych, uznanych i chronionych przez prawo Unii”. Oznacza to, że wykorzystanie efektów / rezultatów przetwarzania / działania sztucznej inteligencji może być zabronione, nawet jeśli ich uzyskanie odbywa się w krajach trzecich.

Wymagania AI mogą się różnić

„Zestawy danych z uczenia, walidacji i testów muszą być odpowiednie, reprezentatywne, wolne od błędów i kompletne. Mają odpowiednie właściwości statystyczne, w tym, w stosownych przypadkach, w odniesieniu do osób lub grup osób, dla których przeznaczony jest system AI wysokiego ryzyka ... w zakresie wymaganym przez zamierzony cel, cechy lub elementy które są specyficzne dla określonego otoczenia geograficznego, behawioralnego lub funkcjonalnego … ”.

Zamiar wykorzystania oznacza, że właściwości danych (tj. reprezentatywność statystyczna itp.) mogą się różnić w różnych zastosowaniach, na przykład przeznaczonych dla różnych rynków. W przypadku Francji czy np. Polski zapotrzebowanie na dane może być inne.

Powiadamianie o incydentach AI

Incydenty związane z AI będą musiały zostać zgłoszone organowi nadzorującemu zasady AI.

„poważny incydent” oznacza jakikolwiek incydent, który bezpośrednio lub pośrednio prowadzi, mógł doprowadzić lub mógłby prowadzić do któregokolwiek z poniższych:

“a) śmierci osoby lub poważnego uszczerbku dla zdrowia, mienia lub środowiska,

(b) ) poważne i nieodwracalne zakłócenie zarządzania infrastrukturą krytyczną i jej funkcjonowania. “

Kary

Rozporządzenie AI będzie dawało podstawy do nakładania administracyjnych kar pieniężnych za nieprzestrzeganie.

30 000 000 EUR lub do 6% całkowitego światowego rocznego obrotu za poprzedni rok finansowy, w zależności od tego, która z tych wartości jest wyższa. Za „nieprzestrzeganie zakazu praktyk dla sztucznej inteligencji, o którym mowa w art. 5” („zabroniona sztuczna inteligencja”) lub art. 10, „zarządzanie danymi”,
20 000 000 EUR lub 4% za nieprzestrzeganie jakiegokolwiek innego punktu regulacji
10 000 000 EUR lub 2% za okłamanie (podanie niepełnych lub wprowadzających w błąd informacji) właściwym organom krajowym

Takie kary, w szczególności to 30 mln euro lub 6% w przypadku gdy trzeba zapewnić wysoką jakość danych, są wysokie. Taki system może prawdopodobnie zmienić sposób opracowywania lub wykorzystywania systemów AI.

Podsumowanie

Jest to pierwsza na świecie próba uregulowania sztucznej inteligencji. W tym sensie jest to ambitne i imponujące przedsięwzięcie, pokazujące, jak może wyglądać zarządzanie sztuczną inteligencją w przyszłości.

Jak na początek regulacja ta jest całkiem dobra, mimo że bywa stronnicza, chociażby nie odnosi się do zagrożeń związanych z ochroną danych i prywatnością, które z różnych powodów mogą występować w systemach AI.

Powinniśmy być jednak zadowoleni, że regulacja dotyczące sztucznej inteligencji zawiera szczegółowe informacje na temat wymagań dotyczących ocen technicznych. Takie oceny nie mają obecnie formalnej nazwy, możemy je po prostu nazwać ocenami AI, ocenami skutków AI, itd. Liczy się to, że będą one techniczne i dość zaawansowane. Czyli ciekawe.

Podobał Ci się ten wpis/analiza? Jakieś pytania, uwagi lub oferty? Zapraszam do kontaktu: me@lukaszolejnik.com

Łukasz Olejnik

Bezpieczeństwo, cyberbezpieczeństwo, prywatność, ochrona danych

Analiza propozycji Regulacji Sztucznej Inteligencji - zarządzanie AI, szacowanie ryzyka