Historie przeglądanych stron internetowych to prywatne dane osobowe

Historia przeglądanych przez użytkownika stron internetowych jest zwykle definiowana jako lista witryn internetowych, które odwiedził użytkownik, na przykład „google.com, facebook.com, onet.pl, gazeta.pl, cokolwiek-itp.org, itakdalej.org.uk”. Dane takie same w sobie mogą wydawać się nieszkodliwe. Okazuje się jednak, że historie przeglądanych stron (historię przeglądarki) można przetwarzać w taki sposób by wydobyć informacje o użytkowniku (albo w celu jego śledzenia).

Historia przeglądanych stron - prywatne, wrażliwe dane

Historie przeglądanych w sieci stron to dość wrażliwe dane. Zawierają o użytkowniku bogate informacje, włącznie z możliwością wyodrębnienia profilu psychometrycznego czy demograficznego. Historia przeglądanych stron nie podlegają istotnym zmianom w czasie (tj. są stabilne, być może ze względu na ustalone preferencje użytkowników). Są unikalne dla użytkownika (użytkownicy zazwyczaj przeglądają określone strony zgodne z ich zainteresowaniami). W pewnym sensie historia przeglądania przypomina dane biometryczne ze względu na tę unikalność i stabilność. To wszystko brzmi tak, jakby można było wyodrębnić pojedyncze osoby z wielu. Tak jest w istocie.

A co na to RODO

I tu zaczyna się robić ciekawie bo test wyodrębniania pojedynczych osób z wielu to pewnego rodzaju techniczny papierek lakmusowy zawarty w RODO, Ogólnym Rozporządzeniu o Ochronie Danych Osobowych. Konkretnie, czy coś jest danymi osobowymi:

(26) (...) Aby stwierdzić, czy dana osoba fizyczna jest możliwa do zidentyfikowania, należy wziąć pod uwagę wszelkie rozsądnie prawdopodobne sposoby (w tym wyodrębnienie wpisów dotyczących tej samej osoby), w stosunku do których istnieje uzasadnione prawdopodobieństwo, iż zostaną wykorzystane przez administratora lub inną osobę w celu bezpośredniego lub pośredniego zidentyfikowania osoby fizycznej. (...)

Z niewiadomych powodów w polskiej wersji RODO angielskie sformułowanie “such as singling out” zostało przetłumaczone jako “w tym wyodrębnienie wpisów dotyczących tej samej osoby” co z mojej perspektywy nie jest tłumaczeniem tożsamym. Szczęśliwie, obowiązującą wersją jest jednak ta angielska:

(26) (...) To determine whether a natural person is identifiable, account should be taken of all the means reasonably likely to be used, such as singling out, either by the controller or by another person to identify the natural person directly or indirectly. (...)

I tej obowiązującej wersji się trzymamy. Wracając do meritum, gdy dane pozwalają na wyodrębnienie osób fizycznych, automatycznie podlegają one przepisom GDPR/RODO.

Jeśli historie przeglądanych stron internetowych w pewnych kontekstach mogą stanowić wrażliwe dane osobowe (a nawet porównywalne z biometrycznymi), to by wiele zmieniło. Ale dlaczego o tym mówimy? Z powodu prac badawczych. Jednej z 2011 (jestem autorem), a drugiej z 2020.

Historie przeglądania sieci są unikalne

W latach 2009-2011 wykonaliśmy prace badawcze motywowane pozytywnym celem edukacji użytkowników sieci na temat pewnych zagrożeń związanych z wyciekami historii przeglądania. Badania te wskazały na nieoczekiwany wniosek. Konkretniej, że historia przeglądanych stron internetowych może być unikalna dla danego użytkownika. W naszym badaniu liczba takich “unikalnych odcisków palców” (unique fingerprints) użytkowników wykrytych podczas analizy zbioru odwiedzanych stron internetowych to było aż 97% przypadków. Ponadto takie odciski palców były stabilne w czasie (w 38% analizowanych przypadków). Odkryliśmy również, że ograniczając się do zaledwie 50 najpopularniejszych stron internetowych (rozważając tylko je), unikalność była nadal wysoka.

To obraz ok 2010 roku. W 2020 roku sytuacja bardzo się zmieniła. Dziś prywatne dane użytkowników są przetwarzane na skalę o wiele większą niż 10 lat temu. Rzędy wielkości większą. Szczęśliwie, właśnie potwierdzono, że wskazania o wrażliwości tych danych są zasadne (a wiem też o drugiej takiej publikacji z 2020 wskazującej na to samo).

Potwierdzone - historie przeglądania sieci Web są unikalne

Nasze wstępne prace badawcze zostały w dużym stopniu podtrzymywane przez ostatnie (2020) badania zespołu z Mozilli. Nasze pierwotne badania powtórzono i odtworzono (stosując te same metody analizy), wykorzystując bardzo szczegółowe dane od użytkowników. Ta praca oferuje więc jeszcze dokładniejszą ocenę tego jak wrażliwa jest lista stron odwiedzanych przez użytkowników (rozumiana jako podlegające ochronie dane osobowe użytkownika?).

W związku z tym, sprawa jest poważniejsza. Dla wielu powinno być to już wezwaniem do działania.

Zespół Mozilli badał ewolucję odcisków palców (fingerprints) historii przeglądanych stron internetowych dla około 52000 użytkowników przeglądarki Firefox, przez dwa tygodnie. Tak zebrane dane dawały możliwość dogłębnej analizy. Pozwala to rzeczywiście na wysuwanie mocnych, dobrze uzasadnionych wniosków.

Współczynnik unikalności historii stron internetowych (szacowany metodami podobnymi do naszych) wyniósł 99%. Badacze wskazali też, że użytkownicy mogą zostać ponownie zidentyfikowani za pomocą takiego odcisku palca w 80% przypadków. Takie liczby są szokująco wysokie.

To jednak nie wszystko. Praca zespołu Mozilli w pełni potwierdziła niektóre z naszych wcześniejszych spostrzeżeń. Na przykład, że aby uzyskać unikalne odciski palców, wystarczy wziąć pod uwagę tylko 50 najpopularniejszych witryn. Praca ta w interesujący sposób poszerza nasze poprzednie badania.

Jestem też szczególnie zadowolony z rygorystycznej oceny, biorąc pod uwagę różnice między historiami przeglądania sieci przez różnych użytkowników analizowanymi jako odcisk palca:

“Uważamy, że nasze wyniki wzmacniają stwierdzenie oryginalnego artykułu, zgodnie z którym podzbiory danych użytkowników stwarzają potencjalne możliwości wykorzystania do identyfikacji użytkowników”

Autorzy powtórzyli również teoretyczny (a niekiedy praktyczny) scenariusz gdy zewnętrzni dostawcy zasobów (np. skrypty śledzące czy analityczne) mogą zidentyfikować użytkowników na podstawie odcisków palców historii przeglądania sieci. Nie zaskakuje, że duże firmy (np. Google / Alphabet, Facebook itp.) mają tu uprzywilejowaną pozycję.

Wykres ten ładnie pokazuje potencjał identyfikacji użytkowników na podstawie analizy historii przeglądania sieci. Jest sugestywny, pokazując możliwości niektórych z największych firm internetowych.

Praktyczne skutki

Historie przeglądanych w sieci stron to dane prywatne, a w niektórych kontekstach są to dane osobowe. Jednoznacznie wskazuje na to obecny stan wiedzy naukowej. Technologia powinna podążać za tą wiedzą. Podobnie jak obowiązujące przepisy i standardy w zakresie przetwarzania danych. Także ich egzekwowanie.

Tymczasem listy witryn internetowych odwiedzanych przez użytkowników są przetwarzane na skalę dość masową. Wszystkie strony internetowe rejestrują wizyty użytkowników. Niektórzy operatorzy agregujący (Google, Facebook itp.) rejestrują jeszcze więcej. Nie wspominając o reklamodawcach zewnętrznych. Listy stron odwiedzanych przez użytkowników są nawet automatycznie przesyłane do reklamodawców za pośrednictwem kanału aukcji reklamowych w czasie rzeczywistym (real-time bidding).

Ilość danych przeglądania sieci dostępnych dla operatorów witryn i reklamodawców wzrosła tylko w ciągu ostatniej dekady.

Podsumowanie

Dla zespołu Mozilli należą się podziękowania za pracę nad tym być może mniej popularnym i nieoczywistym zagadnieniem, o którym niewiele się mówi. Mimo że miał i ma oczywiste znaczenie praktyczne. Zarówno w 2010, jak i w 2020 roku.

Badania w tej dziedzinie właśnie znacznie posunęły stan wiedzy. To powinno mieć charakter transformacyjny. Dla wielu ma to bowiem praktyczne znaczenie - użytkowników, reklamodawców, platform internetowych, organizacji zajmujących się ochroną konsumentów, a także organów ochrony danych, które jak dotąd wydawały się patrzeć w inną stronę.

Historie przeglądanych w sieci stron internetowych to dane osobowe. I tyle w temacie.

Na marginesie, to świetne uczucie gdy moje badania zostały zreplikowane i odtworzone po 10 latach :-)

Podobał Ci się ten wpis/analiza? Jakieś pytania, uwagi lub oferty? Zapraszam do kontaktu: me@lukaszolejnik.com