Łukasz Olejnik

Bezpieczeństwo, prywatność, ochrona danych

Demokracje muszą rozmawiać o problemie deepfake

Problem deepfake został zdemaskowany już dawno. Na długo, zanim świat doświadczył wykorzystania tej techniki w niecnych celach. Pozwala ona na tworzenie filmów w realistyczny  sposób przedstawiających aktorów, polityków lub inne osoby podejmujące  działania, które nie miały miejsca. W tym roku (2020) po raz pierwszy został  wykorzystany w kampanii wyborczej.

Sfabrykowane zapisy wystąpień światowych  przywódców, jak Barack Obama czy Władimir Putin, mówiących rzeczy,  których się po nich nie spodziewamy, robiły wrażenie, odkąd pojawiły się  w internecie. Przez pewien czas deepfake pełnił nawet funkcję  straszaka. Skoro nie wiadomo, jak odróżnić materiały prawdziwe od fałszywych, to czy nie mamy do czynienia z końcem prawdy?

Mnie zwykle ciekawiło coś innego, czemu analitycy  i eksperci poświęcali mniej uwagi. Nie wystarczy stworzyć fałszywkę.  Trzeba ją też umieć dostarczyć szerokiemu gronu odbiorców w sposób dla  nich wiarygodny. Część ekspertów nie dostrzegała tego szczegółu, przez  co powstawało wrażenie nieuniknionego zagrożenia, wiszącego już nad  nami. Problematyka deepfake dotarła do wysoko postawionych decydentów i  weszła do programów politycznych w krajach Unii Europejskiej, w pewnym  stopniu także w Polsce.

Istnienie podobnych zjawisk dostrzeżono dopiero w  okolicy 2016 r. Niestety nie zawsze nadaje się im prawidłowe znaczenie.  Stwierdzenie, co, kiedy i jakiej rangi problem stanowi, nie jest  proste. W 2020 r. kot deepfake wyskoczył z worka. Pierwsze znaczące  zastosowanie tej techniki w kampanii wyborczej miało miejsce w Indiach. Przewodniczący Indyjskiej Partii Ludowej Manoj  Tiwari zastosował ją w wyborach lokalnych w Delhi… na samym sobie.  Rzeczywisty zapis wideo z przemówieniem wygłoszonym po angielsku  algorytmicznie przerobiono w taki sposób, że główny bohater sprawiał  wrażenie, jakby mówił w dialekcie harianwi. Odbyło się to za jego zgodą,  ale bez świadomości odbiorcy końcowego.

Modyfikacja zapisu audiowizualnego była delikatna  i subtelna. Wizualnie obejmowała jedynie okolice warg, a odpowiednio  zsynchronizowany zapis dźwiękowy sprawiał, że odbiorca mógł odnieść  wrażenie, iż ogląda polityka mówiącego jego językiem. Z perspektywy elektoratu dzięki technologii  deepfake Tiwari uzyskał możliwość mówienia w dialekcie, którego nie zna.  W rzeczywistości materiał odczytał prawdopodobnie profesjonalny mówca, a  algorytm podłożył go pod istniejące wcześniej wideo w taki sposób, by  brzmiał jak nagranie bohatera spotu.

Do realistycznych modyfikacji w rodzaju deepfake  potrzeba danych. Z tym nie ma żadnego problemu, jeśli modyfikacji  podlega coś, co się kontroluje. Można wyobrazić sobie wiele wyzwań, w  tym etyczno-moralnych, ale nie ma tu mowy o końcu prawdy. W indyjskich  regionach obowiązują 23 języki urzędowe, a ich mieszkańcy posługują się  łącznie 780 mowami, więc problem dotarcia z przekazem do wszystkim  odbiorców jest realny. Indyjscy ludowcy poszerzyli grono odbiorców, ale  elektorat największej demokracji świata zyskał możliwość dotarcia do  treści polityczno-społecznych w zrozumiałym dla niego języku. Wygląda to  zatem na pozytywne wykorzystanie technologii deepfake.

Nie czuję się ekspertem od marketingu politycznego, więc nie zamierzam wnikać w filozoficzne różnice między  dezinformacją a politycznym PR. Nie chcę w tym tekście rozważać, na ile  blisko prawdy leżą kampanijne technikalia w rodzaju czytania z  telepromptera wypowiedzi, które wcześniej ktoś komuś napisał.

Czuję się  jednak w obowiązku zaznaczyć, że kluczowe znaczenie takiej  algorytmicznej produkcji spotów audiowizualnych dotyczy skalowalności. W  przypadku zdarzenia w Indiach kandydat nie musiał uczyć się wymowy  nieznanego dialektu. Zdolność tę nadano mu automatycznie. W przyszłości  być może nawet nie trzeba będzie mieć nic do powiedzenia ani dobrej  dykcji, a nawet nie władać poprawnie żadnym językiem z ojczystym na czele.

Technicznie do modyfikacji w rodzaju deepfake potrzeba algorytmu, danych i komputerów.  W zależności od oczekiwanego efektu i specyfiki, uczenie modelu  sztucznej inteligencji takiego zastosowania może być dziś kwestią kilku  godzin lub dni. W warunkach kontrolowanych, przy dostępie do  odpowiednich zasobów, nie stanowi to problemu. Nawet jeśli – jak w  Indiach – wciąż zachodzi potrzeba podłożenia zachowania, czyli  przeczytania przemówienia z odpowiednią dykcją i intonacją. Wydaje się,  że algorytmiczna automatyzacja produkcji przemówień polityków,  dyplomatów i biznesmenów to tylko kwestia czasu.

Być może już za kilka lat, mając odpowiednie dane startowe, będzie można tworzyć realistyczny i spersonalizowany przekaz  na dużo większą skalę. Da to wtedy posiadaczom technologii ewidentną  przewagę w komunikacji na wielu poziomach. Publicznie znana i popularna  twarz nie będzie musiała nic robić. Dane o swoim zachowaniu, wymagane do  dalszego przetwarzania, udostępni tylko raz. Od tej pory wszystko można  stworzyć automatycznie. Znajoma twarz mogłaby mówić o problemach  ważnych dla lokalnych społeczności na poziomie gmin, miast, a może nawet  osiedli czy budynków. Setki przemówień w tym samym czasie.

Wkład merytoryczny wypowiedzi zapewnialiby  analitycy zorientowani w sprawach lokalnych, podczas gdy główny bohater  spotu w tym czasie piłby kawę przy serniczku. O ile w ogóle by jeszcze  żył. Czy w niektórych systemach autorytarnych nie można by twarzy  zmarłego już przywódcy wykorzystywać przez dłuższy czas, by zapewniać społeczeństwo,  że wszystko jest w porządku? W demokracjach zaś prędzej czy później  trzeba rozpocząć debatę o roli nowoczesnych technologii w komunikacji –  także politycznej – i wyznaczyć jej granice i jasne zasady. Być może  pierwszą z nich powinien być obowiązek oznaczania materiałów  generowanych automatycznie.

Artykuł opinii w Dziennik Gazeta Prawna 12/03/2020

Comments is loading...

Comments is loading...