Jak działają deepfake’i głosowe i kto z nich korzysta

Wyobraź sobie, że pewnego leniwego popołudnia dzwoni twój telefon. Odbierasz, a w słuchawce słyszysz przerażony głos swojej córki, matki lub męża. Osoba po drugiej stronie błaga o natychmiastowy przelew, ponieważ rzekomo spowodowała wypadek i musi wpłacić kaucję, by uniknąć aresztu. Brzmi dokładnie tak, jak twój bliski – ta sama barwa, ten sam specyficzny sposób łapania oddechu, te same charakterystyczne zająknięcia i akcent. Przerażony, przelewasz pieniądze na wskazane konto, po czym, dzwoniąc na prawdziwy numer krewnego dowiadujesz się, że cały czas był on bezpieczny. Właśnie rozmawiałeś z algorytmem. Brzmi jak dystopijny scenariusz z Czarnego Lustra? Niestety, to nasza nowa rzeczywistość. Witaj w erze deepfake’ów głosowych.

Jeszcze dekadÄ™ temu generatory gÅ‚osu kojarzyÅ‚y nam siÄ™ głównie ze sztywnym, metalicznym syntezatorem mowy a’la Stephen Hawking, bÄ…dź topornym asystentem GPS, który bez cienia emocji kazaÅ‚ nam skrÄ™cić w lewo. Dzisiaj granica miÄ™dzy maszynÄ… a czÅ‚owiekiem zostaÅ‚a nie tyle zatarta, co caÅ‚kowicie zdemolowana. Technologia klonowania mowy, znana powszechnie jako voice deepfake lub synteza mowy oparta na sztucznej inteligencji, to jeden z najszybciej rozwijajÄ…cych siÄ™ sektorów współczesnego IT. Budzi ogromny podziw, ale jednoczeÅ›nie zasiewa uzasadnione przerażenie.

Aby jednak nie demonizować samej technologii – która z założenia jest neutralna – warto zrozumieć, co właściwie kryje się pod maską. Jak z zaledwie kilku sekund nagrania stworzyć cyfrowego sobowtóra, który oszuka nie tylko nasze ucho, ale i zaawansowane systemy bankowe? I co ważniejsze – czy w tej cyfrowej dżungli mamy jeszcze szansę obronić prawdę?

Anatomia cyfrowego kłamstwa. Jak algorytm kradnie tożsamość?

Proces klonowania głosu najlepiej przyrównać do pracy niezwykle sprawnego, cyfrowego fałszerza obrazów. Klasyczny malarz potrzebuje palety barw; sztuczna inteligencja potrzebuje spektrogramów, czyli wizualnych reprezentacji częstotliwości fal dźwiękowych. Algorytmy uczenia maszynowego (często oparte na sieciach neuronowych typu GAN lub architekturze transformatorów) analizują dostarczoną próbkę dźwięku, rozkładając ją na czynniki pierwsze. Szukają prawidłowości w intonacji, sprawdzają, jak długo wymawiamy samogłoski, a nawet jak nasze struny głosowe wibrują podczas konkretnych sylab.

W przeszÅ‚oÅ›ci, aby stworzyć wiarygodny model syntetycznego gÅ‚osu, potrzebowano dziesiÄ…tek godzin czystych nagraÅ„ studyjnych. Aktor musiaÅ‚ czytać tysiÄ…ce absurdalnych zdaÅ„, by pokryć każdÄ… możliwÄ… zbitkÄ™ fonetycznÄ…. DziÅ›? Jak chwaliÅ‚ siÄ™ Microsoft przy okazji prezentacji swojego modelu VALL-E, system potrzebuje zaledwie trzech sekund naszego gÅ‚osu, aby wiernie odwzorować jego brzmienie. Nawet jeÅ›li nagranie pochodzi z tÅ‚a relacji na Instagramie czy krótkiego filmiku na TikToku. Sieć neuronowa dosÅ‚ownie domyÅ›la siÄ™ brakujÄ…cych fragmentów, niczym autouzupeÅ‚nianie w smartfonie, i generuje pÅ‚ynnÄ… mowÄ™ bazujÄ…cÄ… na zbadanym „odcisku palca” strun gÅ‚osowych.

Dzięki firmom takim jak ElevenLabs (swoją drogą, z mocnym polskim rodowodem), stworzenie cyfrowego klona jestdziś tak proste, jak założenie konta pocztowego. Interfejsy są przyjazne, nie wymagają znajomości programowania, a wygenerowanie minuty nagrania w wybranym języku i z odpowiednim natężeniem emocji (np. gniewu czy szeptu) zajmuje kilka sekund. To demokratyzacja technologii w najczystszej postaci – z wszystkimi jej błogosławieństwami i przekleństwami.

Kto pociÄ…ga za sznurki? Dwie twarze syntetycznej mowy

Ponieważ stworzenie przekonującego nagrania jest obecnie trywialnie proste i niezwykle tanie, technologia ta szybko znalazła zastosowanie na skrajnie różnych polach. Z jednej strony stała się nowym, potężnym orężem dla przestępców z całego świata. Z drugiej – otworzyła drzwi do rewolucji w branży kreatywnej i medycznej, przynosząc realną ulgę osobom pokrzywdzonym przez los.

Ciemna strona mocy: Oszustwa „na wnuczka 2.0” i polityczni iluzjoniÅ›ci

Wykorzystanie AI w cyberprzestępczości to już nie pieśń przyszłości, ale ponura codzienność raportów policyjnych. Jak donosił prestiżowy Wall Street Journal, jedną z pierwszych głośnych ofiar był dyrektor generalny brytyjskiej firmy energetycznej, który w 2019 roku przelał 243 tysiące dolarów na węgierskie konto bankowe. Dlaczego to zrobił? Ponieważ usłyszał w słuchawce polecenie od prezesa swojej niemieckiej spółki matki. Algorytm idealnie naśladował jego charakterystyczny niemiecki akcent i lekko dominujący ton. Cyberprzestępcy skutecznie połączyli inżynierię społeczną z doskonałym narzędziem, tworząc tzw. CEO fraud nowej generacji.

Jednak zagrożenie uderza też w zwykÅ‚ych obywateli, celujÄ…c w nasze najsÅ‚absze punkty – empatiÄ™ i miÅ‚ość. Oszustwa wykorzystujÄ…ce sztuczny gÅ‚os to nowa wersja popularnego „na wnuczka”. PrzestÄ™pcy pobierajÄ… krótkie próbki gÅ‚osu ofiar z ogólnodostÄ™pnych mediów spoÅ‚ecznoÅ›ciowych, po czym dzwoniÄ… do ich rodziców czy dziadków w Å›rodku nocy. GenerujÄ… panikÄ™, wywierajÄ… presjÄ™ czasu i znikajÄ… ze Å›rodkami na kontach kryptowalutowych, zanim ofiara zdąży zweryfikować fakty.

Kolejnym przerażajÄ…cym poligonem doÅ›wiadczalnym dla voice deepfake’ów jest polityka. Przed prawyborami w amerykaÅ„skim stanie New Hampshire, wyborcy otrzymywali masowe telefony (robocalls), w których gÅ‚os do zÅ‚udzenia przypominajÄ…cy Joe Bidena zniechÄ™caÅ‚ ich do pójÅ›cia do urn. To ukazuje gigantyczne ryzyko dla procesów demokratycznych. Dezinformacja wzmocniona gÅ‚osem autorytetu, rozsiewana tuż przed ciszÄ… wyborczÄ…, może realnie zmanipulować wynik każdych wyborów, budzÄ…c zrozumiaÅ‚y niepokój wÅ›ród ustawodawców na caÅ‚ym Å›wiecie.

Jasna strona księżyca: Nadzieja dla chorych i rewolucja w kinie

Nie możemy jednak wpaść w pułapkę technofobii, bo sztuczna mowa to także potężne narzędzie dobra. Jednym z najbardziej wzruszających przykładów wykorzystania voice deepfake jest medycyna, a dokładniej tzw. voice banking. Osoby cierpiące na choroby degeneracyjne, takie jak stwardnienie zanikowe boczne (SLA) czy rak krtani, mogą nagrać swój głos, zanim bezpowrotnie go stracą. Algorytm pozwala im na komunikację ze światem i swoimi dziećmi ich własnym, prawdziwym głosem przez aplikację do wprowadzania tekstu, zamiast polegać na bezosobowych, mechanicznych syntezatorach. Zwraca im to utraconą godność.

Hollywood i branża rozrywkowa również czerpiÄ… z tego peÅ‚nymi garÅ›ciami. DoskonaÅ‚ym i znanym przypadkiem jest Val Kilmer, który po walce z nowotworem gardÅ‚a nie byÅ‚ w stanie mówić. DziÄ™ki współpracy z firmÄ… Sonantic zrekonstruowano jego dawnÄ… barwÄ™, co pozwoliÅ‚o mu „wypowiedzieć” swoje kwestie w hicie Top Gun: Maverick. To swoiste przedÅ‚użenie artystycznego życia, na które bez AI aktor nie miaÅ‚by szans.

Podobnie wygląda sprawa z rynkiem wydawniczym i podcastami. Giganci technologiczni, tacy jak Spotify, już testują i wdrażają narzędzia, które potrafią na bieżąco tłumaczyć ulubione podcasty (np. Lexa Fridmana czy Daxa Sheparda) na języki obce, zachowując ich oryginalny ton, flow i głos. Oznacza to rewolucję w przełamywaniu barier językowych – niedługo posłuchamy mądrych rozmów z drugiego końca świata tak, jakby gospodarz nagrał audycję płynną polszczyzną.

Szwy na cyfrowym ciele. Jak rozpoznać maszyny?

Biorąc pod uwagę rosnącą biegłość algorytmów, pojawia się kluczowe pytanie – mając na uwadze tak zwaną user intent – co ty, jako odbiorca, możesz zrobić, by nie paść ofiarą cyfrowej manipulacji? Przede wszystkim musimy zacząć szukać cyfrowych szwów. Mimo że głosy są hiperrealistyczne, nadal brakuje im często biologicznego kontekstu. Maszyny miewają problem z oddechem. Człowiek w naturalnej rozmowie łapie powietrze w nieregularny sposób, zależny od emocji. Algorytmy robią to sztucznie, czasem biorąc nielogiczny oddech w połowie słowa, lub nie mają go w ogóle.

Drugą kwestią jest intonacja przy braku spójności emocjonalnej. Syntezator potrafi powiedzieć o tragicznych wydarzeniach radosnym i lekkim tonem lub zadawać pytanie z intonacją twierdzącą. Zwracaj też uwagę na dziwne brzmienie lokalnych imion, rzadkich nazwisk czy slangowych przerywników. Algorytmy bywają nadgorliwe w hiperpoprawności językowej tam, gdzie człowiek naturalnie skraca lub zniekształca wyrazy na rzecz szybkości wypowiedzi.

Najprostszym i najskuteczniejszym narzędziem obrony nie jest jednak żadne oprogramowanie, ale rodzinne hasło bezpieczeństwa. Ustalcie z bliskimi słowo-klucz – np. dziwną nazwę ptaka czy potrawy z dzieciństwa. Gdy odbierzesz telefon z prośbą o pilny przelew blikiem, zapytaj o to hasło. Żadna sztuczna inteligencja trenowana na danych z TikToka go nie wygeneruje. Ponadto, weryfikujmy kanał komunikacji. Rozłącz się i oddzwoń samemu, używając stałego, zapisanego w telefonie numeru tej osoby.

Przyszłość pełna szumów i regulacji

Obecnie obserwujemy na Å›wiecie fascynujÄ…cy i niebezpieczny wyÅ›cig zbrojeÅ„. Firmy pracujÄ…ce nad deepfake’ami muszÄ… rywalizować z platformami, które na potÄ™gÄ™ tworzÄ… narzÄ™dzia detekcyjne analizujÄ…ce meta-dane dźwiÄ™ku w poszukiwaniu Å›ladów cyfrowej ingerencji. Instytucje prawne, podobnie jak w przypadku unijnego aktu AI (AI Act), wchodzÄ… na Å›cieżkÄ™ przymusowych regulacji, starajÄ…c siÄ™ wymusić znakowanie treÅ›ci syntetycznych niejako cyfrowymi znakami wodnymi, by ustrzec obywateli przed dezinformacjÄ….

Voice deepfake to doskonały przykład technologii, która zachowuje się jak w klasycznej metaforze młotka – można nim wybudować przepiękny dom, ale można nim również kogoś boleśnie uderzyć. Dopóki systemy detekcji i regulacje prawne nie nadgonią twórców sztucznej inteligencji, nasz główny system immunologiczny w starciu z dezinformacją musi bazować na starym, dobrym sceptycyzmie. Pamiętajmy: żyjemy w czasach, w których uwierzenie we własne uszy przestaje być wystarczającym dowodem na prawdziwość intencji drugiego człowieka.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *