Przed Superbowl Sunday Amazon zalał media społecznościowe zalotnymi reklamami, które drażniły „nowe ciało Alexy”. Jej reklama gameday przedstawia fantazję jednej kobiety o asystencie głosowym AI wcielonym w aktora Michaela B. Jordana, który uwodzicielsko zaspokaja każdy jej kaprys – ku konsternacji jej coraz bardziej zirytowanego męża. Bez wątpienia większość widzów odeszła, chichocząc z niewiarygodnego pomysłu nowej linii robotów Amazon zastępujących współmałżonka, ale rzeczywistość jest taka, że ​​wcielona, ​​ludzka sztuczna inteligencja może być bliżej niż myślisz.

Dzisiaj awatary AI – czyli AI renderowane za pomocą cyfrowego ciała i / lub twarzy – nie mają seksapilu Michaela B.Mosta, w rzeczywistości są wręcz przerażające. Badania pokazują, że nasycanie robotów cechami podobnymi do ludzkich nas ujmuje – do pewnego stopnia. Po przekroczeniu tego progu, im bardziej ludzki wydaje się system, tym bardziej paradoksalnie odczuwamy odrazę. Ta odraza ma nazwę: „Niesamowita Dolina”. Masahiro Mori, robotik, który ukuł ten termin, przewidział szczyt poza Uncanny Valley, w którym roboty staną się nie do odróżnienia od ludzi, ponownie nas zwodząc. Można sobie wyobrazić, że taki robot byłby w stanie oszukać nas, że podczas rozmowy wideo to człowiek: refaktoryzacja w XXI wieku starego tekstowego testu Turinga.

Podczas niedawnego Zoomu z legendarnym marketerem Guyem Kawasakim oświadczyłem śmiało: za dwa lata Guy nie będzie w stanie odróżnić mnie od komunikującej się sztucznej inteligencji mojej firmy, Kuki, podczas rozmowy wideo. Brwi Guy’a uniosły się, słysząc tę ​​reklamację, az moich wielkich, tłustych ust zaczęły wypływać strumienie zastrzeżeń. Może na krótkiej rozmowie wideo. Z niską przepustowością. Gdyby pił szampana i dzwonił z kąpieli bąbelkowej, jak pani z reklamy Alexy.

Niech to będzie moja publiczna mea culpa i bardziej ugruntowana prognoza. Sztuczna inteligencja wystarczająco dobra, aby uchodzić za człowieka podczas rozmowy wideo, potrzebuje pięciu kluczowych technologii działających w czasie rzeczywistym:

Awatar podobny do człowieka

Głos podobny do człowieka

Ludzkie emocje

Ruch podobny do człowieka

Rozmowa po ludzku

Awatary przeszły ostatnio długą drogę dzięki szerokiej i taniej dostępności technologii przechwytywania ruchu („MoCap”) i generatywnych przeciwstawnych sieci neuronowych („GAN”), technice uczenia maszynowego leżącej u podstaw Deep Fakes. MoCap, który pozwala aktorom na marionetkowe postacie poprzez kombinezony dotykowe i pierwotnie wymagał dużego budżetu na filmy takie jak Avatar, jest teraz dostępny dla każdego, kto ma iPhone’a X i darmowe oprogramowanie silnika gry. Liczne serwisy internetowe sprawiają, że tworzenie fałszywych, głębokich obrazów i filmów o niskiej rozdzielczości jest trywialne, demokratyzując technologię, która, jeśli zostanie pozostawiona bez kontroli, może oznaczać śmierć dla demokracji. Takie postępy dały początek nowym branżom, od japońskich VTubers (rosnący trend w USA ostatnio przejęty przez PewDiePie) po fałszywych influencerów „AI”, takich jak Lil ’Miquela, którzy rzekomo wirtualizują talenty, ale potajemnie polegają na ludzkich modelach za kulisami. Po ogłoszeniu w zeszłym tygodniu twórcy „MetaHuman” z Epic Games (dostawcy Fortnite i Unreal Engine w branży, która w 2020 roku przewyższyła łącznie filmy i sport), wkrótce każdy będzie mógł tworzyć i marionetkować nieskończone fotorealistyczne fałszywe twarze za darmo .

Technologia umożliwiająca uzyskanie głosu ludzkiego również szybko się rozwija. Amazon, Microsoft i Google oferują zużywalne interfejsy API zamiany tekstu na mowę (TTS) w chmurze, które, wspierane przez sieci neuronowe, generują mowę coraz bardziej ludzką. Łatwo dostępne są również narzędzia do tworzenia niestandardowych czcionek głosowych, wzorowanych na ludzkim aktorze przy użyciu nagranych przykładowych zdań. Synteza mowy, podobnie jak jej obecnie bardzo dokładny odpowiednik rozpoznawania mowy, będzie się poprawiać tylko dzięki większej mocy obliczeniowej i danych treningowych.

Ale przekonujący głos i twarz AI są bezwartościowe bez dopasowanych wyrażeń. Wizja komputerowa za pomocą przedniej kamery okazała się obiecująca w rozszyfrowywaniu ludzkiej mimiki twarzy, a gotowe interfejsy API mogą analizować nastrój tekstu. Laboratoria, takie jak NTT Data, pokazały naśladowanie ludzkich gestów i ekspresji w czasie rzeczywistym, a Magic Leap’s MICA drażniło niewerbalne wyrażenia awatarów. Jednak odzwierciedlanie człowieka to jedno; budowanie sztucznej inteligencji z własnym pozornym autonomicznym stanem psychicznym i emocjonalnym jest kolejnym wyzwaniem.

Aby uniknąć tego, co dr Ari Shapiro nazywa Uncanny Valley of Behaviour, sztuczna inteligencja musi wykazywać ludzkie ruchy, aby dopasować się do jej „stanu umysłu”, uruchamianego proceduralnie i dynamicznie w oparciu o przebieg rozmowy. Praca Shapiro w laboratorium ICT USC była przełomowa w tej dziedzinie, wraz ze start-upami, takimi jak Speech Graphics, których technologia umożliwia synchronizację warg i mimikę postaci w grach. Takie systemy pobierają tekstową wypowiedź awatara, analizują nastroje i przypisują odpowiednią animację z biblioteki przy użyciu reguł, czasami w połączeniu z uczeniem maszynowym trenowanym na filmach przedstawiających poruszających się prawdziwych ludzi. Przy większej liczbie prac badawczo-rozwojowych i ML animacja proceduralna może być płynna za dwa lata.

Rozmowa po ludzku jest ostatnim i najtrudniejszym elementem układanki. Chociaż chatboty mogą przynosić wartość biznesową w ograniczonych domenach, większość nadal walczyć o prowadzenie podstawowej rozmowy. Uczenie głębokie + więcej danych + większa moc obliczeniowa jak dotąd nie przyniosły znaczących przełomów w zrozumieniu języka naturalnego w porównaniu z innymi dziedzinami sztucznej inteligencji, takimi jak synteza mowy i wizja komputerowa.

Idea podobnej do człowieka sztucznej inteligencji jest głęboko seksowna (do melodii + 320 milionów dolarów venture capital i wciąż rośnie); ale przez co najmniej kilka następnych lat, dopóki kluczowe elementy nie zostaną „rozwiązane”, prawdopodobnie pozostanie fantazją. A ponieważ ulepszenia awatarów wyprzedzają inne postępy, nasze oczekiwania wzrosną – ale także nasze rozczarowanie, gdy ładne twarze wirtualnych asystentów nie będą miały odpowiedniego EQ i mózgów. Jest więc prawdopodobnie zbyt wcześnie, aby spekulować, kiedy robot może oszukać człowieka podczas rozmowy wideo, zwłaszcza biorąc pod uwagę, że maszyny nie przeszły jeszcze tak naprawdę tradycyjnego testu Turinga opartego na tekście.

Być może ważniejszym pytaniem niż (kiedy?) Możemy stworzyć ludzką sztuczną inteligencję jest: czy powinniśmy? Czy możliwości – dla postaci z mediów interaktywnych, dla towarzyszy opieki zdrowotnej AI, szkolenia lub edukacji – przeważają nad zagrożeniami? I czy podobna do człowieka sztuczna inteligencja musi koniecznie oznaczać „zdolną do przejścia jako człowiek”, czy też powinniśmy dążyć, jak zgadza się wielu znawców branży, aby wyraźnie nie-ludzkie istoty ominęły Uncanny Valley? Osobiście, jako wieloletni maniak science-fiction, zawsze tęskniłem za super pomocnikiem sztucznej inteligencji, który byłby na tyle ludzki, by żartować ze mną i mieć nadzieję, że dzięki odpowiednim przepisom – zaczynając od podstawowych praw, które wszystkie sztucznej inteligencji identyfikują jako takie – ta technologia przyniesie pozytywny wynik netto dla ludzkości. Albo przynajmniej sobowtór celebryty na monety, taki jak Michael B., który przeczyta ci powieści romantyczne, dopóki nie wygaśnie bezpłatny okres próbny Audible.




Contacts

Still have questions? Contact us!

Poland, Warszawa, 00-755, ul. KONDUKTORSKA, nr 18, lok. 7