Do niedawna oprócz specjalistów z branży IT, inżynierów i analityków to właśnie specjalizacje w branży kreatywnej wymieniane były najczęściej jako „zawody przyszłości”. Był to jeden z powodów, dla którego ja sam wybrałem taką ścieżkę kariery. Wydawać, by się mogło, że o ile zawody, w których wiedza i umiejętności są dużo bardziej usystematyzowane i konkretne, jak, chociażby medycyna, czy prawo będą mogły w pewnym momencie zostać zautomatyzowane, tak ludzka kreatywność jest nie do przełożenia na język zer i jedynek. Jak się okazuje i w tej materii sztuczna inteligencja ma swoje do powiedzenia – a konkretnie współzawodniczące sieci neuronowe (GAN – Generative Adversarial Networks).
Chyba każdy, kto spędził niedawno choć trochę czasu w mediach społecznościowych zauważył lawinowo rosnące zainteresowanie „sztuczną inteligencją”. Do rąk użytkowników trafiły proste, niewymagające żadnej wiedzy programistycznej narzędzia pozwalające uzyskać naprawdę imponujące rezultaty . Wywołało to niemałe poruszenie w branży kreatywnej, słychać zarówno pełne trwogi głosy wieszczące nadchodzący kryzys na rynku pracy, jak i pełne entuzjazmu komentarze twierdzące, że sztuczna inteligencja będzie tylko kolejnym narzędziem w rękach twórców. Jednak znając życie prawda leży gdzieś pośrodku.
No dobra, ale czym w zasadzie są te sieci współzawodniczące? Choć nazwa może wydawać się bardzo skomplikowana, to w gruncie rzeczy zasada działania tego typu modeli jest dość prosta. Ian Goodfellow, czyli wynalazca GANów, pewnego wieczora, po żarliwej dyskusji w gronie przyjaciół, podczas której zastanawiali się nad możliwościami generowania fotorealistycznych obrazów przez sieci neuronowe, wpadł na rewolucyjny pomysł. Napisał program, polegający na rywalizacji dwóch jednocześnie operujących sieci neuronowych. Pierwsza z nich – generator, na podstawie dostarczonej mu bazy danych próbuje stworzyć nowe dane, które będą mogły zostać zakwalifikowane jako prawdziwe. W międzyczasie druga sieć – dyskryminator (EN discriminator) porównuje dzieło rywala i ocenia, czy stworzony obraz jest zauważalnie sztuczny, czy prawdziwy. Mamy tu więc do czynienia z rywalizacją dwóch sił – jedna sieć stara się oszukać drugą, że jej dane są autentyczne. Operacji tego typu przeprowadza się dziesiątki tysięcy i z każdym kolejnym razem generator na własnych błędach uczy się jak tworzyć coraz doskonalsze obrazy. Ostatnimi czasy szczególnie popularne stały się modele w typie DALL-E, takie w których każdy obraz w bazie danych, na której uczy się sieć, ma dodatkowy opis tekstowy tego co i w jakiej sytuacji się na nim znajduje. Dzięki temu użytkownicy mogą generować niezwykle szczegółowe obrazki tylko poprzez definiowanie ich za pomocą słów. Model ten jest na tyle rozbudowany, że doskonale radzi sobie z dopasowywaniem kontekstów, stąd bez trudu w kilka sekund wygenerujemy obrazy tak abstrakcyjne jak np. „różowa małpa siedząca na kawałku sera w pokoju pełnym wody”.
Jakiś czas temu zapisałem się jako tester usprawnionej wersji modelu od OpenAI czyli DALL-E 2, który obecnie znajduje się w fazie zamkniętej bety. Po kilku tygodniach oczekiwania w końcu dostałem upragniony e-mail potwierdzający moje uczestnictwo. Widziałem już wcześniej nieco możliwości jakie daje ten program więc ze szczerym entuzjazmem przystąpiłem do testów. Otrzymane rezultaty przerosły jednak moje najśmielsze oczekiwania. Sieć radzi sobie doskonale nie tylko z abstrakcyjnymi briefami, ale dobrze rozwiązuje także bardziej konkretne, jasno zdefiniowane tematy. Warto wspomnieć o innego rodzaju przewadze sztucznej inteligencji, jaką jest czas. Ludzie by być na bieżąco, z tym co dzieje się w świecie dizajnu, powinni śledzić pisma i portale branżowe, chodzić na wystawy i obserwować w mediach społecznościowych poczynania uznanych kolegów i koleżanek. Wszystko to jest bardzo czasochłonne. Sieci neuronowe natomiast w ogóle nie odczuwają tego problemu. Systematycznie, 24 godziny na dobę są w stanie konsumować, przetwarzać i tworzyć coraz to większe ilości danych bez jakiegokolwiek zmęczenia. Kwestią czasu pozostaje więc aż będą w stanie operować zestawem wszystkich informacji jakie kiedykolwiek zostały skomputeryzowane.
Oczywiście na dzisiejszym etapie rozwoju DALL-E 2 nie jest w stanie przemyśleć zastosowanych materiałów, ergonomii czy wytrzymałości konstrukcji. Patrząc jednak na tempo z jakim ten postępuje wydaje się to tylko kwestią czasu. Aktualnie jest to świetny rysownik, z głową pełną świeżych pomysłów, które wciąż jednak wymagają ludzkiej ingerencji przed ewentualną materializacją.
I o ile projektanci wzornictwa, przynajmniej „na ten moment”, nie mają się o co martwić, tak sytuacja grafików i ilustratorów wydaje się rysować w nieco bardziej pesymistycznych barwach.
„Sztuczna inteligencja” jest w stanie generować setki gotowych obrazów w przeróżnych stylach i wariantach w czasie, w którym „ludzki” grafik prawdopodobnie nie zdąży uruchomić photoshopa. Wydaje mi się, że szczególnie ważne w najbliższym czasie będzie nauczenie się funkcjonowania w tej nowej rzeczywistości, próba przysposobienia sztucznej inteligencji jako jednego z narzędzi, którymi się posługujemy, na tyle szybko aby samemu nie paść jej ofiarą. Całkiem realistyczny wydaje się scenariusz, w którym grafik, aby zaoszczędzić czas podczas pierwszych spotkań z klientem prezentuje mu koncepcje „wymyślone” przez AI. Dopiero gdy uda się ustalić konkretny kierunek koncepcyjny wodze przejmie człowiek. Taka forma koegzystencji może być przyszłością tego zawodu, warto więc zawczasu nauczyć się współpracy z cyfrowymi projektantami.
Tu miejsce na dygresję, ale wydaje mi się szalenie ciekawe, że mimo tego jak dobrze „sztuczna inteligencja” radzi sobie z generowaniem fotorealistycznych obrazów, to nie do końca potrafi generować proste kształty liter czy wyrazów. Co jeszcze ciekawsze – bardzo podobne zjawisko zachodzi podczas snu w naszych umysłach .
W czasach, w których z kilkusekundowego nagrania jesteśmy w stanie na zawsze utrwalić i wykorzystywać czyjś głos, z kilkudziesięciu zdjęć możemy stworzyć dokładny model 3D dowolnego miejsca na ziemi, a za kilkanaście tysięcy dolarów możemy zamówić realistyczny hologram bliskiej nam zmarłej osoby, coraz częściej zadaję sobie pytanie nad hipotetyczną cyfrową nieśmiertelnością. Teraz, za sprawą GANów do wachlarza komputerowych sztuczek dołącza emulowanie ludzkiej kreatywności. Zastanawiam się, iloma danymi należy nakarmić sieć neuronową aby była w stanie myśleć i tworzyć tak jak ja?
Pisząc ten artykuł liczyłem na to, że być może będę w stanie odpowiedzieć sobie i wam, na któreś ze stawianych w nim pytań. Jak to jednak zwykle bywa, pytań jest znacznie więcej niż odpowiedzi i im głębiej wejdzie się w temat tym więcej ich przybywa. Jedynym pewnikiem, jest to, że sztuczna inteligencja na stałe zadomowi się w naszych życiach, zarówno prywatnych jak i zawodowych. Myślę, że należy obchodzić się z nią jak z nowo poznanym psem w domu naszych znajomych – nie okazywać strachu i powoli się z nią zaprzyjaźniać, tak aby kontrola nad sytuacją zawsze była po naszej stronie.
Dodatkowe narzędzia: