Nr 17/2023 Open source
6 Odczytywanie podobieństw rodzinnych generowanych przez sztuczną inteligencję przy użyciu wzorów ściegu krzyżykowego

Nr 17/2023 Open source

Biblioteka
  1. Wstęp

  2. Musicie wiedzieć wszystko! O ruchu otwartych źródeł poza kulturą programistyczną

  3. W erze algorytmów. Otwarte zasoby internetu w służbie rozwoju sztucznej inteligencji?

  4. „Uwolnić projekt” jako nowy model produkcji i dystrybucji, inspirowany etnografią

  5. Open design jako lekcja pokory wobec przedmiotu

  6. Finansowanie społecznościowe – w kierunku projektowej emancypacji

  7. Odczytywanie podobieństw rodzinnych generowanych przez sztuczną inteligencję przy użyciu wzorów ściegu krzyżykowego

  8. How open is design? O projektowaniu w otwartym dostępie


6 Odczytywanie podobieństw rodzinnych generowanych przez sztuczną inteligencję przy użyciu wzorów ściegu krzyżykowego

Odczytywanie produktów sztucznej inteligencji na nowo, z punktu widzenia rzemiosła, pozwala bardziej docenić pozapiśmienne formy zakodowanej komunikacji funkcjonujące do dziś.

Wprowadzenie

Pewnego popołudnia chciałam zacząć nowy projekt z wykorzystaniem ściegu krzyżykowego i zaczęłam szukać pomysłów na wzór. Zniechęcona oklepanymi wynikami z Google, uruchomiłam DALL-E1, model sztucznej inteligencji (SI) do zamiany tekstu na obraz, żeby wygenerować jeden wzór ściegu. Kilka kliknięć później miałam przed sobą 12 różnych wariantów ściegu krzyżykowego. Były do siebie podobne jak na rodzinnym portrecie: różne, ale miały wspólne cechy. Zaczęłam to nazywać podobieństwami rodzinnymi, używając terminu wprowadzonego przez filozofa Ludwiga Wittgensteina2

Jakie lekcje dla społeczności projektowej i rzemieślniczej mogą wyniknąć z wittgensteinowskiego podejścia do nowych obrazów, generowanych przez SI? Jak może ono rozszerzyć nasze postrzeganie i wykorzystanie dużych baz danych wizualnych, zawierających dawne wzory i projekty rzemieślnicze?

Il. 1. Dwanaście wariantów ściegu krzyżykowego wygenerowanych po wpisaniu w DALL-E: „Ścieg krzyżykowy jeden piksel na papierze”

Il. 2. Wizualne badanie – na papierze w kratkę – wygenerowanych przez DALL-E wariacji obrazu ściegu krzyżykowego w kategoriach podobieństw rodzinnych ze względu na łączące cechy wyglądu

Tło badań

Jako projektantka-badaczka poruszająca się w obszarach baz danych bardzo uważnie śledzę najnowsze trendy w zakresie SI. Nowe narzędzia, takie jak DALL-E, Midjourney i Stable Diffusion, zalały moje konto na Twitterze misternymi, majestatycznymi, a czasem wstrząsającymi obrazami. Krótko mówiąc, DALL-E jest algorytmem komputerowym wyszkolonym do „widzenia” jak ludzie i „odczytywania” wzorców z istniejących wizerunków. Algorytm z kolei generuje obrazy, analizując i dopasowując wzorce do nowo wprowadzonych danych tekstowych. Narzędzia takie jak DALL-E są już ogólnodostępne i umożliwiają eksplorowanie potencjału SI bez względu na poziom wiedzy technicznej i umiejętności użytkownika. Wiele modeli SI wspomaga procesy twórcze artystów i projektantów, wyrażających swoje myśli w postaci fraz języka naturalnego, które SI zamienia na warianty obrazu (cztery obrazy dla każdego wyszukiwania). Jak możemy zrozumieć takie obrazy i rozróżniać warianty? Czy stosujemy kreatywną interpretację, czy coś więcej – mamy sposób na „odczytywanie” wygenerowanych obrazów, wiedząc, że opierają się na realnych bazach danych?

Eryk Salvaggio pisze w How to Read an AI Image3, że produkty generowane przez SI są nie tyle obrazami, ile infografikami wizualizującymi zestawy danych. Obrazy SI to po prostu wzorce danych wpisanych w obrazki – obrazki, które opowiadają historie o zestawach danych i ludzkich decyzjach, dzięki którym powstały. Niestety, nie istnieje metoda ani klucz do obrazów SI, które umożliwiłyby nam powiązanie wygenerowanych obrazów z zestawami danych, od których pochodzą. Duże zestawy danych to obszerne kolekcje obrazów, pozyskiwanych przez firmy z otwartej sieci bez zgody autorów i ograniczeń wynikających z praw autorskich4. Nawet jeśli niektóre zestawy danych mają licencje otwartego kodu źródłowego (open source), modele i architektura danych są publicznie niedostępne. Z tego powodu badacze danych i mediów ze wszech stron nawołują do stosowania krytycznych metod w celu zrozumienia i eksplorowania, jak SI osadza określone sposoby postrzegania (wzorce), szczególnie że są one zbierane, analizowane i opracowywane z zastosowaniem niejawnych kategorii, idei i zasobów słownikowych5.

Na potrzeby tego projektu zastosowałam metodę dizajnu krytycznego, posługującą się rzeczowymi trybami pracy z technologią do otwierania dyskusji społecznej i kulturowej. Podejście to idzie w parze z ruchem DIY (zrób-to-sam), open source (otwarte kody źródłowe) i krytyczną praktyką techniczną6, która na bazie literatury krytycznej kwestionuje taktyczne komponenty rzemiosła i tworzenia, leżące u podłoża każdej technologii. Autorka książki Critical Fabulations [Konfabulacje krytyczne]7 Daniela Rosner, opierając się na feministycznych dyskursach technologiczno-naukowych, sugeruje, że przyjęcie perspektywy historycznych rzemiosł umożliwia przebudowanie wiodących komputerologicznych narracji wokół pojęć skali i innowacji. Metoda dizajnu krytycznego nadaje tej perspektywie odpowiednią strukturę i prowadzi do kreatywnego pozyskiwania danych z systemu SI oraz interpretacji jego podstawowych procesów poprzez zastosowanie spojrzenia filozoficznego i socjologicznego, takiego jak koncepcja Wittgensteina.

Podobieństwa rodzinne. Ścieg krzyżykowy i DALL-E

Według Wittgensteina idea leżąca u podstaw podobieństw rodzinnych jest związana z konceptami kulturowymi, które przypisujemy rzeczom, grupując je w kategorie niekoniecznie na bazie jednej charakterystycznej cechy, a raczej wielu różnych łączących je cech. Jako przykład filozof podaje „gry”. W ich przypadku to, co czyni je grami, czyli posiadanie zasad lub ich brak, fakt, że służą zabawie lub nie, że występuje w nich sytuacja wygranej i przegranej albo nie, decyduje się na podstawie łączących je cech oraz kontekstów społecznych i kulturowych. Na podobnej zasadzie ścieg krzyżykowy występuje w wielu wariantach, kiedy stosowany jest w hafcie (na przykład krzyżyk, krzyżyk podwójny, krzyżyk mały). W zależności od kultury, w której występuje, ścieg krzyżykowy miewa różne nazwy, style, opiera się na historycznie odmiennych formach wyszywania, takich jak haft na kanwie lub czarny haft. Współczesne formy sztuki cyfrowej, w tym sztuka pikselowa [pixel art], opisują ścieg krzyżykowy i określają jego cechy komputerowe. Uświadomienie sobie wielorakich cech ściegu i ich (ko)relacji pozwala na ustalenie, co jest, a co nie jest ściegiem krzyżykowym. Prawdopodobnie na pewnym poziomie występuje tutaj podobieństwo z operacjami wykonywanymi przez DALL-E, któremu dano zadanie wygenerowania wariacji obrazu na podstawie fraz języka naturalnego przy zastosowaniu określonej koncepcji lub kategorii. Model DALL-E pobiera metadane i obrazy ze swojego, obszernego zestawu danych, zawierającego wzory ściegu krzyżykowego pochodzące z różnych kultur i okresów historycznych i łączy je w obrazy podobne do tego, co chcemy zobaczyć. Pytanie, czy DALL-E jest w stanie rozłożyć te wizualne podobieństwa na części składowe w celu przeanalizowania ich konstrukcji, prześledzenia cech kategorialnych ściegu oraz ich źródeł społeczno-kulturowych i historycznych.

Dlaczego to pytanie jest istotne? Historia ludzkości dostarcza niezliczonych przykładów na to, jak języki wizualne przedstawiają wiedzę poprzez nielinearne, szablonowe, symboliczne formy, to jest wykraczające poza reguły pism linearnych, jakimi są alfabet łaciński czy dewanagari9. Rzemieślnicze wzory wizualne są natychmiast rozpoznawalne i rozróżnialne w swoim kontekście społeczno-kulturowym, ponieważ osoby tworzące te dane (wzory) dołożyły starań, aby ich zakodowane algorytmy były otwarte i dostępne, wspierając w ten sposób formowanie stylów i znaczeń10. Weźmy, na przykład, style zaplatania warkoczy cornrow [cienkie warkoczyki zaplatane rzędami do tyłu – tłum.], jakie ewoluowały na przestrzeni lat. Ta wielowiekowa, rodzima tradycja afrykańska obejmuje algorytmiczne wzory fraktalne, zdradzające wiek, stan cywilny, status społeczny i wyznanie religijne danej osoby11. Dzisiejsze style zaplatania cornrow z kolei opowiadają historie z obszaru kultury hip-hopu i afrofuturyzmu. Podobnie kolam [symetryczny wzór, tworzony każdego rana przez kobiety w południowych Indiach przed wejściem do domu – tłum.], pochodzący ze stanu Tamilnadu, działa jak skomputeryzowane rzemiosło tradycyjne o otwartym kodzie źródłowym, przekazywane z pokolenia na pokolenie i powtarzane przez miliony osób, stanowiące ucieleśniony przykład emocjonalnych i intelektualnych aspektów kultury tamilskiej12. Skoro modele SI mają coraz bardziej zaawansowane możliwości rozpoznawania wzorów, czy po prostu „widzenia”, naszym celem staje się zbadanie nie tylko, jak moce obliczeniowe wytwarzają nowe, kreatywne formy wyrazu, ale też jak podtrzymujemy wartości i przekonania ściśle związane z kulturowymi, ucieleśnionymi sposobami myślenia, pojmowania, działania i interpretowania w otwartej, widocznej i zrozumiałej formie13.

Jeśli taki jest cel, to do jakiego stopnia nasze interakcje z DALL-E mogą prowadzić do dostępnego wyjaśnienia historycznych i kulturowych znaczeń związanych ze ściegiem krzyżykowym? Na jakich źródłach się opieramy? Kim są twórcy obrazów ściegu zasilających zestaw danych? Czy wyrażają zgodę na to, jak SI operuje na ich autorskich wzorach ściegu krzyżykowego? Przy obecnym sposobie pracy modelu DALL-E powyższe pytania mogą na zawsze pozostać bez odpowiedzi. Czy możliwe byłoby jednak przynajmniej częściowe „odczytanie” obrazów DALL-E poprzez przystępną gramatykę, tak samo łatwo, jak odczytujemy zapisy językowe i rozpoznajemy teksty? Jeżeli potraktujemy ścieg krzyżykowy jako „język” z zakodowanymi paradygmatami i gramatyką, to czy możliwe będzie alternatywne „odczytanie” wariacji ściegu krzyżykowego wygenerowanych przez DALL-E?

Odkodowywanie DALL-E za pomocą kodów pisankowych

Wpisując w wyszukiwarkę kombinacje wyrazów „ścieg krzyżykowy” i „kody”, zauważyłam wizualne podobieństwa pomiędzy obrazami ściegu krzyżykowego generowanego przez DALL-E a ukraińskimi kodami hafciarskimi, opartymi na wydanej w 2008 roku książce Wołodymyra Pidhirniaka zatytułowanej Сутність стародавніх звичаїв. Бродівська писанка [Haft tekstowy – liternictwo wioski Brodiwśkie]14. Opisany przez autora historyczny słowiański styl hafciarski od wielu pokoleń jest używany do kodowania ściegiem krzyżykowym znaczeń estetycznych i dekoracyjnych. Stosowane wariacje ściegu niosą symbolikę, również religijną, stanowiąc rytualne formy zapisu nazwisk rodowych, cyfr, dni tygodnia, faz księżyca, miesięcy, pór roku i znaków astrologicznych15.

Il. 3–6. Ilustracje pokazują, jak cyfry, dni tygodnia, alfabety (cyrylica) i pory roku kodowane są w ukraińskim hafcie. Obrazy wykorzystano za zgodą właściciela praw autorskich. Źródło: ukrainian-recipes.com/encrypted-embroidery-how-to-depict-words-and-numbers-in-ornaments.html

„Pisanki” to nazwa sztuki kodowania tych symboli, przypominających ścieg krzyżykowy, na jajkach wielkanocnych (zamiast na tkaninie) przy użyciu wosku i barwników roślinnych. Pisanki przekładają strukturę wizualną cyrylicy na stylizowane wzory ściegu krzyżykowego (liternictwo Brodiwśkie), które przebiegają nielinearnie, rozchodząc się osiowo od środka jajka i, co najważniejsze, są możliwe do odczytania16! Jednakże pochodzenie i historia powstania tego systemu zapisu pozostają nieznane.

„Szyfr [hafciarski] wygląda jak współczesny kod QR: każdy symbol skrywa literę i cyfrę, które razem tworzą unikalny wzór. Korzystając z tego alfabetu, każdy może wejść na nowy poziom zrozumienia języka ukraińskiego”17.

Il. 7. „Pisanie” słów MAMA i TATO hafciarskim liternictwem Brodiwśkie. Obrazy wykorzystano za zgodą właściciela praw autorskich. Źródło: ukrainian-recipes.com/encrypted-embroidery-how-to-depict-words-and-numbers-in-ornaments.html

W ramach eksperymentu postanowiłam odcyfrować wariacje obrazów ściegu krzyżykowego, wygenerowane przez DALL-E, za pomocą historycznie i kulturowo kodujących pisanek. Przyjęłam więc rolę hakera i najpierw spróbowałam odkodowania segmentów ściegu krzyżykowego pochodzących od DALL-E. Przetłumaczyłam fragment powstałej cyrylicy za pomocą translatora, ale po złożeniu liter nie miał on żadnego sensu. Miałam nadzieję, że w tym procesie znajdę ukrytą „grę językową” pomiędzy DALL-E a pisankami, ale zamiast tego otrzymałam bełkot. Czy „н л г” może oznaczać czyjeś inicjały, jakiś skrótowiec?

Il. 8. Próba odkodowania wariacji obrazów ściegu krzyżykowego wygenerowanych przez DALL-E z wykorzystaniem kodów hafciarskich na pisankach

Ludzie rzemiosła jako kreatywni twórcy SI

Okazuje się, że nasze zaangażowanie w nowe narzędzia SI w dużej mierze opiera się na szukaniu sensu tam, gdzie go na pierwszy rzut oka nie ma. Wiadomo, że generowanie sensownego obrazu z wykorzystaniem DALL-E wymaga przekształcania wpisywanej frazy tekstowej do momentu, aż przestanie mieć dosłowny sens. Wtedy uruchamia się kolejny, ukryty proces translatorski, którego działania nie rozumiemy. Dłubiemy więc w nim, uczestnicząc w grze językowej na miarę jednorękiego bandyty, aż nie mamy już więcej pomysłów18. Jednak stawianie pytania, jaki sens może wynikać z tych procesów, i poszukiwanie w nich znaczenia jest kluczowe dla naszej relacji i interakcji z opisywanymi narzędziami. Zastosowanie metody dizajnu krytycznego pozwoliło mi odkryć nowe dla mnie pismo, cyrylicę, co wyniknęło wyłącznie z teoretycznych rozważań nad podobieństwem wizualnym pomiędzy obrazami ściegu krzyżykowego wygenerowanymi przez DALL-E a wzorami pisankowymi. Pozwoliło mi to na nowo docenić ścieg krzyżykowy poprzez zrozumienie jego „odczytywalnych” cech. Nauczyłam się nawet zapisywać skróconą wersję swojego imienia (ANU — Ану) za pomocą wzorów pisankowych. Po wypróbowaniu kilku wariantów na kratkowanej kartce wybrałam ten, który podobał mi się najbardziej. Następnie odtworzyłam wzór, wykorzystując tradycyjne i nowoczesne procesy produkcji: wyhaftowałam swoje pisankowe imię ściegiem krzyżykowym na dżinsowej bluzce, a potem wykonałam podstawkę z tym samym wzorem w technice druku 3D.

Il. 9. Skrócone imię autorki „zapisane” wzorem pisankowym Brodiwśkie

Il. 10. Imię autorki wyhaftowane wzorem pisankowym na dżinsowej bluzce

Il. 11. Imię autorki, wzór wydrukowany na podstawce techniką druku 3D

Hybrydowe formaty kreatywnej ekspresji zaadaptowane z historycznego i kulturowego rzemiosła, takiego jak pisanki, pozwalają nam zwolnić kroku i zastanowić się nad naszymi relacjami z narzędziami SI – narzędziami, które nie dorównują szerszym możliwościom sensotwórczym i narracyjnym oferowanym przez rzemiosło w formie otwartych i łatwych do zrozumienia algorytmów wizualnych i kulturowych. Mimo że skłonni jesteśmy ignorować życiodajne wysiłki rzemiosła i podążać za nowinkami SI, oczywiste wydaje się, że SI doskonale radzi sobie z recyklingiem zestawów danych, generując coś przypominającego rzemieślnicze języki wizualne, jednak nieosadzonego społecznie lub kulturowo. Wykorzystanie i docenianie niuansów oferowanych przez formy sztuki rzemieślniczej, takich jak te przedstawione powyżej, jest przykładem nielinearnych, ucieleśnionych, różnorodnych sposobów odczytywania, interpretowania i rozumienia świata, przy jednoczesnym kwestionowaniu możliwości narzędzi SI i wskazywaniu – na ile ludzie rzemiosła mogą to robić – czym narzędzia SI powinny się zajmować. Uważam, że SI nie wytwarza nowości, a tylko „na nowo” pokazuje, że to ludzie rzemiosła aktywnie kreują (i zawsze kreowali) przyszłość systemów algorytmicznych opartych na kulturze i przekazach wizualnych. Obserwując stały postęp technologii SI, mam nadzieję, że zamiast na skalowaniu i wydajności, skupimy się na innowacyjnych możliwościach, jakie daje środowiskom rzemieślniczym adoptowanie interaktywnych stylów i wzorów wizualnych do wspierania własnych potrzeb i praktyk.

 


tłumaczenie: Alicja Gorgoń