Nr 17/2023 Open source
2 W erze algorytmów. Otwarte zasoby internetu w służbie rozwoju sztucznej inteligencji?

Nr 17/2023 Open source

Biblioteka
  1. Wstęp

  2. Musicie wiedzieć wszystko! O ruchu otwartych źródeł poza kulturą programistyczną

  3. W erze algorytmów. Otwarte zasoby internetu w służbie rozwoju sztucznej inteligencji?

  4. „Uwolnić projekt” jako nowy model produkcji i dystrybucji, inspirowany etnografią

  5. Open design jako lekcja pokory wobec przedmiotu

  6. Finansowanie społecznościowe – w kierunku projektowej emancypacji

  7. Odczytywanie podobieństw rodzinnych generowanych przez sztuczną inteligencję przy użyciu wzorów ściegu krzyżykowego

  8. How open is design? O projektowaniu w otwartym dostępie


2 W erze algorytmów. Otwarte zasoby internetu w służbie rozwoju sztucznej inteligencji?

W minionych latach powstawały internetowe zbiory obejmujące dane wrażliwe, których głównym źródłem były treści udostępniane przez użytkowników internetu na otwartych licencjach. Użytkownicy jednak zwykle nie są świadomi, w jakim zakresie przesyłane przez nich treści mogą zostać wykorzystane na potrzeby rozwoju algorytmów sztucznej inteligencji.

Wiele wskazuje, że początek 2023 roku zapamiętamy jako moment społecznego przełomu wokół zagadnień sztucznej inteligencji (SI, artificial intelligence – AI). Wszystko za sprawą ChatGPT 3.5, narzędzia opartego na przetwarzaniu języka naturalnego, które już po dwóch miesiącach od udostępnienia użytkownikom zostało mianowane najszybciej rozwijającą się (w liczbie użytkowników) aplikacją w historii1. W społecznej percepcji sztuczna inteligencja właśnie teraz zstąpiła na ekrany domowych komputerów i stała się faktem, mimo że rozwiązania oparte na algorytmach uczenia maszynowego (machine learning – ML) od dawna wspierają działanie wielu powszechnie użytkowanych produktów cyfrowych. Wywołało to falę reakcji, które odwołują się do możliwych do wyobrażenia scenariuszy dalszego rozwoju technologii sztucznej inteligencji – ich wpływu na gospodarkę, rynek pracy, kulturę oraz rozwój społeczeństw. Przy wzmożonej uważności szerszych kręgów społecznych nastąpił odpowiedni czas, aby wyeksponować problemy związane z rozwojem sztucznej inteligencji, które na poziomie systemowym oraz prawnym nie zostały dotąd odpowiednio wyartykułowane. Warto wśród nich podkreślić zagadnienia na styku problematyki otwartych zasobów i rozwoju uczenia maszynowego, czyli praktyk związanych z tworzeniem baz danych niezbędnych w procesie trenowania algorytmów sztucznej inteligencji. Istotną rolę w tym kontekście odgrywają dane udostępniane na otwartych licencjach (w tym Creative Commons – CC), co najczęściej dzieje się poza świadomością twórców stosujących tego typu licencje.

Chlubna idea, postęp i nadużycie

Otwarte zasoby odegrały znaczącą rolę w rozwoju internetu, jaki obecnie znamy. Creative Commons (CC) i inne organizacje od ponad 20 lat promują rozwiązania licencyjne, które pozwalają twórcom udostępniać utwory w sposób otwarty przy jednoczesnej ochronie praw autorskich. To zachęca do dzielenia się i współpracy. Badania potwierdzają, że zastosowanie otwartych licencji ma istotny wpływ na dzielenie się wynikami badań naukowych2, a rozwój otwartych zasobów edukacyjnych (open educational resources – OER) zwiększa współpracę i innowacyjność przy tworzeniu materiałów edukacyjnych3.

Twórcy także mogą czerpać wymierne korzyści z zastosowania licencji CC. Posługują się nimi w celu promocji swoich utworów, docierając do szerszego grona odbiorców zainteresowanych materiałami licencjonowanymi do dalszego wykorzystania. Fotografia jest jednym z obszarów twórczości, które mają największy udział w otwartych zasobach internetu. Zdjęcia udostępnione na otwartych licencjach są chętnie otwierane i pobierane przez użytkowników platform hostingu zdjęć4.

Treści udostępnione na otwartych licencjach cieszą się również dużym zainteresowaniem jednostek badawczych, które pracują nad rozwojem algorytmów sztucznej inteligencji. Od 2012 w roku, kiedy ogłoszono serię przełomowych rozwiązań opartych na głębokim uczeniu się (deep learning – DL), jesteśmy świadkami dynamicznego rozwoju uczenia maszynowego. W ostatnich miesiącach dużo uwagi poświęca się przetwarzaniu języka naturalnego (natural language processing – NLP) oraz tak zwanej generatywnej sztucznej inteligencji, które są w początkowej fazie rozwoju. Inne typy uczenia maszynowego już znajdują szerokie zastosowanie5 między innymi w medycynie, w przemyśle i kontroli jakości czy tworzeniu systemów rekomendacji bazujących na zachowaniach użytkowników. Bardzo szerokie zastosowanie znajdują algorytmy rozpoznawania obrazów i mowy.

Tak imponujący postęp w obszarze AI nie byłby możliwy, gdyby algorytmy nie były „zasilane” danymi na potrzeby treningu. Już na samym początku powstawania nowego modelu są niezbędne duże ich ilości, z których w procesie tak zwanej inżynierii cech (feature engineering) są wybierane i transformowane najważniejsze zmienne do dalszego rozwoju algorytmów. Na kolejnych etapach dane są wykorzystywane w celu trenowania i ewaluacji modelu. Co istotne, przy ocenie modelu potrzebne są dane, które nie były wykorzystywane wcześniej w procesie uczenia, więc powstaje potrzeba dostarczenia kolejnej ich porcji. Patrząc globalnie na proces rozwoju sztucznej inteligencji w ciągu ostatnich kilkunastu lat, można stwierdzić, że proces ten jest wprost proporcjonalny do wzrostu aktywności użytkowników internetu i powstających w związku z tym gigantycznych baz danych. W różnych gałęziach gospodarki słynne Big Data 3 VS6 jest traktowane przede wszystkim w kategoriach szans na dalszy postęp technologiczny7. Rzadko stawia się pytania o zagrożenia wynikające z przyrostu złożoności procesów przetwarzania danych.

Źródła danych są różne i w dużej mierze zależą od dziedziny, na której potrzeby określony algorytm jest rozwijany oraz od tego, co jest istotą przetwarzania w ramach danego modelu. Mogą obejmować zachowania anonimowych użytkowników w internecie, ale także dotyczyć wrażliwych danych, takich jak zdjęcia twarzy. W latach 2010–2020 ujawniono wiele kontrowersyjnych przypadków wykorzystania zdjęć twarzy, które wcześniej zostały udostępnione na otwartych licencjach (najczęściej poprzez platformy hostingu zdjęć). We wszystkich tych przypadkach ani osoby znajdujące się na zdjęciach, ani fotografowie udostępniający fotografie nie byli świadomi, że mogą one zostać wykorzystane do trenowania algorytmów rozpoznawania twarzy8.

Wymownym przykładem bazy danych, która powstała z nadużyciem licencji CC, jest MegaFace9. Adam Harvey – fotograf, artysta i badacz – śledzi tego typu procedery od początku drugiej dekady tego wieku. W swoim projekcie Exposing AI opisuje MegaFace wśród 33 innych przypadków baz utworzonych i udostępnionych na potrzeby rozwoju sztucznej inteligencji. Baza zawiera ponad 4,5 mln twarzy, które zostały pozyskane z ponad 3 mln zdjęć pobranych od użytkowników serwisu Flickr. Wszystkie te zdjęcia zostały udostępnione na platformie na licencjach CC, ale większość z nich nie obejmowała zgody na użycie komercyjne. Z analizy przeprowadzonej przez Harveya dowiadujemy się, jaką ścieżkę przebyła baza od momentu pierwszej publikacji w 2014 roku (jeszcze pod nazwą Yahoo Flickr Creative Commons 100 Million Dataset – YFCC100M) aż do podmiotów końcowych, które wykorzystywały dane w procesie rozwoju algorytmów rozpoznawania twarzy. Wśród tych podmiotów zidentyfikowano wielu gigantów technologicznych takich jak Facebook (obecnie Meta), Google czy Huawei. MegaFace była także wykorzystywana przez zespoły badawcze kontraktorów służb bezpieczeństwa USA, Europol czy duńską policję.

Na podstawie raportów Harveya można stwierdzić, że w procesie omijania wymogów związanych z licencjonowaniem (na przykład ograniczeniem zastosowań komercyjnych) istotną rolę odgrywają naukowe zespoły badawcze i ich macierzyste uczelnie. W przypadku MegaFace taką funkcję pełnili naukowcy z Uniwersytetu Waszyngtońskiego, którzy utworzyli bazę na podstawie materiałów z YFCC100M. Ich intencją było utworzenie zbioru danych, które miały pomagać „w rozwijaniu badań i ułatwianiu synergii w ramach społeczności badawczej”10. Otwarty charakter projektu został jednak szybko wykorzystany w obszarach wykraczających poza te szczytne cele.

AI_Commons

Fundacja Open Future11 realizuje ważną misję związaną z ideą otwartych zasobów internetu. Ekspertyzy opracowane przez organizację to istotny głos w ramach europejskiej debaty na temat polityki cyfrowej i dalszego rozwoju internetu w kierunku otwartości. W 2021 roku fundacja zainicjowała projekt AI_Commons12, którego celem było unaocznienie braków legislacyjnych związanych z tworzeniem baz danych ze zdjęć udostępnionych przez użytkowników na otwartych licencjach. Open Future zadaje również pytania o świadomość problemu wśród użytkowników platform hostingu zdjęć.

W dokumencie podsumowującym ekspertyzę w ramach AI_Commons13 Alek Tarkowski i Zuzanna Warso diagnozują aktualne wyzwania związane z powstawaniem baz danych na potrzeby rozwoju algorytmów oraz przekazują rekomendacje wzmocnienia mechanizmów zarządzania otwartymi zasobami. Niewątpliwie licencje związane z prawami autorskimi – takie jak aktualne wersje Creative Commons – mają ograniczenia, by chroniona była prywatność. Z tego też względu trudno jednoznacznie wskazywać, kto jest odpowiedzialny za występowanie nadużyć materiałów udostępnianych na otwartych licencjach. Autorzy podkreślają, że czynniki umożliwiające nadużycia są rozłożone na szereg podmiotów, poczynając od organizacji zarządzających licencjami, poprzez platformy hostingu zdjęć i ich użytkowników, aż po łańcuch instytucji, które tworzą i przekazują zbiory danych. Skuteczne rozwiązywanie problemu musi obejmować działania na wszystkich etapach i poziomach cyklu powstawania baz danych. Nie można również ograniczać się do wskazywania „złych aktorów” – czyli osób lub organizacji, które działają na szkodę innych. Dobre praktyki powinny wzmacniać sprawczość podmiotów odpowiedzialnych za platformy, z których zdjęcia są przejmowane, ale też sprawczość użytkowników platform i osób, których twarze znajdują się na zdjęciach.

Badania z użytkownikami platform

W ramach AI_Commons przeprowadziliśmy również badania, których celem było poznanie perspektywy użytkowników platform hostingu zdjęć14. Chcieliśmy poznać ich motywację, postrzeganie praw autorskich i ich przestrzegania. Projekt obejmował analizę ilościową i jakościową odpowiedzi na pytania ankietowe użytkowników platform takich jak Flickr, Wikimedia Commons oraz Google Photos15. Zastosowaliśmy narzędzie badawcze składające się z kilku części, co umożliwiło nam pogłębione zrozumienie postaw użytkowników względem trenowania algorytmów z użyciem treści udostępnianych na otwartych licencjach16.

Wśród użytkowników platform hostingu zdjęć funkcjonują zarówno okazjonalni fotografowie, jak i osoby, które zajmują się z profesjonalną lub półprofesjonalną fotografią. Większość uczestników naszego badania przynajmniej raz udostępniła zdjęcie twarzy z zastosowaniem licencji CC. Odpowiedzi na pytania ankietowe wskazały, że nie są oni świadomi zagrożeń związanych z nadużyciem ich zdjęć w celu trenowania sztucznej inteligencji. Jednocześnie większość użytkowników nie szukała aktywnie sygnałów potencjalnego niebezpieczeństwa w związku z udostępnionymi treściami; raczej reagują oni na określone sygnały ryzyka, które zakłócają realizację ważnych dla nich celów. Te wzorce zachowania związane z prywatnością nie różnią się znacząco od powszechnych zachowań w szerszej populacji użytkowników internetu17. Niemniej w przypadku fotografów korzystających z platform hostingu zdjęć łączy się to z narażeniem nie tylko własnego interesu, ale również prywatności osób, które znajdują się na zdjęciach. Fotografie umieszczane na platformach hostingu nieprzypadkowo cieszyły się dużym zainteresowaniem twórców zbiorów danych służących do rozwoju algorytmów rozpoznawania twarzy. Trening takich algorytmów wymaga dostarczenia zdjęć o różnej jakości, wykonanych pod różnym kątem i przy różnym oświetleniu. Pod tym względem bardzo wartościowe są zdjęcia z imprez, wykonane przypadkowo i niepozowane. Tego typu obrazy są chętnie udostępniane przez dorywczych fotografów na platformach typu Flickr. Wśród zdjęć twarzy, które zostały umieszczone w MegaFace, dominowały otagowane określeniami takimi jak: „wesele”, „impreza”, „rodzina”, „przyjaciele”18.

W naszym badaniu skupiliśmy się na rozpoznaniu, jak użytkownicy platform hostingu zdjęć odbierają różne formy zastosowania fotografii twarzy. Sprawdziliśmy również jak użytkownicy reagują na opis konkretnego przypadku nadużycia. Poprosiliśmy respondentów, aby zidentyfikowali się z hipotetyczną sytuacją, w której odkryli, że kilka udostępnionych przez nich zdjęć twarzy znalazło się w bazie podobnej do MegaFace. Ta bezpośrednia identyfikacja z zagrożeniem pozwoliła nam nie tylko zadać pytania o opinię, ale także zbadać reakcje emocjonalne na opis nadużycia.

Odpowiedzi uczestników badania były uzależnione przede wszystkim od kontekstu i celu rozwoju sztucznej inteligencji. Respondenci w najniższym stopniu byli skłonni akceptować komercyjne wykorzystanie udostępnionych przez nich treści (nie tylko w odniesieniu do trenowania algorytmów SI). W jednym z pytań poprosiliśmy uczestników, aby wyobrazili sobie, że platformy hostingowe zapewniają bardziej zaawansowane ustawienia udostępniania, które rozróżniają konteksty dalszego wykorzystania zdjęć. Większość respondentów była gotowa zezwolić na wykorzystanie ich zdjęć do treningu algorytmów na potrzeby badań akademickich, edukacji i opieki zdrowotnej. Jednocześnie uczestnicy wyraźnie wskazali, że nie są skłonni zezwalać na zastosowanie zdjęć do celów związanych z bezpieczeństwem i nadzorem oraz celów wojskowych. Równie mocno wypowiadali się przeciwko zastosowaniu fotografii twarzy na potrzeby biznesu.

Reakcje afektywne respondentów na przypadek wzorowany na MegaFace wyraźnie rozkładają się po stronie emocji negatywnych. Uczestnicy badania najczęściej raportowali, że odczuwają złość, strach, smutek, a nawet odrazę. Z perspektywy teorii Roberta Plutchika19, na której opieraliśmy skalę pomiaru emocji, warto szczególnie zwrócić uwagę, że uczestnicy badania równie często reagowali złością jak strachem. Taki profil reakcji emocjonalnych może przekładać się na istotne wahanie wobec możliwych do podjęcia działań. Zgodnie z modelem Plutchika złość łączy się z przeciwnym ukierunkowaniem działania niż strach (walka lub ucieczka). Wyniki naszego badania sugerują, że twórcy udostępniający fotografie na platformach hostingu mogą zatrzymać się pomiędzy walką o ochronę własnych praw i praw fotografowanych osób a wycofaniem się z dzielenia się utworami na otwartych licencjach.

Sztuczna inteligencja i szerszy problem ochrony prywatności

Wnioski z projektu AI_Commons można zestawić z analizami, które dotyczą problematyki zachowań użytkowników internetu względem zagrożeń prywatności. Badacze od wielu lat opisują brak spójności pomiędzy deklarowanym niepokojem o bezpieczeństwo danych osobowych a realnymi zachowaniami użytkowników. Ta wyraźna różnica znajduje potwierdzenie w badaniach i nazywana jest „paradoksem prywatności”20. Podjęto wiele prób udzielenia odpowiedzi na pytanie, dlaczego użytkownicy utrzymują określone formy aktywności w internecie, mając świadomość, że ich prywatność jest zagrożona. Część badaczy koncentruje się na wewnętrznych mechanizmach racjonalizacji użytkowników (rachunku zysków i strat). Stawiano hipotezy, że mechanizmy te sprzyjają apatii, a nawet obojętności21, których skutkiem jest poddawanie się wobec bardzo poważnych nadużyć danych osobistych. Inni badacze zwracają uwagę, że nie należy analizować nastawienia użytkowników w oderwaniu od kontekstu, w którym się pojawiają. Nora Draper i Joseph Turow posługują się pojęciem „cyfrowej rezygnacji”22, która pojawia się wśród odbiorców usług cyfrowych w obliczu przemożnej siły korporacji. Według tych badaczy ludzie chcą chronić swoją prywatność, ale czują, że nie są w stanie wiele osiągnąć wobec potęgi organizacji technologicznych i ich złożonych powiązań. Poczucie bezcelowości ochrony własnych praw oraz racjonalne przesłanki, by posługiwać się narzędziami cyfrowymi, prowadzą ostatecznie do bezradności.

Czy użytkownicy otwartych licencji również będą popadać w rezygnację w związku z powstawaniem baz danych pochodzących z otwartych zasobów internetu? Zakładając optymistyczny scenariusz znaczącego przyrostu świadomości problemu, można by oczekiwać wzmocnienia zaangażowania użytkowników licencji w sprawy związane z ochroną prywatności oraz zabezpieczeniem przed nadużyciami. Zgodnie z tym, co sugerują wyniki badań w ramach AI_Commons, pierwsze reakcje jednak sprzyjają wahaniom i bezczynności. Samo ustalenie odpowiedniego wektora działania stanowi wyzwanie, bowiem identyfikacja podmiotów odpowiedzialnych jest trudna. Takie warunki szczególnie sprzyjają rezygnacji.

Użytkowaniu otwartych licencji towarzyszy wiele motywów, które wykraczają poza pragmatyczne cele związane z docieraniem do odbiorców publikowanych materiałów. Respondenci naszej ankiety na pytanie o motywację do udostępniania zdjęć z zastosowaniem CC, wybierali najczęściej cztery odpowiedzi: „pozytywny wkład w moją społeczność”, „umożliwienie innym swobodnego korzystania z moich treści”, „pomaganie innym poprzez udostępnianie treści” oraz „dokumentowanie i udostępnianie dziedzictwa kulturowego”. Wyniki te sugerują, że zachowania osób posługujących się otwartymi licencjami mogą wspierać uniwersalistyczne wartości (w rozumieniu psychologicznym)23. U podstaw samej idei otwartych zasobów również znajdziemy wartości związane z równością, wspólnotowością i rozwojem internetu dla powszechnego dobra. Twórcy stosujący otwarte licencje, udostępniając swoją pracę, chętnie wspierają rozwój nauki lub ogólną ideę postępu. Jednocześnie pojawienie się nadużyć w miejscach, gdzie użytkownicy internetu realizują swoje wartości, wywołuje znaczne rozczarowanie i niestety może prowadzić do wycofania. Jeden z uczestników naszego badania (użytkownik platformy Flickr) stwierdza: „Pracowałem w obszarach data science i neuronauki społecznej. Byłem dumny, że moje fotografie są dostępne badaczom. Ale nie udostępniam już zdjęć ludzi. Rozumiem obawy, że niektóre rządy mogą wykorzystać je – bezpośrednio lub pośrednio – przeciwko nim. To smutne, ale nie jest zaskakujące, i myślę, że wykracza poza zakres Creative Commons lub możliwości zabezpieczeń Flickra. Najgorsi agenci nie będą szanować ani licencji, ani prawa, a granica między badaniami pożytecznymi a badaniami, które można wykorzystać jako broń, jest często płynna i słaba”24.

Sprawczość użytkowników

Odbiorcy usług cyfrowych powoli nabierają świadomości, że całe spektrum danych o ich aktywnościach jest analizowane i wykorzystywane w różnych celach biznesowych, badawczych i politycznych. Jednocześnie przyrost wiedzy w różnych grupach społecznych na temat pojawiających się technologii często jest opóźniony o lata w stosunku do możliwości nowych rozwiązań. Przykładowo, wnioski z badania przeprowadzonego w 2019 roku na dużej próbie mieszkańców Wielkiej Brytanii wskazują, że poziom wiedzy obywateli na temat technologii rozpoznawania twarzy był zbyt niski, aby mogli oni angażować się w debatę publiczną wokół zalet i ryzyka zastosowań tej technologii – mimo że od ponad dekady rozwiązania te były już obecne na brytyjskich lotniskach, w monitoringu niektórych dzielnic i wielu innych miejscach25. Powstaje ważne pytanie w związku z nowymi wyzwaniami ochrony prywatności – w kontekście rozwoju algorytmów sztucznej inteligencji: kto powinien zadbać o odpowiedni poziom wiedzy i sprawczość użytkowników platform, które umożliwiają udostępnianie materiałów na otwartych licencjach?

Autorzy raportu Public Understanding and Perceptions of Data Practices26 wskazują, że z perspektywy systemowej istotne jest zaangażowanie projektantów produktów cyfrowych oraz przedstawicieli pokrewnych dziedzin (między innymi user experience design, human-computer interaction) w formowanie dobrych praktyk związanych z ochroną prywatności w internecie. Jednocześnie przegląd literatury wskazuje, że eksperci tych dziedzin poświęcają stosunkowo mało uwagi problemom prywatności oraz badaniom nad różnicami doświadczeń związanych z ochroną prywatności w różnych grupach społecznych. W kontekście rozwoju sztucznej inteligencji w środowiskach technologicznych dodatkowo dominuje retoryka o „nieuchronności” postępu. Dan McQuillan w swoich pracach nazywa ten rodzaj narracji realizmem SI(AI realism)27, podkreślając przy tym bezkrytycyzm i brak wystarczającej uważności na zagrożenia nie tylko wśród twórców technologii, ale także w środowiskach akademickich.

Projektanci zajmują pozycję pomiędzy wytwórcami technologii a użytkownikami produktów cyfrowych i mogą wypełnić ważne zadania związane z eksponowaniem zagrożeń wokół przesyłanych danych. Odpowiednia ekspozycja informacji o zagrożeniach, rozróżnienie praw autorskich i ochrony prywatności w ramach interfejsu oraz odpowiedni dobór rozwiązań technologicznych to sprawy, którymi projektanci mogą zaopiekować się bezpośrednio. Wydaje się oczywiste, że problemy ochrony prywatności obecnie wykraczają poza bieżące zagadnienia związane z politykami prywatności i zarządzaniem zgodami na pliki cookies. Heather Burns, konsultantka UX w dziedzinie tech-policy i promotorka idei otwartego internetu, w swojej książce stwierdza, że chroniąc użytkowników, specjaliści powinni wręcz przekraczać granice bieżącego funkcjonowania produktu i zadawać pytania o to, jakie zagrożenia prywatności mogą dotyczyć jego odbiorców w innych krajach oraz w przyszłości28.

Przypadki nadużyć związanych z danymi udostępnionymi na otwartych licencjach unaoczniają, że projektanci powinni uwzględniać zagadnienia prywatności w trzech krytycznych obszarach: etyki i regulacji ochrony prywatności, wiedzy i świadomości użytkowników o możliwych zastosowaniach ich danych oraz budowania warunków sprawczości użytkowników (reagowania na nadużycia, możliwości wycofania danych oraz wykluczenia określonych zastosowań). Właśnie mija pięć lat od momentu wejścia w życie na terenie Unii Europejskiej rozporządzenia o ochronie danych osobowych i wyraźnie można zaobserwować, że w kręgach europejskich zatrzymujemy się głównie na poziomie pierwszego obszaru. Tymczasem już dawno wkroczyliśmy w epokę przetwarzania danych użytkowników, w której regulatorzy nawet w najbardziej restrykcyjnej Europie nie są w stanie objąć wszystkich pojawiających się problemów skutecznymi przepisami.

***

Obecnie trudno wyrokować, czy obserwowane w ostatnich miesiącach wzmożone zainteresowanie zagadnieniami sztucznej inteligencji wpłynie pozytywnie na rozumienie wśród użytkowników, jaką rolę odgrywają dane, które udostępniają i generują swoim zachowaniem w internecie. W całym zamieszaniu wywołanym przez imponujące rozwiązanie OpenAI wydaje się niknąć kwestia bardzo ważnej relacja pomiędzy liczbą użytkowników, ich aktywnością a rozwojem modelu językowego. Opisane w artykule problemy nadużyć związanych z fotografiami twarzy udostępnianymi na otwartych licencjach stanowią tylko ułamek wszystkich praktyk związanych z danymi w procesie trenowania algorytmów oraz wdrażania nowych zastosowań uczenia maszynowego. Z tego względu tak ważne jest, aby eksperci pracujący nad produktami cyfrowymi nie tracili swej czujności związanej z ochroną prywatności użytkowników w kontekście dalszego rozwoju AI. Nawet gdy już będzie cichnąć szum wokół fascynujących rozwiązań.