Właściwie można uznać, że wszystkie wielkie projekty stojące za rozwojem sztucznej inteligencji są niczym urządzenie agd. To odkurzacz, który zasysa z internetu morze danych niezbędnych do trenowania narzędzi AI.
Zasysa miliardy dokumentów, plików audio (podcasty), wideo z YouTuba, posty z mediów społecznościowych, recenzje produktów i restauracji, opisy z Google Maps, książki, eseje i uczniowskie wypracowania… Proces jest tak zaawansowany, że tych danych zaczyna brakować. Mają tego świadomość tuzy z OpenAI, Mety, Google. O tym wspomina też artykuł: How Tech Giants Cut Corners to Harvest Data for A.I. Nic ciekawszego w tych dniach nie przeczytacie. Polecam lekturą, bo dotyczy kilku innych palących kwestii.
Na pierwszym planie, który interesuje dziennik NYT, są sugestie o łamaniu praw autorskich i intelektualnych (na marginesie, pamiętacie co działo się z Napsterem?). Nie pada w artykule słowo „piractwo”, nie padają też bezpośrednie oskarżenia mieszające z błotem mechanizm i proceder „ssania”. Ale to i tak raport z pola walki o narzędzie dominacji. Na razie stonowany. Być może kiedyś takie oskarżenia padną, choć bardziej prawdopodobne jest to, że z racji skomplikowania prawniczej materii, problem bez końca będzie roztrząsany na różnych poziomach i przez różne gremia (będą się ze sobą ścierać prawnicy, prokuratorzy, rządowe agendy, stowarzyszania wydawców i twórców).
Wokół AI krążą niewyobrażalne pieniądze związane z wieloma grupami interesów. Swoje do powiedzenia mają państwa – AI to narzędzie o znaczeniu geopolitycznym. I z tego powodu podnoszone są obawy, że jeśli Zachód wybierze rygorystyczny model prawny i nałoży kaganiec na przedsięwzięcia AI, to w wyścigu o dominację wygrają na tym polu Chiny (model Skywork był trenowany na rekordowej liczbie 3,2 biliona tokenów wziętych z tekstów angielskich i chińskich).
Po przeczytaniu How Tech Giants Cut Corners to Harvest Data for A.I. odnoszę wrażenie, że to dopiero preludium, lecz nie mam na myśli galopującego rozwoju technologii AI. Mam na myśli spory, kontrowersji i napięcie. I mnogość decyzji podejmowanych za zamkniętymi drzwiami w świadomości, że są nieetyczne, kontrowersyjne lub uderzające w porządek prawny. Gra toczy się o wielką stawkę.
Ten rok będzie pod tym względem ciekawy. I zachęcając do przeczytania tekstu z NYT, zapewniam, że podobnych rewelacji będzie pewnie więcej.
Dla mnie wszystko to – w najbardziej interesującym mnie wymiarze – sprowadza się do tego, że opisane powyżej odkurzacze zasysają dane współtworzone przez miliony ludzi takich ja, po to, aby doskonalić narzędzie, od którego będziemy uzależnieni. I to powinno szczególnie niepokoić.