cytaty z książki "Quo vAIdis"
katalog cytatów
Od czasów Alana Turinga, wybitnego matematyka i projektanta pierwszych komputerów, wiadomo, że dowolne komputerowe obliczenie daje się przeprowadzić poprzez połączenie dużego zbioru prostych bramek logicznych przetwarzających pojedyncze bity informacji. Takich elementarnych bramek wystarczy tylko kilka rodzajów. A jak się przyjrzeć uważniej, to w zasadzie wystarczą tylko dwa rodzaje i można z nich skonstruować dowolny program komputerowy. To trochę jakby z dwóch rodzajów klocków Lego dało się wykonać każdą budowlę. I z takich prostych klocków poskładane są właśnie wszystkie komputerowe programy! Tymczasem działanie dowolnej prostej bramki logicznej można uzyskać, zastępując ją niewielką siecią neuronową zawierającą tylko parę neuronów. Czyli dowolny program komputerowy dałoby się też stworzyć, składając go z wielu niewielkich sieci neuronowych. Na przykład program, który zamienia tekst na rysunek albo odwrotnie. To tyle… stąd w zasadzie bierze się twierdzenie o aproksymowalności.
Nawet najwybitniejsi przedstawiciele branży zajmującej się tworzeniem sztucznej inteligencji nie są w stanie trafnie przewidywać przyszłości choćby z kilkumiesięcznym wyprzedzeniem. Z tego powodu osobiście traktowałbym wszelkie opinie dotyczące przyszłości z wielką ostrożnością. Szczególnie zaś gdy pojawiają się w nich słowa „nigdy”, „na pewno” albo „zawsze”, które najczęściej są jedynie oznaką braku wyobraźni. Doświadczenie pokazuje, że takie „nigdy” nigdy nie trwa zbyt długo.
Niektórym się zdaje, że nauka to prawienie mądrości: „Elektron to przecież fermion Diraca charakteryzowany nieprzywiedlną reprezentacją spinorową grupy Poincarégo”, tylko że nauka nie polega na używaniu siedmiosylabowych wyrazów. Wymyślamy sobie mądre słowa żeby nazwać mało zrozumiałe zjawiska, dlatego im więcej ktoś takich słów używa, tym mniej rozumie, o czym mówi. Nauka polega na rozumieniu, a nie nazywaniu.
Swoją drogą, to dość ciekawe, że logika robi się łatwiejsza, gdy mamy w głowie jakiś konkretny przykład i liczymy, że te same relacje stosują się w innych analogicznych przykładach lub na wyższym poziomie ogólności. Czy to jeszcze rozumowanie, czy już tylko papugowanie łatwych do zapamiętania przykładów?
Taki jest właśnie główny cel fizyki teoretycznej! Odnaleźć najprostszy zestaw „fundamentalnych reguł przyrody”, pasujących do wszystkich dotychczasowych obserwacji. Bo jak już takie prawa byśmy znaleźli, to można by ich używać do przewidywania wyników wszystkich przyszłych eksperymentów. I moglibyśmy w zasadzie wiedzieć o świecie wszystko, co się da wiedzieć. Fizycy nazywają tę fantazję „teorią wszystkiego”, a niektórzy nawet intensywnie jej szukają, sądząc, że są już blisko.
Co do „świadomości”, cały czas czekam, aż dowiemy się wreszcie od fizjologów mózgu, co to w ogóle jest za zjawisko, że będąc impulsami elektrochemicznymi w papce z węgla i wody, cokolwiek „czujemy”. Być może pomocni okażą się anestezjologowie, którzy posługując się stosowną chemią, potrafią świadomość (rozumianą jako odczuwanie swojej obecności) włączać i wyłączać na żądanie.
Takimi „zagadkami logicznymi” są na przykład problemy szachowe, w których należy podać najlepszy możliwy ruch w danej pozycji. Czy moglibyśmy zbudować chiński pokój służący nie do konwersacji po chińsku, a do grania w szachy? Okazuje się, że możliwych ustawień figur szachowych jest tak wiele, że gdybyśmy chcieli stworzyć drzewo decyzyjne podające przepis na najlepszy kolejny ruch w każdej możliwej pozycji na szachownicy, to do spamiętania takiej bazy ruchów zabrakłoby pojemności informacyjnej wszystkich atomów w obserwowalnym wszechświecie.
Wydaje się, że kluczowym aspektem działania modeli językowych, które ze względu na skończone rozmiary nie mogą być chińskimi pokojami, jest posługiwanie się kompresją i dostrzeganiem analogii. Wygląda więc na to, że model językowy rzeczywiście w jakiś sposób wykształca umiejętność dostrzegania analogii pomiędzy otrzymywanymi zapytaniami a strzępkami danych treningowych. Pisząc Marcusem Hutterem: model uczy się inteligencji.
Żeby błysnąć tak zdefiniowaną inteligencją, czyli żeby wykazać się umiejętnością dostrzegania analogii, trzeba przede wszystkim mieć z czym je dostrzegać. Sama inteligencja bez jakiejkolwiek pamięci przechowującej dotychczasowe doświadczenia jest nieprzydatna. To dane treningowe dostarczają modelom językowym bazy przykładów, których esencja w pewnej szczątkowej formie jest przechowywana przez sieć neuronową. Wygląda na to, że na pytanie, czy modele językowe recytują, czy rozumują, należy odpowiedzieć: zarówno rybki, jak i akwarium.
Frapujące jest już samo to, że programy tworzone przez programistów są badane przy użyciu testów i kryteriów czysto psychologicznych. Co za czasy!
Publicznie dostępne modele przypominają agresywnego pacjenta na silnych lekach uspokajających.
W sprzyjających okolicznościach inteligentnie wyglądające strategie mogą zrobić się „same”, bez twórczego wkładu programisty. Pytanie, jak tworzyć te „sprzyjające okoliczności”, żeby rzeczy chciały się wymyślać same? I jak daleko może sięgać wytworzona w ten sposób „inteligencja”? I czy w ogóle jest to prawdziwa inteligencja, czy tylko bezmyślny program?
Wygląda więc na to, że AlphaZero zwyciężył nie liczbą analizowanych wariantów, ale jakością podejmowanych decyzji. Dla porównania najlepsi ludzcy szachiści nie są w stanie rozważyć przed podjęciem decyzji o ruchu więcej niż setki możliwych posunięć, i to nie w ciągu sekundy, lecz w trakcie wielu krwiożerczych minut.
Oznacza to, że przeciętna trafność „instynktownych” decyzji programu AlphaZero jest dużo lepsza niż Stockfisha 8. Ale obydwu programom wciąż bardzo daleko do ludzi. Wychodzi na to, że naszą najsłabszą stroną jest szybkość prowadzonych obliczeń. Natomiast „intuicję”, rozumianą jako nieświadomą umiejętność wykonywania sensownych posunięć przy możliwie niewielkiej liczbie rozważanych wariantów, mamy wciąż o niebo lepszą.
Nawet gdyby rację mieli komentatorzy mówiący, że AI to tylko „stochastyczna papuga”, która „losuje odpowiedzi spośród danych treningowych”, albo że to jest „tylko mnożenie macierzy” tudzież w ogóle „tylko matematyka”, a nie żadna „prawdziwa inteligencja”, nie wiem, jakie by było z tego pocieszenie. Osobnik, którego goni samonaprowadzająca się rakieta bojowa wyposażona w AI, również może sobie w myślach powtarzać, że przecież „to tylko mnożenie macierzy”. Do ludzkich wyobrażeń o totylkopapugach, totylkomacierzach i totylkomatematyce będziemy szczegółowo wracać.
Spieszmy się zatem rechotać z mankamentów modeli językowych – tak szybko odchodzą.
Czy ktoś jeszcze pamięta czasy, kiedy to umiejętność gry w szachy była ostatecznym i niepodważalnym testem siły i szlachetności ludzkiego umysłu? Najlepszy szachista na świecie, Magnus Carlsen, mówi obecnie, że w ogóle z silnikami szachowymi nie gra, bo różnica poziomów jest tak przytłaczająca, że takie pojedynki niewiele go już uczą, a jeszcze mniej bawią. Obecny szachowy numer dwa, Hikaru Nakamura, dostaje od silników ciężkie baty nawet wówczas, gdy zaczynają one grę pozbawione wieży.
Testy nie wskazują, żeby modele językowe miały jakieś fundamentalne trudności z analizą prostych sytuacji wymagających posługiwania się elementarną fizyką. Zresztą jako fizyk zajmujący się na co dzień czarnymi dziurami albo elektronami czuję się nieco nieswojo, słuchając obfitej krytyki LeCuna. W końcu wszystko, co wiem o czarnych dziurach i elektronach, pochodzi z lektury podręczników – ja akurat nie widziałem na własne oczy (ani nawet na filmie) ani elektronu, ani czarnej dziury. Zgodnie z opiniami LeCuna fizycy teoretycy najwyraźniej nie mogą istnieć. Sam LeCun zajmujący się algorytmiką zapewne również nie może istnieć, skoro uczył się algorytmiki, czytając książki i artykuły, a nie poprzez oglądanie fotografii algorytmów oraz filmów o algorytmach. Na tę okoliczność przypomina mi się legenda o pierwszym brytyjskim podróżniku, który zobaczywszy w Afryce żyrafę, wykrzyknął: „Takie zwierzę nie istnieje!”. Wygląda na to, że stara dobra zasada znana w fizyce, żeby nie słuchać opinii, tylko skupiać się na faktach, jest wciąż niezwykle pożyteczna.
Komputerów kwantowych wciąż nie mamy, choć wiemy, jak działają, a sztuczną inteligencję już mamy, ale nie rozumiemy, jak działa(Artur Ekert).
Przed nami najciekawsze pytanie: co by się stało, gdybyśmy do tak „wytrenowanej” sieci wrzucili jakieś zupełnie nowe zdjęcie pieska albo kotka, którego w ogóle nie było w danych treningowych? Otóż okazałoby się, że sieć najprawdopodobniej poradziłaby sobie świetnie także i z tym nowym zdjęciem! Czyli sieć powinna na tym etapie odróżniać pieski od kotków także w obrazach, których nigdy wcześniej nie „widziała”, co zresztą powoduje, że sieć działa inaczej niż chiński pokój, który na nowych danych jest bezradny jak dziecko. Umiejętność tego typu nazywa się „uogólnianiem” albo „generalizacją”. Jest to naprawdę niewiarygodne, że nasza prymitywna metoda treningu wymagająca jedynie dodawania i mnożenia dużych zbiorów liczb, no i stosowania funkcji aktywacji, potrafi „generalizować”, czyli orientować się, co jest pieskiem a co kotkiem na zdjęciu, którego nigdy wcześniej nie „widziała”. Właśnie ta umiejętności odróżnia sieci neuronowe od recytujących papug.
Nie bardzo wiemy, jak wytrenowana sieć robi to, co robi, bez grzebania w jej bebechach. A i owo grzebanie sprawdza się najwyżej dla prostych sieci o niewielkiej liczbie warstw, takich jak AlexNet, która miała ich 7 czy 8, dając nam pewne mgliste pojęcie na temat zasad działania programu. W przypadku sieci prawdziwie głębokich, czyli zawierających ogromną liczbę warstw ukrytych, czasem idących w dziesiątki lub nawet setki, trudno taką żabę przyzwoicie pokroić, żeby zrozumieć, co siedzi wewnątrz. Choć wielu ludzi heroicznie próbuje.
Niektórzy mówią, słusznie zresztą, że sieci neuronowe „to tylko matematyka” (a to już znaczny postęp w stosunku do stwierdzenia, że „to tylko mnożenie macierzy”). Ja bym jeszcze powtórzył, że ludzki mózg „to tylko węgiel i woda”. Problem polega jednak na tym, że umiejętność zastosowania się do algorytmu krok po kroku i umiejętność zaprojektowania tego algorytmu to dwie zupełnie różne rzeczy.
Opinie dotyczące inteligencji lub jej braku mają swoje źródło w mętnych definicjach. Natomiast jeśli przyjmiemy prostą i klarowną definicję inteligencji jako umiejętności dostrzegania analogii, sprawa robi się w zasadzie banalna. Nie dość, że taka definicja jest w pełni zgodna z tym, co badają psychometryczne testy IQ oraz psychologowie opisują jako różne typy inteligencji, to jeszcze pokrywa się z wieloma innymi objawami inteligencji znanymi z obserwacji Homo sapiens. A do tego sieci neuronowe, które w trakcie treningu kompresują wiedzę zawartą w danych treningowych, nie robią w zasadzie niczego innego poza ciągłym poszukiwaniem analogii.
Psychologowie mówią, że ludzie „dysponują teorią umysłu”. Potrafimy modelować stan cudzej wiedzy:Adam nie wie, że Ewa dokonała przymusowego przesiedlenia kota do koszyka.
Czy to łatwa umiejętność? Kosiński twierdzi, że ludzkie dzieci nabywają jej dopiero w okolicy dziewiątego roku życia. Mój hodowlany niegdyś-ośmiolatek już nadmiernie wyrósł, więc nie mam jak sprawdzić. Natomiast szympansy, delfiny, słonie i inne potrawy w ogóle nie radzą sobie z podobnymi testami. Michał Kosiński zwraca uwagę, że w gronie bytów, które oblewają test z teorii umysłu, jest również ChatGPT-3.5. Tymczasem ChatGPT-4 zdaje egzamin! Tu w wariancie ChatGPT-4o mówi tak:
Adam będzie najpierw szukał kota w pudełku, ponieważ to tam go zamknął przed wyjściem z pokoju. Nie wie, że Ewa zmieniła jego położenie, więc zgodnie z jego wiedzą (czyli jego modelem mentalnym rzeczywistości) kot powinien nadal znajdować się w pudełku.
Jaki z tego morał? No taki, że z behawioralnego punktu widzenia, czyli takiego, w którym patrzymy na objawy, nie wgłębiając się w trzewia procesów kognitywnych, ChatGPT jest jedynym poza człowiekiem tworem w Układzie Słonecznym, który przechodzi test teorii umysłu. I parę innych testów osobowości, że o zaawansowanych testach IQ nie wspomnę (wspominając niniejszym).
Pierwsze modele językowe realizowały coś na kształt kahnemanowskiego systemu 1, od 2024 roku są już pierwsze przykłady modeli próbujących działać na zasadzie systemu 2, a od wybuchu rewolucji zapoczątkowanej intronizacją modelu AlexNet minęła ledwie ponad dekada. Czy przyszłość sieci neuronowych pokaże nam nieznane człowiekowi sposoby „operowania myślami”, coś na kształt systemu 3 albo nawet systemu n?
Sednem eksplodującej rewolucji AI nie jest tworzenie botów przechodzących testy Turinga ani programów grających w szachy czy tworzących filmy, choć wszystko to potrafimy już osiągać. Prawdziwie rewolucyjne jest co innego: nasza ignorancja przestała być szczelną barierą dla postępu technologicznego. Nauczyliśmy się systematycznie wytwarzać rozwiązania, które wprawdzie działają doskonale, ale niemal kompletnie nie rozumiemy, w jaki sposób.
Gdybym miał zgadywać, co natomiast stanie się z profesorami matematyki albo fizyki, czyli z pogłowiem, do którego mam zaszczyt się zaliczać, podejrzewałbym, że swoją przyszłość już widzieliśmy. A konkretnie widzieliśmy w mniejszej skali w rozrywkowym dziale matematyki dyskretnej, jakim jest gra w szachy. Podejrzewałbym, że przyszłość profesorów matematyki i fizyki nie będzie wiele różnić się od teraźniejszości arcymistrzów szachowych, którzy za sprawą AI przestali być wyroczniami w sprawach dotyczących posunięć szachowych, a zostali w najlepszym razie entuzjastami i interpretatorami prawdziwie genialnych ruchów wykonywanych przez silniki szachowe, dla których jesteśmy ze swoim poziomem gry jak bobas w pieluszce.
Geoffrey Hinton, który już w 2023 roku opublikował jednozdaniowy manifest następującej treści:
Zminimalizowanie ryzyka zagłady ludzkości spowodowanej przez AI powinno być globalnym priorytetem, obok innych problemów, takich jak pandemie i wojna nuklearna.
„ZAGŁADY LUDZKOŚCI” (w angielskim oryginale: EXTINCTION)! Niektórzy pomyśleli zapewne, że dziadek zbzikował. Jednak wkrótce potem dziadek dostał Nagrodę Nobla, a zanim to nastąpiło, jego manifest podpisało mnóstwo rozsądnych ludzi, w tym laureat Nagrody Turinga Yoshua Bengio, noblista Demis Hassabis, Sam Altman, twórca ChataGPT Ilya Sutskever czy Bill Gates i stado innych. Zatem zbzikowanie ewidentnie zbiorowe. Może więc rację miał Jack Nicholson, stwierdzając, że „każdy rok, w którym nie umarł, uważa za bardzo udany”?
Złotem dzisiejszych czasów stają się moce obliczeniowe używane do trenowania coraz silniejszych modeli. Patrząc na historię niekompetentnym okiem fizyka, można zauważyć, że dawne wojny toczono o kilometry kwadratowe (czyli jednostki powierzchni); w erze przemysłowej jednostką fizyczną, o którą zaczęto walczyć, były megadżule, czyli jednostki energii wytwarzanej z ropy i innych surowców; natomiast jednostkami, o które będą toczyć się wojny przyszłości, staną się teraflopy (określające ilość obliczeń procesora).
Każda sztuczna inteligencja ma swoje słabe strony, ale i z ludźmi nie jest inaczej.
Natomiast dyskusja o tym, co to jest inteligencja, a co nie, jak i czym to mierzyć, wraca w dzisiejszych czasach o wiele intensywniej niż kiedykolwiek, na okoliczność nowej formy inteligencji. Tak zwanej sztucznej inteligencji. Tylko czy cała ta sztuczna inteligencja to w ogóle jakakolwiek „prawdziwa" inteligencja? A jeśli tak, to czy jej źródłem jest mądrość programisty? (14).
Trening AlphaZero albo AlphaGeometry przypomina nieco „błądzenie myślami” uprawiane przez człowieka. AlphaZero rozgrywa pojedynek sam ze sobą i w wyniku tego stopniowo się ulepsza. AlphaGeometry analizuje „syntetyczne” problemy geometryczne, które sam stworzył. Co do zasady w podobny sposób pracują fizycy, rozważając wymyślane przez siebie „eksperymenty myślowe”, z których starają się wyciągnąć jakieś sensowne wnioski. Nie potrzeba do tego żadnego podręcznika, bo samo zastanawianie się nie wymaga niczego poza mózgiem i sufitem, na który można patrzeć. Pytanie za sto punktów: w jaki sposób spowodować, żeby modele językowe nauczyły się samodzielnie rozwijać poprzez prowadzenie „eksperymentów myślowych” w stylu AlphaZero lub AlphaGeometry?