1
DyLEMaty / Odp: AI - przerażająca (?) wizja
« dnia: Czerwca 16, 2025, 03:53:16 pm »
Fragment książki Garego Marcusa i Ernsta Davisa Rebooting AI (2019). Tłumaczył gugiel – w 2019 byłaby pewnie lekka kasza, a dziś przekład może iść do redakcji.
W znakomitym artykule w The Atlantic Douglas Hofstadter opisał ograniczenia Tłumacza Google:
Pomimo całego postępu, jaki został osiągnięty, większość pisemnej wiedzy na świecie pozostaje zasadniczo niedostępna, nawet jeśli jest cyfrowa i dostępna online, ponieważ jest w formie, której maszyny nie rozumieją. Na przykład elektroniczne dokumentacje medyczne są wypełnione tym, co często nazywa się niestrukturalnym tekstem, takimi rzeczami jak notatki lekarzy, e-maile, artykuły prasowe i dokumenty tekstowe, które nie mieszczą się w tabeli . Prawdziwy system odczytu maszynowego byłby w stanie zanurzyć się, przeszukując notatki lekarzy w poszukiwaniu ważnych informacji, które są rejestrowane w badaniach krwi i dokumentach przyjęć. Ale problem jest tak daleko poza tym, co potrafi obecna sztuczna inteligencja, że wiele notatek lekarzy nigdy nie jest czytanych szczegółowo. Narzędzia sztucznej inteligencji do radiologii zaczynają być badane; są w stanie oglądać obrazy i odróżniać guzy od zdrowej tkanki, ale nie mamy jeszcze sposobu na zautomatyzowanie innej części tego, co robi prawdziwy radiolog, czyli łączenie obrazów z historiami pacjentów.
(..)
W większości przypadków program do automatycznego tłumaczenia jest w stanie wymyślić coś użytecznego, przetwarzając po prostu jedno zdanie na raz, nie rozumiejąc znaczenia całego tekstu.
Kiedy czytasz opowiadanie lub esej, robisz coś zupełnie innego. Twoim celem nie jest skonstruowanie zbioru statystycznie prawdopodobnych dopasowań; chodzi o odtworzenie świata, którym autor próbował się z Tobą podzielić. Kiedy czytasz opowiadanie Almanzo, możesz najpierw zdecydować, że opowiadanie zawiera trzy główne postacie (Almanzo, jego ojciec i pan Thompson), a następnie zaczynasz uzupełniać niektóre szczegóły dotyczące tych postaci (Almanzo jest chłopcem, jego ojciec jest dorosły itd.), a także zaczynasz próbować ustalić niektóre wydarzenia, które miały miejsce (Almanzo znalazł portfel, Almanzo zapytał pana Thompsona, czy portfel należy do niego itd.). Robisz coś podobnego (w dużej mierze nieświadomie) za każdym razem, gdy wchodzisz do pokoju, oglądasz film lub czytasz opowiadanie. Decydujesz, jakie byty tam są, jakie są ich wzajemne relacje itd.
W języku psychologii poznawczej, to co robisz, czytając dowolny tekst, to budowanie modelu poznawczego znaczenia tego, co tekst mówi. Może to być tak proste, jak skompilowanie tego, co Daniel Kahneman i nieżyjąca już Anne Treisman nazywali plikiem obiektów — zapisem pojedynczego obiektu i jego właściwości — lub tak złożone, jak pełne zrozumienie skomplikowanego scenariusza.
Czytając fragment Farmer Boy, stopniowo budujesz mentalną reprezentację — wewnętrzną w swoim mózgu — wszystkich ludzi, przedmiotów i zdarzeń z opowieści oraz relacji między nimi: Almanzo, portfela i pana Thompsona, a także wydarzeń, w których Almanzo rozmawia z panem Thompsonem, a pan Thompson krzyczy i klepie się po kieszeni, a pan Thompson wyrywa portfel Almanzo itd. Dopiero po przeczytaniu tekstu i skonstruowaniu modelu poznawczego możesz zrobić cokolwiek robisz z narracją — odpowiedzieć na pytania na jej temat, przetłumaczyć ją na rosyjski, streścić, sparodiować, zilustrować lub po prostu zapamiętać na później.
Tłumacz Google, sztandarowy przykład wąskiej sztucznej inteligencji, omija cały proces budowania i używania modelu poznawczego; nigdy nie musi rozumować ani niczego śledzić; robi to, co robi, całkiem dobrze, ale obejmuje tylko najmniejszy wycinek tego, o czym naprawdę jest czytanie. Nigdy nie buduje modelu poznawczego historii, ponieważ nie może. Nie możesz zapytać systemu głębokiego uczenia się „co by się stało, gdyby pan Thompson pomacał swój portfel i znalazł wybrzuszenie tam, gdzie spodziewał się znaleźć portfel”, ponieważ nie jest to nawet częścią paradygmatu.
Statystyki nie zastąpią zrozumienia realnego świata. Problem nie polega tylko na tym, że tu i ówdzie występuje błąd losowy, ale na tym, że istnieje fundamentalna niezgodność między rodzajem analizy statystycznej, która wystarcza do tłumaczenia, a konstrukcją modelu poznawczego, która byłaby wymagana, gdyby systemy faktycznie rozumiały to, co próbują odczytać.
W znakomitym artykule w The Atlantic Douglas Hofstadter opisał ograniczenia Tłumacza Google:
Cytuj
My, ludzie, wiemy wiele rzeczy o parach, domach, rzeczach osobistych, dumie, rywalizacji, zazdrości, prywatności i wielu innych niematerialnych rzeczach, które prowadzą do takich dziwactw, jak małżeństwo, które ma ręczniki z haftowanymi napisami „jego” i „jej”. Tłumacz Google nie jest zaznajomiony z takimi sytuacjami. Tłumacz Google nie jest zaznajomiony z sytuacjami, kropka. Jest zaznajomiony wyłącznie z ciągami złożonymi ze słów składających się z liter. Chodzi o ultraszybkie przetwarzanie fragmentów tekstu, a nie o myślenie, wyobrażanie sobie, zapamiętywanie lub rozumienie. Nie wie nawet, że słowa oznaczają rzeczy.
Pomimo całego postępu, jaki został osiągnięty, większość pisemnej wiedzy na świecie pozostaje zasadniczo niedostępna, nawet jeśli jest cyfrowa i dostępna online, ponieważ jest w formie, której maszyny nie rozumieją. Na przykład elektroniczne dokumentacje medyczne są wypełnione tym, co często nazywa się niestrukturalnym tekstem, takimi rzeczami jak notatki lekarzy, e-maile, artykuły prasowe i dokumenty tekstowe, które nie mieszczą się w tabeli . Prawdziwy system odczytu maszynowego byłby w stanie zanurzyć się, przeszukując notatki lekarzy w poszukiwaniu ważnych informacji, które są rejestrowane w badaniach krwi i dokumentach przyjęć. Ale problem jest tak daleko poza tym, co potrafi obecna sztuczna inteligencja, że wiele notatek lekarzy nigdy nie jest czytanych szczegółowo. Narzędzia sztucznej inteligencji do radiologii zaczynają być badane; są w stanie oglądać obrazy i odróżniać guzy od zdrowej tkanki, ale nie mamy jeszcze sposobu na zautomatyzowanie innej części tego, co robi prawdziwy radiolog, czyli łączenie obrazów z historiami pacjentów.
(..)
W większości przypadków program do automatycznego tłumaczenia jest w stanie wymyślić coś użytecznego, przetwarzając po prostu jedno zdanie na raz, nie rozumiejąc znaczenia całego tekstu.
Kiedy czytasz opowiadanie lub esej, robisz coś zupełnie innego. Twoim celem nie jest skonstruowanie zbioru statystycznie prawdopodobnych dopasowań; chodzi o odtworzenie świata, którym autor próbował się z Tobą podzielić. Kiedy czytasz opowiadanie Almanzo, możesz najpierw zdecydować, że opowiadanie zawiera trzy główne postacie (Almanzo, jego ojciec i pan Thompson), a następnie zaczynasz uzupełniać niektóre szczegóły dotyczące tych postaci (Almanzo jest chłopcem, jego ojciec jest dorosły itd.), a także zaczynasz próbować ustalić niektóre wydarzenia, które miały miejsce (Almanzo znalazł portfel, Almanzo zapytał pana Thompsona, czy portfel należy do niego itd.). Robisz coś podobnego (w dużej mierze nieświadomie) za każdym razem, gdy wchodzisz do pokoju, oglądasz film lub czytasz opowiadanie. Decydujesz, jakie byty tam są, jakie są ich wzajemne relacje itd.
W języku psychologii poznawczej, to co robisz, czytając dowolny tekst, to budowanie modelu poznawczego znaczenia tego, co tekst mówi. Może to być tak proste, jak skompilowanie tego, co Daniel Kahneman i nieżyjąca już Anne Treisman nazywali plikiem obiektów — zapisem pojedynczego obiektu i jego właściwości — lub tak złożone, jak pełne zrozumienie skomplikowanego scenariusza.
Czytając fragment Farmer Boy, stopniowo budujesz mentalną reprezentację — wewnętrzną w swoim mózgu — wszystkich ludzi, przedmiotów i zdarzeń z opowieści oraz relacji między nimi: Almanzo, portfela i pana Thompsona, a także wydarzeń, w których Almanzo rozmawia z panem Thompsonem, a pan Thompson krzyczy i klepie się po kieszeni, a pan Thompson wyrywa portfel Almanzo itd. Dopiero po przeczytaniu tekstu i skonstruowaniu modelu poznawczego możesz zrobić cokolwiek robisz z narracją — odpowiedzieć na pytania na jej temat, przetłumaczyć ją na rosyjski, streścić, sparodiować, zilustrować lub po prostu zapamiętać na później.
Tłumacz Google, sztandarowy przykład wąskiej sztucznej inteligencji, omija cały proces budowania i używania modelu poznawczego; nigdy nie musi rozumować ani niczego śledzić; robi to, co robi, całkiem dobrze, ale obejmuje tylko najmniejszy wycinek tego, o czym naprawdę jest czytanie. Nigdy nie buduje modelu poznawczego historii, ponieważ nie może. Nie możesz zapytać systemu głębokiego uczenia się „co by się stało, gdyby pan Thompson pomacał swój portfel i znalazł wybrzuszenie tam, gdzie spodziewał się znaleźć portfel”, ponieważ nie jest to nawet częścią paradygmatu.
Statystyki nie zastąpią zrozumienia realnego świata. Problem nie polega tylko na tym, że tu i ówdzie występuje błąd losowy, ale na tym, że istnieje fundamentalna niezgodność między rodzajem analizy statystycznej, która wystarcza do tłumaczenia, a konstrukcją modelu poznawczego, która byłaby wymagana, gdyby systemy faktycznie rozumiały to, co próbują odczytać.