Po mojemu wygląda to tak. W połączeniach między neuronami wzrokowymi zapisana jest pewna informacja, która jest wynikiem wcześniejszego uczenia - np. poprzez patrzenie na jakis obraz. Jest to swoista pamięć. Gdy teraz z oczu odbierany jest podobny wzorzec, mózg porównuje go z tym, co ma zapisane (i jednocześnie skorelowane z innymi informacjami, np. semantycznymi, słuchowymi itp., co umożliwia tworzenie modalnych i znaczeniowych odniesień). Reakcje neuronów (wyładowania) są proporcjonalne do dopasowania tych dwóch wzorów - przychodzącego i zapisanego.
I teraz: algorytm podaje do neuronów jakiś wzorzec, którego wcześniej sam się nauczył "oglądając" obrazy, i jednocześnie mierzy reakcję neuronów. Podaje kolejny obraz, odrobinę zmodyfikowany, i znowu mierzy reakcję. Jeżeli reakcja się zwiększa, znowu dokonuje drobnej zmiany, idąc wcześniejszym wektorem; jeśli reakcja maleje - zmienia obraz, zmieniając jednocześnie wektor. I tak szuka maksymalnego dopasowania. Na początku jest szum, potem obraz staje się wyraźniejszy i zaczyna "coś" przypominać.
Więc masz rację, to pewnie jakoś wyszło samo - tyle że algorytm nie jest żadnym absolutem, jest zawsze jakoś wstępnie uwarunkowany, czy to przez dane, na których się uczył, czy to przez samą swoją konstrukcję. A pułapek w uczeniu maszynowym jest sporo np., co tutaj zaraz przyszło mi do głowy,
nadmierne dopasowanie. Dlatego napisałem, że mało danych, bo nie wiadomo, co programiści i naukowcy w ten algorytm włożyli.