To FC: where the number of outputs is equal to the number of inputs. Co na wejściu to na wyjściu.
Sieć, żeby zaczęła działać, musi coś tam mieć załadowane. O ile wiem ładuje się coś, co od początku działa, tylko "bardzo słabo". Chodzi o to, żeby sieć uorganizowała się samoczynnie, bez udziału boga. Stąd te doniesienia od czasu do czasu, że np sieć nauczyła się co to kot oglądając tylko zdjęcia jak leci z googla (tzn. wyodrębniła taki zbiór kształtów i zdefiniowała go jako kategorię, którą my nazywamy kotem). Przy czym nie miała pokazanego na początku kota i nie miała powiedziane, że to kot. Postąpiła tak jak człowiek, który przyleciałby na obca planetę i oglądał tamtejszą faunę - też wyodrębniłby rozmaite kategorie i nazwał je maźnicami czy ściepakami itd.
To że każdy "neuron" połączony jest elektrycznie z każdym, to nie znaczy, że co wlata to wylata. Ponieważ po drodze są te wagi i jak waga dąży do zera to połączenie między neuronami "gaśnie".
Nie jest to opisane dokładnie (matematycznie), ale piszą jakie cele postawili przed tymi 3 sieciami: w pierwszym wypadku celem było aby odszyfrowany tekst Boba i Ewy jak najmniej się różnił od zaszyfrowanego przez Alicję, przy czym Alicja i Bob mieli dodatkowy cel - aby zaszyfrowany tekst był jak najmniej zrozumiały dla Ewy czyli klasyczny przypadek przekazywania utajnionej informacji z kluczem. Bob dostawał klucz i szyfrogram, Ewa tylko szyfrogram. Przy czym o ile rozumiem, nie zadekretowano na początku, że "klucz" ma być "prawdziwym kluczem" - wówczas Bob od początku 100% pewnie deszyfrowałby wiadomość. Pozwolono natomiast Alice dodawać drugą wiadomość do pierwszej dla Boba i z tego wyewoluował "klucz". Piszę to "własnymi słowami" przy czym każdy łącznie z autorami to pisze "własnymi słowami" bo źródłowo to są po prostu równania badane zapewne tak jak się to w liceum robiło (badanie funkcji) i celem prawdziwym jest takie równanie ze zbiorem rozwiązań "większym od" czy "mniejszym od ". Czyli ściśle właśnie autorzy nie wiedzą jakie to są równania, bo one są potwornie zawikłane ze względu na liczbę neuronów, liczbę połączeń i wag.
Sieci musiały po każdym kroku znać swoje wyniki - myślę że jedynie statystycznie (tzn. co najmniej Alice musiała wiedzieć, jak dobrze poszło Ewie i Bobowi) i ta informacja pobudzała jej neurony, przez to zmieniały się wagi, co skutkowało nieco innym równaniem, a to nieco innym szyfrowaniem i tak 4099 razy w jednym podejściu. Jak widać z wykresu coś po 15 tyś. kroków Alicja i Bob dopracowali szyfrowanie do poziomu, w którym osiągnęli praktyczną pewność komunikacji między sobą i całkowite utajnienie przed Ewą, a jak się dobrze przyjrzeć, to od tego punktu skuteczność Ewy wciąż jeszcze nieznacznie spadała.
P.S. Akurat w moim ulubionym blogu naukowym pojawił się art. ze znamiennym stwierdzeniem "But neural nets are black boxes. After training, a network may be very good at classifying data, but even its creators will have no idea why". Art jest o tym, jak spowodować, żeby taka siedź opowiedziała nam "dlaczego tak"
.
http://news.mit.edu/2016/making-computers-explain-themselves-machine-learning-1028