Jak teoria Shannona uczy sztuczną inteligencję przewidywać świat?
Sztuczna inteligencja nie „rozumie” świata w ludzkim sensie – przewiduje go na podstawie prawdopodobieństw. U podstaw tych działań leży teoria informacji Claude’a Shannona, która od 1948 roku pozwala matematycznie opisać niepewność i ilość informacji. To właśnie ona sprawia, że modele językowe potrafią generować sensowne wypowiedzi, przewidując kolejne słowa krok po kroku.
Kiedy mówimy o sztucznej inteligencji, często wyobrażamy sobie zaawansowane systemy „rozumiejące” język, generujące teksty, obrazy czy rekomendacje. Tymczasem u podstaw tych rozwiązań leży zaskakująco prosta idea sprzed ponad 70 lat – teoria informacji Claude’a Shannona. To ona odpowiada na fundamentalne pytanie: czym właściwie jest informacja i jak można ją mierzyć.
Co ciekawe, bez tej teorii nie istniałyby współczesne modele językowe. W pewnym sensie ten tekst powstał właśnie dlatego, że model, który go generuje, nauczył się przewidywać kolejne słowa na podstawie prawdopodobieństw. A to dokładnie ten sam mechanizm, który Shannon opisał matematycznie już w 1948 roku.
Warto jednak podkreślić, że teoria informacji jest znacznie szersza i obejmuje m.in. zagadnienia szumu, redundancji czy kompresji. W tym artykule skupiamy się na jednym jej kluczowym fragmencie – pojęciu informacji i entropii – bo to ono najlepiej pokazuje, jak matematyka „uczy” systemy sztucznej inteligencji efektywności.
Informacja jako redukcja niepewności
Intuicyjnie informację kojarzymy z treścią lub znaczeniem. Shannon zaproponował inne podejście – informacja nie zależy od sensu, lecz od niepewności. Im mniej wiemy o wyniku zdarzenia, tym więcej informacji niesie jego zajście.
Jeśli codziennie o tej samej porze wschodzi słońce, wiadomość „słońce dziś wzeszło” nie wnosi nic nowego. Natomiast zdarzenie rzadkie i nieoczekiwane znacząco redukuje niepewność – a więc niesie dużo informacji.
To podejście jest kluczowe dla sztucznej inteligencji. Modele nie „rozumieją” świata jak człowiek – operują na prawdopodobieństwach i uczą się przewidywać, co jest bardziej, a co mniej prawdopodobne.
Ilość informacji pojedynczego zdarzenia
Shannon zaproponował prosty wzór na ilość informacji niesioną przez jedno zdarzenie: I(x)=−log2(p)I(x) = -\log_2(p)I(x)=−log2(p) gdzie p oznacza prawdopodobieństwo zdarzenia.
Interpretacja jest intuicyjna – im częstsze zdarzenie, tym mniej informacji niesie. Im rzadsze – tym więcej. Przykład: rzut uczciwą monetą. I=−log2(0.5)=1 bitI = -\log_2(0.5) = 1 \; bitI=−log2(0.5)=1bit
Jedno losowanie dostarcza więc 1 bit informacji. Gdyby prawdopodobieństwo wynosiło 0,25:
I=−log2(0.25)=2 bityI = -\log_2(0.25) = 2 \; bityI=−log2(0.25)=2bity
Rzadsze zdarzenia niosą więcej informacji – są „cięższe” informacyjnie.
Entropia – średnia ilość informacji
W praktyce nie analizujemy pojedynczych zdarzeń, lecz całe źródła danych. Dlatego Shannon wprowadził pojęcie entropii – średniej ilości informacji generowanej przez system.
Można ją policzyć w kilku krokach:
- wypisz wszystkie możliwe zdarzenia,
- przypisz im prawdopodobieństwa,
- oblicz wartość −p · log₂(p),
- zsumuj wyniki.
Przykład: zachowania użytkowników na stronie
Załóżmy trzy możliwe zdarzenia:
A – zakup,
B – dodanie do koszyka,
C – wyjście ze strony.
Prawdopodobieństwa:
p(A) = 0,5
p(B) = 0,25
p(C) = 0,25
Entropia wynosi:
H=−∑p(x)log2(p(x))H = -\sum p(x)\log_2(p(x))H=−∑p(x)log2(p(x))
W praktyce:
H=0.5+0.5+0.5=1.5 bitaH = 0.5 + 0.5 + 0.5 = 1.5 \; bitaH=0.5+0.5+0.5=1.5bita
Oznacza to, że każda obserwacja niesie średnio 1,5 bita informacji. Gdyby wszystkie zdarzenia były równie prawdopodobne, entropia byłaby wyższa. Gdy jedno dominowałoby – niższa, bo system byłby bardziej przewidywalny.
Dlaczego to ma znaczenie dla AI?
Modele sztucznej inteligencji – w tym modele językowe – działają poprzez przewidywanie prawdopodobieństw. W każdej chwili oceniają, jakie słowo, decyzja lub akcja są najbardziej prawdopodobne.
Gdy model jest pewny swojej predykcji, entropia rozkładu jest niska. Gdy się „waha” – rośnie. Proces uczenia polega m.in. na minimalizowaniu tej niepewności w oparciu o dane. W tym sensie model językowy nie „rozumie” tekstu w ludzkim znaczeniu, ale skutecznie redukuje niepewność – dokładnie tak, jak opisuje to teoria informacji.
Dlaczego uczymy tego na kierunku „sztuczna inteligencja w biznesie”?
Na kierunku sztuczna inteligencja w biznesie nie ograniczamy się do narzędzi i gotowych modeli. Oprócz zagadnień z obszaru zarządzania i psychologii ważną rolę odgrywają podstawy matematyki i informatyki – przedstawiane w przystępny, intuicyjny sposób. Teoria informacji jest jednym z najlepszych punktów wyjścia, ponieważ pokazuje, że u podstaw AI nie stoi „magia”, lecz bardzo konkretne pytanie: jak mierzyć niepewność i jak ją redukować za pomocą danych.
Dopiero na tym fundamencie pojawiają się kolejne zagadnienia – szum, redundancja, kompresja czy funkcje straty – ale już samo zrozumienie entropii daje solidne narzędzie do myślenia o danych, predykcjach i inteligentnych systemach.