Jak teoria Shannona uczy sztuczną inteligencję przewidywać świat?

Grzegorz Sojka

Artykuł

Biznes

Innowacje/trendy

Technologia

4 min

08.05.2026

Sztuczna inteligencja nie „rozumie” świata w ludzkim sensie – przewiduje go na podstawie prawdopodobieństw. U podstaw tych działań leży teoria informacji Claude’a Shannona, która od 1948 roku pozwala matematycznie opisać niepewność i ilość informacji. To właśnie ona sprawia, że modele językowe potrafią generować sensowne wypowiedzi, przewidując kolejne słowa krok po kroku.

Kiedy mówimy o sztucznej inteligencji, często wyobrażamy sobie zaawansowane systemy „rozumiejące” język, generujące teksty, obrazy czy rekomendacje. Tymczasem u podstaw tych rozwiązań leży zaskakująco prosta idea sprzed ponad 70 lat – teoria informacji Claude’a Shannona. To ona odpowiada na fundamentalne pytanie: czym właściwie jest informacja i jak można ją mierzyć.

Co ciekawe, bez tej teorii nie istniałyby współczesne modele językowe. W pewnym sensie ten tekst powstał właśnie dlatego, że model, który go generuje, nauczył się przewidywać kolejne słowa na podstawie prawdopodobieństw. A to dokładnie ten sam mechanizm, który Shannon opisał matematycznie już w 1948 roku.

Warto jednak podkreślić, że teoria informacji jest znacznie szersza i obejmuje m.in. zagadnienia szumu, redundancji czy kompresji. W tym artykule skupiamy się na jednym jej kluczowym fragmencie – pojęciu informacji i entropii – bo to ono najlepiej pokazuje, jak matematyka „uczy” systemy sztucznej inteligencji efektywności.

Informacja jako redukcja niepewności

Intuicyjnie informację kojarzymy z treścią lub znaczeniem. Shannon zaproponował inne podejście – informacja nie zależy od sensu, lecz od niepewności. Im mniej wiemy o wyniku zdarzenia, tym więcej informacji niesie jego zajście.

Jeśli codziennie o tej samej porze wschodzi słońce, wiadomość „słońce dziś wzeszło” nie wnosi nic nowego. Natomiast zdarzenie rzadkie i nieoczekiwane znacząco redukuje niepewność – a więc niesie dużo informacji.

To podejście jest kluczowe dla sztucznej inteligencji. Modele nie „rozumieją” świata jak człowiek – operują na prawdopodobieństwach i uczą się przewidywać, co jest bardziej, a co mniej prawdopodobne.

Ilość informacji pojedynczego zdarzenia

Shannon zaproponował prosty wzór na ilość informacji niesioną przez jedno zdarzenie: I(x)=−log⁡2(p)I(x) = -\log_2(p)I(x)=−log2(p) gdzie p oznacza prawdopodobieństwo zdarzenia.

Interpretacja jest intuicyjna – im częstsze zdarzenie, tym mniej informacji niesie. Im rzadsze – tym więcej. Przykład: rzut uczciwą monetą. I=−log⁡2(0.5)=1 bitI = -\log_2(0.5) = 1 \; bitI=−log2(0.5)=1bit

Jedno losowanie dostarcza więc 1 bit informacji. Gdyby prawdopodobieństwo wynosiło 0,25:

I=−log⁡2(0.25)=2 bityI = -\log_2(0.25) = 2 \; bityI=−log2(0.25)=2bity

Rzadsze zdarzenia niosą więcej informacji – są „cięższe” informacyjnie.

Entropia – średnia ilość informacji

W praktyce nie analizujemy pojedynczych zdarzeń, lecz całe źródła danych. Dlatego Shannon wprowadził pojęcie entropii – średniej ilości informacji generowanej przez system.

Można ją policzyć w kilku krokach:

wypisz wszystkie możliwe zdarzenia,
przypisz im prawdopodobieństwa,
oblicz wartość −p · log₂(p),
zsumuj wyniki.

Przykład: zachowania użytkowników na stronie

Załóżmy trzy możliwe zdarzenia:

A – zakup,
B – dodanie do koszyka,
C – wyjście ze strony.

Prawdopodobieństwa:

p(A) = 0,5
p(B) = 0,25
p(C) = 0,25

Entropia wynosi:

H=−∑p(x)log⁡2(p(x))H = -\sum p(x)\log_2(p(x))H=−∑p(x)log2(p(x))

W praktyce:

H=0.5+0.5+0.5=1.5 bitaH = 0.5 + 0.5 + 0.5 = 1.5 \; bitaH=0.5+0.5+0.5=1.5bita

Oznacza to, że każda obserwacja niesie średnio 1,5 bita informacji. Gdyby wszystkie zdarzenia były równie prawdopodobne, entropia byłaby wyższa. Gdy jedno dominowałoby – niższa, bo system byłby bardziej przewidywalny.

Dlaczego to ma znaczenie dla AI?

Modele sztucznej inteligencji – w tym modele językowe – działają poprzez przewidywanie prawdopodobieństw. W każdej chwili oceniają, jakie słowo, decyzja lub akcja są najbardziej prawdopodobne.

Gdy model jest pewny swojej predykcji, entropia rozkładu jest niska. Gdy się „waha” – rośnie. Proces uczenia polega m.in. na minimalizowaniu tej niepewności w oparciu o dane. W tym sensie model językowy nie „rozumie” tekstu w ludzkim znaczeniu, ale skutecznie redukuje niepewność – dokładnie tak, jak opisuje to teoria informacji.

Dlaczego uczymy tego na kierunku „sztuczna inteligencja w biznesie”?

Na kierunku sztuczna inteligencja w biznesie nie ograniczamy się do narzędzi i gotowych modeli. Oprócz zagadnień z obszaru zarządzania i psychologii ważną rolę odgrywają podstawy matematyki i informatyki – przedstawiane w przystępny, intuicyjny sposób. Teoria informacji jest jednym z najlepszych punktów wyjścia, ponieważ pokazuje, że u podstaw AI nie stoi „magia”, lecz bardzo konkretne pytanie: jak mierzyć niepewność i jak ją redukować za pomocą danych.

Dopiero na tym fundamencie pojawiają się kolejne zagadnienia – szum, redundancja, kompresja czy funkcje straty – ale już samo zrozumienie entropii daje solidne narzędzie do myślenia o danych, predykcjach i inteligentnych systemach.