Jak teoria Shannona uczy sztuczną inteligencję przewidywać świat? | Blog "okiem praktyków" | Uniwersytet WSB Merito: Kobieta  i mężczyzna przy laptopie

Jak teoria Shannona uczy sztuczną inteligencję przewidywać świat?

Sztuczna inteligencja nie „rozumie” świata w ludzkim sensie – przewiduje go na podstawie prawdopodobieństw. U podstaw tych działań leży teoria informacji Claude’a Shannona, która od 1948 roku pozwala matematycznie opisać niepewność i ilość informacji. To właśnie ona sprawia, że modele językowe potrafią generować sensowne wypowiedzi, przewidując kolejne słowa krok po kroku.

Kiedy mówimy o sztucznej inteligencji, często wyobrażamy sobie zaawansowane systemy „rozumiejące” język, generujące teksty, obrazy czy rekomendacje. Tymczasem u podstaw tych rozwiązań leży zaskakująco prosta idea sprzed ponad 70 lat – teoria informacji Claude’a Shannona. To ona odpowiada na fundamentalne pytanie: czym właściwie jest informacja i jak można ją mierzyć.

 

Co ciekawe, bez tej teorii nie istniałyby współczesne modele językowe. W pewnym sensie ten tekst powstał właśnie dlatego, że model, który go generuje, nauczył się przewidywać kolejne słowa na podstawie prawdopodobieństw. A to dokładnie ten sam mechanizm, który Shannon opisał matematycznie już w 1948 roku.

 

Warto jednak podkreślić, że teoria informacji jest znacznie szersza i obejmuje m.in. zagadnienia szumu, redundancji czy kompresji. W tym artykule skupiamy się na jednym jej kluczowym fragmencie – pojęciu informacji i entropii – bo to ono najlepiej pokazuje, jak matematyka „uczy” systemy sztucznej inteligencji efektywności.

 

Informacja jako redukcja niepewności

 

Intuicyjnie informację kojarzymy z treścią lub znaczeniem. Shannon zaproponował inne podejście – informacja nie zależy od sensu, lecz od niepewności. Im mniej wiemy o wyniku zdarzenia, tym więcej informacji niesie jego zajście.

 

Jeśli codziennie o tej samej porze wschodzi słońce, wiadomość „słońce dziś wzeszło” nie wnosi nic nowego. Natomiast zdarzenie rzadkie i nieoczekiwane znacząco redukuje niepewność – a więc niesie dużo informacji.

 

To podejście jest kluczowe dla sztucznej inteligencji. Modele nie „rozumieją” świata jak człowiek – operują na prawdopodobieństwach i uczą się przewidywać, co jest bardziej, a co mniej prawdopodobne.

 

Ilość informacji pojedynczego zdarzenia

 

Shannon zaproponował prosty wzór na ilość informacji niesioną przez jedno zdarzenie: I(x)=−log⁡2(p)I(x) = -\log_2(p)I(x)=−log2​(p) gdzie p oznacza prawdopodobieństwo zdarzenia.

 

Interpretacja jest intuicyjna – im częstsze zdarzenie, tym mniej informacji niesie. Im rzadsze – tym więcej. Przykład: rzut uczciwą monetą. I=−log⁡2(0.5)=1  bitI = -\log_2(0.5) = 1 \; bitI=−log2​(0.5)=1bit

 

Jedno losowanie dostarcza więc 1 bit informacji. Gdyby prawdopodobieństwo wynosiło 0,25:

I=−log⁡2(0.25)=2  bityI = -\log_2(0.25) = 2 \; bityI=−log2​(0.25)=2bity

 

Rzadsze zdarzenia niosą więcej informacji – są „cięższe” informacyjnie.

 

Entropia – średnia ilość informacji

 

W praktyce nie analizujemy pojedynczych zdarzeń, lecz całe źródła danych. Dlatego Shannon wprowadził pojęcie entropii – średniej ilości informacji generowanej przez system.

 

Można ją policzyć w kilku krokach:

  • wypisz wszystkie możliwe zdarzenia,
  • przypisz im prawdopodobieństwa,
  • oblicz wartość −p · log₂(p),
  • zsumuj wyniki.

 

Przykład: zachowania użytkowników na stronie

 

Załóżmy trzy możliwe zdarzenia:

A – zakup,
B – dodanie do koszyka,
C – wyjście ze strony.

 

Prawdopodobieństwa:

p(A) = 0,5
p(B) = 0,25
p(C) = 0,25

 

Entropia wynosi:

H=−∑p(x)log⁡2(p(x))H = -\sum p(x)\log_2(p(x))H=−∑p(x)log2​(p(x))

 

W praktyce:

H=0.5+0.5+0.5=1.5  bitaH = 0.5 + 0.5 + 0.5 = 1.5 \; bitaH=0.5+0.5+0.5=1.5bita

 

Oznacza to, że każda obserwacja niesie średnio 1,5 bita informacji. Gdyby wszystkie zdarzenia były równie prawdopodobne, entropia byłaby wyższa. Gdy jedno dominowałoby – niższa, bo system byłby bardziej przewidywalny.

 

Dlaczego to ma znaczenie dla AI?

 

Modele sztucznej inteligencji – w tym modele językowe – działają poprzez przewidywanie prawdopodobieństw. W każdej chwili oceniają, jakie słowo, decyzja lub akcja są najbardziej prawdopodobne.

 

Gdy model jest pewny swojej predykcji, entropia rozkładu jest niska. Gdy się „waha” – rośnie. Proces uczenia polega m.in. na minimalizowaniu tej niepewności w oparciu o dane. W tym sensie model językowy nie „rozumie” tekstu w ludzkim znaczeniu, ale skutecznie redukuje niepewność – dokładnie tak, jak opisuje to teoria informacji.

 

Dlaczego uczymy tego na kierunku „sztuczna inteligencja w biznesie”?

 

Na kierunku sztuczna inteligencja w biznesie nie ograniczamy się do narzędzi i gotowych modeli. Oprócz zagadnień z obszaru zarządzania i psychologii ważną rolę odgrywają podstawy matematyki i informatyki – przedstawiane w przystępny, intuicyjny sposób. Teoria informacji jest jednym z najlepszych punktów wyjścia, ponieważ pokazuje, że u podstaw AI nie stoi „magia”, lecz bardzo konkretne pytanie: jak mierzyć niepewność i jak ją redukować za pomocą danych.

 

Dopiero na tym fundamencie pojawiają się kolejne zagadnienia – szum, redundancja, kompresja czy funkcje straty – ale już samo zrozumienie entropii daje solidne narzędzie do myślenia o danych, predykcjach i inteligentnych systemach.

Merito placeholder
Grzegorz Sojka
  • Grzegorz Sojka prowadzi badania w psychologii biznesu, ekonomicznej i wpływu AI na te dziedziny. Jego zainteresowania naukowe skupiają się na decyzjach ekonomicznych i innowacjach.

  • Rozpoczął karierę w korporacjach, m.in. Samsung R&D i Play, a następnie realizował własne startupy i projekty IT dla klientów, efektywnie tworząc nowe przedsięwzięcia.

  • Stworzył od zera startup zatrudniający kilkanaście osób na etacie. Ma dwa exity w projektach wycenianych na wiele milionów złotych.

  • Łączy umiejętności programistyczne, zarządzania projektami i badań psychologicznych. Skutecznie wspiera startupy w rozwoju, analizując potrzeby użytkowników.

Masz wątpliwości?

Nie wiesz, który kierunek jest dla Ciebie?

Już wiesz, co chcesz studiować?

Wypełnij krótki formularz i rozpocznij proces rekrutacji