Podržano učenje

Podržano učenje (engleski: reinforcement learning – RL) područje je mašinskog učenja koje se bavi time kako bi inteligentni agenti trebali odabrati akcije u okruženju kako bi maksimizirali pojam kumulativne nagrade. Podržano učenje jedan je od tri osnovne paradigme mašinskog učenja, uz nadzirano učenje i nenadzirano učenje.

Podržano učenje se razlikuje od nadziranog učenja po tome što ne zahtijeva prikazivanje označenih ulazno/izlaznih parova, kao ni obavezno ispravljanje ne baš najboljih akcija. Umjesto toga, fokus je na pronalaženju ravnoteže između istraživanja (nepoznatih područja) i iskorištavanja (trenutnog znanja).^[1] Okruženje se obično izražava u obliku Markovljevog procesa odlučivanja (MDP) jer mnogi algoritmi podržanog učenja u ovom kontekstu koriste tehnike dinamičkog programiranja.^[2]

Glavna razlika između klasičnih metoda dinamičkog programiranja i algoritama podržanog učenja je ta što podržano učenje ne pretpostavlja poznavanje tačnog matematičkog modela MDP-a i ciljaju na velike MDP-ove za koje tačne metode postaju nemoguće.

Formalizacija problema

Okolina

Podržano učenje se uglavnom definira kao Markovljev proces odlučivanja nazvan po ruskome matematičaru Markovu. Model je koncipiran kao skup stanja koja posjeduju sve informacije o sistemu odnosno okolini kojeg modeliraju. Svako od stanja omogućuje što preciznije predviđanje posljedica svake izvedene radnje. MDP se formalno zapisuje kao četverac $(S,A(s),P(s'|s,a),R(s,s',a))$ , pri čemu je:

$S$ : množina svih mogućih stanja.
$A(s)$ : množina svih mogućih radnji u svakom stanju. $s\in S$
$P(s'|s,a)$ : vjerovatnost prelaza u stanje $s'$ , pod pretpostavkom da se nalazimo u stanju $s$ i da je izvršena radnja $a\in A(s)$ .
$R(s,s',a)$ : nagrada / kazna

Strategija

Cilj postupka je pronaći strategiju ponašanja (policy) π: $s\in S\rightarrow a\in A(s)$ , koja za svako stanje $s$ ^[3]^:61 i akciju $a$ maksimizira očekivanu buduću nagradu. Strategija se može mijenjati tokom učenja ovisno o količini dobijenih nagrada.

Postoji nekoliko opcija za odabir akcije, na primjer:

greedy: uvijek će biti izabrana najbolja akcija - $\pi (s)=\arg \max _{a}Q(s,a)$
ε-greedy: uglavnom će biti izabrana najbolja akcija, povremeno sa vjerovatnoćom ε bit će odabrana i nasumična akcija

Vrijednost funkcije

Postoje dvije slične varijante vrijednosti funkcije

Funkcije vrijednosti stanja $V(s)$ (state value function)
Funkcije vrijednosti prelaza između stanja $Q(s,a)$ (state-action value function)

Funkcije vrijednosti definirane su kao alat za traženje maksimalne sume svih očekivanih nagrada pomoću sljedećeg algoritma:

Čekaj nagradu u budućnosti s faktorom umanjenja γ:
- Uvažavajući stanja $s\in S$ : $V^{\pi }(s)=E\{rt+1+\gamma rt+2+\gamma ^{2}rt+3+...|st=s,\pi \}$
- Uvažavajući prelaze između stanja $s\in S,a\in A(s)$ : $Q^{\pi }(s,a)=E\{rt+1+\gamma rt+2+\gamma 2rt+3+...|st=s,at=a,\pi \}$