Podržano učenje

polje mašinskog učenja

Podržano učenje (engleski: reinforcement learning – RL) područje je mašinskog učenja koje se bavi time kako bi inteligentni agenti trebali odabrati akcije u okruženju kako bi maksimizirali pojam kumulativne nagrade. Podržano učenje jedan je od tri osnovne paradigme mašinskog učenja, uz nadzirano učenje i nenadzirano učenje.

Tipični scenarij u podržanom učenju: Agent poduzima akcuiju u okruženju koje se protumači u nagradu i prikaz stanja koje se šalje nazad agentu.

Podržano učenje se razlikuje od nadziranog učenja po tome što ne zahtijeva prikazivanje označenih ulazno/izlaznih parova, kao ni obavezno ispravljanje ne baš najboljih akcija. Umjesto toga, fokus je na pronalaženju ravnoteže između istraživanja (nepoznatih područja) i iskorištavanja (trenutnog znanja).[1] Okruženje se obično izražava u obliku Markovljevog procesa odlučivanja (MDP) jer mnogi algoritmi podržanog učenja u ovom kontekstu koriste tehnike dinamičkog programiranja.[2]

Glavna razlika između klasičnih metoda dinamičkog programiranja i algoritama podržanog učenja je ta što podržano učenje ne pretpostavlja poznavanje tačnog matematičkog modela MDP-a i ciljaju na velike MDP-ove za koje tačne metode postaju nemoguće.

Formalizacija problema

uredi

Okolina

uredi

Podržano učenje se uglavnom definira kao Markovljev proces odlučivanja nazvan po ruskome matematičaru Markovu. Model je koncipiran kao skup stanja koja posjeduju sve informacije o sistemu odnosno okolini kojeg modeliraju. Svako od stanja omogućuje što preciznije predviđanje posljedica svake izvedene radnje. MDP se formalno zapisuje kao četverac  , pri čemu je:

  •  : množina svih mogućih stanja.
  •  : množina svih mogućih radnji u svakom stanju.  
  •  : vjerovatnost prelaza u stanje  , pod pretpostavkom da se nalazimo u stanju   i da je izvršena radnja  .
  •  : nagrada / kazna

Strategija

uredi

Cilj postupka je pronaći strategiju ponašanja (policy) π:  , koja za svako stanje  [3]:61 i akciju   maksimizira očekivanu buduću nagradu. Strategija se može mijenjati tokom učenja ovisno o količini dobijenih nagrada.

Postoji nekoliko opcija za odabir akcije, na primjer:

  • greedy: uvijek će biti izabrana najbolja akcija -  
  • ε-greedy: uglavnom će biti izabrana najbolja akcija, povremeno sa vjerovatnoćom ε bit će odabrana i nasumična akcija

Vrijednost funkcije

uredi

Postoje dvije slične varijante vrijednosti funkcije

  • Funkcije vrijednosti stanja   (state value function)
  • Funkcije vrijednosti prelaza između stanja   (state-action value function)

Funkcije vrijednosti definirane su kao alat za traženje maksimalne sume svih očekivanih nagrada pomoću sljedećeg algoritma:

  • Čekaj nagradu u budućnosti s faktorom umanjenja γ:
    • Uvažavajući stanja  :  
    • Uvažavajući prelaze između stanja  :  

Također pogledajte

uredi

Reference

uredi
  1. ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. S2CID 1708582. Arhivirano s originala, 20. 11. 2001.
  2. ^ van Otterlo, M.; Wiering, M. (2012). Reinforcement learning and markov decision processes. Reinforcement Learning. Adaptation, Learning, and Optimization. 12. str. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
  3. ^ "Reinforcement learning: An introduction" (PDF). Arhivirano s originala (PDF), 12. 7. 2017. Pristupljeno 2. 4. 2023.

Dalje čitanje

uredi