Podržano učenje
Podržano učenje (engleski: reinforcement learning – RL) područje je mašinskog učenja koje se bavi time kako bi inteligentni agenti trebali odabrati akcije u okruženju kako bi maksimizirali pojam kumulativne nagrade. Podržano učenje jedan je od tri osnovne paradigme mašinskog učenja, uz nadzirano učenje i nenadzirano učenje.
Podržano učenje se razlikuje od nadziranog učenja po tome što ne zahtijeva prikazivanje označenih ulazno/izlaznih parova, kao ni obavezno ispravljanje ne baš najboljih akcija. Umjesto toga, fokus je na pronalaženju ravnoteže između istraživanja (nepoznatih područja) i iskorištavanja (trenutnog znanja).[1] Okruženje se obično izražava u obliku Markovljevog procesa odlučivanja (MDP) jer mnogi algoritmi podržanog učenja u ovom kontekstu koriste tehnike dinamičkog programiranja.[2]
Glavna razlika između klasičnih metoda dinamičkog programiranja i algoritama podržanog učenja je ta što podržano učenje ne pretpostavlja poznavanje tačnog matematičkog modela MDP-a i ciljaju na velike MDP-ove za koje tačne metode postaju nemoguće.
Formalizacija problema
urediOkolina
urediPodržano učenje se uglavnom definira kao Markovljev proces odlučivanja nazvan po ruskome matematičaru Markovu. Model je koncipiran kao skup stanja koja posjeduju sve informacije o sistemu odnosno okolini kojeg modeliraju. Svako od stanja omogućuje što preciznije predviđanje posljedica svake izvedene radnje. MDP se formalno zapisuje kao četverac , pri čemu je:
- : množina svih mogućih stanja.
- : množina svih mogućih radnji u svakom stanju.
- : vjerovatnost prelaza u stanje , pod pretpostavkom da se nalazimo u stanju i da je izvršena radnja .
- : nagrada / kazna
Strategija
urediCilj postupka je pronaći strategiju ponašanja (policy) π: , koja za svako stanje [3]:61 i akciju maksimizira očekivanu buduću nagradu. Strategija se može mijenjati tokom učenja ovisno o količini dobijenih nagrada.
Postoji nekoliko opcija za odabir akcije, na primjer:
- greedy: uvijek će biti izabrana najbolja akcija -
- ε-greedy: uglavnom će biti izabrana najbolja akcija, povremeno sa vjerovatnoćom ε bit će odabrana i nasumična akcija
Vrijednost funkcije
urediPostoje dvije slične varijante vrijednosti funkcije
- Funkcije vrijednosti stanja (state value function)
- Funkcije vrijednosti prelaza između stanja (state-action value function)
Funkcije vrijednosti definirane su kao alat za traženje maksimalne sume svih očekivanih nagrada pomoću sljedećeg algoritma:
- Čekaj nagradu u budućnosti s faktorom umanjenja γ:
- Uvažavajući stanja :
- Uvažavajući prelaze između stanja :
Također pogledajte
urediReference
uredi- ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. S2CID 1708582. Arhivirano s originala, 20. 11. 2001.
- ^ van Otterlo, M.; Wiering, M. (2012). Reinforcement learning and markov decision processes. Reinforcement Learning. Adaptation, Learning, and Optimization. 12. str. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
- ^ "Reinforcement learning: An introduction" (PDF). Arhivirano s originala (PDF), 12. 7. 2017. Pristupljeno 2. 4. 2023.
Dalje čitanje
uredi- Auer, Peter; Jaksch, Thomas; Ortner, Ronald (2010). "Near-optimal regret bounds for reinforcement learning". Journal of Machine Learning Research. 11: 1563–1600.
- Busoniu, Lucian; Babuska, Robert; De Schutter, Bart; Ernst, Damien (2010). Reinforcement Learning and Dynamic Programming using Function Approximators. Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4.
- François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "An Introduction to Deep Reinforcement Learning". Foundations and Trends in Machine Learning. 11 (3–4): 219–354. arXiv:1811.12560. Bibcode:2018arXiv181112560F. doi:10.1561/2200000071. S2CID 54434537.
- Powell, Warren (2011). Approximate dynamic programming: solving the curses of dimensionality. Wiley-Interscience. Arhivirano s originala, 31. 7. 2016. Pristupljeno 2. 4. 2023.
- Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement Learning: An Introduction (2 izd.). MIT Press. ISBN 978-0-262-03924-6.
- Sutton, Richard S. (1988). "Learning to predict by the method of temporal differences". Machine Learning. 3: 9–44. doi:10.1007/BF00115009. Arhivirano s originala, 30. 3. 2017. Pristupljeno 2. 4. 2023.
- Szita, Istvan; Szepesvari, Csaba (2010). "Model-based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds" (PDF). ICML 2010. Omnipress. str. 1031–1038. Arhivirano s originala (PDF), 14. 7. 2010.