EITC/AI/ARL Advanced Reinforcement Learning

by Akademija EITCA / Nedelja, 07 februar 2021 / Objavljeno v

Trenutni Status

Ni vpisano

Cena

€110.00

Odkrij več

Vpišite se na to potrdilo

EITC/AI/ARL Advanced Reinforcement Learning je evropski certifikacijski program IT za DeepMindov pristop k učenju s krepitvijo v umetni inteligenci.

Kurikulum EITC/AI/ARL Advanced Reinforcement Learning se osredotoča na teoretične vidike in praktične spretnosti v tehnikah učenja s krepitvijo z vidika DeepMinda, ki je organiziran v naslednji strukturi, ki zajema obsežno video didaktično vsebino kot referenco za ta certifikat EITC.

Okrepitveno učenje (RL) je področje strojnega učenja, ki se ukvarja s tem, kako bi morali inteligentni agenti ukrepati v okolju, da bi povečali pojem kumulativne nagrade. Okrepitveno učenje je ena od treh osnovnih paradigem strojnega učenja, poleg nadzorovanega učenja in nenadzorovanega učenja.

Okrepitveno učenje se od nadzorovanega učenja razlikuje po tem, da ni treba predstaviti označenih vhodno/izhodnih parov in po tem, da ni treba izrecno popraviti neoptimalnih ukrepov. Namesto tega je poudarek na iskanju ravnovesja med raziskovanjem (neznanega ozemlja) in izkoriščanjem (trenutnega znanja).

Okolje je običajno navedeno v obliki Markovevega odločitvenega procesa (MDP), ker mnogi algoritmi za okrepitev učenja za ta kontekst uporabljajo tehnike dinamičnega programiranja. Glavna razlika med klasičnimi metodami dinamičnega programiranja in algoritmi za ojačitveno učenje je v tem, da slednji ne predvidevajo znanja natančnega matematičnega modela MDP in ciljajo na velike MDP, kjer natančne metode postanejo neizvedljive.

Zaradi svoje splošnosti se učenje okrepitve preučuje v številnih disciplinah, kot so teorija iger, teorija nadzora, operacijske raziskave, teorija informacij, optimizacija na podlagi simulacij, sistemi z več agenti, inteligenca rojev in statistika. V literaturi o operativnih raziskavah in kontroli se učenje okrepitve imenuje približno dinamično programiranje ali nevro-dinamično programiranje. Težave, ki nas zanimajo pri učenju ojačitve, so preučevali tudi v teoriji optimalnega nadzora, ki se ukvarja predvsem z obstojem in karakterizacijo optimalnih rešitev ter algoritmi za njihovo natančno računanje, manj pa z učenjem ali približevanjem, zlasti če ni matematični model okolja. V ekonomiji in teoriji iger lahko s pomočjo ojačevalnega učenja razložimo, kako lahko nastane ravnotežje v omejeni racionalnosti.

Osnovna ojačitev je oblikovana kot Markovov postopek odločanja (MDP). V matematiki je postopek odločanja po Markovu (MDP) proces stohastičnega nadzora v diskretnem času. Zagotavlja matematični okvir za modeliranje odločanja v situacijah, ko so rezultati delno naključni in deloma pod nadzorom odločevalca. MDP so uporabni za preučevanje optimizacijskih problemov, rešenih z dinamičnim programiranjem. MDP so bili znani vsaj že v petdesetih letih prejšnjega stoletja. Jedro raziskav o postopkih odločanja o Markovu je nastalo iz knjige Ronalda Howarda iz leta 1950, Dynamic Programming and Markov Processes. Uporabljajo se v številnih disciplinah, vključno z robotiko, avtomatskim upravljanjem, ekonomiko in proizvodnjo. Ime MDP-jev prihaja od ruskega matematika Andreja Markova, saj so podaljšek markovskih verig.

Na vsakem časovnem koraku je postopek v nekem stanju S in odločevalec lahko izbere katero koli dejanje a, ki je na voljo v stanju S. Proces se v naslednjem časovnem koraku odzove z naključnim prehodom v novo stanje S 'in poda odločevalec ustrezno nagrado Ra (S, S ').

Na verjetnost, da se proces premakne v novo stanje S ', vpliva izbrano dejanje a. Natančneje, podana je s funkcijo prehoda stanja Pa (S, S '). Tako je naslednje stanje S 'odvisno od trenutnega stanja S in dejanja odločevalca a. Toda glede na S in a je pogojno neodvisna od vseh prejšnjih stanj in dejanj. Z drugimi besedami, državni prehodi MDP zadovoljujejo lastnost Markov.

Markovovi odločitveni procesi so podaljšek markovskih verig; razlika je v dodajanju dejanj (omogočanje izbire) in nagrad (dajanje motivacije). Nasprotno, če obstaja samo eno dejanje za vsako državo (npr. »Počakaj«) in so vse nagrade enake (npr. »Nič«), se postopek odločitve Markov zmanjša na markovsko verigo.

Ukrep za okrepitev učenja sodeluje s svojim okoljem v ločenih časovnih korakih. Ob vsakem času t agent prejme trenutno stanje S (t) in nagrado r (t). Nato med naborom razpoložljivih dejanj izbere dejanje a (t), ki se nato pošlje v okolje. Okolje se premakne v novo stanje S (t + 1) in nagrada r (t + 1), povezana s prehodom, se določi. Cilj učnega sredstva za okrepitev je naučiti se politike, ki maksimizira pričakovano kumulativno nagrado.

Oblikovanje problema kot MDP predvideva, da agent neposredno opazuje trenutno stanje okolja. V tem primeru naj bi imel problem popolno opaznost. Če ima agent dostop samo do podskupine stanj ali če opazovana stanja poškoduje hrup, naj bi imel agent delno opazljivost, formalno pa bi moral biti problem oblikovan kot delno opazen postopek odločanja Markov. V obeh primerih je mogoče omejiti nabor dejanj, ki so na voljo agentu. Na primer, stanje na računu lahko omejimo na pozitivno; če je trenutna vrednost stanja 3 in prehod stanja poskuša zmanjšati vrednost za 4, prehod ne bo dovoljen.

Ko primerjamo uspešnost agenta in uspešnosti agenta, ki deluje optimalno, razlika v uspešnosti poraja pojem obžalovanja. Da bi zastopnik deloval skorajda optimalno, mora obrazložiti dolgoročne posledice svojih dejanj (tj. Maksimirati prihodnji dohodek), čeprav je neposredna nagrada, povezana s tem, lahko negativna.

Tako je učenje okrepitve še posebej primerno za težave, ki vključujejo dolgoročno in kratkoročno kompromisno nagrado. Uspešno se uporablja za različne težave, vključno z nadzorom robota, razporedom dvigal, telekomunikacijami, backgammonom, damaji in Go (AlphaGo).

Dva elementa omogočata učenje ojačitve zmogljivo: uporaba vzorcev za optimizacijo zmogljivosti in uporaba približevanja funkcij za reševanje velikih okolij. Zahvaljujoč tem dvema ključnima komponentama se učenje okrepitve lahko uporablja v velikih okoljih v naslednjih situacijah:

Znan je model okolja, analitična rešitev pa ni na voljo.
Podan je le simulacijski model okolja (predmet simulacijske optimizacije).
Edini način zbiranja informacij o okolju je interakcija z njim.

Prva dva od teh problemov bi lahko šteli za problemi načrtovanja (ker je na voljo neka oblika modela), zadnji pa bi lahko veljali za resnični učni problem. Vendar pa okrepljeno učenje pretvori oba problema načrtovanja v težave strojnega učenja.

Kompromis raziskovanja in izkoriščanja je bil najbolj temeljito preučen s problemom večrokih razbojnikov in za MDP končnih držav v Burnetas in Katehakis (1997).

Okrepitveno učenje zahteva pametne mehanizme raziskovanja; naključno izbiranje dejanj brez sklicevanja na ocenjeno porazdelitev verjetnosti kaže na slabo delovanje. Primer (majhnih) končnih procesov odločanja po Markovu je razmeroma dobro razumljen. Zaradi pomanjkanja algoritmov, ki se dobro prilagajajo številu stanj (ali pa se razširijo na težave z neskončnimi prostorskimi prostori), so najbolj uporabne preproste metode raziskovanja.

Tudi če se vprašanje raziskovanja ne upošteva in čeprav je bilo stanje opaziti, ostaja težava uporabiti pretekle izkušnje, da bi ugotovili, kateri ukrepi vodijo k večjim kumulativnim nagradam.

Da bi se podrobneje seznanili s kurikulumom certificiranja, lahko razširite in analizirate spodnjo tabelo.

EITC/AI/ARL Advanced Reinforcement Learning Certification Curriculum se sklicuje na prosto dostopna didaktična gradiva v video obliki. Učni proces je razdeljen na strukturo po korakih (programi -> lekcije -> teme), ki zajema ustrezne dele učnega načrta. Zagotovljeno je tudi neomejeno svetovanje s strokovnjaki za področje.
Za podrobnosti o postopku certificiranja preverite Kako deluje.

Referenčni viri za kurikulum

Nadzor na človeški ravni s pomočjo publikacije Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning

Tečaj z odprtim dostopom o učenju globokih okrepitev na UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/

RL je bil uporabljen za problem K-armeded bandit iz Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning

Prenesite celotno pripravljalno gradivo za samoučenje brez povezave za program EITC/AI/ARL Advanced Reinforcement Learning v datoteki PDF

Pripravljalni materiali EITC/AI/ARL – standardna različica

Pripravljalna gradiva EITC/AI/ARL – razširjena različica z vprašanji za pregled