▷ UC Berkeleyn tutkijat esittelevät Video Prediction Rewards (VIPER): Algoritmi, joka hyödyntää valmiiksi koulutettuja videoennustusmalleja toimimattomina palkintosignaaleina vahvistavaan oppimiseen

Seuraava artikkeli auttaa sinua: UC Berkeleyn tutkijat esittelevät Video Prediction Rewards (VIPER): Algoritmi, joka hyödyntää valmiiksi koulutettuja videoennustusmalleja toimimattomina palkintosignaaleina vahvistavaan oppimiseen

Palkitsemistoiminnon suunnitteleminen käsin on aikaa vievää ja voi johtaa tahattomiin seurauksiin. Tämä on merkittävä este kehitettäessä vahvistusoppimiseen (RL) perustuvia yleisiä päätöksentekoagentteja.

Aiemmat videopohjaiset oppimismenetelmät ovat palkitaneet agentteja, joiden nykyiset havainnot ovat eniten asiantuntijoiden havaintoja. He eivät voi vangita mielekkäitä toimintoja läpi ajan, koska palkkiot ovat riippuvaisia vain nykyisestä havainnosta. Ja yleistämistä estävät kontradiktoriset harjoitustekniikat, jotka johtavat tilan romahtamiseen.

UC Berkeleyn tutkijat ovat kehittäneet uuden menetelmän kannustimien poimimiseksi videon ennustemalleista nimeltään Video Prediction incentives for remement learning (VIPER). VIPER voi oppia palkitsemisfunktioita raakaelokuvista ja yleistää kouluttamattomille aloille.

Ensinnäkin VIPER käyttää asiantuntijoiden luomia elokuvia ennustemallin kouluttamiseen. Videoennustusmallia käytetään sitten agentin kouluttamiseen vahvistusoppimiseen agenttien liikeratojen log-todennäköisyyden optimoimiseksi. Agentin liikeratojen jakauma tulee minimoida vastaamaan videomallin jakaumaa. Käyttämällä videomallin todennäköisyyksiä suoraan palkkiosignaalina, agentti voidaan kouluttaa seuraamaan videomallin kaltaista liikeradan jakautumista. Toisin kuin havainnointitason palkkiot, videomallien tarjoamat palkkiot ilmaisevat käyttäytymisen ajallisen johdonmukaisuuden. Se mahdollistaa myös nopeammat harjoitteluajat ja suuremman vuorovaikutuksen ympäristön kanssa, koska todennäköisyyksien arviointi on paljon nopeampaa kuin videomallien käyttöönotto.

15 DMC-tehtävän, 6 RLBench-tehtävän ja 7 Atari-tehtävän kesken tiimi suorittaa perusteellisen tutkimuksen ja osoittaa, että VIPER voi saavuttaa asiantuntijatason hallinnan ilman tehtäväpalkkioita. Tulosten mukaan VIPER-koulutuksen saaneet RL-agentit voittivat vastustajallisen jäljittelyoppimisen kautta linjan. Koska VIPER on integroitu asetukseen, sillä ei ole väliä, mitä RL-agenttia käytetään. Videomallit ovat jo yleistettävissä käsi/tehtäväyhdistelmiin, joita ei tavata harjoituksen aikana, jopa pienissä tietojoukoissa.

Tutkijat uskovat, että suurten, valmiiksi koulutettujen ehdollisten videomallien käyttö mahdollistaa joustavammat palkitsemistoiminnot. Viimeaikaisten generatiivisen mallinnuksen läpimurtojen avulla he uskovat, että heidän työnsä tarjoaa yhteisölle perustan skaalautuvalle palkkiomäärittelylle etiketöimättömistä elokuvista.

🔥 Empfohlen: Interaction To Next Paint (INP): kaikki mitä sinun tarvitsee tietää