Skip to main content
Multi agent banner
Ingenieurswese en tegnologie

Samewerkende multi-agent versterkingsleer in 3D-omgewings met min belonings en gedeeltelike sigbaarheid

Robert Kellerman
Content Creator
09 April 2026
  • Hierdie blog fokus op hoe samewerkende multi-agent versterkingsleer (MARL) verbeter kan word in komplekse 3D-omgewings waar agents beperkte inligting en min belonings ontvang. Die navorsing gebruik ’n Portal 2-geïnspireerde simulasie waar twee robotte moet saamwerk om take suksesvol te voltooi.
  • Deur bestaande algoritmes aan te pas en tegnieke soos parallelle leer, geheue (LSTM) en kurrikulumleer toe te pas, kon die agents leer om effektief saam te werk en hul kennis na moeiliker take oordra.
  • Die studie wys dat met die regte benadering, multi-agent stelsels beter samewerking kan aanleer, wat belangrik is vir werklike toepassings soos robotika en outonome stelsels.

Versterkingsleer (RL) presteer reeds beter as top spelers in bordspeletjies en klassieke videospeletjies. Die volgende groot stap is om hierdie individuele suksesse na werklike spanwerk uit te brei. Baie algoritmes wat vir enkel-agents ontwerp is, faal egter wanneer verskeie agents moet saamwerk—veral in 3D-omgewings waar elke agent net ’n deel van die omgewing kan sien.

De Wet Denkema se meestersnavorsing, onder leiding van professor Herman Engelbrecht, spreek hierdie uitdaging aan. Die studie pas onlangse vooruitgang in enkel-agent leer aan vir multi-taak, samewerkende multi-agent versterkingsleer (MARL) binne ’n simulasie geïnspireer deur Portal 2. Twee virtuele robotte moet knoppies druk, portale skep en in die regte volgorde daardeur beweeg voordat die tyd opraak. Min belonings, beperkte sigbaarheid en streng volgorde van take maak dit ’n uitdagende toets vir spanwerk.

Bou van die toetsomgewing

Die navorsing het verskeie speletjie-enjins geëvalueer en uiteindelik ’n Portal 2-omgewing gekies, waarin ’n reeks legkaarte geskep is wat geleidelik meer kompleks word. Elke scenario hou die aksies eenvoudig—beweeg, spring, plaas ’n portaal—maar vereis langtermyngeheue en gesamentlike beplanning.

Hierdie opstelling dien as ’n realistiese maatstaf vir werklike toepassings, soos robotte in pakhuise wat ruimtes deel of hommeltuie wat aflewerings koördineer.

Die kernmodel en verbeterings

Die hoofalgoritme is QMIX, ’n waarde-gebaseerde MARL-metode. Om die prestasie te verbeter, is die volgende bygevoeg:

  • Ontkoppelde prosesse wat parallel ervaring versamel, wat leerdata vermeerder
  • Geprioritiseerde ervaring-herhaling sodat die model meer leer uit belangrike ervarings
  • Herhalende “burn-in” om die LSTM-geheue voldoende konteks te gee
  • Beloningstandaardisering en n-stap opbrengste vir stabiele leer

Noisy networks en herskaling van waardefunksies is ook getoets, maar het prestasie verswak en is uiteindelik verwyder. Verdere ontleding het bevestig dat die oorblywende kombinasie noodsaaklik is vir sukses.

Portal Game

Merkers

Tegnologie

Verwante stories