Samewerkende multi-agent versterkingsleer in 3D-omgewings met min belonings en gedeeltelike sigbaarheid

Robert Kellerman

Content Creator

09 April 2026

Hierdie blog fokus op hoe samewerkende multi-agent versterkingsleer (MARL) verbeter kan word in komplekse 3D-omgewings waar agents beperkte inligting en min belonings ontvang. Die navorsing gebruik ’n Portal 2-geïnspireerde simulasie waar twee robotte moet saamwerk om take suksesvol te voltooi.
Deur bestaande algoritmes aan te pas en tegnieke soos parallelle leer, geheue (LSTM) en kurrikulumleer toe te pas, kon die agents leer om effektief saam te werk en hul kennis na moeiliker take oordra.
Die studie wys dat met die regte benadering, multi-agent stelsels beter samewerking kan aanleer, wat belangrik is vir werklike toepassings soos robotika en outonome stelsels.

Versterkingsleer (RL) presteer reeds beter as top spelers in bordspeletjies en klassieke videospeletjies. Die volgende groot stap is om hierdie individuele suksesse na werklike spanwerk uit te brei. Baie algoritmes wat vir enkel-agents ontwerp is, faal egter wanneer verskeie agents moet saamwerk—veral in 3D-omgewings waar elke agent net ’n deel van die omgewing kan sien.

De Wet Denkema se meestersnavorsing, onder leiding van professor Herman Engelbrecht, spreek hierdie uitdaging aan. Die studie pas onlangse vooruitgang in enkel-agent leer aan vir multi-taak, samewerkende multi-agent versterkingsleer (MARL) binne ’n simulasie geïnspireer deur Portal 2. Twee virtuele robotte moet knoppies druk, portale skep en in die regte volgorde daardeur beweeg voordat die tyd opraak. Min belonings, beperkte sigbaarheid en streng volgorde van take maak dit ’n uitdagende toets vir spanwerk.

Bou van die toetsomgewing

Die navorsing het verskeie speletjie-enjins geëvalueer en uiteindelik ’n Portal 2-omgewing gekies, waarin ’n reeks legkaarte geskep is wat geleidelik meer kompleks word. Elke scenario hou die aksies eenvoudig—beweeg, spring, plaas ’n portaal—maar vereis langtermyngeheue en gesamentlike beplanning.

Hierdie opstelling dien as ’n realistiese maatstaf vir werklike toepassings, soos robotte in pakhuise wat ruimtes deel of hommeltuie wat aflewerings koördineer.

Die kernmodel en verbeterings

Die hoofalgoritme is QMIX, ’n waarde-gebaseerde MARL-metode. Om die prestasie te verbeter, is die volgende bygevoeg:

Ontkoppelde prosesse wat parallel ervaring versamel, wat leerdata vermeerder
Geprioritiseerde ervaring-herhaling sodat die model meer leer uit belangrike ervarings
Herhalende “burn-in” om die LSTM-geheue voldoende konteks te gee
Beloningstandaardisering en n-stap opbrengste vir stabiele leer

Noisy networks en herskaling van waardefunksies is ook getoets, maar het prestasie verswak en is uiteindelik verwyder. Verdere ontleding het bevestig dat die oorblywende kombinasie noodsaaklik is vir sukses.

Merkers

Tegnologie

Verwante stories

Ingenieurswese en tegnologie

’n Slimmer Manier om Huisenergie Tydens Beurtkrag te Bestuur

Vir baie Suid-Afrikaanse huishoudings met sonpanele en batterye lê die moeilike deel nie by die installasie van die hardeware nie. Die moeiliker deel is om te...

Lees verder

Ingenieurswese en tegnologie

Wanneer Mobiele Netwerke Misluk, Kan ’n Foon Jou Groep Steeds Bereik

By ’n konsert, sportbyeenkoms of buiteluggeleentheid neem mense dikwels aan dat hul fone sal werk wanneer hulle dit nodig kry. In die praktyk kan dit vinnig...

Lees verder

Ingenieurswese en tegnologie

Ingenieurswese Opedag in ’n heringerigte spasie

Grys wolke en ’n donderstorm het min impak gehad om voornemende studente en hulle gesinne te ontmoedig om die 2026-weergawe van die Fakulteit Ingenieurswese se...

Lees verder