
Robots leren sneller met menselijke hulp
In de echte wereld moeten robots reageren op onvoorspelbare gebeurtenissen. Een team van onderzoekers heeft een trainingsmethode ontwikkeld waarmee robots dit beter en sneller kunnen.
Onderzoekers van de Universiteit van Californië in Berkeley, VS, hebben een efficiënte leermethode voor robots ontwikkeld. Het doel is dat robots sneller leren hoe ze taken in de echte wereld, die behendigheid en precisie vereisen, correct kunnen uitvoeren. Machines die op deze manier getraind zijn, kunnen bijvoorbeeld Ikea-planken in elkaar zetten, een gebakken ei omdraaien door het in de lucht te gooien of met een zweep individuele blokken uit een Jenga-toren slaan.
"Maar robots kunnen al tientallen jaren auto's in elkaar zetten," denk je misschien. Ja, want ze zijn geprogrammeerd voor de afzonderlijke stappen en volgen altijd dezelfde programmavolgorde. Ze kunnen echter niet reageren op veranderende omstandigheden of nieuwe taken op zich nemen zonder gedetailleerde instructies.
De nieuwe methode heet "Human-in-the-Loop Sample-Efficient Robotic Reinforcement Learning" (afgekort HIL-SERL). Het combineert reinforcement learning, d.w.z. algoritme-gebaseerd leren door vallen en opstaan, met menselijke feedback en het nabootsen van menselijke werkstappen. Dit betekent dat mensen betrokken zijn bij de training. Daarom wordt het "human in the loop" genoemd.
Leren in de echte wereld is complexer
De moeilijkheid met leren in de echte wereld zijn de variabele parameters. In de echte wereld is natuurkunde een belangrijke factor. De AI moet rekening houden met krachten en massa's, bijvoorbeeld om een gebakken ei om te draaien. De positie van het gebakken ei in de pan is net zo belangrijk als de grootte en vorm. De robots die de onderzoekers gebruiken zijn daarom uitgerust met een camera.
Een ander voorbeeld is Jenga Whipping. Dit is een trend waarbij vaardige mensen een zweep gebruiken om individuele houten blokken uit de stapel van het spel te slaan. Om de robot hetzelfde te laten doen, moet hij precies de juiste plek raken, de beweging van de zweep inschatten en met de juiste kracht slaan. De onderzoekers gebruiken Jenga Whipping als een puur behendigheidsspel voor de robot.
Een ander probleem is dat trainingsscenario's in de echte wereld niet zo snel herhaald kunnen worden als een virtueel schaakspel. Als het gebakken ei op de grond valt, heeft de robot een nieuw ei nodig. Als de Jenga toren omvalt, moet iemand hem weer opbouwen. Dit maakt trainen tijdrovend en duur.
Mensen helpen de robot te leren
Daarom experimenteren de onderzoekers met menselijke instructies. Ze kunnen hun robot besturen met een speciale muis en hem laten zien welke strategieën hij het liefst gebruikt. Ze evalueren ook zijn pogingen en geven hem feedback. Het resultaat is dat de robot alleen in het begin veel aandacht nodig heeft om hem op het juiste spoor te krijgen. Daarna lukt het met steeds minder controle. Aan het einde van de training heeft de robot een slagingspercentage van 100 procent. Je kunt hier video's van bekijken hier.
Praktische taken behoren ook tot de activiteiten die de robot na korte tijd leert: hij kan onder andere een Ikea-plank in elkaar zetten, een tandriem op rollen monteren en onderdelen aan een computer moederbord bevestigen. Vervolgens voert de robot een functionele test van het moederbord uit.
De onderzoekers nemen opzettelijk verstoringen op in het leerproces, zoals het verplaatsen van objecten of het laten vallen van de robot. De robot leert op deze onverwachte situaties te reageren en toch zijn taak uit te voeren.
De studie is fundamenteel onderzoek. Het is bedoeld om aan te tonen dat het HIL-SERL systeem op veel taakgebieden kan worden toegepast. De resultaten moeten het gemakkelijker maken om robuuste en veelzijdige robots te ontwikkelen.
9 mensen vinden dit artikel leuk


Voelt zich net zo thuis voor de spelcomputer als in de hangmat in de tuin. Houdt onder andere van het Romeinse Rijk, containerschepen en sciencefictionboeken. Bovenal speurt hij naar news uit de IT-sector en slimme dingen.