’n Speelgoedkarretjie Wat Luister: Die Gebruik van Spraaktegnologie om Vroeë Wiskunde-Assessering te Verken

Robert Kellerman

Content Creator

24 Maart 2026

’n Finalejaarprojek in megatroniese ingenieurswese aan Stellenbosch Universiteit het ondersoek ingestel hoe spraaktegnologie en speelgoedontwerp saam kan werk in vroeë syfervaardigheidsassessering. Die resultaat was ’n interaktiewe speelgoedkarretjie wat eenvoudige wiskundevrae vra, na kinders se antwoorde luister en in reële tyd, met behulp van ’n laehulpbron-syferherkenningstelsel wat vir kinderspraak ontwikkel is, reageer.

Wat as ’n speelding ons kan help verstaan hoe jong kinders vroeë wiskundige vaardighede ontwikkel? Daardie vraag lê aan die kern van ’n finalejaarprojek in megatroniese ingenieurswese deur Camryn Ylonde Abrahamson, onder leiding van Professor Herman Kamper. Die projek het spraaktegnologie, ingebedde stelsels en meganiese ontwerp saamgebring om ’n interaktiewe speelgoedkarretjie te bou wat eenvoudige wiskundevrae vra, na kinders se gesproke antwoorde luister en in reële tyd reageer.

Die projek het by ’n duidelike probleem begin. Baie kinders sukkel met basiese syfervaardighede, maar vroeë probleme word dikwels eers laat raakgesien. In die verslag word dit verbind met groot klasse, die beperkinge van standaardtoetsing, en die koste en beskikbaarheid van spesialisassessering.

Die projek het ondersoek of ’n spraakgebaseerde speelding vroeë wiskunde-assessering kan ondersteun op ’n manier wat meer toeganklik en makliker bruikbaar is in omgewings met beperkte hulpbronne. Dit is as ’n navorsingsprototipe ontwikkel, nie as ’n vervanging vir onderwysers of formele assessering nie.

Waarom Kinderspraak Moeilik is vir Spraakstelsels

Die tegniese uitdaging was groot. Die meeste outomatiese spraakherkenningstelsels, of ASR-stelsels, word opgelei op baie groot versamelings getranskribeerde spraak. Dit werk swak in hierdie konteks om twee redes. Eerstens is daar vir baie Suid-Afrikaanse tale beperkte spraakdata beskikbaar vir opleiding.

Tweedens is kinders se spraak moeiliker vir standaardstelsels om te verwerk as volwasse spraak. Die verslag verduidelik dat kinders se spraak verskil in toonhoogte, artikulasie en voorspelbaarheid, terwyl kinderspraakdata om praktiese en etiese redes moeiliker is om in te samel. Saam skep daardie beperkings wat die verslag ’n dubbele laehulpbron-probleem noem.

’n Gefokusde Taak met ’n Beter Pasvorm

In plaas daarvan om ’n volledige spraak-na-teks-stelsel te probeer bou, het die projek op ’n nouer taak gefokus wat beter by die toepassing pas, naamlik die herkenning van gesproke syfers van nul tot nege. Die stelsel gebruik ’n sjabloongebaseerde benadering. Eenvoudig gestel, vergelyk dit ’n kind se opname met ’n klein stel voorbeeldopnames en voorspel dan watter getal die naaste ooreenkoms is. Dit maak saak in ’n laehulpbron-omgewing, aangesien die metode nie afhanklik is van groot gelabelde datastelle nie.

Voordat die vergelyking plaasvind, word die klank skoongemaak en gestandaardiseer. Opnames word na ’n gemeenskaplike formaat hersampleer, gesny met behulp van stemaktiwiteitsopsporing, of VAD, wat bepaal waar spraak begin en eindig, en genormaliseer sodat die model minder aandag gee aan agtergrondgeraas, verskille tussen mikrofone en volumevlakke. Die doel is eenvoudig: om die stelsel op die gesproke syfer te laat reageer eerder as op onbelangrike opnametoestande.

Hoe die Model Spraak Interpreteer

Die projek het verskillende maniere om spraak voor te stel vergelyk. Een opsie het mel-frekwensie-keerkoëffisiënte (of MFCCs) gebruik. Dit is kompakte eienskappe wat ontwerp is om die vorm van ’n spraaksein vas te lê.

’n Ander opsie het WavLM-inbeddings gebruik, wat geleerde spraakeienskappe uit ’n groot vooraf opgeleide model is. Die sterkste resultaat het gekom van WavLM Base+-inbeddings saam met dinamiese tydsvervorming, of DTW, en k-naaste bure, of k-NN. DTW bring twee spraakseine in lyn, selfs wanneer hulle teen verskillende snelhede uitgespreek word. K-NN voorspel dan die antwoord deur na die naaste ooreenstemmende voorbeelde te kyk. In die finale stelsel het die beste instelling die drie naaste ooreenkomste gebruik.

Van Model na Werkende Speelding

Die speelgoedkarretjie is as die fisiese koppelvlak vir die spraakstelsel gebou. Dit is in 3D gedruk en rondom ’n Raspberry Pi Zero 2 W ontwikkel. Die karretjie het ’n OLED-skerm ingesluit wat as ’n gesig gebruik is, hoofligte vir visuele terugvoer, en stuur- en bewegingsmeganismes. ’n Grafiese gebruikerskoppelvlak op ’n rekenaar het ouderdomsgeskikte wiskundevrae gegenereer, insluitend tel- en basiese rekenkundige vrae.

Die vraag is na spraak omgeskakel en hardop gespeel, waarna die kind se gesproke antwoord opgeneem is. Wanneer die spraak gestop het, het die stelsel die antwoord verwerk en ’n opdrag teruggestuur na die speelding. Regte antwoorde het ’n gelukkige reaksie veroorsaak. Verkeerde antwoorde het ’n hartseer reaksie veroorsaak. Só is die kring tussen gesproke inset, masjienherkenning en fisiese terugvoer voltooi.

Fig. Fotos van die finale projek

Wat die Resultate Gewys het

Die finale syferherkenningstelsel het 79,41% akkuraatheid op Engelse kinderspraak en 76,84% op Afrikaanse kinderspraak behaal. In albei gevalle het dit beter gevaar as die Whisper-basislyn wat in die verslag gebruik is, naamlik 56,86% vir Engels en 22,11% vir Afrikaans.

Die Afrikaanse resultaat is noemenswaardig, aangesien die stelsel hoofsaaklik op Engelse kinderspraak ingestel is. Die verslag het ook bevind dat prestasie vinnig verbeter het namate die aantal opleidingsprekers toegeneem het, en toe by ongeveer vier sprekers begin afplat het. Dit dui daarop dat die metode aangepas kan word vir ander tale met ’n betreklik klein aantal kinderspraakopnames.

Finale Gedagtes

Wat hierdie projek interessant maak, is die afgebakende omvang daarvan. Dit het nie probeer om elke spraakprobleem gelyk op te los nie. Dit het ’n spesifieke klaskamertaak omskryf, die herkenningspyplyn rondom daardie taak gebou, en dit toe aan ’n werkende toestel gekoppel. Daardie benadering het ’n bruikbare resultaat opgelewer.

Die verslag toon aan dat laehulpbron-spraakherkenning vroeë wiskunde-assessering kan ondersteun in ’n vorm wat interaktief, tegnies goed gegrond en realisties is vir meertalige omgewings waar groot kinderspraakdatastelle nie bestaan nie. Toekomstige werk kan die stelsel verder uitbrei as enkel syfers, verbeter hoe dit onverwante antwoorde hanteer, en meer van die verwerking direk op die speelding self laat plaasvind. Vir nou bied die projek ’n sterk voorbeeld van hoe ingenieursontwerp op ’n werklike opvoedkundige beperking kan reageer met ’n duidelike, toetsbare stelsel.

Merkers

Tegnologie

Verwante stories

Ingenieurswese en tegnologie

Van Radarweerkaatsings Na Beelde: Die Rekonstruksie Van Roterende Tonele Met ISAR

Radar kan meet hoe ver ’n voorwerp weg is en of dit beweeg, maar verskeie bykomende verwerkingstappe is nodig om ’n gedetailleerde beeld uit weerkaatste...

Lees verder

Ingenieurswese en tegnologie

Vergelyking van twee radio-voortplantingsmodelle vir ontvangsvlak-afwykings by die SKA

By die Square Kilometre Array-terrein (SKA) in die Noord-Kaap is die betroubaarheid en akkuraatheid van radiokommunikasie van kritieke belang. Die spanne wat...

Lees verder

Turning Target Impacts Into Instant Wireless Feedback

Ingenieurswese en tegnologie

Van Teikenimpak Na Onmiddellike Draadlose Terugvoer

In langafstandpresisieskiet raak dit moeiliker om ’n teikenimpak te bevestig namate die afstand toeneem. Teleskope, kameras en klankgebaseerde bevestiging kan...

Lees verder