Projekte

As deel van die MIng (Gestruktureerd) program met fokus op Datawetenskap word daar van ons studente verwag om ’n finale 60-krediet datawetenskap-navorsingsprojek te voltooi waar daar van hulle verwag word om die datawetenskapkennis wat regdeur die program opgedoen is, toe te pas en te konsolideer. Vir hierdie doel sal studente ’n werklike datawetenskapprojek oplos, oplossings verskaf vir elke stap van die datawetenskap-projeklewensiklus en dit in ’n navorsingswerkstuk dokumenteer.

Vir hierdie projekte werk ons saam met industrie- en akademiese vennote wat bereid is om ’n onderwerp voor te stel, die nodige data te verskaf (indien nie publiek beskikbaar nie) asook om as domeinmentors op te tree. Die datastel moet volledig wees.

As u belangstel om met ons saam te werk vir so ’n projek, kontak asseblief [email protected] vir verdere inligting rakende ’n kort projekvoorstel en spertye.

Projekvoorstelle wat teen die einde van kwartaal 3 van ’n gegewe jaar hersien is, sal vir die volgende jaar aan studente toegeken word.

Hieronder is ’n lys van voltooide navorsingswerkstukke. Die werkstukke word onder die jaar van gradeplegtigheid gegroepeer.

2025

Maart 2025 Graduering

▶ Versamelingsgebaseerde Partikelswermoptimering vir die Opleiding van Ondersteuningsvektoormasjiene

Hierdie navorsing ondersoek die toepassing van versamelingsgebaseerde partikelswermoptimering (SBPSO) op die opleiding van ondersteuningsvektoormasjiene (SVM's), en spreek uitdagings aan in hiperparameter-afstemming, lawaaierige datastelle en berekeningsdoeltreffendheid. SVM's, wat gevier word vir hul klassifikasienoukeurigheid, word dikwels beperk deur hul sensitiwiteit vir parameterkeuse en die moeilikheid om hoëdimensionele of lawaaierige data te hanteer. SBPSO, 'n uitbreiding van tradisionele partikelswermoptimering (PSO), is toegespits op diskrete optimeringsprobleme en bied 'n belowende benadering vir die optimering van SVM-prestasie.

Die studie ondersoek twee benaderings: standaard SBPSO-SVM-opleiding en SBPSO-SVM-opleiding met Tomek-skakelvoorverwerking, wat datakwaliteit verbeter deur geraas te verminder en besluitgrense te verfyn. Eksperimente op vyf maatstafstelle toon dat beide metodes die aantal ondersteuningsvektore aansienlik verminder terwyl mededingende akkuraatheid en F1-tellings gehandhaaf word. Opleidingstye was egter aansienlik langer as dié van standaard SVM's, wat dui op 'n behoefte aan verdere optimering.

Om hierdie uitdagings aan te spreek, is dinamiese beheer van SBPSO-parameters ingestel, saam met gevorderde voorverwerkingstegnieke soos hoofkomponentanalise (PCA) met Gaussiese mengselmodel (GMM)-geraasfiltrering en Wilson-redigering. Terwyl hierdie verbeterings opleidingsdoeltreffendheid en prestasie vir komplekse en lawaaierige datastelle verhoog, sukkel die algoritme steeds om doeltreffend te skaal na baie lawaaierige, groot en hoogs komplekse datastelle.

Hierdie navorsing dra by tot die voortgesette ontwikkeling van hibriedoptimeringraamwerke en bied insigte in die balansering van berekeningskoste met klassifikasievertoning. Die bevindinge onderstreep die potensiaal van SBPSO-SVM as 'n robuuste instrument vir die bevordering van masjienleer-toepassings in diverse, werklike scenario's.

▶ Eiendomsbelastingvalidering deur outomatiese geboue-voetspooreksraksie uit lugfoto's

Eiendomswaardasie is noodsaaklik om die tariewe en belasting wat vir munisipale dienste benodig word, te bepaal. Eiendomswaardasie hang af van die aantal en grootte van geboue op 'n eiendom. 'n Vervelende handmatige proses word gebruik om die omtrekke van geboue te skep en die gebouoppervlak te bereken. Hierdie projek poog dus om 'n proses te ontwikkel om gebou-omtrekke te genereer uit onbemande lugvaartuig-rasterbeelde met so min moontlike menslike ingryping. Die oplossings wat ontwikkel is, gebruik semantiese pixels-klassifikasie om geboue en gebou-omtrekke op te spoor. Die omtrekke kan dan gebruik word om eiendomswaardasies te valideer.

Vir semantiese pixels-klassifikasie is 'n U-Net-argitektuur gekies. Verskeie eksperimente is uitgevoer om die optimale U-Net-argitektuur te vind. Die uitset van die semantiese pixels-klassifikasie is saam met 'n omtrekeksraksie-metode gebruik om die gebou se omtrek te onttrek. Soortgelyk is eksperimente uitgevoer om die optimale omtrekeksraksie-metode te kies. Die U-Net-model en omtrekeksraksie-metode word gekombineer om 'n proses te skep wat in staat is om gebou-omtrekke uit rasterbeelde te onttrek.

Eksperimente is uitgevoer met 'n mens-in-die-lus-benadering, 'n variant van aktiewe leer. Die opleidingsresultate toon akkuraatheid, herroeping, presisie en interseksie oor unie bo 90%. Alhoewel die opleiding uitstekende opleiding- en validasiemaatstawwe vir die eksperimente getoon het, wys die projek hoe krities die opleidingsdata is vir die voorspelling van toetsdata en die bepaling van die kwaliteit van beeldsegmentering en gebou-omtrekeksraksie. Ten slotte produseer die stelsel vektordata wat 80 tot 90% van geboue akkuraat voorstel met 'n oppervlakfout van minder as een vierkante meter.

▶ Kredietpuntetoekenning en Risikobepaling deur Masjienleer en Rekening-oortrekgeskiedenis

Kredietpuntetoekenning is per definisie 'n kwantitatiewe metodologie en evalueringsmetode waardeur leners bepaal of 'n lener (óf 'n individu óf 'n besigheid) 'n skuld kan terugbetaal as krediet toegestaan word. 'n Krediettelling word tipies aan die einde van die kredietpuntetoekenningsproses gegenereer en is 'n fundamentele element wat 'n individu se toegang tot krediet beïnvloed. Dit dien as 'n toegangspunt tot finansiële hulpbronne soos lenings, kredietkaarte en andere, wat die belangrikheid van billikheid, nie-diskriminasie en etiese praktyke beklemtoon om gelyke toegang tot krediet te verseker.

Kredietgeskiedenis is tipies die sleutelfaktor in tradisionele puntetoekenningsmetodes, insluitend die FICO-telling, logit-modelle en deskundige-oordeel-gebaseerde modelle. Gevolglik kan individue wat nog nooit geleen het nie, oor die hoof gesien word of aan hoë rentekoerse onderwerp word. Om hierdie beperkings aan te spreek, gebruik hierdie studie rekening-oortrekinligting om 'n dinamiese, inklusiewe en doeltreffende kredietpunteraamwerk te ontwikkel. Hierdie raamwerk integreer beide tradisionele kredietgeskiedenisdata en rekening-oortrekdata, wat dikwels onderbenut word maar moontlik as 'n aanduider van goeie teenoor slegte leners kan dien. Verder identifiseer die literatuur nie watter masjienleermetode die geskikste is vir kredietpuntetake nie. Om hierdie onsekerheid te oorkom, word die volgende algoritmes opgelei: KNN, Naïewe Bayes, Beslissingsbome, KNN en SVM, om bankklante te voorspel wat waarskynlik op krediet in gebreke sal bly of nie, deur gebruik te maak van drie afsonderlike datastelle: rekening-oortrek, kredietgeskiedenis en 'n kombinasie van beide. Die prestasie van hierdie algoritmes word geëvalueer om die mees akkurate voorspellingsmetode te bepaal.

Deur 'n reeks hiperparameter-afstemming oor die algoritmes, dui die resultate van hierdie studie aan dat Naïewe Bayes veral doeltreffend is wanneer beide kredietgeskiedenis- en rekening-oortrekdata beskikbaar is, aangesien dit minimale wanklassifikasies en robuustheid in die korrekte klassifikasie van klante getoon het. Die algoritme het die beste gevaar op die drie getoetste datastelle, met akkuraatheidkoerse van 99.01% vir die kredietgeskiedenisdatastel, 99.5% vir die hibrieddatastel en 100% vir die rekening-oortrekdatastel. KNN het ook goed gevaar, met akkuraatheidkoerse van 98.93% vir kredietgeskiedenis, 99.3% vir die hibrieddatastel en 99.97% vir rekening-oortrek.

Verder het 'n vergelyking van die rekening-oortrek-krediettellings teenoor kredietgeskiedenistellings aangedui dat rekening-oortrek-gebaseerde tellings 'n meer optimistiese verspreiding weerspieël, met 'n beduidende vermindering in die persentasie klante wat as swak geklassifiseer word wanneer rekening-oortrekdata saam met kredietgeskiedenis gebruik word. Die kombinasie van beide datastelle het gelei tot meer akkurate kredietbeoordelings, wat die aantal klante wat kwalifiseer vir kredietgoedkeuring verhoog het. Spesifiek het 75% van klante gekwalifiseer deur die gekombineerde datastel te gebruik, teenoor 65% met rekening-oortrekdata en 45% met kredietgeskiedenis alleen.

Die resultate van hierdie studie bied nuwe perspektiewe vir finansiële instellings wat tradisioneel uitsluitlik op kredietgeskiedenisdata staatmaak om individue te profileer. Hierdie unieke studie verteenwoordig 'n potensiële ommekeer in die veld, met die vermoë om 'n beduidende paradigmaskuif in leen- en leningspraktyke teweeg te bring. Indien suksesvol aangeneem, kan hierdie benadering 'n wedersyds voordelige situasie vir beide leners en leners skep. Individue wat dikwels weens 'n gebrek aan kredietgeskiedenis van krediet uitgesluit word, sal nie meer uitgesluit word nie, wat besluitnemingsprosesse verbeter en winsgewendheid potensieel verhoog.

▶ Masjienontleer van Konvolusionele Neurale Netwerke om die Reg op Vergeet aan te spreek

Hierdie navorsingsopdrag ondersoek of persoonlik identifiseerbare inligting uit 'n konvolusionele neurale netwerk verwyder kan word deur 'n masjienontleer-algoritme te gebruik en as verwyder geverifieer kan word om nakoming van die reg op vergeet soos uiteengesit in die Algemene Databeskermingsregulasie te verseker. Masjienontleer ondersoek of dataverwydering bereik kan word terwyl masjienleer-modelprestasie behou word sonder om 'n masjienleermodel volledig te herop te lei.

In hierdie navorsingsopdrag word 'n konvolusionele neurale netwerk op gesigsbeelde opgelei. Die prestasie van die konvolusionele neurale netwerk voor en na die toepassing van 'n masjienontleer-algoritme word dan vasgestel. Die evaluering ondersoek die omvang van data wat vir masjienontleer benodig word, soos of 'n enkele beeld, veelvuldige beelde of alle beelde wat tydens opleiding gebruik is, nodig is om die teenwoordigheid van data wat met 'n individu geassosieer word, te verwyder.

Masjienontleer het doeltreffendheid getoon in die verwydering van spesifieke data uit die konvolusionele neurale netwerk, soos gemeet deur 'n lidmaatskapafleiding-aanval. Die masjienontleer-algoritme, wat Kullback-Leibler-divergensie en gewigsregularisasie gebruik, het die verwydering van data vir 'n enkele individu sowel as vir 'n vergetingstel wat uit 'n steekproef van individue bestaan, moontlik gemaak sonder dat volledige heropleiding nodig was. Die studie toon dat ontleer suksesvol bereik kan word terwyl die veralgemeningsvermoëns van 'n konvolusionele neurale netwerk behou word.

▶ Na 'n Outomatiese Mediese Beeldklassifikasiepyplyn

Radiologiese departemente het hoë eise aan doeltreffendheid en diagnostiese kwaliteit, en die interpretasie van radiografieë wissel sterk tussen radiograwe. Die proses wat in 'n radiologiese departement gevolg word om pasiënte met gesondheidsdienste te ondersteun, kan meer doeltreffend gemaak word. Dele van die proses, soos die herwinning en verwerking van data, kan met kunsmatige intelligensie geoutomatiseer word om die proses te bespoedig en die kwaliteit van dienste te verhoog.

Diep leer is 'n subveld van kunsmatige intelligensie, en oordragleer is 'n subveld van diep leer. Oordragleer kan op beeldklassifikasietake toegepas word om die voorspellingsakkuraatheid van klasse te verbeter. Mediese beelde dek verskeie modaliteite soos X-strale, ultraklank, magnetiese resonansbeelding en angiografieë, onder andere. Verskeie oordragleermettodes word vergelyk om klassifikasie op twee modelkomponente uit te voer. Die eerste komponent is 'n masjienleermodel wat die mediese beeldmodaliteittipe van 'n beeld kan voorspel. Die tweede komponent is 'n masjienleermodel wat die liggaamsdeel uit menslike anatomie kan voorspel.

Hierdie navorsingsopdrag dek die skep van 'n mediese beelddatastel wat uit oopbron-datastelle verkry word. 'n Verskeidenheid oordragleermodelle soos residuele neurale netwerke, digte neurale netwerke en doeltreffende neurale netwerke word op hierdie datastel geëvalueer. Die resultate van hierdie navorsingsopdrag toon dat liggewig oordragleermettodes suksesvol toegepas kan word om klassifikasie op mediese beeldmateriaal uit te voer. Die beste presterende modelle van beide komponente word gekombineer in 'n oordragleerklassifikasiepyplyn. Die oordragleer-pyplyn het 'n voorspellingsakkuraatheid van 96.3034% op toetsdata gelewer.

▶ Evoluerende Skuinse Beslissingsbome

Hierdie studie ondersoek die induksie van klassifikasie-skuinse beslissingsbome deur genetiese programmering, met beperkings wat op die genetiese operateurs en die geeskiktheidsfunksie opgelê word. Verder ondersoek die studie die effek van die bekendstelling van vooraf gedefinieerde genetiese programme in die aanvanklike bevolking van die evolusionêre proses op die prestasie van die genetiese programme in die oplossing van klassifikasietake. Die vooraf gedefinieerde individue in die aanvanklike bevolking is gegenereer deur klusteringstegnieke en metodologie geïnspireer deur die Cline-beslissingsboom [24] te benut.

Die doelwitte is bereik deur beperkte genetiese programme te ontwikkel om skuinse beslissingsbome te induseer. Die resultate toon dat die gebruik van genetiese programmering met toegepaste beperkings vir klassifikasieddoeleindes uitvoerbaar is en lei tot beslissingsbome wat uitstekend presteer in vergelyking met standaard as-gelyn- en skuinse beslissingsbome, alhoewel teen die koste van verhoogde berekeningshulpbronne. Resultate van die eksperiment beklemtoon ook dat die algehele prestasie van genetiese programmering-gebaseerde algoritmes meer afhanklik is van die evolusionêre proses self as van die bekendstelling van aanvanklike bevolkingsdiversifiseringstegnieke.

▶ Tuinbou-Verskaffer Leweringsvoorspelling

Supermarktekleinhandelaars maak staat op verskaffers om aan klante-eise te voldoen, maar verskaffers ondervind dikwels ontwrigtings wat verhinder dat hulle die ooreengekome hoeveelhede lewer. Dit is waar in die tuinbousektor, waar weer- en logistieke uitdagings die lewerbetroubaarheid beïnvloed. Akkurate voorspelling van tuinbou-verskafferlewing is krities vir supermarktekleinhandelaars, aangesien vars vrugte 'n sleutelbron van inkomste is. Dit beklemtoon die behoefte aan verbeterde voorspellingsmetodes wat voorspellende analise gebruik om voorspellingsakkuraatheid te verbeter.

Die hoofdoelwit was om 'n voorspellende analise-oplossing te ontwikkel om lewerings van tuinbou-verskaffers te voorspel, met die fokus op vars vrugte. Die navorsing poog om kleinhandelaars te help om aanbod met aanvraag te belyn, voorraadtekorte te verminder en wisselvalligheid in lewerings te bestuur. Die studie gebruik masjienleermodelle opgelei op 24 maande se historiese data, wat afgeleide kenmerke insluit wat faktore verteenwoordig wat lewerbetroubaarheid beïnvloed. Die modelle, insluitend 'n basislyn-model, word oor 'n tydperk van 6 maande geëvalueer, met 69 eksklusiewe verskaffers en 32 produktipes.

Die navorsingsopdrag het bevind dat die meerderheid van die modelle die basislyn oorskry het, met ewekansige woud- en GRU-modelle wat die beste presteer het op grond van standaard evalueringsmaatstawwe. Die basislynmodel het 'n gemiddelde absolute fout (MAE) van 30.35 behaal, terwyl die ewekansige woudmodel die MAE tot 0.47 verminder het, wat 'n beduidende verbetering in voorspellingsakkuraatheid toon. Die bevindinge toon dat die integrasie van voorspellende analise en die insluiting van invloedryke faktore sleuteluitdagings vir kleinhandelaars aanspreek, soos inkonsekwente verskaffer-lewerings, en voorspellingsigbaarheid en kliëntetevredenheid kan verbeter. Hierdie studie dra by tot voorspellende analise in die tuinbouvoorsieningsketting, wat die belangrikheid beklemtoon van die integrasie van faktore om voorspelling te optimeer.

▶ Gedragspuntekaarte-ontwikkeling en Masjienleer

Hierdie studie vergelyk tradisionele gedragspuntekaarte gebaseer op logistiese regressie (LR) met masjienleer (ML) vir kredietrisikobeoordelings. Die studie poog om voorspellingsprestasie te verbeter terwyl modelinterpreteerbarheid gehandhaaf word om aan Basel-regulatoriese standaarde te voldoen. Om dit te bereik, stel die studie die Bayes-geewigtigde Bewys Optimeerder (BWOpt) bekend vir bindoptimering in LR-modelle en stel die interpreteerbare vooraf-gesnoei gestraf logistiese boomregressie (P-PLTR) saam met RuleFit voor. Dit ondersoek ook die effekte van steekproefstrategieë (ondersteekproef en oorsteekproef) op modelprestasie met ongebalanseerde datastelle.

Resultate toon dat tradisionele puntekaarte ML-modelle oortref, veral met oorgesteekproefde data. Terwyl RuleFit en P-PLTR mededingende prestasie toon met ondersteekproef, ly P-PLTR aan onstabiliteit in reëlstelle. BWOpt-verbeterde LR-modelle oortref beide ML-metodes, wat die waarde van kenmerkingenieurswese beklemtoon. Hierdie bevindinge strook met bestaande literatuur, wat voorstel dat ML-modelle nie statistiese modelle soos LR in gestruktureerde data betekenisvol oortref nie, alhoewel ML voordele kan bied met ongestruktureerde data. Gegewe hul balans van interpreteerbarheid en voorspellingsvermoë, is tradisionele puntekaarte geskik vir gereguleerde omgewings.

▶ Evaluering van Heterogene Grafieksinbeddings vir Produkvervangeridentifikasie met LLM-gegenereerde Attribute

In die konteks van die voedselkleinhandelsektor is die identifikasie van produkvervangers om verskeie redes noodsaaklik, insluitend die bepaling van die assortiment van winkelprodukte, die ontwerp van bemarkingsveldtogte, die bevordering van items en die vermyding van potensiële kannibalisme wanneer nuwe produkte bekendgestel word. Gegewe die uitgebreide reeks produkte en kategorieë is die begrip van produkverhoudings en verbruikers-aankoopgedrag noodsaaklik. Produkverhoudings kan geklassifiseer word as aanvullende middele, vervangers of irrelevante produktpare. Hierdie studie poog om produkvervangers te ondersoek deur die proses van produktroeperroeping. Die eerste van drie navorsingsdoelwitte is om te bepaal of die gebruik van produkattribute lei tot die vorming van konsekwente en insiggewende produktgroepe. Die tweede doelwit poog om te bepaal of bruikbare en akkurate produkattributwaardes afgelei kan word uit produkbeskrywings deur gebruik te maak van groot taalmodelle (LLM's). Die finale doelwit is om die impak van die LLM-gegenereerde produkattributwaardes op die vorming van vervangerproduktgroepe te evalueer.

Om produkattribute te bepaal, word 'n kombinasie van gestruktureerde en ongestruktureerde databronne gebruik van 'n prominente Suid-Afrikaanse voedselkleinhandelaar met die bedoeling om produkvervangerverhoudings toe te lig terwyl 'n mate van verduidelikbaarheid afgelei van die produkattribute geïntegreer word. Die raamwerk bekend as Produkattribuutwaarde-eksraksie (PAVE) bied 'n aanwysingstegniek-sjabloon as 'n doeltreffende metode vir die onttrekking van eksplisiete en implisiete attribute uit produkbeskrywings met 'n akkuraatheid van tot 85% in hierdie studie afhangend van die gekose model. Terwyl 'n groot akkuraatheid verkry word, is daar effense nuanses in die akkuraatheid van die verskillende attribute, waar sommige 'n beduidend laer onttrekkingsakkuraatheid het vir die meeste modelle wat getoets is. Die LLM's kan egter verder verfyn word vir gebruiksgeval-spesifieke take, wat selfs hoër akkuraatheid moontlik maak.

In die strewe na die identifikasie van produkvervangers word produkattribute saam met transaksiedata gebruik om aankoopgedrag te vaslê. Verskeie grafieksinbeddings- en grafiekgroepeermodelle word geëvalueer om 'n model te identifiseer wat die tweeledigde doelwitte van vervangbaarheid en verduidelikbaarheid kan vervul. 'n Heterogene grafieksinbedding word gekies vir die vervangbaarheidsanalise, in kombinasie met gelykenisgebaseerde en grafiekgebaseerde groepeeralgoritmes. Die heterogene model word gekies weens sy hoër potensiaal vir die aanbied van konteksspesifieke verduidelikbaarheid te midde van die voortdurend ontwikkelende domein van produkverhoudings.

Die bevindinge dui aan dat die gebruik van produkattribute nie die mees doeltreffende en skaleerbare benadering is om vervangerproduktklassifikasie te bereik nie. Hierdie beperking spruit uit die inherente sensitiwiteit van heterogene grafieke vir beide konfigurasie-instellings en invoerdata, wat aangepaste en konteksspesifieke modelkalibrasies kan vereis. Verdere ondersoeke is geregverdig om die potensiële integrasie van produkattribute in heterogene grafieksinbeddings vir vervangerkategorisering te ondersoek. Alternatiewe kan kennisgrafiekte en skakelvoorspelling of die aanpassing van die PAVE-raamwerk insluit om die onttrekking van produkvervangers uit 'n lys moontlik te maak.

▶ Afleiding van 'n Landbou-Grondkwaliteitsindeks uit Grondmikrobioom deur Outoenkoders

Grondkwaliteit speel 'n deurslaggewende rol in die ondersteuning van ekostelsels, beïnvloeding van klimaatsverandering en ondersteuning van landbouproduktiwiteit. Die agteruitgang van grond kan voedselsekerheid ernstig bedreig en aardverwarming vererger. Huidige definisies en indekse vir die beoordeling van grondkwaliteit fokus op 'n enkele grondfunksie of slaag nie daarin om die belangrike onderlinge verhoudings en dinamika tussen grondeiendomme in ag te neem nie. Hoofkomponentanalise word gewoonlik gebruik om 'n grondkwaliteitsindeks deur byvoegings- of geweegde byvoegings-modelle te vestig. Hoofkomponentanalise is egter ontoereikend wanneer nie-lineêre verhoudings of hoë korrelasie tussen veranderlikes bestaan. Boonop vereis byvoegingsmetodes voorafkennis van hoe spesifieke grondeiendomme kwaliteit beïnvloed sonder om onderlinge afhanklikhede in ag te neem. Hierdie beperkings bemoeilik die integrasie van die grondmikrobioom in 'n grondkwaliteitsindeks. Gegewe die kompleksiteit en diversiteit van mikrobiese gemeenskappe in grond, is daar beperkte studies wat grondkwaliteit vanuit 'n mikrobiese perspektief definieer. Die grondmikrobioom is egter noodsaaklik vir die handhawing van grondfunksionaliteit en die voorkoming van agteruitgang.

Hierdie studie stel die gebruik van outoenkoders voor om 'n grondkwaliteitsindeks afgelei van grondmikrobioomdata te ontwikkel. Om die hoë dimensionaliteit van die mikrobioommodatastel aan te spreek, is vier kenmerkseleksietegnieke — hoofkomponentanalise, Pearson-korrelasie, agglomeratiewe hiërargiese groepering en Louvain-gemeenskapopsporing — geïmplementeer om minimale datastelle te genereer wat gebruik is om verskeie outoenkoderontwerpe op te lei. Die uitset van die outoenkoder se bottelhalsleer is gebruik om 'n grondkwaliteitsindeks af te lei, wat geëvalueer is teenoor mikrobiese diversiteitsindekse.

Die grondkwaliteitsindeks het 'n sterk korrelasie met die Chao1-diversiteitsindeks en matige korrelasies met die Shannon- en Simpson-diversiteitsindekse getoon. Onder die minimale datastelle wat gebruik is, het die datastel gegenereer deur agglomeratiewe hiërargiese groepering 'n grondkwaliteitsindeks met die hoogste korrelasies met mikrobiese diversiteitsindekse geproduseer. Die grondkwaliteitsindeks afgelei deur 'n yl outoenkoder is veral verkies weens sy eenvoud, aangesien dit tot 'n sigmoidfunksie tydens afleiding verminder, wat verduidelikbaarheid en interpreteerbarheid verbeter.

▶ Inkrementele Kenmerkleer: 'n Konstruktiewe Benadering tot die Opleiding van Neurale Netwerke met Dinamiese Partikelswermoptimering

Inkrementele kenmerkleer (IFL) is 'n toesiende masjienleer (ML) paradigma vir voorwaartse neurale netwerke (NN's), waar die invoerlaag van die NN inkrementeel oor tyd gekonstrueer word. Die voordele van so 'n paradigma is tweeledig: die eerste is die vermoë wat aan 'n NN verleen word om nuwe kenmerke dinamies in te sluit soos dit mettertyd beskikbaar word sonder dat heropleiding nodig is; die tweede is 'n vermindering in oorpas-gedrag en modelkompleksiteit, en dus verbeterde NN-veralgemeningsvermoë. 'n Kenmerkrangskikking-benadering gebaseer op kenmerkbelangrikheid word gebruik om die volgorde te bepaal waarin kenmerke in die model geïntegreer word. Die inkrementele byvoeging van kenmerke aan 'n NN lei tot 'n dinamiese optimeringsprobleem (DOP); meer spesifiek, 'n DOP met dimensionaliteitsuitbreiding, waar beide die oppervlak en die dimensionaliteit van die soekruimte oor tyd ontwikkel. PSO is 'n gevestigde metode vir die opleiding van voorwaartse NN's en is in verskeie studies getoon dat dit tradisionele terugvoortplanting (BP) oortref. Gewysigde PSO-algoritmes is ontwikkel om dinamiese omgewings te hanteer en is suksesvol toegepas om voorwaartse NN's in dinamiese omgewings op te lei. Hierdie studie pas verskeie dinamiese PSO-variante aan vir gebruik in DOP's met dimensionaliteitsuitbreiding. Die aangepaste dinamiese PSO-variante word gebruik om inkrementeel gekonstrueerde NN's (INN's) op te lei deur die voorgestelde IFL-raamwerk, en die resultate word vergelyk met dié van volledig gekonstrueerde NN's (FNN's) opgelei deur tradisionele BP en standaard PSO op 'n volledige datastel. Eksperimente is uitgevoer op vyftien diverse datastelle wat regressie- en klassifikasietake oorspan. Die resultate toon dat IFL NN's doeltreffend in staat stel om nuwe kenmerke dinamies in te sluit soos dit mettertyd beskikbaar word, en dat IFL gewenste prestasie toon in terme van oorpas-gedrag en as 'n regulariseringstegniek gebruik kan word.

▶ Gradering van Infrastruktuurtoestande deur Masjienleer met Infrastruktuurverslae en Mediaverslae

Openbare infrastruktuur is van kritieke belang vir die bevordering van werkskepping, gelykheid, volhoubare ontwikkeling en ekonomiese groei, maar daar is 'n gebrek aan inligting oor infrastruktuurtoestande om ingeligte infrastruktuurinvesteringsbesluite in Suid-Afrika moontlik te maak. Die Suid-Afrikaanse Instituut vir Siviele Ingenieurswese publiseer Infrastruktuurverslae waar graderings op verskillende infrastruktuurektore toegepas word gebaseer op faktore soos toestand, kapasiteit en prestasie. 'n Algemene gebrek aan inligting beperk egter die samestelling van infrastruktuurverslae. Aanlynberigte word as 'n alternatiewe databron geteiken om infrastruktuurverslae saam te stel weens hul beskikbaarheid, intydse en geografiese dekking asook insigte in die sosiopolitiese infrastruktuurkwessies wat nie voldoende in tegniese verslae vasgelê word nie. Aanlynberigte gradeer infrastruktuurtoestande egter nie eksplisiet nie, wat dit moeilik maak om bevindinge op te som en te onttrek. In hierdie navorsingsopdrag word 'n masjienleermodel ontwikkel wat infrastruktuurtoestande outomaties uit aanlynberigte gradeer.

'n Kruisdomein-modelleringsbenaderng is aangeneem waar die kennis wat opgedoen is deur masjienleermodelle op die brondomein op te lei, gebruik is om voorspellings op die teikendomein te maak. Etiketbeskrywings van die Suid-Afrikaanse Instituut vir Siviele Ingenieurswese en die Amerikaanse Gemeenskap van Siviele Ingenieurs infrastruktuurverslae is ingesamel en saamgestel om 'n brondomein te vorm, terwyl onttrokke aanlynberigte as 'n teikendomein gebruik is. 'n In-domein-modelleringsbenaderng is aangeneem om die uitvoerbaarheid van die datastelle te bepaal. In die kruisdomein-modelleringsbenaderng is ses masjienleermodelle op die puntekaarddatastel opgelei en geëvalueer op 'n geannoteerde steekproef van die aanlynberigdatastel. Die ses modelle het drie ordinale regressiemodelle, 'n lang korttermyngeheue-model en twee hibriede modelle ingesluit waar aktiewe leer en ewekansige steekproef met die lang korttermyngeheue-model gekombineer is. Die logistiese ordinale regressie alle-drempelmodel het die beste gemiddelde kwadraatfout-telling van 1.255 op die toetsdatastel behaal, met die ordinale randregressiemodel wat die beste gemiddelde absolute fout van 0.788 behaal het. Hierdie resultate dui aan dat die modelle in hierdie navorsingsopdrag gemiddeld die artikeletikette binne 'n marge van minder as een graad van die ware etiket kan voorspel.

▶ Outomatiese Padopsporing en -klassifikasie vir Stedelike en Landelike Gebiede deur Lugfotografie

Hierdie navorsingsopdrag bied 'n outomatiese benadering om paaie uit lugfotografie te digitaliseer deur gebruik te maak van diep leertegnieke, met die fokus op die onderskeid tussen geplaveide en grondpaaie. Hierdie werk spreek die behoefte aan vir doeltreffende en akkurate padkartering in geografiese inligtingstelsels, wat toepassings in stedelike beplanning, outonome bestuur en infrastruktuurbestuur ondersteun.

Die oplossing gebruik 'n DeepLab-model gebaseer op die EfficientNetV2M-argitektuur om paaie uit lugfoto's te identifiseer en te onttrek en padkwaliteitstostandbeoordeling op die onttrokke pad uit te voer. Die ontwikkelde DeepLab-model het 'n gemiddelde Interseksie oor Unie-telling van 0.87 en 'n gemiddelde F1-telling van 0.91 behaal.

Na segmentering word die gesegmenteerde maskers omgeskakel na veelhoeke deur beeldverwerkingstegnieke. Dit word dan saamgestel in geografiese inligtingstelsel-versoenbare vormfaselêers met gedetailleerde attribuutkartering vir padtipeklassifikasie. Die ontwikkelde pyplyn sluit parallelle verwerking en geoptimeerde omtrekopsporingsalgoritmes in om groot datastelle doeltreffend te hanteer, saam met fouthantering- en aanmeldingsmeganismes om robuustheid te handhaaf.

Hierdie outomatiese benadering verminder die handmatige inspanning wat vir paddigitalisering benodig word aansienlik en bied 'n skaleerbare oplossing vir die opdatering van digitale kaarte en die verbetering van geografiese inligtingstelselsvermoëns. Hierdie navorsingsopdrag demonstreer die potensiaal van diep leer in die outomatisering en verbetering van die akkuraatheid van ruimtelike data-eksraksie uit lugfotografie, wat bydra tot die velde van outonome navigasie en slim stadsinfrstruktuurontwikkeling.

▶ Gebruik van Ontoesiende Masjienleer om Patrone en Anomalieë in die JSE Top 40-Aandele te Identifiseer

Hierdie studie ondersoek die gebruik van ontoesiende masjienleer om verborge verhoudings en anomalieë onder die Johannesburgse Effektebeurs (JSE) Top 40-aandele bloot te lê. Deur rou tydreeksdata om te skakel na insiggewende maatstawwe wat opbrengste, wisselvalligheid, gemiddelde handelsvolume en fundamentele aanwysers soos verdienste per aandeel (EPS) en die prys-tot-verdienste (P/V)-verhouding insluit, poog die navorsing om patrone bloot te lê wat gebruik kan word om beleggingsbestuurstrategieë in te lig. Die data word as 'n oombliksblik ontleed, met die bedoeling dat hierdie proses voortdurend oor verskillende tydrame toegepas kan word om insigte in geleenthede te verkry en portefeuljerisiko te bestuur.

Verskillende groeperingsalgoritmes, naamlik K-gemiddeldes, DBSCAN en hiërargiese groepering, is gebruik in kombinasie met dimensieverminderingstegnieke soos Hoofkomponentanalise (PCA), t-Verspreide Stogastiese Nabuurskadinbedding (t-SNE) en Uniforme Manifold-benadering en Projeksie (UMAP). Die modelle is geëvalueer deur interne maatstawwe, naamlik die Silhoëettelling en Davies-Bouldin-Indeks. Verder het die JSE-sektorklassifikasies gedien as 'n eksterne grondbasis vir validasie en om anomalieë te identifiseer wat vir beleggingsgeleenthede benut kan word.

Die resultate dui aan dat t-SNE gekombineer met hiërargiese groepering die mees georganiseerde groepe geproduseer het, met 'n Silhoëettelling van 0.5023 en 'n Davies-Bouldin-Indeks van 0.5296. Die ontleding het beide verwagte sektorgroeperings en noemenswaardige anomalieë blootgelê, soos maatskappye wat buite hul aangewese sektore groepeer weens soortgelyke finansiële eienskappe. Shapley Byvoegings-Verduidelikings (SHAP)-analise is gebruik om insigte in kenmerkbelangrikheid binne groepe te bied, wat die interpreteerbarheid van die resultate verbeter.

Ten slotte demonstreer die studie dat ontoesiende masjienleer-tegnieke doeltreffend is in die opsporing van betekenisvolle patrone en anomalieë in aandelemarktdata. Hierdie insigte bied praktiese implikasies vir beleggingsbestuur deur 'n data-gedrewe benadering tot portefeuljediversifikasie en risikobeoordelings te bied. Hierdie navorsing dra by tot die finansiële literatuur deur die nut van gevorderde groeperingsmetodes in die konteks van die Suid-Afrikaanse aandelemark te toon, wat toekomstige studies in ontluikende markte kan lei.

▶ Bevordering van Distale Radius Breukklassifikasie deur Metriek Leer: 'n Drielingsneurale Netwerk Benadering

Onlangse vordering in rekenaarvisie en diep leer het distale radius breukanalise verbeter en bied die potensiaal om uitdagings in mediese diagnostiek in ontwikkelende lande te verlig. Hierdie navorsing ondersoek die toepassing van metrieK leer-argitekture, veral drielingsneurale netwerke, vir die klassifikasie van distale radiusbreuke volgens die Arbeitsgemeinschaft fur Osteosynthesefragen/Ortopediese Trauma-assosiasie (AO/OTA) breukklassifikasiestelsel. Die studie poog om uitdagings wat verband hou met dataskaarste en modelveralgemening aan te spreek terwyl outomatiese breukopsporing en klassifikasieakkuraatheid verbeter word.

Die navorsing het die kruisbedryf standaardproses vir datamynbou (CRISP-DM) gevolg, wat deur sakebegrip, datavoorbereiding, modellering en evalueringsfases gevorder het. Die GRAZPEDWRI-DX-datastel is as die brondomein vir oordragleer gebruik om breukobjeKopsporing op 'n klein teikenset distale radiusdatastel (DIRAD) uit te voer, saam met tradisionele datavermeerderingstegnieke om databeperkings te versag. Die objekopsporingsmodel, gebaseer op die agtste weergawe van die jy kyk slegs een maal (YOLOv8)-argitektuur, het 'n gemiddelde gemiddelde presisie (mAP) van 93.8% by 50% Interseksie oor Unie (IoU) op die GRAZPEDWRI-DX-datastel en 73.1% op die DIRAD-datastel behaal.

Die kenmerkonttreker van 'n visuele geometriegroep (VGG) 19-laag konvolusionele neurale netwerk (CNN), saam met 'n pasgemaakte inbeddingsneurale netwerk, is gebruik as die grondslag van die ontwikkelde drielingsneurale netwerk, wat distale radiusbreuke volgens die AO/OTA-klassifikasiestelsel geklassifiseer het. Die drielingsneurale netwerk het die drielingsgrensverliesfunksie en 'n semi-harde drielingssteekproefstrategie ingesluit en is afsonderlik op posteriore-anterieure (PA) en laterale radiografieprojeksies opgelei.

Ondanks dat die drielingsneurale netwerk hoë opleidings-F1-tellings van tot 97% vir die PA-projeksie behaal het, het die modelle beperkte veralgemening getoon, wat die behoefte aan bykomende data of verfynde vermeerderingsstrategieë beklemtoon. 'n Vergelykende analise met vorige navorsing het die sterkpunte en beperkings van die voorgestelde benadering beklemtoon.

Die bevindinge demonstreer die uitvoerbaarheid van drielingsneurale netwerke vir distale radiusbreukklassifikasie maar beklemtoon die noodsaaklikheid van toekomstige werk om veralgemeningsuitdagings aan te spreek. Voorgestelde verbeterings sluit in die integrasie van generatiewe adversariële netwerke vir datasintese, die gebruik van segmentering om breukklassifikasie te vereenvoudig en die gebruik van samestellingsmodelle vir verbeterde diagnostiese akkuraatheid. Hierdie navorsing verteenwoordig 'n eerste stap in die toepassing van metriek leer-argitekture op die AO/OTA distale radiusbreukklassifikasiestelsel.

▶ Kantoor Koolstofdioksiedvlak Voorspelling deur Modelvertroue en Seinresolusie

Binnenshuise lugkwaliteit (IAQ) word beskou as groot gesondheids- en welstandsimplikasies te hê, met binnenshuise lugbesoedeling (IAP) wat geskat word om tienvoudig die negatiewe impak op mense relatief tot buitenshuise besoedeling te hê. Daar word geskat dat mense gemiddeld 80%-90% van hul tyd binnenshuis spandeer. Dit is dus in die belang van algehele bevolkingsgesondheid om robuuste IAQ-monitering en -beheerstelsels te ontwikkel. In die bydrae tot die bevordering van IAQ-monitering fokus hierdie studie op die voorspelling van binnenshuise CO2-konsentrasies deur masjienleer-algoritmes te gebruik.

Binnenshuise CO2-konsentrasies kan vinnig verander en dus is 'n intydse moniteringstelsel waarskynlik ontoereikend vir die handhawing van gesonde IAQ-toestande. Alhoewel sensors beskikbaar is, is daar 'n vereiste vir voorspellende moniteringstelsels wat afhanklik is van robuuste en akkurate modelle. Navorsers het die ontwikkeling en implementering van fisika- en masjienleer-algoritmes vir hierdie doel ondersoek. Die konsensus in die literatuur is dat masjienleer-algoritmes fisika-gebaseerde algoritmes oortref. Hierdie uitkoms is afhanklik van die beskikbaarheid en kwaliteit van die data wat as insette vir die modelle gebruik word. Die probleem is dat beperkte fokus geplaas is op die datakwaliteit en -eienskappe in die ontwikkeling van binnenshuise CO2-voorspellingsalgoritmes. Hierdie navorsingsprojek spreek die impak van geraas in die data op algehele voorspellingsprestasie aan.

Daar word verwag dat die invoerveranderlikes wat in die ontwikkeling van CO2-voorspellingsmodelle gebruik word, nie-stasionêr en vatbaar vir geraas is. Dit kan die voorspellingsprestasie van die algoritmes beïnvloed. Golfies kan gebruik word om seine te filtreer, waardeur geraas verwyder word en noodsaaklike inligting uit die oorspronklike sein behou word. Die voorbehoud is dat die implementering van die verkeerde filter op suboptimale vlakke kan lei tot seindistorsie en inligtingsverlies, wat voorspellingsprestasie negatief beïnvloed. Om hierdie risiko te minimeer, kan dinamiese seinresolusie in opleiding gebruik word. In hierdie projek word 'n metode gebruik wat verskeie golfies op verskillende ontbindingsvlakke implementeer. Die gebruik van die uitsette van die golfie om 'n sameswering van LSTM's op te lei en daarna die mees vertroude modelle vir voorspelling te kies, word geïmplementeer. Vir vergelykende analise is 'n voorspellingsmodel gebaseer op vaste seinresolusie ontwikkel. Die prestasie van die twee modelle is vergelyk deur gebruik te maak van die gemiddelde absolute fout (MAE), gemiddelde absolute persentasiefout (MAPE), wortel gemiddelde kwadraatfout (RMSE) en determinasiekoëffisiënt (R2).

Die implementering van die dinamiese seinresolusiemodell-raamwerk het byna 3 keer soveel uitvoeringstyd vereis as die vaste resolusie. Hierdie bykomende berekening het geen bykomende prestasieverbeterings opgelewer nie. In plaas daarvan is waargeneem dat die gebruik van dinamiese seinresolusie gelei het tot beperkte voorspellingsvermoë in gebiede van hoë CO2-konsentrasies, wat potensiële risiko's van inligtingsverliese bevestig wat moontlik is met seinfiltrering. Die vaste resolusiemodel het ook superieure prestasie getoon met 'n MAE, MAPE, RMSE en R2 van 1.02 dpm, 0.3%, 2.365 dpm en 0.99 onderskeidelik. Terwyl die dinamiese seinresolusiemodell-prestasiestatistieke verswak het na 14.96 dpm, 2.7%, 27.48 en 0.91.

▶ Data-gedrewe Voorspellende Onderhoud vir Verbeterde Betroubaarheid van Deurlopende Myners in Ondergrondse Steenkoolmynbou

Die globale steenkoolmynbedryf staar toenemende uitdagings in die gesig weens agteruitgaande operasionele toestande en verouderde masjinerie. Terwyl mynmaatskappye streef om hul prosesse te optimeer, is daar 'n beduidende geleentheid om onderhoudstrategieë te verbeter om te verseker dat masjiene teen die laagste moontlike koste bedryf. Hierdie navorsingsopdrag verken die toepassing van datawetenskap in die ontleding van elektriese data van deurlopende myners om anomalieë te identifiseer en onderhoudspersoneel te waarsku van potensiële mislukkings voordat dit gebeur. Deur beide konvensionele masjienleer- en diep leertegnieke te gebruik, is die doel om die mees doeltreffende benadering tot voorspellende onderhoud te bepaal. Hierdie studie verteenwoordig 'n baanbrekende poging in Suid-Afrika, met die fokus op die toepassing van Markov-kettings vir anomalieopsporing in die steenkoolmynsektor. Deur die Markov-eienskap te benut en dit te integreer met die Mahalanobis-afstand, het die navorsing 'n robuuste raamwerk ontwikkel wat anomalie-identifikasie verbeter. Hierdie tweeledigde benadering verryk nie net datawetenskap-analitiese vermoëns nie, maar stel ook innoverende perspektiewe in industriële onderhoud bekend. Deur tradisionele groeperingstegnieke met gevorderde statistiese metodes te oorbrug, open die navorsing nuwe weë vir verbeterde anomalieopsporing.

▶ Bevordering van die Argument vir Vlak Modelle: 'n Vergelykende Analise teenoor Diep Leer Benaderings

Die vinnige aanneming van diep leer in verskeie domeine het gelei tot 'n oorafhanklikheid van komplekse argitekture, dikwels ten koste van eenvoudiger modelle wat ewe doeltreffend kan wees. Hierdie neiging wek bekommernisse oor onnodige berekeningskoste, verminderde interpreteerbarheid en verhoogde koolstofvoetspore, veral in gevalle waar vlak modelle vergelykbare resultate kan lewer. Hierdie navorsingsopdrag poog om die noodsaaklikheid van diep leermodelle te evalueer deur 'n vergelykende analise teenoor vlak modelle uit te voer. Die studie poog om te bepaal onder watter omstandighede eenvoudiger modelle verkies word en 'n meer hulpbronDoeltreffende en interpreteerbare alternatief tot diep leerbenaderings bied. Die navorsing gebruik 'n gemengde metode-benadering, wat wetenskapometriese analise, 'n uitgebreide literatuuroorsig en geselekteerde gevallestudies kombineer. Die studie beoordeel krities die prestasie van vlak teenoor diep modelle oor verskeie toepassings, met die fokus op kriteria soos akkuraatheid, berekeningsdoeltreffendheid en skaalbaarheid. Die bevindinge onthul dat vlak modelle, wanneer behoorlik geoptimeer, prestasievlakke kan behaal wat vergelykbaar is met dié van diep leermodelle in verskeie kontekste. Verder bied hierdie modelle voordele in terme van laer berekeningseise en groter interpreteerbarheid, wat die heersende neiging uitdaag om standaard diep leeroplossings te gebruik. Die studie kom tot die gevolgtrekking dat diep leer nie altyd die beste keuse is nie en pleit vir 'n meer deurdagte keuse van modelle gebaseer op die spesifieke behoeftes van die toepassing.

▶ Datawetenskap Benaderings vir die Aanspreek van Ontbrekende Waardes in die Transkriptoom van Plasmodium falciparum

Die ontwikkeling van nuwe antimalaria-middels en entstowwe is sterk afhanklik van die begrip van die genetika van Plasmodium falciparum. Transkriptomiese data, 'n waardevolle hulpbron vir sulke insigte, word dikwels gedokumenteer in 'omics-datastelle. Hierdie datastelle word egter dikwels gepla deur ontbrekende waardes. Ontbrekende waardes belemmer stroomaf biologiese analise aansienlik. Akkurate invoer van hierdie ontbrekende waardes is noodsaaklik vir die analise van 'omics-datastelle en die ontdekking van nuwe antimalaria-middels.

Hierdie navorsingsopdrag ondersoek ontbrekende waarde-invultegnieke om 'n geskikte metode te identifiseer vir akkurate invulling van ontbrekende waardes in 'n transkriptomiese datastel. Verskeie benaderings, insluitend enkelvoudige invulling, meervoudige invulling, masjienleer-invulling en diep leer-invulling word ondersoek. Enkelvoudige invullingsmetodes, soos gemiddeld/mediaan-invulling, laagste van opsporing (LOD) en ewekansige stert-invulling (RTI), slaag dikwels nie daarin om die komplekse verhoudings inherent in geenuitdrukkingsdata te vaslê nie. Gevolglik word gevorderde metodes, naamlik maksimum waarskynlikheid deur geketende vergelykings (MICE), verwagtingsmaximering (EM), k-gemiddeldes, wasige c-gemiddeldes (FCM), k-naaste bure (KNN), selforganiserende kaarte (SOM), digtheidsgebaseerde ruimtelike groepering met geraas (DBSCAN), voorwaartse neurale netwerk (FNN), outoenkoder (AE) en generatiewe adversariële invullingnetwerk (GAIN), ondersoek vir hul geskiktheid in die hantering van ontbrekende waarde-invulling in transkriptomiese data.

Die SOM word as die invullingsmetode gekies. Die invullingsresultate lewer konsekwent RMSE- en MAE-waardes laer as die standaardafwyking van die data. Hierdie resultate dui aan dat die foute binne die aanvaarbare reeks val gegewe die natuurlike wisselvalligheid van geenuitdrukkingsdata. Daaropvolgende k-gemiddeldes-groepering wat op die ingevulde data uitgevoer is, het getoon dat invulling nie die kwaliteit van die groepe beïnvloed het nie. Hierdie bevinding onderstreep dat SOM-invulling die biologiese struktuur van die data voldoende bewaar.

▶ 'n Outomatiese Rekenaarvisiestelsel om Graafmasjienproduktiwiteit te Meet

Hierdie studie ontwikkel 'n graafmasjienproduktiwiteitsmodel om bouproduktiwteit te meet en te optimeer deur rekenaarvisietegnieke te gebruik, wat oneffektiwitede in boubedrywighede aanspreek en graafmasjienvertoning verbeter. Die model ontleed video-invoer met rekenaarvisie, met die fokus op nabyoptimale intydse sporingstegnieke. Objekopsporingsalgoritmes, insluitend jy kyk slegs een maal (YOLO) en Vinniger Streekgebaseerde Konvolusionele Neurale Netwerk (Faster R-CNN), is aanvanklik ondersoek vir akkurate sporing van graafmasjienbeweging op boupersele. Resultate het aangedui dat YOLO superieure veralgemening en prestasie bied, wat meer akkurate begrensingskoordinaat-koördinate lewer vir die sporing van graafmasjiene.

Die datastel wat ontwikkel is, het herskaalder en geëtiketteerde graafmasjienvideo's ingesluit, wat eenvormig verwerk is vir konsekwente kleur en formaat. Elke video is in drie-sekonde-intervalle verdeel, geannoteer volgens aktiwiteit. Om produktiwiteit te meet, is 'n twee-fase aktiwiteitsherkenningsmodel ontwikkel. Aanvanklik het 'n VGG16-kenmerkonttreKker gekombineer met 'n eenvoudige lang-korttermyngeheue (LSTM)-model die graafmasjien geklassifiseer as staties of bewegend, wat 100% akkuraatheid in bewegingsopsporing behaal het.

Die tweede fase het die ontwerp van 'n gevorderde aktiwiteitsherkenningsmodel behels om spesifieke graafmasjinetake te klassifiseer, insluitend grondoptel, vervoer en aflaai, met die fokus op taaKdurasie-analise en prosesoptimering. Verskeie modelle en prosesse is getoets, met inagneming van verskillende hoeke, graafmasjiene en agtergronde. Die model het goed gevaar maar het uitgebreide opleidingsdata en berekeningskrag nodig vir optimale akkuraatheid. Met 300 tot 400 geëtiketteerde video's wat drie-sekonde-aktiviteitsegmente bevat, het die akkuraatheid van die model gewissel tussen 80% tot 100%, afhangend van die ooreenkoms van die toetsdata met die opleidingsomgewing.

Ten spyte van uitdagings soos ligvariasies en onvoldoende datakwaliteit, demonstreer die model potensiaal in die sporing van graafmasjienaktiwiteite. Toekomstige pogings sal poog om die model na ander masjinerie uit te brei en intydse prestasie te verbeter, wat moontlik beduidende doeltreffendheidsverbeterings en kostevermindering kan oplewer.

2024

Desember 2024 Graduering

▶ Aktiewe Leer in Sakkie-Ensembles

Hierdie studie ondersoek die integrasie van dinamiese patroonseleksie (DPS) en ensemble-leer (EL) om die prestasie van voorwaartse neurale netwerke opgelei met gradiëntafdaling-terugvoortplanting te verbeter, met besondere aandag aan die sydigheid-variansie-dilemma terwyl berekeningskompleksiteit verminder word. DPS, bekendgestel deur Röbel (1994), is 'n aktiewe leertegniek wat inkrementeel patrone met die hoogste foute by die opleidingsdata voeg, met die doel om soortgelyke veralgemeningsresultate as standaard terugvoortplanting te bereik met minder berekeningskoste. Sakkie-gebaseerde EL kombineer die voorspellings van veelvuldige modelle opgelei op hergesteekproefde substelle van die oorspronklike data om veralgemeningsprestasie te verbeter, alhoewel teen verhoogde berekeningseise.

In hierdie navorsing is DPS en EL onafhanklik en in kombinasie op neurale netwerke toegepas, geëvalueer op vier klassifikasieprobleme en twee regressieprobleme. Die eksperimente het vier scenario's getoets: standaard NN's, NN wat slegs EL toegepas het, slegs DPS, en 'n kombinasie van beide (aangedui as EL AL NN). Die resultate het getoon dat DPS soortgelyke prestasie as standaard terugvoortplanting behaal het terwyl berekeningskoste verminder word. Spesifiek het DPS vir die iris- en hepatitisklassifikasieprobleme beter veralgemening getoon, moontlik weens verminderde oorpassing.

EL het veralgemening oor alle klassifikasie- en regressieprobleme verbeter, wat sy doeltreffendheid ondanks hoër berekeningskompleksiteit bevestig. By die kombinasie van DPS met EL het die studie bevind dat vir twee van die vier klassifikasieprobleme en beide regressieprobleme die EL AL NN die veralgemening van EL ewenaar terwyl berekeningskompleksiteit verminder word. Vir die iris- en wynklassifikasieprobleme het die EL AL NN egter nie so goed veralgemeen nie, met 'n vermindering in die veralgemeningsfaktor onder een, wat oorpassing as 'n moontlike oorsaak aandui.

▶ Aanpasbare Masjienleer vir die Optimering van 'n Waterbehandeling-Klaringstelsel

Digitalisering is tans 'n groot onderwerp van bespreking binne industrieë met die doel om beskrywende, diagnostiese, voorspellende en voorskriftelike terugvoer op alle vlakke van besigheidsbetrokkenheid te bied. Die waterbehandeling-industrie is geen uitsondering nie; om lewende reaksies op steeds veranderende invoerwater-toestande te verseker, kan dikwels onderbenutde databronne in 'n intelligente stelsel vir optimale beheer ingeskakel word.

Die onderwerp van hierdie studie was 'n klaringstelsel wat as voorbehandeling gebruik is vir die produksie van gesuiwerde water uit organies-ryk afvalwater. Die beheermaatreëls van die betrokke stelsel voor die studie was meestal staties en lineêr van aard met 'n groot mate van menslike interaksie wat vereis word om 'n sub-optimale teiken van minimum oorlooptroebelsheid [maatstaf vir waterhelderheid] te bereik. Dit was dus wenslik om 'n stelsel te ontwikkel wat die proses modelleer en die oorloopkwaliteit optimeer deur die invoer-koagulant- en flokkuleermiddelsdosisse op 'n deurlopende basis aan te pas as 'n voorskriftelike terugvoerstelsel.

Om die probleem aan te spreek, is kenmerke geselekteer op grond van deskundige kennis, waarna R gebruik is vir die datahantering en -analise. Roudata is ingeneem uit 'n MSSQL-databasis en MS Excel-datalêers, wat vir kwaliteitskwessies beoordeel is en dan dienooreenkomstig gekombineer en verwerk is. Die resulterende invoerkenmerke was invoer-koagulant- en flokkuleermiddeldosisse, tenkvlak, troebelsheid, pH, temperatuur en vloeitempo's na die 4 parallelle klarders. Die teiKenkenmerk het bestaan uit 'n 1:1-weging tussen oorlooptroebelsheid en CHO na min-maks-skaalstelling tussen 0 en 1. Van die 3 boom-gebaseerde modelle wat getoets is, is die ewekansige woudmodel as optimaal bevind met 'n toets-RMSE van 0.0761 eenhede. 'n XGBoost-model is toe gebruik om die geeskiktheidsfunksie bestaande uit oorloopkwaliteit en koagulant- en flokkuleermiddeldosisse deur roosterlsoek te optimeer. Hierdie prosedure het belowende simulasieresultate opgelewer met mediaan relatiewe verbeterings van 36.4% vir die oorloopkwaliteit, asook 28.6% en 7.71% vir die koagulant- en flokkuleermiddeldosisse onderskeidelik. By lewende toetsing is hierdie resultate as 49.1%, 28.6% en 8.52% onderskeidelik geverifieer.

Aanlynheropleiding en -verkenning is ook in simulasie getoets. Aanlynheropleiding is gebaseer op die ingezette model se voorspellingsakkuraatheid binne 'n 1-dag bewegende gemiddelde. Sodra dit 0.1 eenhede oorskry het, moes 'n minimum van 1 dag verloop vir heropleiding. In simulasie was die gemiddelde heropleidingstempo een keer per 3.12 dae met RMSE-akkuraatheid op die ingezette databestek van 0.0838 eenhede. Verkenning is uitgevoer deur ewekansigheid by die optimeringroetine te voeg deur ewekansig 100 oplossings te kies en hulle aan 'n 10-geval-toernooi te onderwerp. Dit is bevind dat die bestaande lineêre korrelasie tussen die dosisse van 0.83 na 0.14 eenhede verminder kon word met 'n 50% toename in verbeteringsveranderlikheid.

▶ Outomatiese Sifting van Kroniese Sinusitis uit Stemopnames deur Masjienleer

Kroniese sinusitis is 'n algemene siekte wat miljoene individue wêreldwyd raak. Tans behels die sifting van kroniese sinusitis die evaluering van pasiëntsimptome, die uitvoering van endoskopiese ondersoek, of die gebruik van mediese beeldmetodes soos berekenings-tomografie of magnetiese resonansbeelding. Simptoomgebaseerde diagnose is dikwels onakkuraat. Endoskopiese ondersoeke is indringend en beperk deur anatomiese wisselvalligheid. Mediese beeldprosedures is duur en stel pasiënte bloot aan ionierende straling, wat die risiko van kanker kan verhoog. Alternatiewelik kan kroniese sinusitis potensieel outomaties gesif word deur stemopnames, maar dit is nog nie voorheen ondersoek nie.

Hierdie navorsingsopdrag stel voor om masjienleer te gebruik om outomaties te onderskei tussen die spraak van pasiënte met kroniese sinusitis en dié van gesonde individue. Die datastel wat in hierdie navorsing gebruik word, behels stemopnames van pasiënte wat tonsillektomie, septoplastiek, funksionele endoskopiese sinusoperasie en geringe operasies ondergaan het wat nie verband hou met die neusholte of stembaan nie. Die data wat ingesamel is, is afgesteek, geraas is verminder deur 'n voor-klem-filter te gebruik, en ongestemde spraaksegmente is verwyder deur korttermyn-energieanalise. Verskeie oudio-kenmerke is uit die verwerkte oudiodata onttrek, waarvan die mees relevante Mel-frekwensie kepstrale koëffisiënte, spektrale kontras, Mel-spektrogram, spektrale middelpunt, spektrale planheid, spektrale bandwydte en spektrale uitrolling is.

Die DNN-model het alle ander modelle wat oorweeg is oortref en is gekies vir verdere evaluering deur akkuraatheid-, presisie- en herroepingsmaatstawwe te gebruik. Die prestasiereResults het aangedui dat die DNN-model 'n akkuraatheid van 0.67 ± 0.0089 en 0.63 ± 0.0089 op die opleiding- en toetsstelle onderskeidelik behaal het. Die verkreë prestasiereResultate is vergelykbaar met bevindinge van verskeie stemgebaseerde diagnose-studies. Hierdie studie het dus gedemonstreer dat kroniese sinusitis uit stemopnames opgespoor kan word deur masjienleer.

Die matige akkuraatheid van 0.63 op die toetstel dui egter aan dat daar nog ruimte vir verbetering is. Dit kan te wyte wees aan faktore soos die datastelgrootte, voorverwerkingstegnieke, kenmerkseleksie en/of masjienleermodelle wat oorweeg is.

▶ Voorspelling van Pasiëntuitkomste Gebaseer op Nadelige Geneesmiddelgebeurtenisse deur Grafiek Neurale Netwerke

Hierdie navorsing verken die toepassing van grafiek neurale netwerke (GNN's) in farmakovigilansie, veral in die voorspelling van nadelige geneesmiddelgebeurtenisse (NGB's) deur gebruik te maak van data van die voedsel- en geneesmiddelrekening (FDA) nadelige gebeurtenis-rapporteringstelsel (FAERS). Die studie begin met 'n diepgaande analise van die grafiekdatamodel, wat komplekse verhoudings tussen pasiënte, geneesmiddels, reaksies en uitkomste voorstel. Die GNN-argitektuur, spesifiek 'n grafiek multi-laag perseptron (grafiek MLP), word gekonfigureer en opgelei op hierdie grafiekgestruktureerde data om NGB-voorspellingsakkuraatheid te verbeter. Verskeie evalueringsmaatstawwe, insluitend die F1-telling, presisie, herroeping en akkuraatheid, word gebruik om die prestasie van die model te beoordeel, saam met 'n vergelykende analise met basislyn-metodes.

Die resultate demonstreer dat die GNN-model, wanneer behoorlik gekonfigureer, konvensionele benaderings in verskeie sleutelmaatstawwe oortref en dieper insigte in geneesmiddelveiligheid en pasiëntuitkomste bied. Verder beklemtoon die navorsing die potensiaal van GNN's in die verbetering van kliniese besluitneming, versterking van regulatoriese raamwerke en die bevordering van gepersonaliseerde geneeskunde. Beperkings soos datakwaliteit en modelinterpreteerbarheid word egter erken, wat aanbevelings vir toekomstige navorsing teweegbring. Hierdie studie dra by tot die groeiende liggaam kennis oor die gebruik van grafiekgebaseerde modelle in gesondheidsorg.

Maart 2024 Graduering

▶ Konvolusionele neurale netwerk filterseleksie deur genetiese algoritmes

Sedert die bekendstelling van groot taalmodelle soos ChatGPT het masjienleer wêreldwyd aandag van leke en geleerdes getrek. Die veld van masjienleer gaan egter die ontwikkeling van hierdie modelle 'n ruk voor en het 'n ryk geskiedenis van suksesvolle toepassings in 'n verskeidenheid velde. Genetiese algoritmes en rekenaarvisie is twee sodanige areas van masjienleer wat groot belofte getoon het in die oplossing van komplekse probleme. Genetiese algoritmes is 'n tipe evolusionêre algoritme wat 'n wye reeks optimeringsprobleme kan oplos, terwyl rekenaarvisie die gebruik van masjienleermodelle behels om insigte uit beeld- en videodata te onttrek.

Die mees algemeen gebruikte modelle in rekenaarvisie-toepassings is 'n vorm van neurale netwerk genaamd konvolusionele neurale netwerke. Neurale netwerke is 'n tipe masjienleermodel wat inspirasie trek uit die struktuur en funksionering van die menslike brein. Konvolusionele neurale netwerke verwys na 'n tipe neurale netwerkmodel wat veral geskik is vir rekenaarvisietake soos beeldklassifikasie, objekopsporing en videoanalise weens die gebruik van konvolusionele lae. Konvolusionele neurale netwerke kan uit miljoene parameters bestaan, waarvan die meerderheid gestoor word in die filters wat die netwerke tydens konvolusie-operasies gebruik. Een groot probleem wat wyer aanvaarding van konvolusionele neurale netwerkmodelle in die praktyk belemmer, is die grootte van hierdie modelle. Hierdie projek stel die gebruik van 'n genetiese algoritme voor om die proses van filterseleksie te optimeer, wat toelaat dat veelvuldige filterseleksiemetodes gelyktydig toegepas word.

By die toepassing van die voorgestelde algoritme behaal ons 90.91% modelkompressie teen die koste van 'n 0.13%-punt akkuraatheidsdaling vir 'n netwerk opgelei op oudiodata. By toepassing op die klassieke Fashion-MNIST-datastel word 91.37% kompressie bereik met 'n ooreenstemmende 0.39%-punt daling in akkuraatheid. Ons het ook 86.06% kompressie bereik terwyl akkuraatheid met 2.37% punte verhoog is op 'n model opgelei op die CIFAR-10-datastel. Hierdie resultate toon die nut van die algoritme en sy vermoë om netwerke aanpasbaar met verskillende argitekture opgelei op verskillende datastelle te komprimeer.

▶ Die waarde van Nultarief-internetdienste om noodsaaklike dienste aan lae-inkomste-gemeenskappe te verskaf

Hierdie navorsingsopdrag het gebruikersbelangstellings en -gebruikspatrone op 'n nultarief-internetplatform, MoyaApp, in Suid-Afrika ondersoek om die waarde van nultarief-noodsaaklike dienste in lae-inkomste-gemeenskappe te bepaal.

Hierdie studie het gefokus op die begrip van hoe gebruikers met verskillende kategorieë noodsaaklike dienste wat deur die MoyaApp-platform aangebied word, omgaan, veral by toelaes, onderwys, werk en ander inligtingsdienste soos weer en elektrisiteit. Die navorser het datamynbou-tegnieke soos tydelike assosiasieregel-mynbou en ander statistiese metodes gebruik om gebruikersbelangstellings en -gebruikspatrone te ontleed.

Die bevindinge het onthul dat baie lae-inkomstegebruikers aanvanklik op MoyaApp geregistreer het om toegang tot toelaedienste te verkry; gebruikers het geleidelik ander noodsaaklike dienste oor tyd verken en gereelde platformgebruikers geword.

Die navorser het 'n paar aanbevelings voorgestel om die voordele wat MoyaApp aan lae-inkomste-gemeenskappe bied, te verbeter: Eerstens behoort MoyaApp te oorweeg om die werkkategorie uit te brei om gebruikers met verskillende vlakke van onderwys tegemoet te kom. Tweedens moedig die teiken van toelaagebruikers met inligtingsdienste soos weer en elektrisiteit betrokkenheid aan. Derdens kan die resultate van hierdie studie gebruik word om 'n aanbevelingsenjin te ontwikkel om relevante noodsaaklike dienste aan lae-inkomestegebruikers voor te stel.

Ten slotte het hierdie navorsingsopdrag gedemonstreer dat die verskaffing van nultarief-internetdienste of, meer akkuraat, omgekeerde rekening-data aan lae-inkomste-gemeenskappe 'n doeltreffende strategie kan wees om toegang tot noodsaaklike dienste te verbeter en die digitale kloof te oorbrug.

▶ Intelli-Been: Outomatiese breukopsporing en -klassifikasie in radiografieë deur oordragleer

Vermoedelike breuke is een van die mees algemene redes vir pasiënte om die noodafdeling (NA) in hospitale te besoek. Radiografieë, die primêre diagnostiese hulpmiddel vir vermoedelike breuke, word dikwels beoordeel deur nood-gesondheidsorgpersoneel sonder gespesialiseerde ortopediese kundigheid. Hierdie beperking lei tot 'n hoë aantal diagnostiese foute in NA's, met verkeerd gediagnoseerde breuke wat meer as 80% van gerapporteerde diagnostiese foute uitmaak.

Gegewe hierdie probleem met breukdiagnostiek, is daar 'n geleentheid om kunsmatige intelligensie (KI) te gebruik om te help met die diagnose van breuke. Suksesvolle implementering van 'n KI-stelsel wat breuke korrek opspoor en klassifiseer, sal lei tot meer akkurate prognose en behandelingsadvies.

Die gekose breukklassifikasiestelsel vir hierdie navorsingsopdrag is die Arbeitsgemeinschaftf fur Osteosynthesefragen / Ortopediese Trauma-assosiasie (AO/OTA)-klassifikasie. Die objekopsporingsmodelle wat in hierdie navorsing gekies is om te evalueer of KI gebruik kan word vir akkurate lokalisering en klassifikasie van breuke volgens die AO/OTA-klassifikasie is die vinniger streekgebaseerde konvolusionele neurale netwerk (Faster R-CNN), jy kyk slegs een maal weergawe 8 nano (YOLOv8n), jy kyk slegs een maal weergawe 8 groot (YOLOv8l) en RetinaNet.

'n Sekondêre probleem wat hierdie navorsingsopdrag aanspreek, is dié van dataskaarste. Diep leeralgoritmes vereis groot hoeveelhede data om uitmuntende prestasie te bereik. Die teikendatastel in hierdie navorsingsopdrag, die distale radiusdatastel (DIRAD), bestaan slegs uit 776 beelde, waarvan ongeveer die helfte breuke bevat. Die tegniek wat toegepas word om die dataskaarste-probleem te oorkom, is oordragleer. Met oordragleer word die objekopsporingsmodelle vooraf opgelei op groter datastelle soos die gemeenskaplike voorwerpe in konteks (COCO) en die GRAZPEDWRI-DX-datastel voordat dit op die teikendatastel opgelei word.

Hierdie navorsingsopdrag toon dat vooropleiding van objekopsporings op groter datastelle lei tot superieure prestasie op skaars datastelle. Die vooropleiding van die Faster R-CNN, YOLOv8n, YOLOv8l en RetinaNet op die GRAZPEDWRI-DX het gemiddelde gemiddelde presisie by 'n interseksie oor unie van 50 (mAP50) met gemiddeld 33.6% verbeter in vergelyking met dieselfde modelle opgelei met ewekansig geïnisialiseerde gewigte. Die beste presterende model, naamlik die YOLOv8l, het 'n mAP50 van 59.7% op die DIRAD-datastel behaal.

▶ Evolusionêre multi-doelwit optimering vir vragmotor- en dronekedeling

In die vinnig ontwikkelende landskap van e-handel is die doeltreffendheid van laaste-myl-aflewering 'n kritieke knelpunt in die logistieke ketting. Hierdie navorsing spreek die kompleksiteite van laaste-myl-aflewering aan, 'n proses wat aansienlik belas word deur hoë koste, omgewingsbekommernisse en die toenemende verbruikersvraag na vinnige en gerieflike diens. Deur te fokus op die integrasie van drone met tradisionele vragmotorafleweringstelsels, verken hierdie studie 'n innoverende oplossing vir die uitdagings in besigheid-tot-verbruiker (B2V) logistiek. Die gebruik van 'n gekombineerde vragmotor-en-drone-stelsel bied 'n nuwe benadering tot die optimering van afleveringsroetes en die vermindering van afleveringstye en bedryfskoste. Hierdie opdrag stel 'n multi-doelwit reisende handelsreiziger-probleem met drone-onderskepping (TSPDi) bekend, wat totale afleveringstyd en afstand gelyktydig minimeer.

In hierdie opdrag is die nie-gedomineerde sorteer genetiese algoritme II (NSGA-II) en die sterktepareto evolusionêre algoritme 2 (SPEA2)-algoritmes vir die TSPDi-probleem aangepas. 'n Pasgemaakte bevolkingsinisialisasiefunksie is by beide algoritmes gevoeg om die beginpunt van die evolusionêre proses te verbeter. Empiriese resultate het getoon dat NSGA-II beter is as SPEA2 in scenario's met groter datastelle en baie aflewer-nodusse, terwyl SPEA2 'n effense voordeel het in kleiner datastelle met minder aflewer-nodusse.

Verdere analise is uitgevoer om die prestasie van die algoritmes te vergelyk met dié van Ernst en Moremi. Die resultate het getoon dat die nuwe Multi-Doelwit Evolusionêre Algoritmes (MDEA) soortgelyk gevaar het as die enkeldoelwit funksie op die kleiner datastelle in terme van die afleveringstydmaatstaf. Vir groter datastelle het MDEA's alle algoritmes wat deur Moremi ontwikkel is, oortref. Vir die vragmotafstand-maatstaf het die MDEA's die meeste enkeldoelwit evolusionêre algoritmes oortref.

▶ Evolusie van ingekapselde neurale netwerk-blokke deur 'n genetiese algoritme

In onlangse jare het kunsmatige intelligensie, met sy subvelde van diep leer en evolusionêre berekening, merkwaardige groei beleef. Hierdie uitbreiding kan toegeskryf word aan die verhoogde beskikbaarheid van berekeningskrag en die potensiële waarde wat hierdie domeine bied. Hierdie projek ondersoek die uitvoerbaarheid van die gebruik van 'n geneties-gebaseerde evolusionêre algoritme om die ontdekking van subnetwerke binne konvolusionele neurale netwerke (CNN's), aangedui as blokke, vir beeldklassifikasie te outomatiseer. Geïnspireer deur argitekturale elemente in bekende CNN's soos ResNet en GoogLeNet, is hierdie blokke ontwerp om herbruikbaar, herhaalbaar en modulêr te wees.

Die eerste deel van hierdie projek het die ontwikkeling van 'n raamwerk behels om CNN-argitekture voor te stel, wat inspirasie getrek het uit die konsep van neuro-evolusie van uitbreidingstopologieë (NEAT). 'n Genetiese algoritme is dan aangepas om binne die raamwerk te pas, wat die evolusie van CNN-blokke deur verskeie evolusionêre operateurs moontlik maak, insluitend mutasie, speisiasie en kruising. Die raamwerk en genetiese algoritme is gekombineer om 'n bevolking van 100 CNN-blokke oor 30 generasies te laat ontwikkel. Die resultate van die vergelyking het die doeltreffendheid van die genetiese algoritme in die produksie van hoogs optimale oplossings getoon. Die resultate wat met 'n klein steekproef van die beste evolusie-blokke verkry is, was hoogs mededingend in vergelyking met handontwerpe teenhangers soos ResNet en Inception.

Hierdie studie bevestig die konsep van die gebruik van evolusionêre algoritmes vir neurale netwerk-blokgenerering en beklemtoon hul vermoë om handontwerpe netwerke te ewenaar. Die bevindinge dui aan dat evolusionêre berekening suksesvol die ontdekking van mededingende blokke binne CNN-argitekture outomatiseer, wat nuwe weë bied vir neuro-evolusie.

▶ Masjienleer vir Akwaponika-stelsel Sterfteverloop-voorspelling en Aanplantingsgebied-optimering

Akwaponika is 'n volhoubare boerderym-metode wat akwakultuur met hidroponie kombineer. Masjienleer en die internet van dinge (IoT) kan gebruik word om die winsgewendheid en doeltreffendheid van akwaponika-aanlegte te verbeter. Hierdie projek stel 'n masjienleer-gebaseerde IoT-stelsel vir akwaponika voor wat vissterfte kan voorspel en gewasgroeigebiede kan optimeer. Die stelsel versamel data oor waterkwaliteit, visgedrag en plantgroei. Hierdie data word dan gebruik om masjienleermodelle op te lei om vissterfte te voorspel en gewasgroeigebiede te optimeer. Die voorgestelde masjienleer-gebaseerde IoT-stelsel het die potensiaal om die winsgewendheid en doeltreffendheid van akwaponika-aanlegte te verbeter. Dit kan lei tot wyer aanvaarding van akwaponika as 'n volhoubare boerdery-metode.

▶ Ruimtelik-Tydelike Modellering van Padongeluksterftes in die Wes-Kaap

Padongelukke is 'n probleem in Suid-Afrika. In reaksie op die Wêreldgesondheidsorganisasie se Dekade van Aksie vir Padverkeer-veiligheid het die Wes-Kaap nuwe tegnieke gesoek en die toepassing van Datawetenskap- en Masjienleer-instrumente inisieer om as 'n besluitsteun-stelsel te dien. In hierdie lig poog hierdie projek om 'n masjienleermodel te ontwikkel wat in staat is om in tyd en ruimte die waarskynlikheid van 'n paadongeluk-gebeurtenis te voorspel. Dit word gedoen deur relevante kenmerke van die Wes-Kaap in 'n H3-rooster saam te voeg waardeur patrone in dodelike gebeurtenisse geleer word. Tradisionele masjienleer-tegnieke en diep leertegnieke word gebruik om die verhouding tussen die saamgevoegde kenmerke en paadongeluk-gebeurtenisse te leer met die doel om historiese gemiddelde modelle wat tans in die industrie gebruik word, te oortref.

▶ Boom-gebaseerde ML-modelle vir die kwantifisering van Mineralogie deur Massa Chemiese Samestellingsdata

Geometallurgie is 'n interdissiplinêre wetenskap wat geologiese en metallurgiese data gebruik om erts-tot-metaal-verwerkingsroetes te optimeer. Kennis van die ruimtelike verspreiding van minerale (en dus metale) binne die ertsliggaam vorm die grondslag van 'n geometallurgiese model. Inligting oor die chemie en kwantitatiewe mineralogie van 'n ertsliggaam kan verkry word deur boorkernaantekeninge. Die proses van boorkerning, monsterneem en ontleding is duur en tydrowend. Gevolglik is ander vinnige en goedkoop metodes om modale mineralogie af te lei voorgestel.

Element-tot-mineraal-omskakeling (EMO) verwys na die metode om massa-rotsaamstellingsdata te gebruik om mineraalgraad-hoeveelhede te bereken. EMO is 'n chemiese massbalanserings-tegniek. Chemiese massbalanse word uitgedruk as 'n stel gelyktydige vergelykings wat opgelos kan word deur die kleinste-kwadraat-benadering (KK-EMO). KK-EMO kan slegs toegepas word as die aantal onbekendes (minerale) minder as of gelyk is aan die aantal bekende veranderlikes (elemente). Dit is dikwels die geval dat daar meer minerale as elemente is.

Hierdie studie het alternatiewe datawetenskap-gebaseerde metodes vir KK-EMO ondersoek. Drie boom-gebaseerde masjienleer (ML)-algoritmes, naamlik Beslissingsboom, Ewekansige Woud en Ekstra Bome, is opgelei om mineraalgraad-hoeveelhede te voorspel deur posisionele en geochemiese data te gebruik. Die datastel wat in die ondersoek gebruik is, het bestaan uit 135 waarnemings afkomstig van 'n geologiese studie op die Kalahari-Mangaan-afsetting (KMA). Die resultate van die studie ondersteun die gevolgtrekking dat boom-gebaseerde masjienleer-algoritmes gebruik kan word om op die tekortkomings van KK-EMO te verbeter.

▶ Optimeringsalgoritmes vir 'n dinamiese vragmotor- en drone-skeduleringsprobleem

Met die toenemende gewildheid van aanlyninkopies en hoër klante-vraag na beter dienslewering, groei die belangrikheid van laaste-myl-aflewering. Die laaste myl, die finale aflewering aan die klant, kom teen 'n hoë koste vir die kleinhandelsbedryf en die omgewing deur besoedeling veroorsaak deur afleweringvoertuie. Met die vordering in dronetegnologie het afleveringstrategieë soos 'n vragmotor-en-drone-kombinasie, wat aflewing in parallel doen, uitvoerbaar geword.

In hierdie navorsingsopdrag word die koördinate van klantenodusse ewekansig verander om 'n dinamiese omgewing te simuleer terwyl 'n vragmotor-en-drone-stelsel aflewing uitvoer. Hierdie probleem word aangedui as die dinamiese reisende handelsreiziger-probleem met drone-onderskepping (DTSPDi). Hierdie navorsingsopdrag los die probleem op deur die mierkoloniestelsel (ACS), MAX-MIN-mierestelsel (MMAS) en 'n gewysigde ACS te gebruik wat feromon-kennis na die volgende tydstuk oordra. Die resultate van die maatstafstelling was dat ACS-KT beide algoritmes oortref het in beide die tyd- en afstanddimensies. Dit blyk dus dat ACS-KT beter is in die hantering van dinamiese omgewingsveranderinge vir die DTSPDi-probleem.

▶ Oorsig van Groot Data-groepeeringsmetodes

In 'n era wat gekenmerk word deur die uitdagings van die verwerking van uitgebreide en komplekse datastelle, verdiep die studie in die ontwikkelende landskap van groot data-groepering. Dit stel 'n nuwe taksonomie bekend wat groepeeringsmodelle in vier afsonderlike groepe kategoriseer, en bied 'n padkaart om hul skaalbaarheid en doeltreffendheid te verstaan in die gesig van toenemende datavolume en kompleksiteit.

Die wese van hierdie navorsing lê in sy strewe om verskeie groepeeringsmodelle krities te hersien, te ontleed en te evalueer, met die fokus op hul geskiktheid en aanpasbaarheid in die hantering van groot data, gekenmerk deur die vier V's, naamlik spoed, verskeidenheid, volume en egtheid.

Die metodologie is stewig gewortel in die uitvoering van 'n reeks eksperimente op gekose groeperings-metodes, maatstawwe en datastelle. Hierdie empiriese metode is noodsaaklik om te ekstrapoleer hoe elke model oor verskillende maatstawwe en datastelle vaar, en bied 'n vergelykende perspektief op hul prestasie.

Insigte uit hierdie navorsing het die skaalbaarheid en doeltreffendheid van modelle soos parallelle k-gemiddeldes en mini-lot k-gemiddeldes beklemtoon, wat hulle as voorbeeldig vir grootskaal-toepassings merk. Omgekeerd het dit die berekeningsbeperkings van modelle soos selektiewe steekproef-gebaseerde skaleerbare yl deelruimte-groepering (S5C) en suiwerheidsgieweegde konsensusgroepering (PWCC) bekendgestel.

Met erkenning van die beperkings wat deur die hulpbronbeperkings van Google Collab Pro+ opgelê word, bied die studie die beperkings wat tydens die evalueringsproses ondervind is.

Die kulminasie van hierdie projek word gekenmerk deur 'n omvattende prestasieopname, wat sleutelinsigte bied in die sterkpunte en swakhede van die benaderde modelle en ingeligte advies bied oor die kontekstuele gebruik van elke model. Dit lê die grondslag vir 'n gesentraliseerde databasis vir groepeeringsnavorsing.

Ten slotte staan hierdie navorsing as 'n verkenning en analise op die gebied van groot data-groepering, om die potensiale en knelpunte van verskeie modelle bloot te lê, en bied waardevolle insigte en aanbevelings terwyl teoretiese kompleksiteite met empiriese valideringes versoen word.

▶ Groepering van vrye teks-inkopiesdata

Die mynbou-industrie, soos die meeste ander, staar 'n diverse reeks uitdagings in die gesig. Mynmaatskappye kyk nou na die benutting van gevorderde data-analise om insigte uit hul data te verkry om data-gedrewe besluite te neem. Maatskappy A sukkel met 50% van sy groepsgewyse inkoopbesteding wat as ongestruktureerde teksdata gestoor word, wat diepgaande koste-analise belemmer weens variasies in die beskrywing van dieselfde items. Hierdie navorsingsopdrag het verskeie tegnieke soos Tfidf-kenmerkseleksie, LSA en woordsinbedding-kenmerktransformasie ondersoek. Die verkenning van k-gemiddeldes en agglomeratiewe hiërargiese (AHK) teksgroeperings-tegnieke het getoon dat AHK beter gevaar het, wat 'n hoë silhoëetkoëffisiënt gelewer het. Die navorsingsopdrag het sy doel suksesvol bereik om data-analise deur die groepering van vrye teksdata moontlik te maak.

▶ Min-skoot leer vir passiewe akoestiese monitering van bedreigde spesies

Die Hainan-gibbon is 'n primate van die Chinese eilandprovinsie Hainan. Die bevolking van hierdie primate het afgeneem as gevolg van stroping en staar nou uitwissing in die gesig. Bio-akoestiek is 'n veld wat betrokke is by die verkryging en studie van dierklanke. Passiewe akoestiese monitering is 'n belangrike stap in datavaslegging, en vang dikwels maande se data vas.

Masjienleer kan gebruik word om die bio-akoestiese identifikasie van spesies te outomatiseer, wat analitiese koste en tyd kan verminder. Helaas vereis baie masjienleer-algoritmes groot hoeveelhede data om betroubaar te presteer. Min-skoot-leer is 'n los-gedefinieerde struktuur in masjienleer wat poog om die beperkte dataprobleem met unieke benaderings op te los.

Hierdie opdrag verken die uitvoerbaarheid van akkurate, beeldgebaseerde klassifikasiemodelle wanneer dit aan lae datavolumes onderworpe is. Oudiodata word na spektrogramme omgeskakel en in beeldanalise gebruik. 'n Siamese raamwerk, wat wortels het in konvolusionele neurale netwerke (CNN), is die grondslag van die min-skoot-leerbenadering. Binne hierdie CNN-gebaseerde raamwerk word kontrastiewe-verlies- en drieling-verlies-argitekture, data-vermeerderingstegnieke, oordragleermettodes en verminderde beeldresolusie-datastelle ondersoek.

Die resultate dui aan dat die drieling-verlies-argitektuur die mees akkurate modelle produseer, met uitstekende presisie-, herroepings- en F1-tellingstatistieke. Die prestasie van die drieling-verlies-modelle word nie beïnvloed deur lae datavolumes nie. Aan die ander kant toon kontrastiewe-verlies-modelle beduidende prestasie-agteruitgang op laer datavolumes.

Oor die algemeen is die drieling-verlies-"basis-CNN"-model die aanbevole netwerk. Hierdie netwerk behaal 'n akkuraatheid van 99.08% en F1-telling van 0.995. Die Siamese raamwerk het 'n sterk vermoë gedemonstreer om die bio-akoestiese handtekening van die Hainan-gibbon te identifiseer. Aanbevelings word verskaf vir verdere navorsing in hierdie domein.

▶ Digitalisering van Toetsput-aantekeningsdokumente vir die Ontwikkeling van 'n Slim Digitale Grondondersoek-metgesel

Verskeie geotegniese maatskappye in Suid-Afrika het oor die jare grondondersoek gedoen deur die toetspuitmetode. Toetsputte behels die grawe van 'n gat in die grond en waarneming van die grondtoestande. Hierdie maatskappye het hul waarnemings in PDF-formaat gedokumenteer. Gegewe onlangse tegnologiese vordering is daar egter 'n groeiende behoefte om hierdie dokumente te digitaliseer vir grondige analise.

Digitalisering is 'n manier om PDF-dokumente om te skakel na 'n formaat wat deur 'n rekenaar ontleed kan word. Daar is twee algemene maniere om dokumente te digitaliseer, naamlik handmatig en outomaties. Handmatige digitalisering sluit in die kopieer en plak van inligting uit dokumente na 'n databasis. Hierdie proses is moeisaam, tydrowend, geneig tot foute en duur. Hierdie projek het 'n outomatiese manier van digitalisering van dokumente ondersoek deur 'n objekopsporingsmodel vir dokumentuitleg-analise en optiese karakterherkenning vir die onttrekking van alfanumeriese karakters uit beelde te gebruik.

Die objekopsporingsmodel is ontwikkel deur 'n Faster R-CNN-voorafopgeleide model wat in die Detectron2-raamwerk beskikbaar is, fyn af te stel. Die resultate het model R-101 (''n variant van R101-FPN) gedemonstreer as 'n gebalanseerde prestasie op grond van akkuraatheid en inferensietyd. PaddleOCR het die ander drie algoritmes oortref, met 'n woordherkenningstempo van 96%.

'n Interaktiewe toepassing wat aanlyn via 'n skakeling of vanlyn op 'n rekenaar toeganklik is, is ontwikkel vir die verkenning van die datastel. Hierdie toepassing maak dit moontlik om scenario's te skep deur veelvuldige snyers te gebruik om 'n woordwolk van algemene woorde en frekwensie van kenmerke te visualiseer. 'n Semantiese soekalgoritme is verfyn deur sinnetransformeerders te gebruik om gebruikers in staat te stel om die datastel in natuurlike taal te ondervra.

Aanbevelings vir verdere werk sluit in die uitvoering van omvattende data-analise om insigte en verborge patrone te ontdek, die opleiding van 'n taalmodel vir die verbetering van spellingkorreksie, en die insameling van meer dokumente vir die ontwikkeling van 'n groot geologiese en ingenieursdatastel.

▶ Vergelyking van masjienleermodelle op finansiële tydreeksdata

Die doeltreffende mark-hipotese stel dat finansiële markte doeltreffend is en dat beleggers dus nie konsekwent oortollige winste kan maak nie, omdat alle openbare inligting onmiddellik in die aandeelprys weerspieël word. Hierdie navorsingsopdrag fokus op die ontwikkeling van veelvuldige masjienleermodelle in kombinasie met 'n finansiële handelsstrategie wat 'n mengsel van tegniese aanwysers gebruik, om die prestasie van verskillende masjienleer-algoritmes op finansiële tydreeksdata te vergelyk.

Die finansiële tydreeksdata wat vir hierdie navorsingsopdrag ingesamel is, was 10-jaar minuut-koersdata. Die twee buitelandse wisselkoers-datastelle, die USD/ZAR en ZAR/JPY buitelandse wisselkoerse is gebruik. Die ander drie datastelle wat ingesamel is, was die S&P 500-indeks, die FTSE 100-indeks en die Brent ruolie-indeks. Twaalf masjienleermodelle is ontwikkel om die finansiële tydreeks-datastelle te voorspel.

Die resultate van die eksperimente dui aan dat die ondersteuningsvektoormasjien die beste van alle masjienleermodelle gevaar het. Die basislyn logistiese regressiemodel het alle ander masjienleermodelle oortref. Die ewekansige woud en veerkragtige terugvoortplanting-voorwaartse neurale netwerk-modelle het derde en vierde beste gevaar. Die rekurrente neurale netwerk-modelle het baie swak presteer. Dit is vasgestel dat die nie-neurale netwerk masjienleermodelle minder berekeningskompleks was en minder afhanklik was van 'n gebalanseerde datastel as die neurale netwerkmodelle.

▶ Neigings in Infrastruktuurlewering uit Mediaverslae

Dit is getoon dat belegging in openbare infrastruktuur soos paaie en elektrisiteit oor die algemeen lei tot ekonomiese groei, en ekonomiese groei help op sy beurt armoedebestryding en inkomste-ongelykheid. Infrastruktuurverslae (IV's) beoordeel die toestand van 'n land se infrastruktuur. Die Suid-Afrikaanse Instituut vir Siviele Ingenieurswese (SAICE) publiseer IV's vir Suid-Afrika. Aanlynberigte is 'n belowende alternatiewe databron om die samestelling van die SAICE IV's te help, aangesien dit in die openbare domein is en daar 'n oorvloed van betroubare nuuswebtuistes bestaan wat feitlik alle streke van Suid-Afrika dek.

In hierdie navorsingsopdrag word aanlynberigte van nege Suid-Afrikaanse nuuswebtuistes ingesamel. Onderwerpmodellering word dan op elk van die ingesamelde datastelle toegepas met die doel om die ingesamelde nuusartikels wat verband hou met spesifieke infrastruktuurkwessies saam te groepeer, bv. alle nuusartikels oor paaigapings, of alle nuusartikels oor rioolstortings. 'n Opsomming vir elke onderwerp word dan gegenereer deur 'n groot taalmodel te gebruik. Laastens word 'n dashboard ontwerp om die onderwerpe en hul opsommings doeltreffend te visualiseer.

Hierdie navorsingsopdrag kom tot die gevolgtrekking dat dit uitvoerbaar is om onderwerpmodellering op Suid-Afrikaanse nuusdatastelle toe te pas vir die onttrekking van infrastruktuur-verwante onderwerpe. Dit word verder gevolgtrek dat onderwerpmodellering kan help om die gebrek aan data in die samestelling van die SAICE IV's aan te spreek.

▶ Ondersoek na verkoopsvoorspelling in die formele dranksmark deur diep leertegnieke

Hierdie navorsingsopdrag fokus op die voorspelling van verkope in die drankindustrie en ondersoek die doeltreffendheid van diep leertegnieke en 'n gestapelde ensemble-benadering. Tydreeks-voorspelling is 'n wyd gebruikte tegniek in verskeie velde soos ekonomie, finansies en bedryfsnavorsingsg.

'n Deeglike literatuuroorsig is gedoen om 'n diepgaande begrip van die onderwerp te verkry en bestaande oplossings in die veld te ondersoek.

Die studie het 'n deeglike ontleding van datastelle behels om die inherente strukture van die reekse te verstaan. Evalueringsmaatstawwe en verskeie algoritmes is gebruik om die doeltreffendheid van tydreeks-voorspellingstegnieke te beoordeel.

Die navorsingsopdrag het bevind dat diep leertegnieke en ensemble-teorie suksesvol toegepas kan word om verkope in die drankindustrie te voorspel. 'n Gestapelde ensemble-benadering was doeltreffend in die verbetering van die algehele prestasie.

Die bevindinge het die potensiaal om huidige implementerings van tydreeks-voorspelling aansienlik te verbeter terwyl die berekeningskompleksiteit en koste verbonde aan korrelige voorspellingsmodelle verminder word.

Die navorsingsopdrag kom tot die gevolgtrekking dat diep leer en ensemble-modelle 'n belowende weg bied vir doeltreffende en akkurate verkoopsvoorspelling in die drankindustrie, met meer tydseffektiewe en berekeningsgewys minder komplekse as tradisionele metodes.

▶ Outomatiese Lokalisering en Klassifikasie van Trauma-implantate in Beenröntgenfoto's deur Diep Leer

Hersieningsoperasies vereis dikwels dat ortopediese chirurge mislukte implantate pre-operatief identifiseer om die kompleksiteit en koste van die operasie te verminder. Chirurge ondersoek tipies die röntgenfoto's van 'n pasiënt vir pre-operatiewe implantaat-identifikasie, alhoewel hierdie metode tydrowend en soms onsuksesvol is. Hierdie studie ondersoek die gebruik van diep leer om die identifikasie van trauma-implantate in beenröntgenfoto's te outomatiseer. Die ondersoek beoordeel die prestasie van verskeie objekopsporing- en klassifikasiemodelle op 'n datastel van trauma-implantate.

Die resultate van die ondersoek dui aan dat die optimale diep leer-oplossing 'n twee-model-pyplyn is wat 'n jy-kyk-slegs-een-maal (YOLO)-objekopsporingsmodel en 'n digte konvolusionele neurale netwerk (DenseNet)-klassifikasiemodel gebruik. Die voorgestelde pyplyn bereik 'n gemiddelde gemiddelde presisie van 0.967 vir implantaat-lokalisering en 'n akkuraatheid van 73.7% vir implantaatklassifikasie. Die resultate van die studie bied bewys dat diep leermodelle in staat is om trauma-implantate te identifiseer.

▶ Assosiasie tussen die kenmerke wat deur 'n konvolusionele neurale netwerk gebruik word vir velkankerdiagnose en die ABC-kriteria en 7-punt velletsel-kwaadaardigheids-kontrolelys

Melanoom-gevalle en die gepaardgaande sterftesyfer styg vinnig. Die vroeë opsporing van melanoom is noodsaaklik om die sterftesyfer te verlaag. Tradisionele metodes wat deur dermatoloë gebruik word om velletstels te diagnoseer, is egter tydrowend en kwesbaar vir menslike foute. Konvolusionele neurale netwerke (CNN's) toon belofte in die verbetering van die doeltreffendheid en akkuraatheid van die klassifikasie van velletsels as kwaadaardig of goedaardig. Die gebrek aan deursigtigheid in die besluitnemingsproses van CNN's verhoed egter hierdie modelle van kliniese toepassing. Vir 'n CNN om vir kliniese toepassing goedgekeur te word, moet getoon word dat die kenmerke wat deur 'n CNN gebruik word om vellegsels te klassifiseer, kliniese aanwysers van melanoom is, naamlik die ABCDE-kriteria en 7-punt velletsel-kwaadaardigheids-kontrolelys.

In hierdie navorsingsopdrag is 'n metodologie ontwikkel om te evalueer of die kenmerke wat deur 'n CNN gebruik word om vellegsels te klassifiseer, ooreenstem met die ABC-kriteria en die 7-punt velletsel-kwaadaardigheids-kontrolelys. Die assosiasie tussen die ABC-kriteria en die 7-punt velletsel-kwaadaardigheids-kontrolelys-kenmerke en melanoom in die toetsdatastel is ondersoek deur statistiese metodes om 'n grondbasis te vestig. Die assosiasie tussen ABC-kriteria en die kenmerke wat deur die CNN onttrek is, word bepaal deur t-verspreide stogastiese nabuurskadinbedding (t-SNE) en statistiese toetse.

Die InceptionResNetV2-model met 'n lekkende ReLU-aktivering is gekies om die geformuleerde metodologie te evalueer. Die korrelasiebtoetse het 'n sterk assosiasie getoon tussen alle kenmerke en melanoom behalwe vaskulêre strukture, bruin, rooi en swart. Die afname in prestasie van die InceptionResNetV2-model op die grysskaal-datastel het aangedui dat kleur 'n kenmerk is wat die CNN gebruik om melanoom op te spoor. Die CNN het robuustheid getoon teen datastelkwessies maar sensitiwiteit getoon vir die teenwoordigheid van hare en indompelvloeistof. Oor die algemeen is die gevolgtrekking gemaak dat die ontwikkelde metodologie kan bepaal of 'n CNN die kenmerke in die ABC-kriteria en die 7-punt kwaadaardigheidskontroleys gebruik om vellegsels as kwaadaardig of goedaardig te klassifiseer.

2023

Desember 2023 Graduering

▶ 'n Dinamiese optimeringsbenaderng vir die opleiding van voorwaartse neurale netwerke wat deel uitmaak van 'n aktiewe leerparadigma

Aktiewe leer beskryf 'n paradigma van die deurlopende selektering van die mees insiggewende patrone om 'n model op te lei terwyl opleiding vorder. Literatuur dui aan dat die parametersoeklandskap van voorwaartse neurale netwerke (VWNN's) wat deel uitmaak van 'n aktiewe leerparadigma nie veralgemeen na die parametersoeklandskap van VWNN's wat opgelei word deur 'n statiese opleidingstel nie. Die parametersoeklandskap van VWNN's wat deel uitmaak van 'n aktiewe leerparadigma word veronderstel om te verander terwyl die soek vorder.

Hierdie navorsingsopdrag ondersoek die effek van die verander van die optimeerder van 'n VWNN wat deel uitmaak van 'n aktiewe leerparadigma van terugvoortplanting na 'n dinamiese optimeringsalgoritme. Tot hierdie mate is die koöperatiewe kwantumgedragte partikelswermoptimering (CQPSO)-algoritme geïmplementeer om VWNN's op te lei wat deel uitmaak van twee verskillende aktiewe leerparadigmas. Die aktiewe leerparadigmas wat ondersoek is, was dinamiese patroonseleksie (DPS) en sensitiwiteitsanalise-selektiewe leer (SASLA). Ses datastelle is vir die ondersoek gebruik. 'n Nuwe hiperparameter-afstemming-prosedure is geïmplementeer om doeltreffende optimeerder-prestasie vir elke probleemset te verseker. Dit is bevind dat die CQPSO-algoritme die globale minimum van vier uit die ses probleemstelle meer doeltreffend as die terugvoortplanting-algoritme in die DPS-aktiewe leerparadigma gevind en gevolg het. Omgekeerd het die terugvoortplanting-algoritme die globale minimum van vier uit die ses probleemstelle meer doeltreffend as die CQPSO-algoritme in die SASLA-aktiewe leerparadigma gevind en gevolg. Die CQPSO-algoritme-prestasie is bevind om afhanklik te wees van die dimensionaliteit van die soekruimte asook die onderlinge afhanklikheid van die invoeropleidingspatrone.

▶ Kursusaanbeveling Gebaseer op Inhoudsaffiniteit met Blaai-gedrag

'n Aanbeveler, of aanbevelingstelsel (AS), filtreer en verskaf relevante inhoud aan 'n gebruiker gebaseer op baie faktore soos hul historiese gedrag tydens interaksies met 'n bepaalde stelsel of sagteware. 'n AS is daarop gemik om gebruikerservaring te verbeter en kwessies soos die nooddruftige soekprobleem wat op platforms vir massief oop aanlynkursusse (MAAK) ervaar word, te oorkom. Een sodanige aanlynplatform is Physioplus, wie se intekenare oor die algemeen baie spesifieke opvoedkundige behoeftes het en dus grootliks kan baat by geteikende reaksies by die interaksie met die stelsel.

Die doel van hierdie studie is om 'n beter kursusaanbevelingstelsel vir Physioplus te bou. Die aanbeveler neem 'n gebruiker se onlangse Physiopedia-blaai-geskiedenis en verskaf die gebruiker 'n pasgemaakte, gerangschikte lys van die kursusse wat die mees relevant is vir hul hele inhoudsgeschiedenigheid. Die aanbeveler is gebou deur 'n samewerkingsgebaseerde filterings (SGF)-tegniek, item-gebaseerde en gebruiker-gebaseerde benadering te gebruik. Natuurlike taalverwerking en buurtgelykenheidsmetodes word gebruik om samewerkingsfiltering aan te vul.

Die kursusaanbevelingstelsel in hierdie studie gebruik 'n opleiding- en toetsdatastel van 'n werklike Physioplus-stelsel om die algehele prestasie van die voorgestelde benadering te beoordeel. Die eksperiment-evaluering word gemeet deur aanbevole versus voltooide kursusse te vergelyk. Die resultate toon dat die voorgestelde AS 'n herroepingstelling van 76% en 'n akkuraheidkoers van 53% het wat in die vanlyn eksperimentoefening verkry is. Die aanname is dat die prestasie-maatstaf-tellings sal verbeter sodra die voorgestelde AS met die bestaande Physioplus-produksiestelsel integreer.

▶ 'n Evolusionêre Algoritme vir die Voertuigroeteringsprobleem met Drone met Onderskeppings

Die gebruik van vragmotors en drone as 'n oplossing om laaste-myl-aflewer-uitdagings aan te spreek, is 'n nuwe en belowende navorsingrigting wat in hierdie opdrag verken word. Die variant van die probleem waar die drone die vragmotor kan onderskep terwyl dit beweeg of by die kliëntlokasie, is deel van 'n optimeringsprobleem genoem die voertuigroeteringsprobleem (VRP) met drone met onderskepping (VRPDi). Hierdie studie stel 'n evolusionêre algoritme (EA) voor om die VRPDi op te los. Die studie demonstreer 'n meta-heuristiese strategie deur 'n evolusie-gebaseerde algoritme toe te pas om die VRPDi op te los. In hierdie variant van die VRPDi moet veelvuldige pare vragmotors en drone geskeduleer word.

Die algoritme is uitgevoer op die reisende handelsreiziger-probleem met drone (TSPD)-datastelle deur Bouman et al. (2015), en die prestasie van die algoritme is vergelyk deur die resultate van die VRPDi teen die resultate van die VRP van dieselfde datastel te maatstaf. Hierdie vergelyking het verbeterings in totale afleveringstyd tussen 39% en 60% getoon. Die analise en maatstelling van die algoritme-resultate het getoon dat die algoritme 50- en 100-node-probleme bevredigend in 'n redelike hoeveelheid tyd opgelos het, en die oplossings gevind was beter as dié gevind deur algoritmes in Dillon et al. (2023), en Ernst (2024) vir dieselfde probleme.

Die algoritme-prestasie het egter aansienlik agteruitgegaan soos die aantal nodusse in die probleme toegeneem het. Hierdie agteruitgang was beide in terme van die kwaliteit van die oplossing en die berekeingstyd wat nodig is om die probleem op te los.

▶ Meta-heuristieke vir die Opleiding van Diep Neurale Netwerke

Tans is kunsmatige neurale netwerke (KNN's) gewild onder navorsers asook in kommersiële omgewings. Die gebruik van KNN's brei voortdurend uit in verskillende velde. Die toename in belangstelling in KNN's het navorsers gelei om verskeie nuwe en innoverende maniere te verken om die prestasie van KNN's te verbeter. Een sodanige manier is die verkenning van die gebruik van meta-heuristieke in die opleiding van KNN's.

Hierdie navorsingsopdrag vergelyk teoreties en empiries die gebruik van meta-heuristieke as 'n alternatief vir die tradisionele opleidingsalgoritme, naamlik terugvoortplanting met stogastiese gradiëntafdaling (SGA), om diep neurale netwerke (DNN's) op te lei. Drie spesifieke meta-heuristieke word oorweeg, naamlik partikelswermoptimering (PSO), genetiese algoritme (GA) en differensiële evolusie (DE). 'n Diepgaande analise van SGA word gedoen om sommige potensiële nadele wat in die opleidingsproses kan voorkom, uit te lig.

Vyf verskillende eksperimente word uitgevoer om die terugvoortplanting-SGA-opleidingsalgoritme met die PSO-, GA- en DE-opleidingsalgoritmes empiries te vergelyk. Die eksperimente word op 'n beelddatastel uitgevoer. Die DNN wat in die eksperimente gebruik word, is 'n konvolusionele neurale netwerk (CNN). Die resultate kom tot die gevolgtrekking dat die SGA beter presteer as die meta-heuristieke wat oorweeg is. Potensiële toekomstige werk word ook bespreek op grond van die bevindinge van hierdie navorsingsartikel.

▶ Diversiteitsbewaring vir ontbindings partikelswermoptimering as voorwaartse neurale netwerk opleidingsalgoritme onder die teenwoordigheid van konsepdrif

Tydreeks-voorspelling is 'n belangrike navorsingsgebied wat homself leen tot verskeie velde waarin dit prakties toegepas word. Die gebruik van kunsmatige neurale netwerke vir tydreeks-voorspelling het gegroei, veral met die ontwikkeling van eenvoudige rekurrente neurale netwerke (ERN'S). ERN's is getoon om tydelike reekse doeltreffend te hanteer. Gespesialiseerde argitekture vir ERN verhoog die berekeningskoste weens die toename in die aantal gewigte wat tydens opleiding geoptimeer moet word. Die opleidingsproses van neurale netwerke kan dus herformuleer word as 'n optimeringsprobleem. Onlangse werk het getoon hoe gespesialiseerde dinamiese PSO-algoritmes tradisionele terugvoortplanting as 'n leeralgoritme vir voorwaartse neurale netwerke (VWNN's) kan vervang.

Dinamiese PSO-algoritmes om VWNN's op te lei, is getoon om ERN's wat tradisionele terugvoortplanting gebruik te oortref. Een beperking van die gebruik van PSO-variante vir opleiding in dinamiese omgewings is dat soos die partikels in 'n swerm in 'n spesifieke streek konvergeer, die swerm-diversiteit verval, wat dit moeilik maak om aan te pas by omgewingsveranderinge. Hierdie navorsingsprojek stel verskeie diversiteitsbewaring-tegnieke voor om swerm-diversiteit deur verskeie omgewingsveranderinge te bevorder. Die diversiteitsbewaring-tegnieke wat ondersoek is, is die gebruik van ewekansige ontbinding vir dinamiese DCPSO en 'n diversiteitsgebaseerde boetafunksie vir regularisering.

Resultate wat op twee implementerings van die DCPSO verkry is met die voorgestelde diversiteitsbewaring-tegnieke het sukses getoon in die bevordering van swerm-diversiteit. Wanneer 'n statiese PSO-algoritme gebruik is vir die sub-swermen van die DCPSO, het die diversiteitsbewaring 'n beduidende impak getoon. Die gebruik van die diversiteitsgebaseerde boetafunksie vir regularisering het superieure prestasie op die opleiding- en veralgemeningsfout vir dinamiese DCPSO getoon. Die voorgestelde diversiteitsbewaring-tegnieke vir die dinamiese DCPSO-algoritmes het 'n kompromis getoon tussen diversiteitsbewaring en prestasie.

Maart 2023 Graduering

▶ Aanpasbare drempelstelling vir mikrogram-segmentering

Voedselsekerheid bly 'n wêreldwye bekommernis soos aangedui deur die Voedsel- en Landbou-organisasie van die Verenigde Nasies (VLO). Hulle berig dat wêreldwyd een uit elke drie mense nie toegang het tot voldoende kos nie, waarvan 'n derde in Afrika woon. Die effek van klimaatsverandering op gewasopbrengste dra by tot hierdie bekommernisse. Koring maak 'n wesenlike deel uit van globale voedselverbruik teen 18.3% en is veral sensitief vir die stygende temperature verbonde aan aardverwarming. Die Departement Genetika by die Universiteit Stellenbosch het 'n koring-preëlingsteling-program wat nuwe gewas-variante ontwikkel en toets. Hierdie program monitor verskeie eksperimentele persele wat mikrogramme bevat; relatief klein koringpersele. Op 'n enkele preëlingsteling-eksperimentele perseel is daar dikwels honderde mikrogramme wat gemonitor en geëvalueer moet word.

Om die tyd wat navorsers bestee aan die segmentering van mikrogramme te verminder, het hierdie navorsingsopdrag 'n outomatiese mikrogramsegmenteringsmetode ontwikkel wat minimale invoer van die gebruiker vereis. Die mikrogramsegmenteringsbenadering, aangedui as die aanpasbare drempelstelingsprosedure (ATP), is vir hierdie navorsingsopdrag ontwikkel. Die ATP gebruik ontoesiende leer om mikrogramme te identifiseer en te lokaliseer. Die prestasie van die ATP-mikrogramsegmenteringsprosedure is op dertien ortomosaiekbeelde van vier verskillende eksperimentele persele geëvalueer en daarna vergelyk met twee handmatige mikrogramsegmenteringsprosedures. Die ATP het superieure prestasie gelewer in vergelyking met die ander twee segmenteringsmetodes wanneer die toestande by die eksperimentele persele gunstig was. In die teenwoordigheid van onkruid het die ATP nie bevredigende prestasie gelewer nie. Ten spyte van hierdie beperking dra die ATP by tot die bestaande liggaam van kennis oor mikrogramsegmenteringsmetodes deur 'n outomatiese mikrogramsegmenteringsmetode te verskaf wat minimale gebruikersinvoer vereis.

▶ Besluitsteunriglyne vir die Seleksie van Moderne Besigheids-intelligensie-platforms in Vervaardiging om Besigheidsbesluitneming te Ondersteun

Wêreldwyd neem die generering van data vinnig toe, en die toenemende mededingendheid van wêreldmarkte daag die sakewêreld deurlopend uit weens globalisering. Maatskappye staatmaak op gesofistikeerde tegnologie om in hierdie dinamiese sakeomgewing en steeds-ontwikkelende mark besluite te neem en te bestuur. Uitvoerende beamptes word voortdurend bedruk om maksimum wins uit nuwe aanbiedinge en bedryfsdoeltreffendheid te verseker en klante- en werknemerservaring te verbeter. Soos digitalisering in die vervaardigingsbedryf toeneem, neem die rol van data-analise en besigheids-intelligensie (BI) in besluitneming beduidend toe.

Besigheids-intelligensie (BI) bied sakeinsigte om die maatskappy se groot hoeveelhede data, bedrywighede en klante beter te verstaan. Dit kan op sy beurt bydra tot beter besluitneming en gevolglik resultate en wins verbeter. Die rasionalisering van die tegnologieë, instrumente en tegnieke kan uitdagend wees. Die keuse van 'n gepaste hulpmiddel kan tydrowend, kompleks en oorweldigend wees weens die wye verskeidenheid beskikbare BI-sagteware-produkte.

Hierdie navorsingsopdrag poog om die behoefte aan 'n nuttige benadering tot BI-instrument-evaluering en -seleksie aan te spreek deur riglyne te identifiseer om besluitnemers te ondersteun in die keuse van BI-instrumente. 'n Tematiese analise-benadering is gebruik om inligting uit semi-gestruktureerde onderhoude met professionele persone uit die vervaardigingsbedryf in te samel, te ontleed en te interpreteer.

Die navorsing het onthul dat BI 'n beduidende rol speel in besluitneming en die prioritisering van take in vervaardiging. Die bevindinge en insigte uit die literatuuroorsig is gebruik om riglyne voor te stel wat vervaardigers in hul besluitneming ondersteun. Dit verduidelig die dimensies om te evalueer en bied 'n nege-stap seleksieproses om BI-sagteware te vergelyk.

▶ 'n Ondersoek na die Outomatiese Gedragsklassifikasie van die Afrika-Pikkewyn

In hierdie moderne era is klimaatsverandering, ontbossing en die vinnige agteruitgang van natuurlike hulpbronne kwessies wat steeds toeneem. Met die uitwissing van baie fauna- en flora-spesies in afgelope dekades, word hernude fokus op bewarings-pogings wêreldwyd bepleit. Die eskalasie van digitalisering bring 'n geleentheid mee om bewaringspogings te verbeter en gevolglik die vinnige agteruitgang van biodiversiteit te verminder. Een algemene toepassing wat momentum kry, is die idee van die toepassing van masjienleer en kunsmatige intelligensie op die domein van ekologie. Een sodanige toepassing oorweeg diere-gedragstudies — 'n hoofsaaklik handmatige poging wat gemonteerde sensors, opsporingstoestelle en/of die voortgesette teenwoordigheid en aandag van 'n mens vereis.

Hierdie projek is gewy aan die ondersoek van die toepaslikheid van moderne masjienleer, spesifiek diep leer, op gedragsanalise in die bedreigde Afrika-pikkewyn. Die doel van hierdie projek is om 'n model te ondersoek, ontwikkel en ontplooi wat outomatiese gedragsklassifikasie in hierdie pikkewyns fasiliteer. Die projek oorweeg 'n tweeledige implementering — koördinate wat dierbeweging opsom, word eerste onttrek en daarna aan 'n geskikte klassifiseerder aangebied. Drie onderskeie gevallestudies word oorweeg: enkele pikkewyns, twee individue en drie individue. Die geval wat drie individue evalueer op grond van die gedrag opwinding en normaal bereik 'n AUC van 72.9%. Die geval wat twee individue evalueer op grond van die gedrag interaksie en geen interaksie bereik 'n AUC van 84.2%. Laastens bereik die geval wat een individu evalueer op grond van die gedrag broei, vlerk-slaan, preening, rus, staan en loop 'n AUC van 82.1%.

▶ Versamelingsgebaseerde Partikelswermoptimering vir Medoïdes-gebaseerde Groepering van Stasionêre en Nie-stasionêre Data

Data-groepering is die groepering van data-instansies sodat soortgelyke instansies in dieselfde groep of groepie geplaas word. Groepering het 'n wye reeks toepassings en is 'n hoogs bestudeerde veld van datawetenskap en berekeningsintelligensie. Bevolkingsgebaseerde algoritmes soos partikelswermoptimering (PSO) het veral doeltreffend geblyk vir data-groepering.

Versamelingsgebaseerde partikelswermoptimering (SBPSO) is 'n generiese versamelingsgebaseerde variant van PSO wat die vektorgebaseerde meganismes van PSO met versamelingsteorie vervang. SBPSO is ontwerp vir probleme wat as versamelings elemente geformuleer kan word, en sy doel is om die optimale subset van elemente uit die optimeringsprobleem-universum te vind. Wanneer dit op groepering toegepas word, soek SBPSO 'n optimale stel medoïdes uit die datastel.

In hierdie navorsingsopdrag word SBPSO gebruik om vyftien datastelle met diverse eienskappe te groepeer, soos dimensionaliteit, groepietelling, groepiegrootte en die teenwoordigheid van uitskieters. Die SBPSO-hiperparameters is afgestem vir optimale groeperings-prestasie op hierdie datastelle, wat in diepte vergelyk word met die prestasie van sewe ander afgestemde groeperings-algoritmes. Daarna word 'n sensitiwiteitsanalise van die SBPSO-hiperparameters uitgevoer om die effek te bepaal wat variasie in hierdie hiperparameters op swerm-diversiteit en ander maatreëls het.

Dit is bevind dat SBPSO 'n lewensvatbare groeperings-algoritme is. SBPSO het derde gerangskik onder die algoritmes wat geëvalueer is, alhoewel dit minder doeltreffend blyk in datastelle met meer groepe. 'n Beduidende kompromis tussen swerm-diversiteit en groeperings-vermoë is ontdek, en die hiperparameters wat hierdie kompromis beheer, is bepaal. Strategieë om hierdie tekortkomings aan te spreek, is voorgestel.

▶ 'n Uitbreiding van die CRISP-DM-Raamwerk om Veranderingsbestuur in te sluit om die Aanvaarding van Digitale Projekte te Verbeter

Digitale transformasie bring tegnologie soos kunsmatige intelligensie (KI) in die kern bedrywighede van besighede, verhoog hul inkomste terwyl hul koste verlaag word. KI-ontplooiings het in 2019 verdrievoudig nadat dit in vier jaar met 270% gegroei het. Digitale transformasie is egter 'n uitdagende taak om suksesvol te voltooi. 'n Totaal van 45% van groot digitale projekte oorskry die begroting, terwyl slegs 44% van digitale projekte ooit die voorspelde waarde bereik. Die hoofreden vir hierdie mislukkings kan toegeskryf word aan die menslike aspekte van hierdie projekte.

Die projek begin deur digitale projekte te beskryf. Digitale projekte, wat datawetenskap en KI insluit, het 'n uiters lae sukseskoers, met veranderingsbestuur as 'n fundamentele struikelblok vir die sukses van hierdie projekte.

Om die veranderingsbestuur-uitdagings aan te spreek, word vyf verskillende veranderingsbestuurmodelle vergelyk, waaruit 'n veralgemeende veranderingsbestuurmodel gekonstrueer word. Uit die literatuur word die gevolgtrekking gemaak dat die CRISP-DM-raamwerk een van die mees wyd gebruikte analitiese modelle is vir die implementering van digitale projekte. Deur die veralgemeende veranderingsbestuur-raamwerk te gebruik, word die veranderingsbestuur-leemtes binne die CRISP-DM-raamwerk geïdentifiseer. 'n Uitgebreide CRISP-DM-raamwerk word gekonstrueer deur die geïdentifiseerde leemtes te vul.

Vir hierdie navorsingsprojek lê die sukses uiteindelik in die vermoë van die ontwikkelde raamwerk om 'n doeltreffende manier te bied om datakundiges deur take te lei wat die uitdagings van digitale transformasie sal vergemaklik. Die validering van die raamwerk deur 'n datakundige het die potensiaal om die sukseskoers van die digitale projek teen 'n laer risiko van mislukking te verbeter.

▶ 'n Evaluering van moderne benaderings tot korttermyn-dinamiese voorspelling

Bestellingsvolume-voorspelling (BVV) is 'n strategiese instrument wat deur logistieke maatskappye gebruik word om bedryfkoste te verminder en dienslewering vir hul klante te verbeter. Dit bied besigheidseenhede die vermoë om vraag te antisipeer, gebaseer op historiese data en eksterne faktore sodat hulpbronne doeltreffend ontplooi kan word. Tot onlangs was statistiese modelle die standaard vir voorspelling. Onlangse navorsing na die gebruik van moderne (SOTA) benaderings tot voorspelling het egter belowende resultate opgelewer. Hierdie navorsingsartikel poog om die gebruik van 'n statistiese voorspellingsbenadering te vergelyk met 'n SOTA-benadering in die geval van korttermyn-bestellingsvolume-voorspelling. Die NBEATS-model is ontwikkel deur verskeie eksogene veranderlikes te gebruik en word vergelyk met die Eksponensiële Glad-making (ETS)-model. Dit is bevind dat NBEATS 'n 36.01%-verbetering op die RMSE van die ETS-model en 'n 31.6%-verbetering op die MAE van die ETS-model gelewer het. Verder is bevind dat die verskaffing van modelle met eksogene veranderlikes 'n 16.15%-toename in RMSE en 'n 14.74%-toename in MAE gelewer het. Die resultate dui aan dat SOTA-benaderings meer konsekwente en akkurate korttermyn-voorspellings bied.

▶ Kruis-kamera Voertuigsporing in 'n Industriële Aanleg deur Rekenaarvisie en Diep Leer

Een van die sleutelrolspelers in die papierherwinningsproses is terugkoopsentrums. Terugkoopsentrums koop of versamel herwinbare materiale van individue, formele en informele insamelingsondernemings en instellings. Terugkoopsentrums is belangrik omdat hulle herwinbare materiaal van stortingsterreine aflei, wat die uitloging van besoedelingstowwe in die grond en grondwater sowel as die generering van skadelike gasse en chemikalieë verminder. Terugkoopsentrums staar egter verskeie bedreigings in die gesig waarvan bedrog een van die moeilikste bedreigings is om op te spoor en te voorkom. Bedrog vind plaas wanneer die hoeveelheid en/of die graad van die afvalpapier wat aan die terugkoopsentrum verkoop word, verkeerdelik voorgestel word deur die verkopers.

Om die opsporing van bedrog by terugkoopsentrums te vergemaklik, is 'n multi-voertuig multi-kamera sporing (MVMKS)-raamwerk ontwikkel om die beweging van voertuie deur 'n papier-terugkoopsentrum in Suid-Afrika te volg. Die MVMKS-raamwerk het 'n IDF1-telling van 0.58, 'n multi-objek sporing-akkuraatheid van 0.62 en 'n multi-objek sporing-presisie van 0.53 behaal. Verder spoor die MVMKS-raamwerk voertuie suksesvol oor alle videovolgorde behalwe vir die volgorde met 'n bo-af aansig.

▶ 'n Sakkie-Benadering tot die Opleiding van Neurale Netwerke deur Meta-heuristieke

Stogastiese gradiëntafdaling het die standaard-algoritme geword om neurale netwerke op te lei. Soos neurale netwerke groter word in argitektuur en die datastelle wat gebruik word om hulle op te lei groter word, het die berekeningskoste om die kunsmatige netwerk op te lei ook toegeneem. Meta-heuristieke is suksesvol gebruik om neurale netwerke op te lei. Verder is meta-heuristieke meer robuust teen lawaaierige doelfunksies.

Hierdie navorsingsopdrag ondersoek en bepaal of meta-heuristieke, veral genetiese algoritmes, differensiële evolusie, evolusionêre programmering en partikelswermoptimering, gebruik kan word om 'n kunsmatige neurale netwerk met 'n substeel van die opleidingstel op te lei. Verskillende sakkie-opleidingsbenaderings met die vermindering in opleidingsdata word voorgestel, en die prestasies van die opgelei neurale netwerke word geëvalueer. Die resultate dui aan dat 'n substeel van die opleidingstel per iterasie of generasie van die meta-heuristiese algoritme gebruik kan word wanneer 'n neurale netwerk opgelei word met soortgelyke akkuraatheid en soortgelyke of beter oorpas-prestasie as wanneer opleiding met die volledige opleidingstel uitgevoer word. Die beste prestasie is bereik met 'n sakkie-strategie wat dieselfde steekproefgrootte vir elke klas gebruik om te klassifiseer.

▶ Skakelvoorspelling van kliënte en handelaars in 'n beloningsprogram deur grafiek neurale netwerke

Beloningsprogramme het 'n aanbod geword vir besighede om kliënte-betrokkenheid te verhoog, langtermyn-verhoudings te koester en kliënte-behoud te handhaaf. 'n Gastheer-maatskappy is 'n intermediêre netwerk-verskaffer wat entiteite binne 'n beloningsprogram verbind. Die identifikasie van toekomstige verhoudings tussen entiteite word geïdentifiseer as 'n skakelvoorspelling-taak. Die netwerk word voorgestel as 'n grafiek van onderling verbonde entiteite. Grafieke is komplekse hoëdimensionele strukture, dinamies in vorm en grootte. 'n Navorsingsveld genaamd grafiek neurale netwerk (GNN) het trekrag gekry om uitdagings wat deur grafiek-eienskappe gestel word, te hanteer. 'n Werklike wêreld-scenario is geïnstansieer om 'n GNN-tegniek op 'n skakelvoorspelling-taak toe te pas. Die model het 'n Ontvanger Operateur Eienskappe Kurwe (ROCAUC)-waarde van 0.65 behaal.

Die presisie vs herroeping-resultate het die effekte van die yl netwerk beklemtoon. Die meeste van die korrekte voorspellings is vir die negatiewe klas. Die enkoderinguitset onthul inbeddings wat vir interpretasie gevisualiseer word. Die inbeddings het twee afsonderlike handelaarsgroepe geïdentifiseer. Die vroulike kliënterekening maak 99% van die voorspellings uit. Die Huisware en Dekor Winkeldienstipe maak 100% van die korrekte positiewe voorspellings uit. Oor die algemeen demonstreer die GNN dat dit verteenwoordiging in 'n beloningsprogramnetwerk van kliënte en handelaars kan leer. Die GNN is in staat om die bestaan van skakels tussen die entiteite te voorspel.

▶ Evaluering van aktiewe leerstrategieë om die aantal geëtiketteerde mediese beelde wat nodig is om 'n CNN-klassifiseerder op te lei, te verminder

CNN's het bewys dat hulle mensvergelykbare prestasie lewer op die gebied van rekenaarvisie; een basiese beperking van KNN is egter dat hulle grootliks staatmaak op groot, geëtiketteerde data ('n duur en tydrowende taak van die handmatige etikettering van data). Hierdie studie ondersoek hoe variërende groottes van aanvanklik geëtiketteerde mediese beelde die doeltreffendheid van CNN-gebaseerde aktiewe leer beïnvloed. 'n Raamwerk waarin data wat deur menslike annoteerders geëtiketteer moet word, nie ewekansig gekies word nie, maar eerder op so 'n wyse gekies word dat die hoeveelheid data wat nodig is om 'n masjienleermodel op te lei, verminder word. Twee CNN-argitekture is gekies om die eksperiment uit te voer deur 'n bekende bors-X-straal pneumonie-datastel te gebruik, en aktiewe leer-basis-onsekerheid is gebruik om die insiggewendheid van die data te meet. Die gebruik van DenseNet-121 met minste vertrouenssteekproef het die aantal geëtiketteerde beelde met 39% verminder in vergelyking met die ewekansige steekproef-tegniek wat as die basislyn gebruik is.

▶ 'n Dinamiese Optimeringsbenaderng vir Aktiewe Leer in Neurale Netwerke

Kunsmatige neurale netwerke is gewilde voorspellende modelle met 'n breë reeks toepassings. Aktiewe leer is 'n strategie wat poog om die prestasie van kunsmatige neurale netwerke te verbeter deur 'n aktiewe seleksie van opleidingsinstansies. Die motivering vir die navorsingsopdrag is om te bepaal of daar 'n verbetering in voorspellingsprestasie is wanneer 'n model slegs op instansies opgelei word wat die model as insiggewend beskou. Deur die deurlopende seleksie van insiggewende opleidingstelle kan die opleidingstye van hierdie netwerke ook verminder word.

Die opleidingsproses van kunsmatige neurale netwerke kan beskou word as 'n optimeringsprobleem wat 'n leeralgoritme gebruik om 'n optimale stel netwerkparameters te bepaal. Terugvoortplanting is 'n gewilde leeralgoritme wat die afgeleides van die verliefunksie en die gradiëntafdaling-algoritme gebruik. Meta-heuristiese optimeringsalgoritmes, soos partikelswermoptimering, is getoon om doeltreffend te wees as neurale netwerk-opleidingsalgoritmes.

Die opleidingsproses word aanvaar as staties onder vaste stelsel-leer, 'n proses waarin die model ewekansig instansies steekproef uit 'n opleidingstel wat tydens die opleidingsproses vas bly. Onder 'n aktiewe opleidingstrategie verander die opleidingstel egter deurlopend en behoort dus as 'n dinamiese optimeringsprobleem gemodelleer te word.

Hierdie studie ondersoek of die prestasie van aktiewe leerders verbeter kan word as dinamiese meta-heuristieke as leeralgoritmes gebruik word. Verskillende opleidingstrategieë is in die ondersoek geïmplementeer wat 'n sensitiwiteitsanalise-selektiewe leeralgoritme en die versnelde leer deur aktiewe steekproef-seleksie-algoritme insluit.

Verbeterde prestasie in die veralgemeningsfaktor word geproduseer vir drie van die sewe klassifikasieprobleme waarin 'n dinamiese meta-heuristiese in 'n aktiewe leeromgewing gebruik word. Die gevolgtrekking uit die studie was dat dit nie bepaalbaar is dat dinamiese meta-heuristieke die prestasie van aktiewe leerders verbeter nie, omdat prestasieverbeterings nie konsekwent oor alle klassifikasieprobleme en evalueringsmaatstawwe is nie.

▶ Reëleksraksie uit Finansiële Tydreekse

Die vermoë om toekomstige gebeurtenisse te voorspel is baie belangrik in wetenskaplike velde. Data-mynbou-instrumente onttrek verhoudings tussen kenmerk- en kenmerkwaardes, en hoe hierdie verhoudings op die teiKen-konsep afbeeldm word. Die hoofdoel is om kennis te onttrek en neigings te verstaan. Die resulterende reëlstel kan dan vir voorspellingsdoeleindes gebruik word. Vir baie werklike toepassings is die werklike waardes van 'n tydreeks irrelevant. Die vorm van die tydreeks kan ook gebruik word om toekomstige gebeurtenisse te voorspel. Reëlinduksie en reëleksraksie-metodes word toegepas op data wat neigings in finansiële tydreeksdata beskryf. Die doel van hierdie studie is om die voordele van reëleksraksie en reëlinduksie, spesifiek op finansiële tydreekse, te verken. Die belangrikste bevinding van hierdie studie was die belang van gebalanseerde data, wat aansienlik beter gevaar het as die oortollige klasverspreidings geminimeer is, terwyl die voorspellingsprestasie van die verskillende reëleksraksie- en reëlinduksie-algoritmes nie statisties beduidend was nie.

▶ Groepering van Deurlopende-waarde Kenmerke deur Meta-heuristieke

Die sukses van enige masjienleermodel-implementering is sterk afhanklik van die kwaliteit van die invoerdata. Diskretisering, wat 'n wyd gebruikte data-voorverwerkingstap is, verdeel deurlopende-waarde-kenmerke in groepe wat die data na diskrete-waarde-kenmerke omskep. Diskretisering verbeter nie net die interpreteerbarheid van 'n datastel nie, maar bied ook die geleentheid om masjienleermodelle te implementeer wat diskrete invoerdata vereis.

Hierdie verslag stel 'n nuwe diskretiseringsalgoritme voor wat meervariaat klassifikasieprobleme in groepe verdeel deur swerm-intelligensie te gebruik. Die partikelswermoptimering-algoritme word gebruik om die groepgrens-waardes van elke deurlopende-waarde-kenmerk te vind wat lei tot die optimale klassifikasieprestasie van klassifikasiemodelle. Die prestasie van die voorgestelde metode word vergelyk met gelyke-breedte-groepering, gelyke-frekwensie-groepering en die evolusionêre snypunt-seleksie vir diskretiseringsalgoritme.

Die voorgestelde diskretiseerder word oortref deur die evolusionêre snypunt-seleksie vir diskretiseringsalgoritme wanneer dit saamgekoppel word met die C4.5-beslissingsboom-klassifiseerders. Net so oortref die gelyke-breedte-groepering-diskretiseerder die voorgestelde diskretiseerder wanneer dit saamgekoppel word met die C4.5-beslissingsboom.

▶ 'n Genetiese Algoritme-Benadering tot Boomkap deur Meganiese Oesmasjien-data

Die dwarssnee van bome in timmerhoutblokke staan bekend as kap. Die blokke word hoofsaaklik gebruik vir die produksie van saagblokke by 'n meule. Die blokke het verskillende waarde gebaseer op die lengte van die blok en die klein-ent-deursnee van die blok. Die maksimering van die waarde van die blokke wat uit 'n boom geoesgekap word, kan beskou word as 'n optimeringsprobleem. Hierdie navorsingsopdrag los die probleem op deur 'n meta-heuristiese benadering te gebruik, spesifiek 'n genetiese algoritme. Die hoofdnavorsingsvraag is of 'n bestaande kap, op 'n reeks stand in 'n bos, meer optimaal gedoen kon word. Die datastel wat gebruik word om die probleem op te los, kom van die kapuitsette van twee meganiese oesmasjiene.

Die navorsingsmetode het eerstens die probleem opgelos vir 'n ewekansig gekose stel bome met dinamiese programmering, en dit vergelyk met die oplossings wat deur die genetiese algoritme verkry is. Dit is bevind dat die genetiese algoritme baie soortgelyke optimale kapwaarde vir die bome verkry het. Tweedens gebruik 'n genetiese algoritme hiperparameters, naamlik bevolkingsgrootte, waarskynlikheid van kruising en waarskynlikheid van mutasie. Die hiperparameters is geskat deur 'n partikelswermoptimering-algoritme wat om die genetiese algoritme toegedraai is te gebruik. Die totale waarde van die geoptimeerde stand het die waarde van die bestaande kap met 'n groot marge oortref.

▶ Gewasaanbevelingstelsel vir presisie-boerdery: Malawi-gebruiksgeval

Masjienleer (ML) het aandag van die globale gehoor getrek, met aanneming en vinnige skaal wat in verskeie bedryfsektore gerapporteer word, insluitend landbou, vir toepassing in outomatisering en optimering van prosesse. Die koms van nuwe boerdery-konsepte soos presisie-boerdery (PB) het die gebruik van ML-aangedrewe besluit-steunstelsels (DSS) bekendgestel. Hierdie stelsels help boere om besluite te neem deur data-gedrewe aanbevelings te gee wat boerdery-produktiwiteit en volhoubaarheid verhoog.

Die doel van hierdie projek was om 'n gewasaanbevelingstelsel te skep wat 'n ML-model gebruik om die beste gewas vir landbougrond te voorspel op grond van sy fisiese, chemiese en meteorologiese parameters. Eerstens is ongeëtiketteerde data vir die sentrale streek van Malawi ingesamel van die Departement van Grond en die Departement van Klimaatsverandering en Meteorologiese Dienste. 'n K-gemiddelde-groepering-data-voorverwerkingstap is toegepas, en vyf middelpunte is onttrek, ontleed deur 'n deskundige agronoom en geëtiketteer as gunstig vir mielies, cassava, rys, bone en suikerriet-gewasse onderskeidelik.

Op formatering 3 het die KNB die ander modelle oortref met 'n F1- en akkuraheidstelling van 99%, 'n vinnige opleidingspoed en 'n eenvoudige modelstruktuur. Die KNB is later geïntegreer in 'n toets-webtoepassing as sy voorgestelde metode van ontplooiing. Die bewys-van-konsep-model toon betroubare resultate maar vereis verdere ontwikkeling vir intydse implementering.

▶ Finansiële Tydreeksmodellering deur Gramian Hoekige Optellingsvelde

Gramian hoekige optellingsvelde (GASF) en Markov oorgangsvelde (MTF) is ontwikkel as 'n benadering om tydreekse na verskillende beelde te enkodeer, wat die gebruik van tegnieke uit rekenaarvisie vir tydreeks-klassifikasie en -invulling moontlik maak. Hierdie tegnieke is op 'n aantal verskillende tydreeks-probleme geëvalueer. Hierdie navorsingsopdrag pas GASF en MTF toe op finansiële tydreekse.

As 'n eerste stap word 'n gepaste finansiële tydreeks uit 'n werklike wêreld-stelsel ingesamel en ontleed. Die datakwaliteit word bepaal om datakwaliteitskwessies te identifiseer wat aangespreek moet word. Die skoon finansiële tydreeks word na beelde enkodeer en gevalideer deur 'n gepaste tegniek te gebruik om te bepaal of 'n logiese karteer tussen die tydreeks- en beeldvlakke bestaan.

Die resultate van die eksperiment dui aan dat die tydreeks-benaderings beter geskik is vir hierdie modelleringsprobleem spesifiek. Die GASF- en MTF-benaderings bied belowende uitkomste wanneer dit in 'n kombinatoriese wyse gebruik word. Die gebruik van 'n kombinasie van GASF- en MTF-beelde laat 'n model toe om beter kenmerke te leer wanneer dit met volgordgebaseerde benaderings gekombineer word, wat modelprestasie verbeter.

▶ Masjienleer-gebaseerde Stikstof-kunsmisriglyne vir Canola in Bewaringslandbou-stelsels

Gronddegradering is 'n groot probleem wat Suid-Afrikaanse landbou in die gesig staar, en beleidmakers skenk besondere aandag daaraan. Hierdie navorsingsopdrag poog om masjienleer (ML)-algoritmes te gebruik om die hoeveelheid stikstof (N) wat by canola gevoeg moet word, te voorspel om 'n benaderde optimale opbrengs te bereik. Dit behoort in die vorm van 'n tabel vertoon te word, bekend as die kunsmisaanbevelingstelsel, wat deur 'n boer gebruik kan word om die gewenste opbrengs te bereik. Die ML-algoritmes wat in hierdie opdrag gebruik word, sluit in: ewekansige woudregresseerder, ekstra boomregresseerder, kunsmatige neurale netwerk, diep neurale netwerk, k-naaste buur, veelvoudige lineêre regressie en meervariaat aanpasbare regressie-vlakke. Die ewekansige woudregresseerder het die mees akkuraat geblyk in die voorspelling van opbrengs. Die resulterende ewekansige woudregresseerder-model het gedemonstreer dat masjienleer potensieel canola-produksie kan voorspel gegewe sommige kenmerke, insluitend gemiddelde reënval, jaar van die plantasie, hoeveelheid N wat in grond oorbly van die vorige oes, en reënval elke maand vanaf die datum geplant tot die oesdatum.

▶ Die gebruik van historiese opsporing-data om voertuigreissnelhede te skat of te voorspel

York Timbers is 'n geïntegreerde bosboumaatskappy wat hout- en plywoodprodukte groei en vervaardig. Die plantasies wat deur York Timbers besit en onderhou word, bevat 'n uitgebreide padnetwerk bestaande uit 26 661 padsegmente met 'n totale lengte van ongeveer 10 000 km. Om die lewering van timmerhout van die plantasies na die meule-persele te optimeer, moet die reissnelheid van elke padsegment geskat word. Om die snelheid van elke padsegment in die padnetwerk te skat, word globale posisioneringstelsel (GPS)-metings eers by die selfbesitde padnetwerk aangepas. Die meerderheid van die padsegmente het egter nie GPS-metings wat daarmee geassosieer word nie. Om die reissnelheid van padsegmente sonder GPS-metings te skat, word vyf verskillende voorspellende modelle ontwikkel. Die beste prestasie word verkry deur 'n regressieboom wat 'n gemiddelde absolute fout van 10.02 km/h bereik op data wat nie gebruik is om die model op te lei nie. Om die snelheidsraming-akkuraatheid te verbeter, is verdere verfyning van die snelheidsraming-model en snelheidsvoorspellingsmodel vereis.

▶ 'n Oorsig en Analise van Invullingsbenaderings

Ontbrekende data is 'n algemene en groot uitdaging wat byna alle datapraktisyns en navorsers in die gesig staar, en wat die akkuraatheid van enige besluitnemingsproses sterk beïnvloed. Data-mynbou en datavoorbereiding vereis dat die data voorberei, skoongemaak, getransformeer en verminder word om te verseker dat die integriteit van die datastel gehandhaaf word. Ontbrekende data word binne die datasuiwering-proses gevind en aangespreek. Huidige metodes om ontbrekende data te hanteer, sluit skrapping en invullingsmetodes in.

Hierdie navorsingsopdrag ondersoek die prestasie van verskillende invullingsmetodes, spesifiek statistiese en masjienleer-invullingsmetodes. Die statistiese invullingsmetodes wat ondersoek word, is gemiddeld, warmmatraas, regressie, maksimum waarskynlikheid, Markov-ketting Monte Carlo (MKMC), meervoudige invulling deur geketende vergelykings en verwagtingsmaximering met laarsies-invulling. Die masjienleer-metodes wat ondersoek word, is k-naaste buur (kNB), k-gemiddeldes en selforganiserende kaarte-invulling. Twee eksperimente word in hierdie navorsing gevolg. Dit is bevind dat MKMC-invulling die beste prestasie van alle 10 invullingsmetodes gelewer het met 'n algehele akkuraatheid van 75.71%. kNB-invulling het die tweede hoogste akkuraatheid gelewer met 'n algehele akkuraatheid van 69.85%. Hierdie navorsing kom tot die gevolgtrekking dat enkel statistiese invullingsmetodes nie gebruik moet word om ontbrekende data in enige situasie te vervang nie terwyl meervoudige invullingsmetodes konsekwente prestasie toon. MKMC-invulling presteer die beste van alle 10 invullingsmetodes in hierdie navorsing.

▶ Kruiperspeur-Besluitsteun: 'n Neurale Netwerk met Partikelswermoptimering Benadering

Webtuiste-kruipers word gewild gebruik om inligting vir soekenjins te herwin. Webtuiste-kruiping behels die ontplooiing van outomatiese kruip-algoritmes wat webtuistes kruip met die doel om inligting oor die toestand van ander webtuistes in te samel en te stoor. Webtuiste-kruipers word gekategoriseer as goeie webtuiste-kruipers of slegte webtuiste-kruipers. Goeie webtuiste-kruipers word deur soekenjins gebruik en veroorsaak geen skade wanneer hulle webtuistes kruip nie. Slegte webtuiste-kruipers kruip webtuistes met kwaadwillige opset en kan potensieel skade aan webtuistes of webtuiste-eienaars veroorsaak.

Die fokus van hierdie navorsingsopdrag is om kunsmatige neurale netwerk-algoritmes te ontwerp en te implementeer wat in staat is om webtuiste-verkeer suksesvol te klassifiseer as 'n menslike gebruiker, goeie webtuiste-kruiper-sessie of slegte webtuiste-kruiper-sessie. Die kunsmatige neurale netwerk-algoritmes word opgelei met partikelswerm-optimeerders en gevalideer in gevallestudies.

Eers word die webtuiste-verkeer-klassifikasieprobleem in 'n stasionêre omgewing oorweeg en as 'n standaard klassifikasieprobleem behandel. Daarna word die klassifikasieprobleem in 'n nie-stasionêre omgewing oorweeg. Die dinamiese klassifikasieprobleem toon konsepdrif weens die aanname dat webtuiste-kruipers gedragskenmerke oor tyd verander. Om die dinamiese klassifikasieprobleem op te los, word kunsmatige neurale netwerke geformuleer en geoptimeer met kwantum-geïnspireerde partikelswermoptimering. Resultate demonstreer die vermoë van die kunsmatige neurale netwerke om webtuiste-verkeer in beide stasionêre en nie-stasionêre omgewings suksesvol te klassifiseer.

▶ 'n Vergelykende studie van verskillende enkeldoelwit meta-heuristieke vir hiperparameter-optimering van masjienleer-algoritmes

Oor die afgelope drie dekades het masjienleer ontwikkel van 'n navorsingsonderwerp na 'n praktiese tegnologie wat wyd kommersiële sukses geniet. 'n Beduidende neiging in die hedendaagse masjienleer-landskap was die opkoms van diep leer wat geweldige groei in sy gewildheid en bruikbaarheid ondervind het. Die onlangse belangstelling in diep leer, wat baie hiperparameters en groot berekeningsuitgawes het, het 'n oplewing in navorsing oor hiperparameter-optimering teweeggebring. Stogastiese gradiëntafdaling en ander afgeleide-gebaseerde optimeringsmetodes word selde gebruik vir hiperparameter-optimering, omdat afgeleides van die doelfunksie met betrekking tot hiperparameters oor die algemeen nie beskikbaar is nie. Die doelfunksie vir hiperparameter-optimering word dus beskou as 'n swartkas-funksie.

Gewilde algoritmiese metodes vir hiperparameter-optimering sluit roosterlsoek, ewekansige soek en onlangs Bayes-optimering in. Meta-heuristieke, gedefinieer as 'n hoëvlak probleem-onafhanklike raamwerk, word ondersoek as 'n alternatief vir tradisionele hiperparameter-optimerings-tegnieke. Genetiese algoritmes, partikelswermoptimering en raming van verdelingsalgoritmes is geïdentifiseer om meta-heuristiese algoritmes te verteenwoordig. Om tradisionele en meta-heuristiese hiperparameter-optimeringsalgoritmes op grond van doeltreffendheid te vergelyk, word 'n toetsreeks bestaande uit verskeie datastelle en masjienleer-algoritmes saamgestel. Die masjienleer-algoritmes wat in hierdie navorsingsopdrag oorweeg word, is ondersteuningsvektoormasjiene, multi-laag perseptrons en konvolusionele neurale netwerke. Friedman omnibus toetse word gebruik om te bepaal of 'n verskil in gemiddelde rang bestaan vir die uitkomste wat deur die onderskeie hiperparameter-optimerings-tegnieke verkry is.

▶ Voorspelling van werknemeruitbranding deur masjienleer-tegnieke

Terwyl kunsmatige intelligensie-tegnieke en -metodes en die gevolglike moontlikhede om dit te gebruik om sakeprobleme op te los, goed verstaan word in sommige bedrywe, insluitend lewensversekering of bankwese, het die toepassing van hierdie op die domein van menslike kapitaalbestuur uiteenlopende vlakke van sukses en waarde behaal. Modelle wat help by werwingsaktiwiteite of die voorspelling van werknemersverloop is suksesvol geïmplementeer deur baie organisasies. Daar is egter ook baie slaggate om voor te waak insluitend die bestuur van inherente sydigheid in die data wat gebruik word asook hoe die uitset van sulke modelle gebruik word, wat dikwels lei tot etiese bekommernisse. In hierdie navorsingsopdrag word veelvuldige klassifikasiemodelle en masjienleer-algoritmes toegepas op die probleem van die identifikasie van werknemers wat die risiko loop van uitbranding. Die resultate toon dat geeneen van die benaderings suksesvol was in die akkurate bereiking van hierdie doelwit nie, met 'n kunsmatige neurale netwerk-benadering wat as die mees akkuraat van alle geïmplementeerde modelle beoordeel is. Dit is bevind dat geeneen van die geïmplementeerde benaderings meer as 50% akkuraat was nie.

2022

Maart 2022 Graduering

▶ Vergelyking van Masjienleermodelle vir die Klassifikasie van Fluoreserende Mikroskopie-beelde

Die blywende gesondheidsgevole van 'n COVID-19-infeksie, aangedui as Lang-COVID, kan ernstig en verlammend wees vir die geaffekteerde individu. Simptome van Lang-COVID sluit moegheid en breinfog in. Hierdie simptome word veroorsaak deur mikrostolsels wat in die bloedstroom vorm en nie deur die liggaam opgebreek word nie. Mikrostolsels in die bloedstroom kan met ander proteïene verstrengel raak en suurstofuitruiling kan beperk. Hierdie inhibisie van die suurstofuitruilingsproses kan meeste van die simptome veroorsaak wat met Lang-COVID ondervind word.

Diagnose en identifikasie van individue wat aan Lang-COVID ly, is die eerste stap in enige proses wat poog om die simptome van die individu te verlig of hulle te genees. Huidige identifikasie-prosesse is handmatig en as sodanig beperk deur die hoeveelheid mannekrag wat aan die taak toegepas word. Die outomatisering van dele van die proses met masjienleer kan hierdie proses aansienlik bespoedig en meer doeltreffende gebruik van mannekrag moontlik maak.

Die doel van hierdie navorsingsopdrag is om te ondersoek of masjienleer-algoritmes gebruik kan word om fluoreserende mikroskopie-beelde te klassifiseer as aanduidend van Lang-COVID of nie. Dit word gedoen deur modelle op te lei en voor te spel op kenmerke wat uit fluoreserende mikroskopie-beelde onttrek is deur rekenaarvisie-tegnieke. 'n Vergelyking tussen die prestasie van die masjienleer-algoritmes wat in hierdie navorsingsopdrag gebruik is, word ook ondersoek. Dit is bevind dat logistiese regressie 'n goeie keuse is as 'n klassifiseerder met sterk prestasie in die klassifikasie van beide die positiewe en negatiewe klasse.

▶ Anomalie-opsporing ter Ondersteuning van Voorspellende Onderhoud van Steenkoolmeulens deur Toesiende Masjienleer-tegnieke

Sedert die begin van tye was mense afhanklik van tegnologie. Met elke industriële revolusie het mense meer afhanklik geword van masjiene en parallel daarmee die behoefte om hulle te onderhou. Die doel van enige onderhoudsorganisasie is altyd dieselfde: om bate-beskikbaarheid te maksimeer. Ons massiewe vooruitgang in tegnologie het die weg gebaan vir die geboorte van Industrie 4.0 waar ons fokus begin verskuif van voorkomende onderhoud na voorspellende onderhoud. Voorspellende onderhoud volg nie 'n skedule soos voorkomende onderhoud nie, maar voer eerder onderhoud uit wanneer dit nodig is. Hierdie navorsingsopdrag identifiseer 'n navorsinggebied waar 'n studie gedoen word ter ondersteuning van voorspellende onderhoud van steenkoolmeulens deur toesiende masjienleer. Die opdrag gebruik die steenkoolmeulensdata van 'n gevallestudie-maatskappy om datakwaliteitskwessies te identifiseer, hierdie kwessies aan te spreek, die data voor te berei vir masjienleer en uiteindelik 'n masjienleermodel te bou wat poog om te voorspel wanneer 'n mislukking die waarskynlikste sal voorkom. Die opdrag evalueer die uitvoerbaarheid om 'n toesiende masjienleermodel te bou deur die gegewe data en metodologie, trek gevolgtrekkings oor die bevindinge en identifiseer geleenthede vir toekomstige navorsing.

▶ Vergelyking van ontoesiende masjienleermodelle vir die identifikasie van finansiële tydreeks-regimes en regimeveranderinge

Finansiële aandeledata is oor baie jare uitvoerig bestudeer met die doelwit om die beste moontlike opbrengs op 'n belegging te genereer. Dit is bekend dat finansiële markte deur tydperke beweeg waar effekte in waarde toeneem (bulmarkte) en tydperke waar hierdie effekte in waarde afneem (beërmarkte). Hierdie tydperke wat ooreenkomste oor verskillende tydraamwerke toon, word dikwels aangedui as regimes wat nie noodwendig beperk is tot bul- en beër-regimes nie, maar enige reekse data wat gekorrelde neigings ondervind. Regimeonttrekking en opsporing van regimeskuifveranderinge in finansiële tydreeksdata kan van groot waarde vir 'n belegger wees. 'n Begrip van wanneer hierdie finansiële regimes sal verander en na watter tipe regime die finansiële mark neig, kan help om beleggingsbesluite te verbeter en finansiële portefeuljes te versterk. Hierdie navorsing handel oor die hersiening en vergelyking van die lewensvatbaarheid van verskillende regimeskuifopsporingsalgoritmes wanneer dit op meervariaat finansiële tydreeksdata toegepas word. Die gekose algoritmes word op verskillende aandele van die Johannesburgse Effektebeurs (JSE) toegepas waar die prestasie van die algoritmes vergelyk word met betrekking tot regimeskuifopsporingsakkuraatheid en winsgewendheid van regimes in geselekteerde beleggingstrategieë.

▶ Opsporing van kroniese niersiekte deur masjienleer-algoritmes

Kroniese Niersiekte (KNS) is 'n beduidende openbare gesondheidsprobleem wêreldwyd wat een uit elke tien (10) mense wêreldwyd raak. KNS is die gevolg van 'n swak-funksionerende nier wat misluk in die basiese funksies, insluitend die verwydering van toksienes, afvalstowwe en ekstra vloeistowwe uit die bloed. Die ophoping van die problematiese materiaal in die liggaam kan komplikasies veroorsaak soos hipertensie, anemie, swak bene en senuweeskade. KNS kom dikwels voor by individue wat aan addisionele kroniese siektes ly soos suikersiekte, hartssiekte en hipertensie. In ontwikkelende lande, veral in Afrika, word die voorkoms van KNS geskat op 3 – 4 keer meer as in ontwikkelde lande in Europa, Amerika en Asië. Die huidige dialise-behandelingstempo in Suid-Afrika staan op ongeveer 70 per miljoen bevolking (pMB), en die oorplantingstempo staan op ongeveer 9.2 per miljoen bevolking (pMB). Die meerderheid van Suid-Afrikaners (ongeveer 84%) is afhanklik van die onder-toegeruste, staatsgefondseerde openbare gesondheidstelsels.

Aangesien vroeë opsporing en bestuur noodsaaklik is om siekteprogress te voorkom en die risiko van komplikasies te verminder, is sommige masjienleer (ML)-modelle ontwikkel om KNS op te spoor. Die primêre doel van hierdie studie is om verskeie masjienleer-klassifikasiemodelle te hersien, te ontwikkel en aan te beveel vir die doeltreffende opsporing van kroniese niersiekte deur drie datastelle te gebruik. Hierdie datastelle sluit twee UCI Masjienleer-bewaarplek-datastelle en die PLOS ONE-datastel in. Die finale doel is om 'n hoëpresterende ML-model te konstrueer wat die verborge korrelasies in die simptome wat deur KNS-pasiënte getoon word, doeltreffend en akkuraat geleer het.

▶ Kenmerkingenieurswese-benaderings vir finansiële tydreeks-voorspelling deur masjienleer

Hierdie navorsingsopdrag ondersoek kenmerkingenieurswese-metodes vir finansiële tydreeks-voorspelling deur masjienleer te gebruik. Die doel van die werk is om metodes te ondersoek wat sommige tydreeks-eienskappe wat voorspelling moeilik maak, oorkom. Die uitdagende eienskappe is geraas en nie-stasionariteit. 'n Literatuuroorsig word gedoen om geskikte kenmerkingenieurswese-metodes en masjienleer-benaderings vir finansiële tydreeks-voorspelling te identifiseer. 'n Gevallestudie is ontwikkel om die geïdentifiseerde kenmerkingenieurswese-metodes met 'n empiriese masjienleer-proses te toets. Veelvuldige masjienleermodelle word getoets.

Verskeie kenmerkingenieurswese-metodes is geïdentifiseer: Differensiëring en log-transformasies is twee metodes wat ondersoek word om nie-stasionariteit aan te spreek. Bewegende gemiddeldes, eksponensieel geweegde bewegende gemiddeldes, Fourier- en golfie-transformasies is almal metodes wat ondersoek word om geraas te verminder. Die kenmerkingenieurswese-metodes word geïmplementeer as voorverwerkingstappe voor die opleiding van masjienleermodelle vir 'n toesiende leerprobleem. Die toesiende leerprobleem is om 'n enkele dag vooruitbate-prys te voorspel, gegewe tien dae se vorige pryse. Vier masjienleermodelle wat algemeen gebruik word vir finansiële tydreeks-voorspelling word ondersoek.

Die resultate van die ondersoek het bevind dat geen kenmerkingenieurswese-metode universeel nuttig is in die verbetering van voorspellingsresultate nie. Vir die SVR-, MLP- en LSTM-modelle het geraasvermindering of gladstryking van die seine hul prestasie verbeter, maar die beste tegniek wissel afhangend van die datastel wat gebruik word. Differensiëring en log-transformasies het die modelle laat 'n konstante waarde naby die gemiddelde van verwagte daaglikse prysopbrengste voorspel.

Die bevindinge van hierdie navorsingsopdrag is dat die ondersoekkenmerkingenieurswese-metodes voorspellingsprestasie vir finansiële tydreekse kan verbeter, maar dat die winste nie groot is nie. Dit blyk dat daar beperkte verbetering is deur kenmerkingenieurswese op vorige prysdata te doen om toekomstige prys te voorspel. Dit word dus aanbeveel dat toekomstige werk fokus op die vind van alternatiewe databronne met voorspellingskrag.

▶ Voorspelling van gewapende konflik deur lang korttermyngeheue rekurrente neurale netwerke

Verskeie onlangse studies het 'n optimistiese toekoms vir sosiale konflik-voorspelling getoon deur meer data-gedrewe benaderings te volg. Konflikvoorspellingsmodelle kan gebruik word om die erns van gebeure te verminder of om in te gryp om hierdie gebeure te voorkom of te verhoed dat dit eskaleer. As sodanig is hierdie voorspellende modelle van belang vir talle instellings of organisasies, soos regerings en nie-regeringsorganisasies, humanitêre agentskappe, en selfs versekeringsmaatskappye. In hierdie mini-proefskrif word lang korttermyngeheue rekurrente neurale netwerk-modellering toegepas om gewapende konflikgebeurtenisse in die Afgaanistankonfllik te voorspel, wat in Oktober 2011 begin het. Hierdie model gebruik wêreldnuusdata van die Globale Databasis van Gebeure, Taal en Toon (GDELT)-platform en geoverwyste gebeurtenisdata van die Uppsala Konflikdataprogram (UCDP) om sy voorspellings te maak. Die resultate toon dat GDELT-data konvensionele basislyn-voorspellingsmodelle in 'n mate kan verbeter deur akteur- en gebeurtenis-attribute in te sluit wat uniek is aan die konflik ter sprake.

▶ Vergelyking van masjienleermodelle op verskillende finansiële tydreekse

Die doeltreffende mark-hipotese impliseer dat skrander markvoorspellings nie winsgewend is nie omdat elke bate korrek geprys bly deur die geweegde intelligensie van die markdeelnemers. Verskeie maatskappye het getoon dat die doeltreffende mark-hipotese ongeldig is. Gevolglik is aansienlike navorsing gedoen om die prestasie en gedrag van finansiële markte te verstaan. Hierdie proefskrif ondersoek die vermoëns van verskillende masjienleermodelle om die toekomstige persentasieverandering van verskeie bates in finansiële markte te voorspel. Die finansiële tydreeks (FTR)-data wat gebruik word, is die S&P 500-indeks, die VSA 10-jaar effekte-opbrengs, die USD/ZAR-valutapaar, goudtermynkontrakte en Bitcoin. Die verskillende masjienleer (ML)-modelle wat ondersoek word, is lineêre regressie, outoregressive geïntegreerde bewegende gemiddelde, ondersteuningsvektoor-regressie (SVR), multi-laag perseptron (MLP), rekurrente neurale netwerk, lang korttermyngeheue en geslote rekurrente eenheid.

Vir die individuele analise van die enkelvoudige uitmonsteringsvalidering en voorwaartse validering-tegniek was die lineêre regressiemodel die beste ML-model vir alle FTR, omdat dit die mees spaarsame model is. Die ML-modelle wat voorwaartse validering toepas, het die beste gevaar in terme van GMK op die S&P 500-indeks en VSA 10-jaar effekte-opbrengs. Die SVR-model het die hoogste akkuraatheid van 52.94% op die S&P 500-indeks behaal, en die MLP-model het die hoogste akkuraatheid van 51.26% op die VSA 10-jaar effekte-opbrengs behaal. Die MLP-model het die hoogste akkuraatheid van 51.77% en 53.51% vir die USD/ZAR-valutapaar en goudtermynkontrakte onderskeidelik behaal. Die lineêre regressiemodel het die hoogste akkuraatheid van 55.04% vir Bitcoin behaal.

▶ Nabymetodes vir saailing-opsporing en hoogtebeoordeling deur RGB-fotogrammetrie en masjienleer

'n Steeds groeiende wêreldwye bevolking, gekoppel aan toenemende per capita-verbruik en hoër vraag na houtgebaseerde produkte, het almal bygedra tot groeiende vraag na aangeplante woude. Die doeltreffendheid van sulke woude is nie in 'n geringe mate te danke aan die versekering dat aangeplante saalings goed by die plaaslike omgewing aangepas is nie. Dit het op sy beurt gelei tot 'n groeiende vraag na kwekeries om sulke saalings te kweek. Kwekery-operateurs staar die uitdaging in die gesig om voorraadvlakke te monitor en die groeistadium van die voorraad aan die hand te bepaal. Dit behels tipies moeisame handmatige beoordelings gebaseer op statistiese steekproef van slegs 'n klein persentasie van die voorraad aan die hand.

In hierdie studie word 'n raamwerk vir die nabywaarneming-opsporing en hoogtebeoordeling van saalings voorgestel. Fotogrammetrie word gebruik deur rooi-groen-blou (RGB)-beeldmateriaal wat met 'n slimfoon vasgelê word om digitale oppervlakmodelle (DOM's) en ortomosaiekbeelde te produseer. Drie beeldinsamelingstrategieë word voorgestel en geëvalueer. 'n RetinaNet-objekopsporingsmodel word gebruik vir die objekopsporingstaak. Om die hoogte van hierdie saalings te bepaal, word twee voorstelle vir die steekproef van die saalinghoogte uit die DOM gedoen en geëvalueer. Uiteindelik bereik die samestellings-gebaseerde AdaBoost-regressie-algoritme die beste prestasie. Die voorgestelde pyplyn is in staat om 98.97% van saalings op te spoor. Die finale wortel gemiddelde kwadraatfout (WGKF) van 17.26mm wat deur die hoogteverfyningsproses bereik is, dui op voldoende prestasie wat 'n verbeterde begrip van voorraad-hoeveelhede en groeistadium moontlik maak sonder handmatige ingryping.

▶ Outomatiese boomposisie-opsporing en hoogteskatting uit RGB-lugfotografie deur 'n kombinasie van 'n plaaslike-maksima-gebaseerde algoritme, diep leer en tradisionele masjienleer-benaderings

Bosboumeting is 'n deurslaggewende aspek van bosbestuur, veral by die bepaling van die totale biomassa en gevolglik die fiskale waarde van bosplantasies. Terrestriese meting van fenotipe-eienskappe ten opsigte van boomeiendomme is tipies moeisaam en tydrowend. Afstandswaarnemings (AW)-benaderings het die manier waarop bosboumeting gedoen word, omwentel. Die vinnige ontwikkeling van digitale lugfotogrammetrie (DLF)-tegnologieë het 'n lewensvatbare alternatief vir luglaserscanning (ALS) bied. Boonop word masjienleer (ML), en veral rekenaarvisie (RV), al hoe meer algemeen in die verwerking van ortomosaiek-rasters en luifelhoogtemodelle (LHM's).

In hierdie studie is 'n bosstand in KwaZulu-Natal, Suid-Afrika, bestaande uit 4 968 Eucalyptus dunnii-boomposisies met 3×2 meter spasiëring, oorweeg. 'n Plaaslike-maksima (PM)-algoritme is gebruik as 'n basislyn-model om op te verbeter. 'n Hibriede benadering is voorgestel wat objekopsporing-, klassifikasie- en regressiemodelle in 'n ML-modelraamwerk integreer. Die objekopsporingsmodel is gebou op die RetinaNet-eenfase-opsporingsmodel. 'n Ondersteuningsvektoormasjien (OVM)-model is gebou om wanklassifiseerde boomposisies te filtreer. Verder is 'n multi-laag perseptron (MLP) opgelei om die inherente sydigheid in die LHM aan te spreek en boomhoogte-skattings te verbeter.

Die verbeterings in boomposisie- en hoogteakkuraatheid was merkbaar. Boomposisie-GMF is met 15.68% verbeter van 0.3515 meter na 0.2964 meter. Boomhoogte-WGKF is met 25.30% verbeter van 0.6435 meter na 0.4807 meter, terwyl R2, ten opsigte van hoogte, met 15.22% toegeneem het van 0.6662 na 0.7676. Die aantal dooie en ongeldige boomposisies wat opgespoor is, het met 82.35% en 36.36% onderskeidelik afgeneem, wat 'n wesenlike verbetering in die kwaliteit van opgespoor boomposisies aandui. Die resultate demonstreer potensiële verbeterings wat gerealiseer kan word deur ML-benaderings en DLF-afgeleide data in te sluit.

▶ Fantasie Premier Liga Besluitsteun: 'n Meta-leerder Benadering

Die Fantasie Premier Liga is 'n gewilde aanlynfantasie-sportspel, waarin spelers, bekend as bestuurders, sogenaamde droomspanne konstrueer gebaseer op sokkersspelers in die Engelse Premier Liga. Elke speler in die droomspan word 'n puntestelling toegeken gebaseer op hul prestasie in elke speelweek se wedstryde, waar die doel van die fantasiesport is om die punte oor die loop van 'n hele seisoen te maksimeer. Elke seisoen bestaan uit agt-en-dertig speelweke, met bestuurders wat vereis word om elf beginspelers, 'n aanvoerderspeler en vier vervangingsspelers vir elke speelweek te kies. Die bestuurder se gekose droomspan word na 'n opeenvolgende speelweek oorgedra, met bestuurders wat toegelaat word om spelers by hul spanne in te voeg en uit te haal elke speelweek.

Die sogenaamde droomspan-formulering-probleem kan ontbind word in 'n aanvanklike droomspan-formulering-subprobleem en 'n daaropvolgende speler-oordrag-subprobleem. Die beperkings wat verband hou met hierdie subprobleme kan uitgedruk word as 'n stelsel van lineêre vergelykings, en gegewe 'n skatting van 'n speler se verwagte prestasie in 'n wedstryd, kan 'n stel voorgestelde spelerowerdragte verkry word deur lineêre programmering te gebruik. Die fokus in hierdie projek is om 'n stel masjienleer-algoritmes te ontwerp en te implementeer wat in staat is om die verwagte punte van die spelers te voorspel. 'n Totaal van vyf masjienleer-algoritmes word oorweeg, met elke algoritme gekies uit 'n kenmerklike-funksionerende familie van leeralgoritmes. Die toepaslikheid van die gebruik van 'n gestapelde meta-leerder word ondersoek, waar die meta-leerder voorsien word van voorspellings wat deur die vyf geïmplementeerde algoritmes gegenereer word. 'n Gevallestudie word uitgevoer op die 2020/21 Fantasie Premier Liga-seisoen. Die finale resultate wat verkry is, demonstreer dat die besluitsteun-stelsel goed gevaar het, waar die beste stel voorgestelde spelerowerdragte in die top 5.98% van agt miljoen werklike wêreld-bestuurders se rangskiking sou geplaas het in die 2020/21-seisoen.

2021

▶ Vereistes vir 3D-voorraadopname van timmerhout op laaigebied en terminale

Hierdie projek poog om die probleem van 'n onbetroubare voorraadopname-stelsel in die timmerhoutvoorsieningsketting aan te spreek, wat lei tot onakkurate skattings vir voorraadvolumes in houtstapelings. Die stelsel wat in hierdie projek ontwikkel word, moet aan die praktiese beperkings van die voorsieningsketting voldoen terwyl resultate wat gereeld en akkuraat is, gegenereer word. Die data-vasleggingsproses moet laetegnologie wees weens die uitgebreide landelike gebiede wat deur die timmerhoutvoorsieningsketting gedek word. Die metode wat geïdentifiseer is om dit te bereik, is terrestriese struktuur-uit-beweging (SFM) deur 'n verbruikersklas-kamera of 'n slimfoon te gebruik. Die finale data wat vir die projek gebruik word, is in die vorm van puntwolke, gegenereer uit beide SFM sowel as Unity, om die hoeveelheid beskikbare data te vergroot.

Om die stelsel in staat te stel om die volume van houtstapelings te bepaal, is die eerste stap om die verskil tussen die houtstapeling en die terrein binne die puntwolk te bepaal. Om dit te doen, word 'n klassifikasie-algoritme as deel van hierdie projek ontwikkel. Die algoritme maak gebruik van buurstatistieke wat tydens die kenmerkingenieurswese-proses bereken is, saam met kenmerke in die oorspronklike puntwolk-datastel. Die algoritme wat gebruik word vir die klassifikasie van houtstapelings uit hierdie datastel is K-gemiddeldes-groepering. Sodra die houtstapelings uit die puntwolk onttrek kan word, word 'n alfavorm uit die puntwolk gegenereer. Die alfavorm word dan gebruik om die finale volume van die houtstapelings te voorspel.

Die resultate van die finale stelsel toon dat die metodologie wat ontwikkel is, voorspelde volumes van 'n aanvaarbare vlak vir die toekomstige gebruiksgeval bereik. Die resultate in hierdie projek bied dus bewys dat daar 'n voordeel is vir die gebruik van rekenaarvisie in die timmerhoutvoorsieningsketting om voorraadopnames uit te voer wat akkuraat is. Ten slotte erken die projek dat daar 'n behoefte is aan die voortsetting van werk om die akkuraatheid verder te verbeter en die stelsel te implementeer.

▶ 'n Voorspellende model vir presisie-boommetings deur toegepaste masjienleer

Die akkurate bepaling van biologiese batewaarde is van groot belang vir bosbouondernemings — die proses behoort gekenmerk te word deur die behoorlike insameling van boomdata deur middel van geskikte tellingspraktyke wat by bestuurde boskompartemente uitgevoer word. Tans word slegs tussen 5-20% van bosgebiede opgetel, wat dien as 'n verteenwoordigende steekproef vir die hele omhullende kompartement. Vir bosboukompanies is timmerhoutvolume-skattings en toekomstige groeivoorspellings gebaseer op hierdie statistieke, wat gepaard kan gaan met talle onbedoelde foute tydens die data-insameling. Baie alternatiewe metodes vir die akkurate skatting en afleiding van boomdata is in die literatuur beskikbaar — die gewildste kenmerk is die sogenaamde deursnee op borsiehhoogte (DBH), wat ook gemeet kan word deur middel van afstandswaarnemingstegnieke. Die vordering in laserscanning-metingstoestelle is aansienlik in onlangse dekades, hierdie benaderings is egter merkbaar duur en vereis gespesialiseerde en tegniese vaardighede vir hul bedryf. Een van die hoof tekortkomings wat verband hou met die meting van DBH deur laserscanning is die gebrek aan skaalbaarheid — toerusting-opstelling en data-vaslegging is moeisame prosesse wat 'n beduidende hoeveelheid tyd in beslag neem.

Algoritmiese deurbrake in die domein van datawetenskap, hoofsaaklik oor masjienleer (ML) en diep leer (DL)-benaderings, regverdig die seleksie en praktiese toepassing van rekenaarvisie (RV)-prosedures. Meer spesifiek is 'n algoritmiese benadering tot monokulêre diepte-skattings (MDE)-tegnieke gebruik vir die onttrekking van boomdata-kenmerke uit video-opnames (vasgelê met nie meer as 'n gewone slimfoon) en word in hierdie proefskrif ondersoek. Vir hierdie doel is 'n geskikte bosstudie-area geïdentifiseer om die eksperiment uit te voer en die bedryfspartner van die projek, naamlik die Suid-Afrikaanse Bosboukompanje SOC Beperk (SAFCOL), het die nodige plantasietoegang toegestaan. Die navorsingsmetodologie wat vir hierdie proefskrif aangeneem is, sluit veldwerk by die gegewe perseel in, wat eerste die uitvoering van data-insamelingstaps ingevolge aanvaarde en gestandaardiseerde bedryfsprosedures wat vir boomtellings ontwikkel is, behels het. Hierdie datastel word beskou as die "grondbasis" en bevat die teikenkenmerk (d.w.s. werklike DBH-metings) wat later vir modelleringsdoeleindes gebruik word.

Die videolêers is op 'n gestruktureerde wyse verwerk om boompatronsegmente uit die ooreenstemmende beeldmateriaal te onttrek. Verskeie ML-modelle word dan opgelei en getoets ten opsigte van die basiese invoerkenmerk-datalêer, wat 'n relatiewe wortel gemiddelde kwadraatfout (RMSE%) tussen 14.1 en 18.3% vir die studie geproduseer het. Die relatiewe sydigheid lewer 'n telling tussen 0.08% en 1.13% wat aandui dat die voorgestelde werkvloei-oplossing 'n konsekwente voorspellingsresultaat toon, maar teen 'n ongewenste RMSE-afwyking van die teikenuitset. Verder is die voorgestelde RV/ML-werkvloei-model in staat om 'n merkbaar soortgelyke ruimtelike voorstelling te genereer by visuele inspeksie (in vergelyking met die grondbasis-datastel — d.w.s. boomkoördinate vasgelê tydens veldwerk). In die strewe na presisiebosbou produseer die voorgestelde voorspellende model wat vir akkurate boommetings ontwikkel is, DBH-skattings wat werklike-wêreld-waardes met 'n redelike mate van akkuraatheid benader.