AI-onderzoeker Shuai Wang laat zien hoe computers enorme netwerken van verbonden informatie beter kunnen begrijpen en opschonen.
Zijn onderzoek richt zich op een specifiek kennisrepresentatieformaat dat bekendstaat als kennisgrafen, waarbij knooppunten entiteiten vertegenwoordigen en grenzen relaties aanduiden. Het integreren van kennisgrafen kan leiden tot rijkere bronnen, maar ook tot ongewenste structuren en zelfs logische inconsistenties. Verfijningsmethoden die dergelijke problemen detecteren en corrigeren, zijn daarom essentieel, en de schaal is belangrijk. Problemen die eenvoudig zijn voor kleine kennisgrafen, kunnen aanzienlijk uitdagender worden op grote schaal. Het aanpakken van deze uitdagingen vereist data-analyse, algoritmeontwikkeling en grondige evaluatie. Wang onderzoekt belangrijke kwesties in grote, geïntegreerde kennisgrafen, zoals identiteit, foutbronnen en kennisontwikkeling. Algoritmen die zijn ontwikkeld voor analyse en verfijning maken gebruik van bijvoorbeeld grafentheorie en geautomatiseerd redeneren.
Het verbeteren van LGBTQ+-kenniscollecties
Wang laat zien hoe computers enorme netwerken van verbonden informatie, zoals de netwerken die zoekmachines, digitale bibliotheken of datasystemen in de wetenschap en financiën aandrijven, beter kunnen begrijpen en opschonen. Door logisch redeneren (zodat de computer verbanden kan "doordenken") te combineren met netwerkanalyse (zodat patronen en fouten kunnen worden ontdekt), maakt het onderzoek deze datanetwerken nauwkeuriger en nuttiger. Hoewel het werken met zulke enorme hoeveelheden informatie nog steeds lastig is, hebben de methoden zich in de praktijk al bewezen, zoals bij het verbeteren van LGBTQ+-kenniscollecties. De tools en de meeste datasets die zijn gemaakt, zijn gratis beschikbaar, zodat anderen er in toekomstige projecten op kunnen voortbouwen.
Verbetering van datakwaliteit
Het onderzoek verbetert de manier waarop grote, onderling verbonden kennisgrafieken (KG's) worden opgebouwd, verfijnd en onderhouden. Door grafentheoretische en geautomatiseerde redeneertechnieken te combineren, maakt het het mogelijk om fouten, verouderde koppelingen en conceptuele afwijkingen op grote schaal te detecteren en te corrigeren. De voorgestelde semi-automatische methoden kunnen bijvoorbeeld curatoren helpen bij het identificeren van verouderde LGBTQ+-termen. De resultaten kunnen bijdragen aan het verbeteren van de datakwaliteit, de herkomst van data en de duurzaamheid van open kennissystemen – en zo de weg vrijmaken voor betrouwbare, evoluerende semantische infrastructuren in verschillende disciplines.
Wang en zijn collega's bestudeerden grote, geïntegreerde kennisgrafieken. Ze hanteerden een datacentrische benadering. In dit onderzoek zijn verschillende methoden gebruikt. Zo werden grafentheoretische methoden gebruikt om grote, verbonden componenten te detecteren ter voorbereiding op verfijning. Geautomatiseerde redeneermethoden werden gebruikt om grote, geneste cycli op te lossen. Er is geen gebruikgemaakt van simulatie, veldwerk of laboratoriumexperimenten.
Meer informatie over het