Home > ICT-onderzoek NL > NOAG-ict > Themas > De data-explosie

De data-explosie

Themabeschrijving
In ons privleven explodeert het aantal omvangrijke digitale bestanden door de massale overgang op digitale fotografie en door digitale opslag van audio en video. In de kenniseconomie komt het erop aan de stortvloed aan digitale informatie snel te ordenen en inzichtelijk te maken, vaak via effectieve en gebruiksvriendelijke zoekmachines. Vergelijkbare ontwikkelingen kunnen worden waargenomen in de wetenschap. In bijvoorbeeld de astronomie, natuurkunde en bioinformatica zijn effectief beheer en goede ontsluiting van experimentele onderzoeksgegevens een sleutel voor wetenschappelijk succes. Zo produceren initiatieven rond ?the living cell? binnen een paar jaar zoveel ruwe informatie, dat deze alleen nog via een 3D digitale 'data'scope kan worden benaderd. Deze uitvinding zal voor de biologie-onderzoeker net zo belangrijk zijn als de eerste lenzen ontwikkeld door Hans en Zacharias Janssen in 1590.
Het terrein van dit thema is z uitgestrekt, dat een goede focus noodzakelijk is voor het realiseren van samenhang en wetenschappelijke verdieping. De voorbeelden maken duidelijk dat het niet alleen aan de ICT is om oplossingen te vinden. Zij zal dit moeten doen in een constante dialoog met, toetsing via, en stimulering van de andere wetenschaps- en toepassingsgebieden, zoals de gezondheidszorg, veiligheid, logistiek, en cultureel erfgoed.
Een goede afbakening van doelstellingen en verwachtingen voor dit thema wordt verkregen door uit te gaan van het proces van datavergaring tot dataveredeling. Het thema ?De data-explosie" wordt hierbij ingeperkt tot aan de ene kant generieke technieken en hulpmiddelen (search engines, semantic web, informatiepresentatie) en aan de andere die fasen van informatieverwerking waarin de te beheren data al in digitale vorm beschikbaar zijn of komen (uit sensorobservaties, simulatie, patroonherkenning of digitalisering). De primaire vraag is niet welke data nodig zijn, waar deze ontstaan, en hoe deze gerelateerd zijn aan concrete (bedrijfs)toepassingen, maar hoe de data-explosie met effectieve methoden en technieken langs goede banen is te leiden. Hierbij kan o.a. gedacht worden aan:
methoden om de ruwe data te vervangen door gevalideerde samenvattingen in modellen;
data via geschikt gekozen indexstructuren opslaan in een meerlaags archief;
het kunnen omgaan met databestanden uit de astronomie en bio-informatica;
semi-automatische semantische verrijking van tekst.
Onderzoeksuitdagingen
Uitdagingen op lange termijn
De centrale vragen voor de lange termijn zijn: Hoe realiseren we een zelfbeschrijvende, zelforganiserende schaalbare infrastructuur voor betrouwbaar beheer van informatie? Welke generieke algoritmische, theoretische en engineering hulpmiddelen zijn voor de verrijking en ontsluiting hiervan bruikbaar?
Een dergelijke, abstracte lange-termijnvisie laat zich eenvoudig vertalen naar een specifiek toepassingsdomein en vormt daarmee een inspiratiebron en ijkpunt voor concrete invulling in projecten. Een illustratief voorbeeld is: ?hoe realiseren we een gezondheidsdossier voor een ieder, dat in de latere levensfase kan bijdragen aan de kwaliteit van leven??. Een gezondheidsdossier kan zo ver gaan als het bijhouden van de sportieve activiteiten, de metabolische activiteiten, de slaapritmes, eetgewoontes, beweging, etc. Met een horizon van 80 jaar voorwaar een grootse uitdaging om zowel de juiste informatie te verzamelen, te beheren, en voor gezondheidswerkers om deze massa te kunnen analyseren.
Uitdagingen op korte en middellange termijn
Binnen het algemene kader zijn voor de korte en middellange termijn de volgende onderzoeksaspecten te beschouwen.
De data-explosie-uitdagingen gaan de functionaliteit en capaciteit van de inmiddels 30 jaar oude technologie voor databasemanagement verre te boven. Een nieuwe generatie is noodzakelijk en al in ontwikkeling. Voor de middellange termijn zijn oplossingen te voorzien op het terrein van o.a. data lineage, het in staat zijn de oorsprong, transformaties en aggregaties van informatie te kunnen achterhalen. Op korte termijn vereist de data-explosie een versnelde penetratie van moderne databasetechnologie in o.a. sensornetwerken voor het gecontroleerd vergaren en valideren van de primaire informatie aan de bron.
Datamining is bij uitstek het veld waar de informatie op een wiskundig controleerbare en efficinte wijze wordt verwerkt tot nuttige informatie. Op middellange termijn is te verwachten dat er vorderingen gemaakt kunnen worden bij het terugdringen van de hoeveelheid data door gevalideerde modellen te gebruiken om data te representeren. Op korte termijn liggen er uitdagingen op het terrein van verbetering van de algoritmiek en de integratie met domeinkennis.
Bij het ontsluiten van tekstuele informatie speelt information retrieval een centrale rol. Naast technologische verbeteringen is het voor het ontsluiten van grote hoeveelheden tekstuele informatie van belang om gericht toegang te geven in reactie op zoekvragen: er moet gezocht worden naar relevante antwoorden, niet slechts naar relevante documenten. Dit vereist toepasbare, robuuste en schaalbare algoritmen voor taalverwerking. Op korte termijn liggen er uitdagingen voor vraagexpressie en het genereren van samenvattingen van zoekresultaten.
Helaas valt niet alles te vangen in modellen, of kan men het zich niet permitteren dat waardevolle informatie verloren gaat. Er ontstaat zo een sterke druk op de datamanagementtechnieken, varirend van efficinte datastructuren, opslag en distributie tot querytalen en inbedding in applicaties. De vastlegging en benutting van metagegevens, handmatig toegevoegd of met behulp van datamining verkregen, zal een belangrijk hulpmiddel worden bij het realiseren van efficinte toegang en beheer. De korte-termijnuitdagingen zijn met name de verankering van domeinkennis in datamodellen en ondersteunende technieken die voor de beoogde levensduur (bijvoorbeeld tientallen jaren) bruikbaar blijven. Standaardisatie van gegevensverzamelingen op basis van taal en vorm is noodzakelijk, zonder dat dit afbreuk mag doen aan de bruikbaarheid. Voorbeelden hiervan zijn XML en RDF als voertalen.
De laatste stap in het beheersen van de data-explosie is gericht op de interactie met de gebruikers. Op middellange termijn is te voorzien dat information retrieval en informatievisualisatie de samenhang tussen datamanagement en datamining kunnen benutten voor een verbeterde toegang en duidelijker inzicht. Aangevuld met gepersonificeerde presentaties en samenvattingen zou dit de digitale ervaringen voor grote groepen gebruikers kunnen verbeteren. Op korte termijn is resultaat te boeken door het beter benutten van de visualisatietechnieken voor de presentatie van informatie in een database en het genereren van tekstuele samenvattingen over grote databestanden.
De onderzoeksvragen binnen het thema ?De data-explosie? worden verder gekenmerkt door een sterk experimenteel karakter. De methoden en technieken dienen kwantitatief onderbouwd te worden met gecontroleerde experimenten. Hierbij is het voor de positionering van belang aan te sluiten bij internationale evaluatiecriteria, zoals TREC voor information retrieval en XMark voor databaseverwerking.
Maatschappelijke toepassingen
Het proces van databeheer, -exploratie en -verrijking is een rode draad in veel wetenschappelijke, maatschappelijke en economische processen. Het speelt een rol bij alle toepassingsgebieden waar grote aantallen eenheden gevolgd worden, zoals logistiek, distributie en mobiliteit, maar ook de productie en landbouw. Het raakt daarmee dus aan de toepassingsgebieden ?Bloemen en levensmiddelen?, ?Mobiliteit?, ?Financile dienstverlening en handel? en in mindere mate ?Water?. Een speciaal geval is de ?Zorg?, waar meerdimensionale diagnostieken enorme datahoeveelheden in een patintendossier opleveren.
ICT-disciplines
Een efficinte (authenticatie, autorisatie en accounting) infrastructuur voor uitwisseling van informatie en computer supported cooperative work en middleware software wordt als gegeven aangenomen (zie de thema?s ?Digitale veiligheid? en het ?Het virtuele laboratorium?). Deze meer technische disciplines dienen vanuit de toepassingsgebieden ondersteund te worden met domeinkennis over het ontwerp en beheer van grootschalige informatiesystemen, de organisatorische consequenties, de modeltheoretische beperkingen voor het toepassen van de technologie, en evaluatietechnieken. Software engineering, intelligente algoritmen, natuurlijke-taalverwerking, netwerken, en embedded systems zullen een belangrijke aanvullende rol vervullen.
Algorithms and Computation Theory
Computer-Human Interaction
Computer Graphics
Hypermedia, Hypertext and Web
Information Retrieval
Knowledge Discovery in Data
Management of Data
Simulation and Modeling
Sleutelreferenties
The Lowell Database Research Self Assessment: in: Communications of the ACM, Volume 48, Issue 5 (May 2005), 111-118: http://research.microsoft.com/~gray/lowell/LowellDatabaseResearchSelfAssessment.pdf
J. Vitter. External memory algorithms and data structures: dealing with massive data, in: ACM Computing Surveys 33, 2001, 209-271.
I.H. Witten, A. Moffat, and T.C. Bell. Managing Gigabytes: Compressing and Indexing Documents and Images. Morgan Kaufmann Publishing, San Francisco, 1999.

Uitgelicht

Evenementen ICT

ICT.OPEN 2012

Stelling

Roadmap ICT

I/O Magazine

Uitgelicht

Evenementen ICT

ICT.OPEN 2012

Stelling

Roadmap ICT

I/O Magazine
01-01-2013
Russische universiteit zoekt Nederlandse partners in IT
17-12-2012
ICT Personality Award 2012
11-11-2012
Sentinels
Meer nieuws

10-04-2013
Sense of Contact 15
Activiteit toevoegen
Volledige kalender

ICT OPEN 2012


Lees verder

Wat is de grootste uitdaging?
Complexiteit
Maatschappelijke innovatie
Wetenschappelijke paradigma's
Voldoende gekwalificeerde wetenschappers

Resultaten stelling

Roadmap ICT topsectoren

Lees verder

I/O -december 2012

Lees verder