Tags en AI voor een nieuwe kijk op totaalbeheer van gegevens
Data en berekeningen, samen. Dat is de aanpak van Nutanix voor een globaal gegevensbeheer. Uitleg door Luc Costers, Regional Leader, Nutanix Benlux, CIS & Eastern Europe.
De hoeveelheid bedrijfsgegevens groeit explosief, met name ongestructureerde gegevens. Volgens Gartner is 80 tot 90% van alle gegevens ongestructureerd. Bovendien groeit dit type gegevens drie keer zo snel als andere gegevens. Ongestructureerde gegevens worden zowel door mensen als door applicaties gegenereerd en zijn verspreid over perifere locaties, datacenters en publieke clouds. “Het ontbreken van een globaal overzicht leidt tot fragmentatie, waardoor het beheer, de beveiliging en de analyse van gegevens complex en foutgevoelig worden“, waarschuwt Luc Costers.
Wanneer gegevens gescheiden zijn, gelden er vaak verschillende beleidsregels voor elke opslaglocatie. Een oplossing is het opzetten van een globaal opslagsysteem op basis van tags. In dat geval worden de beleidsregels toegepast op basis van deze tags, in plaats van op basis van de opslaglocatie van de gegevens. Zelfs wanneer de gegevens worden verplaatst, blijven de juiste beleidsregels van kracht. De grootste uitdaging van dit systeem is om automatisch de juiste tags toe te wijzen bij het invoeren of wijzigen van gegevens. Dit vereist rekenkracht om elk bestand te analyseren en te classificeren.
Wat kan AI doen?
In klassieke gevallen heeft AI bewezen uitstekend te zijn in het classificeren van gegevens. Het kan patronen ontdekken die onzichtbaar zijn voor klassieke, op regels gebaseerde algoritmen. “Lange tijd was AI voorbehouden voor dit gebruik. Je zou deze technologie natuurlijk kunnen gebruiken om labels aan gegevens toe te kennen, maar in de wereld van generatieve AI is dat niet zo eenvoudig.“
Moderne AI-modellen kunnen inhoud creëren op basis van de gegevens die ze zien. Het is dus belangrijk om voorzichtig te zijn bij het gebruik van deze model . “Het is interessant om op te merken dat de modellen zelf een verzameling ongestructureerde gegevensobjecten zijn (code en wegingen), en we kunnen voor deze modellen een soortgelijk mechanisme gebruiken als voor andere gegevens. Er blijft echter een vraag bestaan, merkt Luc Costers op: hoe kunnen we labels voor deze modellen genereren?“
Correcte labeling van bedrijfsgegevens
AI-modellen maken een synthese van de gegevens waarop ze zijn getraind. Zodra een model gegevens heeft gezien, kan het die namelijk niet meer vergeten. Daarom vereist het model dezelfde beveiligingsmaatregelen als de gegevens die het gebruikt.
“Als u bijvoorbeeld financiële informatie deelt die alleen zichtbaar mag zijn voor het management van het bedrijf, dan mag het model dat met deze informatie is getraind ook alleen toegankelijk zijn voor het management. Als het model zichtbaar is voor andere leden van de organisatie, is een inbreuk op de veiligheid onvermijdelijk.“
Hier komt tagging om de hoek kijken. In plaats van alle gegevens die een model heeft gezien op te slaan, kunnen we het controleren met hetzelfde beleid, gebaseerd op de conservatieve samenstelling van deze tags. “Zodra uw AI-model uw gegevens heeft gezien, moet het aan hetzelfde beleid worden onderworpen, namelijk de som van alle beleidsregels die van toepassing zijn op de gegevens die u hebt gebruikt om het te trainen.“
In een hybride cloudomgeving moeten we ervoor zorgen dat de bedrijfsgegevens correct worden getagd, van de publieke cloud tot de rand. “Het trainen en verfijnen van modellen op basis van uw eigen gegevens moet ook gebeuren volgens de juiste governancebeleidsregels, zodat we de bijbehorende tags kunnen verzamelen. Ten slotte moet het model worden beperkt en onderworpen aan hetzelfde beleid als dat wat van toepassing is op de geselecteerde set tags.“
Gegevens en berekeningen combineren
Het toenemende belang van gegevensbeveiliging en -privacy dwingt ons om over te stappen van gegevenssystemen die beleid definiëren op basis van opslagstructuren naar systemen die het toegangsbeleid baseren op het type gegevens. “Om het type gegevens te bepalen , moet u eerst berekeningen uitvoeren om ze te categoriseren en te taggen. Hoe geavanceerder de berekeningen, hoe interessanter en waardevoller de tagging kan zijn.“
Er zijn twee benaderingen voor het globaal taggen van gegevens. Ofwel verplaats je alle gegevens naar een centrale IT-omgeving (zoals de publieke cloud) en analyseer en categoriseer je ze vervolgens. Ofwel verplaats je de rekenkracht naar de plaats waar de gegevens zich bevinden en categoriseer je ze vervolgens. De tweede optie heeft altijd de voorkeur, adviseert Luc Costers, omdat gegevens onderhevig zijn aan zwaartekracht en het overbrengen ervan kostbaar is, terwijl berekeningen veel lichter en minder complex zijn. “Om dit efficiënt te doen, heb je een platform nodig dat geavanceerde berekeningen op een uniforme manier kan uitvoeren, van de rand tot de publieke cloud. Kortom, om je probleem van globaal gegevensbeheer op te lossen, heb je een platform nodig dat niet alleen gegevens of berekeningen biedt, maar beide: gegevens en berekeningen.“