Tags et IA pour une nouvelle perspective sur la gestion globale des données
Données et calcul, ensemble. Telle est l’approche de Nutanix pour une gestion globale des données. Explications de Luc Costers, Regional Leader, Nutanix Benlux, CIS & Eastern Europe.
La quantité de données d’entreprise connaît une croissance fulgurante, en particulier les données non structurées. Selon Gartner, 80 à 90 % de toutes les données sont non structurées. De plus, ce type de données croît trois fois plus vite que les autres données. Les données non structurées sont générées à la fois par des personnes et des applications, réparties sur des sites périphériques, des centres de données et des clouds publics. « L’absence de vision globale engendre une fragmentation, rendant la gestion, la sécurisation et l’analyse des données complexes et sujettes aux erreurs », prévient Luc Costers.
Lorsque les données sont cloisonnées, des politiques distinctes s’appliquent souvent à chaque emplacement de stockage. Une solution consiste à mettre en place un système de stockage global basé sur des tags. Dans ce cas, les politiques sont appliquées en fonction de ces tags, plutôt qu’en fonction de l’emplacement de stockage des données. Même lorsque les données sont déplacées, les politiques appropriées restent en vigueur. Le principal défi de ce système est d’attribuer automatiquement les bons tags lors de l’ingestion ou de la modification des données. Cela nécessite une puissance de calcul pour analyser et classer chaque fichier.
Que peut faire l’IA ?
Dans les cas classiques, l’IA a démontré son excellence dans la classification des données. Elle peut découvrir des schémas invisibles aux algorithmes classiques basés sur des règles. « Pendant longtemps, l’IA était réservée à cet usage. On pourrait certes utiliser cette technologie pour attribuer des étiquettes aux données, mais dans le monde de l’IA générative, ce n’est pas si simple. »
Les modèles d’IA modernes peuvent créer du contenu à partir des données qu’ils voient. Il est donc important d’être prudent lors de l’utilisation de ces modèles. « Il est intéressant de noter que les modèles eux-mêmes sont un ensemble d’objets de données non structurés (code et pondérations), et nous pouvons utiliser un mécanisme similaire pour ces modèles comme pour les autres données. Cependant, note Luc Costers, une question subsiste : comment générer des étiquettes pour ces modèles ? »
Étiquetage correct des données d’entreprise
Les modèles d’IA créent une synthèse des données sur lesquelles ils sont entraînés. En effet, une fois qu’un modèle a vu des données, il ne peut les oublier. Par conséquent, le modèle requiert les mêmes politiques de sécurité que les données qu’il utilise. « Par exemple, si vous partagez des informations financières qui ne devraient être visibles que par la direction de l’entreprise, le modèle entraîné avec ces informations ne devrait également être accessible qu’à la direction. Si le modèle est visible par d’autres membres de l’organisation, une faille de sécurité est inévitable. »
C’est là que le balisage prend tout son sens. Au lieu de mémoriser toutes les données vues par un modèle, nous pouvons le contrôler avec la même politique, basée sur la composition conservatrice de ces balises. « Une fois que votre modèle d’IA a vu vos données, il doit être soumis à la même politique, à savoir la somme de toutes les politiques qui s’appliquent aux données que vous avez utilisées pour l’entraîner. »
Dans un environnement de cloud hybride, nous devons nous assurer que les données de l’entreprise sont correctement balisées, du cloud public à la périphérie. « L’entraînement et l’affinage des modèles sur vos propres données doivent également s’effectuer selon les politiques de gouvernance appropriées, ce qui nous permet de collecter les balises correspondantes. Enfin, le modèle doit être contraint et soumis aux mêmes politiques que celles qui s’appliquent à l’ensemble de balises sélectionné. »
Combiner données et calcul
L’importance croissante de la sécurité et de la confidentialité des données nous oblige à passer de systèmes de données définissant des politiques basées sur les structures de stockage à des systèmes qui basent les politiques d’accès sur le type de données. « Pour déterminer le type de données, vous devez d’abord effectuer des calculs pour les catégoriser et les baliser. Plus les calculs effectués sont avancés, plus le marquage peut être intéressant et précieux. »
Il existe deux approches pour le marquage global des données . Soit déplacer toutes les données vers un environnement informatique central (comme le cloud public), puis les analyser et les catégoriser. Soit déplacer la puissance de calcul là où se trouvent les données, puis les catégoriser. La deuxième option est toujours préférable, conseille luc Costers, car les données sont soumises à la gravité et leur transfert est coûteux, tandis que le calcul est beaucoup plus léger et moins complexe. « Pour y parvenir efficacement, il vous faut une plateforme capable d’effectuer des calculs avancés de manière uniforme, de la périphérie au cloud public. En résumé, pour résoudre votre problème de gestion globale des données, vous avez besoin d’une plateforme offrant non seulement des données ou du calcul, mais les deux : données et calcul. »