La flexibilité du cloud pour accélérer le développement du big data

par Alain de Fooz | Fév 12, 2018 | Business | 0 commentaires

Pour un opérateur télécom, Micropole a déployé un projet de big data au départ d’une série de services d’AWS. Les résultats ont dépassé les attentes.

Le cloud… l’enabler du big data ! Davantage d’organisations viendraient au big data si son accès était plus rapide, plus simple et, surtout, moins coûteux. Une étude IDC a révélé que les entreprises redoutent de ne pas disposer des ressources nécessaires pour garantir le stockage, la gestion, la mise à disposition et la protection des données. A raison, les entreprises appréhendent les investissements massifs à réaliser avant de tirer le bénéfice de ces capacités nouvelles. La voie ? Le cloud. Chez un client, un opérateur télécoms, Micropole a initié un projet big data en quelques semaines pour l’étude… et huit pour le rendre opérationnel sur une infrastructure complète dans la sphère AWS (Amazon Web Services).

A peu près toutes les entreprises peuvent tirer des avantages concurrentiels des données auxquelles elles ont accès. Pour autant, toutes ne possèdent pas l’expertise à la construction et à la gestion de l’infrastructure physique nécessaire. Pour Thomas Dallemagne, Big Data Practice Leader, Micropole, le recours au cloud est bien plus efficace. Via le cloud, en effet, les entreprises de toute taille peuvent déployer l’infrastructure dont elles ont besoin et quand elles en ont besoin. «Par nature, le cloud est flexible. Les infrastructures allouées sont ajustables à la hausse comme à la baisse. Les délais d’approvisionnement sont maîtrisés. Il est donc possible d’anticiper les pics d’activité plus facilement. Cela permet, notamment, d’identifier quand adapter la bande passante et la capacité de stockage.»

Catalogue AWS

Initié en mai 2017, le projet big data mené chez cet opérateur s’est étiré sur quelques semaines afin d’évaluer au plus près le champ d’application et les outils à mettre en oeuvre. «Quand on parle de cloud, on pense aux serveurs, aux VM. Moins aux applications. Avec notre client, nous avons sélectionné dans le catalogue AWS les meilleurs outils. L’objectif était, sur base de notre évaluation des besoins, de trouver les ressources informatiques flexibles et économiques de façon à redimensionner rapidement n’importe quelle application de big data, y compris l’entreposage de données, l’analyse des parcours de navigation, la détection des fraudes, les moteurs de recommandation, les ETL basés sur les événements… et cela tout en payant uniquement en fonction de ce qui est consommé. Non seulement nous sommes arrivés à éviter toute forme d’investissement, mais nous avons abouti à une solution qui, en termes de TCO, s’est avérée 75% moins onéreuse qu’une solution on premise !»

La structure ? Pilier de la solution, le DBMS en colonne Amazon Redshift caractérisé par un traitement massivement parallèle qui repose sur un SGBD en colonnes; Redshift utilise la compression de données et le mappage de zones afin de réduire la quantité d’I/O nécessaires à l’exécution des requêtes. Les données sont automatiquement sauvegardées sur Amazon S3 (Simple Storage Service) de manière continue et incrémentielle. Autre outil sélectionné, Amazon EMR, une infrastructure Hadoop qui permet de traiter de manière simple, rapide et rentable de grandes quantités de données sur des instances Amazon; EMR gère un large éventail de cas d’utilisation de big data de façon sûre et fiable, tels que l’analyse des journaux, l’indexation Web, les transformations de données, l’apprentissage machine, l’analyse financière, la simulation scientifique et la recherche bio-informatique…

GDPR By Design

Le choix en faveur d’une solution sur AWS a rapidement été acquis. «Si, hier, les entreprises étaient encore hésitantes, voire réfractaires, à l’option du cloud public, ce n’est plus le cas aujourd’hui, assure Thomas Dallemagne. AWS permet à ses clients de créer n’importe quelle application d’analyse de big data et de soutenir toutes les charges de travail, quels que soient le volume, la vitesse et la diversité des données. » Avec plus de 50 services et des centaines de fonctionnalités ajoutées chaque année, AWS fournit tout ce dont une entreprise a besoin pour collecter, stocker, traiter, analyser et visualiser le big data dans le cloud.

Mieux : ce projet a permis au client d’accéder à sa conformité GDPR by Design. Les services AWS sont d’ores et déjà conformes au règlement général sur la protection des données quand il entrera en vigueur le 25 mai prochain. En particulier, la conformité d’AWS avec la norme ISO 27018 -la première norme internationale spécifique à la protection des données personnelles dans le cloud- a été validée par une instance d’évaluation indépendante.

A priori technique, ce projet est aussi organisationnel. Le client a été amené à réviser le mode opératoire de certaines de ses équipes, des tâches d’antan étant devenues inutiles. En même temps, ce projet ouvre d’innombrables portes en termes d’opportunité de traitement des données. Nous entrons dans l’ère de la data 2.0, résolument hybride, au départ du big data, du machine learning et l’IA.

Summary