Résoudre les problèmes de Big Data grâce aux Data Lakes AWS (lacs de données)

Les organisations de toutes tailles, dans tous les secteurs, utilisent des lacs de données pour transformer les données, qui ne sont plus considérées comme des coûts à gérer, mais comme un actif stratégique précieux. Les lacs de données sont essentiels pour donner un sens aux données. Les lacs de données suppriment les silos de données et facilitent l'analyse de divers ensembles de données, tout en assurant la sécurité des données et en intégrant le Machine Learning.

Dans son article intitulé "How Amazon is solving big-data challenges with data lakes", Werner Vogels, CTO d'AWS, explique : "L'une des principales raisons pour lesquelles les entreprises choisissent de créer des lacs de données est de supprimer les silos de données. Avoir des poches de données à différents endroits, contrôlées par différents groupes, obscurcit intrinsèquement les données."

Amazon S3 vous permet de migrer, de stocker, de gérer et de sécuriser toutes les données structurées et non structurées à une échelle illimitée, en brisant les silos de données

Les composants clés des Data Lakes

  • Ingère les données structurées et non structurées
  • Catalogues et index pour l'analyse sans déplacement de données
  • Stocke, sécurise et protège les données à une échelle illimitée
  • Relie les données aux outils d'analyse et de Machine Learning

Migrer les données dans le cloud

Hybrid cloud storage

AWS Storage Gateway est un service de stockage cloud hybride qui permet de connecter et d'étendre de manière transparente vos applications sur site à AWS Storage. Les clients utilisent AWS Storage Gateway pour remplacer de manière transparente les tape libraries par du stockage dans le cloud, fournir des partages de fichiers adossés au stockage dans le cloud ou créer un cache à faible latence pour accéder aux données dans AWS pour les applications sur site.
AWS Direct Connect permet d'établir une connectivité privée entre AWS et votre centre de données.

Transfert de données en ligne

AWS DataSync permet de transférer facilement et efficacement des centaines de téraoctets et des millions de fichiers vers Amazon S3, Amazon EFS ou Amazon FSx pour Windows File Server, jusqu'à 10 fois plus vite que les outils open-source. DataSync gère ou élimine automatiquement de nombreuses tâches manuelles, notamment la création de scripts de copie, la programmation et la surveillance des transferts, la validation des données et l'optimisation de l'utilisation du réseau. Amazon S3 Transfer Acceleration permet des transferts rapides de fichiers sur de longues distances entre votre client et votre bucket Amazon S3. Amazon Kinesis et AWS IoT Core simplifient et sécurisent la capture et le chargement de données en continu depuis des dispositifs IoT vers Amazon S3.

Transfert de données hors ligne

La famille Snow d'AWS est conçue pour être utilisée dans des sites périphériques où la capacité du réseau est limitée ou inexistante et offre des capacités de stockage et de calcul dans des environnements difficiles. Le service AWS Snowball utilise des dispositifs de stockage et d'informatique de périphérie robustes et portables pour la collecte, le traitement et la migration des données. Les clients peuvent expédier le dispositif physique Snowball pour la migration des données hors ligne vers AWS. AWS Snowmobile est un service de transfert de données à l'échelle de l'exaoctet utilisé pour déplacer des volumes massifs de données vers le cloud, notamment des vidéothèques, des référentiels d'images ou même une migration complète d'un centre de données.

Utilisez les services AWS dans votre Data Lake

Les clients des data lakes S3 ont accès à de nombreuses applications analytiques AWS, à des services AI/ML et à des systèmes de fichiers haute performance. Cela signifie que vous pouvez exécuter de nombreuses charges de travail à travers votre lac de données, sans traitement supplémentaire des données ni transferts vers d'autres magasins. Vous pouvez également apporter vos outils d'analyse et d'apprentissage automatique tiers préférés à votre lac de données S3.

Créez un lac de données en quelques jours au lieu de plusieurs mois avec AWS Lake Formation

AWS Lake Formation vous permet de créer un lac de données sécurisé en quelques jours au lieu de plusieurs mois. Il suffit de définir l'emplacement des données et les politiques d'accès aux données et de sécurité à appliquer. Lake Formation collecte ensuite les données provenant de différentes sources et les déplace dans un nouveau lac de données dans Amazon S3. Le service nettoie, catalogue et classe les données à l'aide d'algorithmes d'apprentissage automatique et vous permet de définir des politiques de contrôle d'accès. Les utilisateurs peuvent ensuite accéder à un catalogue centralisé de données qui répertorie les ensembles de données disponibles et leurs conditions d'utilisation.