12th édition – du 17 au 19 avril 2024
3 jours de conférences, 70 exposants, 4500 visiteurs par jour
François Sarradin
J'aime bien le data engineering, les systèmes distribués, le NoSQL, le stream processing, la programmation fonctionnelle, la gestion d'équipes, la formation, les archi data... Et j'en ai probablement oublié ! À part ça, j'accompagne les entreprises sur leurs projets data depuis un bon moment et j'enseigne aussi sur ces différents sujets en école d'ingénieur.
À partir du moment où vos applications se trouvent en surcharge pour le traitement de la donnée ou pour son stockage, à partir du moment où les prix de l’infra commencent à se ressentir sérieusement sur le budget lié à vos projets à force d’ajouter du CPU et de la RAM, et qu’il faut en plus assurer une haute disponibilité digne de ce nom, à ce moment-là, il devient envisageable de mettre en œuvre plusieurs machines fonctionnant comme une seule, accueillant à la fois vos données et vos applications.
Vous vous trouvez ainsi propulsé dans un système distribué. C'est prometteur pour sa scalabilité et sa résilience. Mais cela vous met face à des défis uniques induits par le CAP Theorem et la vitesse de la lumière, entre la latence du matériel utilisé, les pannes partielles, la gestion du consensus, le rééquilibrage de la charge… Il faut que ça marche même lorsque vous êtes bloqué dans les transports ou que la machine à café est en panne !
Dans cette session, vous allez découvrir ce qui se trouve derrière les systèmes distribués, qu’il s’agisse de base de données de type NoSQL comme Cassandra, de plateforme de stream processing comme Kafka ou de plateforme de traitement distribué comme Spark. Nous aurons l’occasion de découvrir ensemble les fonctionnalités communes et spécificités entre la gestion du partitionnement et de la réplication, la tolérance à la panne, ainsi que les mécanismes mis en œuvre dans les systèmes distribués pour améliorer les performances.
More
en_USEnglish