Outils BI: fossé entre analytique et applications modernes
Les développeurs ont été les enfants gâtés de la dernière décennie : ils ont pu exploiter les options passionnantes de bases de données comme MongoDB, Elasticsearch, et Cassandra, accéder à des services de stockage cloud comme Amazon S3, et explorer de nouveaux paradigmes comme les microservices et les architectures sans serveur. Grâce à ces approches, ils ont pu développer leurs applications plus rapidement et plus efficacement. Enfin, pour le côté pile de l’histoire ! Côté face, les données générées par ces applications créent de nouveaux défis en matière d’analyse. Les quantités massives de données sont majoritairement conservées en JSON et sous d’autres formats non relationnels, inaccessibles aux outils et aux méthodologies d’analyse traditionnels.
Toute entreprise voulant participer à la nouvelle ère des données doit se confronter à la cruelle infrastructure de données sur laquelle elle a construit son histoire. Heureusement, la situation n’est pas désespérée : l’émergence d’une génération de projets open source, comme Dremio et Presto, devrait permettre de combler le fossé entre les outils traditionnels de Business Intelligence (BI) et les nouvelles sources de données. Certes, il est encore trop tôt pour l’affirmer, mais ces outils sont prometteurs : ils pourraient permettre aux développeurs d’utiliser leurs outils favoris et laisser à d’autres le soin de s’occuper de relier les silos entre eux.
De nouvelles astuces en matière de données
Si ces dernières années les pratiques dans le développement d’applications ont évolué de manière spectaculaire, les méthodes de gestion des données d’analyse par les entreprises n’ont pas beaucoup changé. Cet aspect aurait peu d’importance si le nombre d’utilisateurs de BI dans une entreprise donnée était moins élevé. En effet, si l’on relève souvent et à juste titre l’importance des développeurs de logiciels, on doit garder à l’esprit qu’il y a probablement dix fois plus d’utilisateurs de BI que de développeurs de logiciels. Pourtant, ce fait est très largement ignoré. La majorité des analyses sont effectuées à l’aide d’outils décisionnels comme Tableau, Looker, Power BI, Qlik et Cognos.
Or, toutes ces solutions partent du principe que les données se trouvent au même endroit, dans un format relationnel. Malheureusement pour l’usage, aucune entreprise, quelle que soit sa taille, ne conserve ses données dans un seul entrepôt de données, ou même dans l’un de ces lacs de données tant convoités. Il y a et il y aura toujours des silos. Heureusement, pour combler ce fossé entre les outils BI traditionnels, un certain nombre de projets open source ont vu le jour. C’est le cas notamment de Presto et de Dremio, mais aussi d’Amazon Athena (basé sur Presto) et de Google BigQuery. Ces projets permettent de rapprocher les sources de données (sources relationnelles, systèmes de fichiers, sources NoSQL) des différents outils BI basés sur SQL et des plateformes de data science basées sur Python et R.
Dremio, différent des autres
Si chacun de ces outils a la prétention d’atteindre cet objectif, Dremio se distingue néanmoins du lot. Dremio fait bien plus que le moteur d’exécution de requêtes fourni par Presto. Il intègre d’autres fonctions clés pour l’accélération des requêtes, la conservation des données, le lignage et le catalogage des données et délivre un modèle en libre-service similaire à celui des Google Docs, mais adapté aux ensembles de données. Et la solution a encore évolué : cette semaine, Dremio a annoncé la prise en charge de la plate-forme de BI populaire Looker, ce qui permet aux utilisateurs d’accéder à un plus grand nombre de sources (MongoDB, Elasticsearch, S3, HDFS, Azure ADLS, etc.), de faire des jonctions entre les sources et d’accélérer les requêtes. Dremio élargit la portée des consommateurs de données utilisateurs de Looker et leur permet d’être plus indépendants et plus autonomes : plus besoin d’attendre que l’IT déplace les données dans un silo pour les analyser.
Cette ouverture va dans le sens d’une tendance plus large qui consiste à laisser les utilisateurs de données utiliser leurs outils préférés, à laisser les développeurs construire des applications avec leurs bases de données et leurs systèmes de fichiers favoris. Elle résout le problème du décalage technologique qui pourrait exister avec l’ajout d’une nouvelle couche entre les outils et les données. En bref, le choix passe de « l’un ou l’autre » à « et », ce qui est un excellent argument de vente pour les professionnels de IT et ceux qui ont besoin de prolonger la valeur des investissements BI existants sans renoncer à une évolution plus moderne et plus ouverte pour l’accès aux données. Au final, ces outils de BI émergents permettent aux développeurs de faire leur travail de développement sans avoir à se préoccuper des silos de données qu’ils peuvent laisser derrière eux.