Big Data, ces 2 mots sont sur toutes les lèvres.
Le Big Data serait la réponse aux problèmes rencontrés par les systèmes décisionnels.
Certains vont jusqu’à dire que le Big Data va remplacer la Business Intelligence. Voyons ensemble en quoi Business Intelligence (BI) et Big Data se ressemblent ou diffèrent sur les fameux 3 « v » qui caractérisent le Big Data : Volume, Vélocité et Variété.
En termes d’architecture, un emplacement très similaire
Effectivement des similitudes apparaissent sur ce schéma d’architecture globale :
- tout d’abord, leur positionnement entre les systèmes sources fournisseurs des données et les couches de visualisation ou d’analyse.
- on trouve également les notions de collecte, de stockage, de traitements et d’orchestration.
L’avantage « Vélocité » du Big Data dépend en partie de l’architecture de la BI
Là, où la Business Intelligence présente traditionnellement à J+1 des indicateurs calculés la nuit précédente, le Big Data promet la vélocité et des capacités de traitement, grâce à la parallélisation, permettant d’approcher le temps réel.
Présenté comme cela, il n’y a pas de débat.
Toutefois, en y réfléchissant, rien n’empêche d’effectuer la chaine d’extraction (ETL, Extract-Transform-Load) de la BI dans un cycle plus rapide.
Mais les sources qui fournissent les données en amont sont-elles capables d’exporter celles-ci plus rapidement ? Pas toujours. En effet, par facilité d’intégration, et comme on visait des indicateurs journaliers, on a préféré reporter ces traitements en mode batch, le plus souvent la nuit, alors qu’une agrégation au fil de l’eau serait possible.
La vélocité du Big Data n’est pas toujours nécessaire.
On peut également se demander s’il est pertinent de vouloir que tous les indicateurs soient disponibles en instantané et qu’ils donnent une vision temps réel.
Les projets BI demandent un temps long de mise en place. En effet, assurer qualité de données, un bon comptage, une entière complétude, à un niveau d’agrégation souhaité, tout cela dans le but de réaliser des analyses complexes nécessite une somme de tâches, vérifications et tests incompressibles.
Refaire tous ces traitements en technologie Big Data serait également long et demanderait de nouvelles compétences difficiles à trouver actuellement.
Il faut donc évaluer précisément la nécessité de vélocité avant d’investir dans un projet de transformation de BI en Big Data.
A un certain volume de données, la seule solution économiquement viable sera le Big Data
Cependant, dans la cas d’une solution de BI qui ne saurait plus faire face à un grand volume de traitements à effectuer sur des grands volumes de données, même en quelques heures la nuit, le Big Data serait alors la solution évidente.
Dans une telle situation, les fournisseurs de solution de BI proposent une montée en gamme en termes de matériel pour augmenter la puissance de calcul. Celle-ci s’accompagne d’une augmentation des coûts de licence (Base de données, ETL) qui deviennent généralement prohibitifs.
Le Big Data se présente alors effectivement comme une alternative pertinente.
Gérer de plus gros volumes est l’essence du Big Data. De nombreux logo dans le monde Hadoop reprennent d’ailleurs la symbolique de l’éléphant, par exemple Hortonworks, Hadoop ou Hive.
Hadoop permet une gestion de volume bien plus important en répartissant le stockage sur des serveurs de tailles standards en parallèle et permettant une scalabilité linéaire et non pas par pallier comme souvent avec les serveurs dédiées à la BI.
Du point de vue du stockage, l’alliance du parallélisme, de l’open source et l’utilisation de matériels standards évite une dépendance forte vis-à-vis des fournisseurs de solution de BI traditionnelle.
La mise en œuvre nécessite là encore des compétences rares actuellement mais à terme cette réserve devrait disparaitre.
Enfin, les solutions Big Data étant basées sur de l’open source, elles souffrent moins de ces surcoûts de licence. On trouve sur le marché des distributeurs comme Hortonworks ou Cloudera qui proposent des packages industrialisés et un support associé soumis à licences. Celles-ci restent cependant proposées à des tarifs bien moins élevés que pour les solutions de BI.
Le volume illimité du stockage en Big Data n’est qu’une illusion
La capacité de stockage élevée du Big Data donne le sentiment que l’on peut tout garder indéfiniment. Auparavant on faisait attention, on définissait au préalable les données nécessaires, on ne gardait que l’essentiel.
Effectivement, avec le Big Data, on peut changer l’approche et stocker sans préjuger des futurs traitements ou possibilités. Les métiers pensent s’affranchir des lourdeurs de mise en place de nouvelle chaine d’acquisition et réduire leur dépendance vis-à-vis de l’IT. Mais toutes ces données serviront-elles un jour ? Peut-être jamais.
De ce point de vue, on peut stocker plus et plus longtemps mais on génère alors un coût qui peut s’avérer non négligeable à long terme. La maîtrise de la stratégie de stockage reste donc nécessaire.
La promesse « Variété »
Par essence, la Business Intelligence consiste essentiellement à produire des indicateurs et des données calculées, sur la base de données structurées. Le stockage de données non structurées entraine la naissance de nouveaux cas d’usages. Ceux-ci ouvrent de nouvelles pratiques. Il est déraisonnable d’essayer de tordre les solutions BI pour ces nouveaux usages quand de nouvelles technologies plus performantes et mieux adaptées répondent parfaitement au besoin.
Cela ne retire en rien sa pertinence et son efficacité à la BI sur les cas d’usage traditionnels.
En conclusion
Grâce aux technologies Big Data, on peut collecter plus vite et de plus gros volumes. On peut stocker plus et plus longtemps. Mais malgré l’approche open source, l’infrastructure et les rares compétences représentent un coût non négligeable à la longue.
Mode ou pas ? La question n’est pas d’y aller ou pas, mais comment y aller? Et pourquoi ? Sans sous-estimer la complexité ni sans une analyse approfondie des réels besoins en « volume », « vélocité » et « variété ».
Dans de nombreux cas, la BI sera encore largement suffisante.