Big data management : définition et classification

Les anglicismes dans le jargon des affaires sont monnaie courante. Les étudiants en finance ne peuvent passer à côté de termes comme cloud computing, framework, data visualisation, reporting, etc. Ils leur parlent forcément. Ceux en gestion entendent fréquemment le terme de Big data management. Ils ont une vague connaissance de sa signification. Afin de pousser l'enrichissement de ce vocabulaire plus loin, faisons le tour de cette terminologie. Tout d'abord, accordons-nous une parenthèse française en décodant ces trois mots. Big pour grand ou gros. Data pour données. Management pour gestion. Il s'agit donc de gérer un nombre important de données, ce qui induit des facteurs à prendre en compte. Lesquels ? Pourquoi ? Et comment ce processus se caractérise-t-il ?

Qu'est-ce que le big data management ?

Pour faire simple, on parle de collecte à grande échelle. Si l'on veut vulgariser cette lexie informatique, on peut tout simplement dire qu'elle fait référence à des technologies visant à collecter, stocker, traiter et analyser de grands volumes d'informations. Ces renseignements collectés sont ensuite rangés dans trois cases différentes que l'on appelle les trois « V ».

Quels sont les trois V de la gestion des données massives ?

Continuons avec une métaphore simple à comprendre. Puisque nous avons puisé dans le registre du rangement, il nous suffit d'imaginer une armoire divisée en trois parties. Chacune de ces portes contiendrait d'autres sous-parties. Nos trois « V » correspondraient à : variété, volume et vélocité.

Variété

Plus il y a d'hétérogénéité dans les données, plus le travail de classement est ardu. La gestion de big data, c'est résoudre la multiplication des formats, et la complexité qu'il y a à les dissocier. Exploiter et analyser ces mines de stockage demande du temps. Le métier de data scientist évolue au gré des avancées technologiques. Des algorithmes de plus en plus performants voient le jour, et pourtant, cela reste un casse-tête. Pour pouvoir optimiser cette énorme logistique, l'idéal serait de standardiser l'organisation des données brutes sur les supports d'information. On tend à arriver à cette uniformisation. Cependant, la mixité reste encore trop présente.

Volume

V comme Volume. Volume de données. Volume de personnes. À la base, l'ordinateur a été conçu pour stocker les informations qu'un classeur ne pourrait contenir. Au fil du temps, nos ordinateurs ont connu une fulgurante ascension. Qui, il y a quarante ans, aurait pu se douter qu'aujourd'hui, la capacité de données contenue dans une armoire tiendrait dans un rectangle de quelques centimètres carrés ? Les premiers disques durs pesaient des tonnes, et ce n'est pas une figure de style. Il fallait des pièces entières consacrées à ces supports. Aujourd'hui, nos téléphones portables surpassent cette technologie. Et ce n'est pas fini !

La contenance des espaces de stockage augmente de façon exponentielle avec la demande des usagers. La dématérialisation des documents, le fonctionnement de notre société moderne fait que nous ne pouvons plus nous passer de cette ingénierie. Ce qui pose un problème majeur. Et si l'informatique surpassait l'être humain ? Et si l'Homme était tellement dépendant de l'outil qu'il a lui-même construit et en devenait tributaire ?

La réalité rattrape la fiction. Le volume de données augmentant plus rapidement que les possibilités de calcul des UCT (Unités Centrales de Traitement), une grande question se pose : comment améliorer les tâches de traitement de données ?

Vélocité

Dans ce contexte, la vélocité fait référence à la vitesse à laquelle les données sont générées. Le système de gestion de données les traite et les met à jour en temps réel. Les entreprises sont donc confrontées à des volumes massifs de données à grande échelle générés extrêmement rapidement. Les informations provenant des réseaux sociaux, des applications en ligne, des transactions en ligne arrivent comme une vague se déversant dans un petit contenant. Il faut alors traiter les flux entrants. Sauf qu'il y en a trop pour qu'ils soient exploités à l'instant T. N'oublions pas que cela inclut les objets connectés munis de capteur IoT. Quand on sait qu'à l'heure actuelle même les brosses à dents sont dotées de ce système, on imagine vite que la somme est astronomique. Afin de pallier cela, une partie des informations est conservée pour être ensuite analysée plus tard.

Voilà l'enjeu d'un gestionnaire de big data.

Les tâches quotidiennes du spécialiste de la gestion du big data

Comme dans tous métiers, les tâches à accomplir varient selon la taille de l'entreprise. L'informatique étant en constante évolution, la profession évolue vite, même très vite. Il est impératif d'être réactif à ces changements et de s'adapter. Néanmoins, voici une liste non exhaustive de ce qui est à accomplir lors d'une journée.

Collecte des données

L'extraction des données se fait à partir de diverses sources comme des fichiers plats, des API (Interfaces de Programmations d'Applications), des sites web, etc. Mais il peut aussi utiliser des outils ou des bibliothèques spéciales pour naviguer sur le net et en ressortir les informations pertinentes.

D'autres sources d'information viennent des médias sociaux. Le nombre de likes, de partages, de mentions est un vivier important. Tout comme les données publiques disponibles gratuitement sur les sites gouvernementaux et les portails ouverts. Les enquêtes et les sondages en ligne apportent une collecte directe auprès des utilisateurs.

Cette profession demande donc d'être polyvalent et à l'aise avec l'environnement internet.

Stockage des données

Une fois recueillies, ces données doivent impérativement être stockées. C'est une des autres tâches complexes à accomplir. Les moyens existants sont en constante évolution et prolifèrent. Choisir celui qui correspond le mieux aux besoins spécifiques du projet demande une bonne connaissance du sujet. Car, il faut prendre en compte les facteurs tels que la sécurité, la redondance, la performance et l'évolutivité. En complément de ces éléments, un autre aspect vient s'ajouter au point précédent : celui de la garantie de la protection des données en cas de sinistre ou de perte accidentelle.

Traitement des données

La première étape est donc la collecte, vient ensuite le prétraitement qui vise à nettoyer, filtrer et normaliser les données brutes. Cela a pour but de les rendre utilisables dans les analyses ultérieures. Ce parcours se poursuit par le stockage dans des systèmes distribués tels que Hadoop Distributed File System (HDFS) ou des bases de données SQL pour une accessibilité optimale.

Tout cela sert à enrichir le récolement d'informations pour l'associer à d'autres paramètres comme l'agrégation, le calcul de nouvelles métriques.

Le recensement comprend également l'exécution d'analyses avancées telles que le data mining, les analyses statistiques, le l'apprentissage automatique pour ne citer qu'eux.

Les sous-titres de cette partie ne s'arrêtent pas à cela, mais ce sont les principaux.

Analyse des données

L'analyse est certainement la phase la plus significative de ce métier. Elle est le pivot pour prendre des décisions, améliorer les opérations, prévoir les tendances et comprendre le comportement des utilisateurs. Cela implique une connaissance d'outils et de frameworks tels que Python avec les bibliothèques de data science ou Apache Spark MLlib, et bien d'autres. Le choix des techniques dépend des objectifs à atteindre.

Sécurité des données

La sécurité dans ce domaine est une préoccupation constante. Les données sont souvent de grandes valeurs et/ou sensible. L'essentiel s'axe donc sur la préservation de celles-ci. Le big data manager prend en compte des considérations importantes comme l'accès et l'authentification, le chiffrement des données, la sécurité physique et celle du réseau.

Plus clairement, il s'agit du gardien de ces trésors que sont les informations.

Gestion des performances

La gestion des données massives induit un processus itératif qui nécessite une surveillance constante. Sa croissance perpétuelle demande des ajustements aux besoins et aux exigences du système. Le cœur du métier se situe sur ce point crucial, car cette logistique garantit des performances efficaces.

Maintenance des systèmes

Plus que la gestion et l'analyse des données massives, cette profession signifie être un gestionnaire, gestionnaire de la capacité en surveillant l'utilisation des ressources, gestionnaire des sauvegardes en mettant en œuvre des politiques régulières de protection. Cela englobe l'intendance des erreurs en intronisant des mécanismes pour minimiser les risques de pannes et de perte.

Collaboration interdisciplinaire

Dans le contexte qui nous préoccupe, la collaboration interdisciplinaire s'avère pertinente. En regroupant les domaines tels que l'informatique, les mathématiques, les statistiques, l'intelligence artificielle, voire la santé, la finance, etc., l'intendant des données s'entoure d'experts. Ainsi, la collecte n'en sera que plus opportune.

Suivi des tendances

Pratique essentielle pour rester à jour avec les développements et les avancées du domaine, le professionnel ne peut faire l'impasse sur cette tâche. Elle consiste en une veille technologique méticuleuse via divers moyens. La formation continue est bien sûr une façon de se tenir au courant.

Rien n'est acquis dans ce métier puisqu'il s'améliore constamment.

Planification stratégique

Comme son nom l'indique, la planification stratégique demeure un processus qui consiste à définir les objectifs d'une organisation à long terme. Établir une bonne programmation aide à se concentrer sur ses priorités. C'est un moyen d'utiliser à bon escient ses ressources et de saisir les opportunités pour être compétitif.

Quelle formation suivre pour devenir spécialiste en big data management ?

Cette carrière est accessible avec une licence professionnelle équivalant à un Bac + 3, mais les recruteurs privilégient les candidats ayant un master en Data Finance par exemple, c'est-à-dire un Bac + 5.

En se dirigeant sur ce poste, les étudiants ont maintes ouvertures sur le marché du travail. Tous les secteurs recrutent. En fonction de la branche, les salaires proposés se situent autour de 2 600 € en début de prise de poste.