Une boîte à moustache ou box plot est un élément qui a pour but de montrer la distribution des données relatives à une variable continue. Cette boîte à moustache est également appelée diagramme en boîte. D'autres dénominations sont trouvées, comme, par exemple, boîtes à pattes ou boîte de Tukey. C'est la représentation graphique d'une série statistique. Elle a pour but d'aider à voir le centre et la distribution des données. Cette box plot est un moyen facile de présenter le profil basique d'une série statistique quantitative. Cette visualisation des données est utilisée dans de nombreux cas et répond à différents besoins.
Qu'est-ce qu'une boîte à moustache ?
La boîte à moustache a été inventée en 1977 par John Tukey. Elle résume quelques indicateurs de position du caractère qui est étudié. On trouve ainsi sur ce graphique différents éléments :
Médiane ;
Quartiles ;
Minimum ;
Maximum ou déciles.
On utilise principalement ce diagramme pour comparer une même donnée dans deux groupes différents (c'est ainsi le cas, par exemple, des populations de taille différente).
La base de la boîte à moustache est de tracer un rectangle qui va du premier au dernier quartile, coupé par une médiane. Ce rectangle est suffisant pour représenter un diagramme en boîte. On lui ajoute néanmoins des segments aux extrémités. Ces segments mènent aux valeurs extrêmes (jusqu'aux premier et neuvième déciles).
Dans les premières boîtes à moustache, la longueur des moustaches correspond à 1,5 fois l'écart interquartile. Dès l'origine, ces diagrammes étaient utilisés dans les secteurs pour lesquels les données peuvent être modélisées via une loi normale. La théorie montre alors que les extrémités des moustaches sont proches du premier et 99ème centile. Le diagramme est alors utilisé pour découvrir des données exceptionnelles.
Avec la boîte à moustache, il est alors possible d'avoir un aperçu des données sans attendre.
La boîte à moustache représente la distribution des données pour une variable continue. Elle aide à voir le centre, mais aussi la distribution des données. Il est ainsi possible de l'utiliser comme un outil visuel qui vous permettra de vérifier la normalité, mais aussi d'identifier des points aberrants. Cette distribution statistique s'obtient en associant des classes de valeur obtenues via l'expérience d'apparition de celles-ci.
Une boîte à moustache comprend différentes parties, dont les principales sont les suivantes :
La ligne centrale. Celle-ci indique la médiane des données. La moitié des données est supérieure, l'autre inférieure. Dans le cas où les données sont symétriques, la médiane sera au centre de la boîte. Lorsque les données ne sont pas symétriques, la médiane sera plus proche du haut ou du bas de la boîte.
Les centiles. Le bas et le haut de la boîte vont montrer les 25ème et 75ème quantiles que l'on appelle également les centiles ou quartiles. Chacun correspond en effet à un quart des données. La longueur de la boîte est, de ce fait, la différence entre les deux centiles. Cela sera alors appelé intervalle interquartile (IQR).
Les moustaches qui correspondent aux lignes qui s'étendent de la boîte. Celles-ci représentent la variation que l'on attend des données. Elles étendent 1,5 fois l'IQR du haut et du bas de la boîte en question. Dans le cas où les données ne s'étendent pas jusqu'aux extrémités des moustaches, les moustaches s'étendent alors jusqu'aux valeurs de données minimales et maximales. Lorsque les valeurs tombent au-dessus ou en dessous de l'extrémité des moustaches, on les représente sous forme de points, appelés valeurs aberrantes. Une valeur aberrante est plus extrême que la valeur attendue. Il est important de vérifier qu'il s'agit bien d'une aberration et non d'une erreur. Les moustaches n'incluent pas ces valeurs aberrantes.
Il peut alors être très utile de comparer les valeurs aberrantes aux quantiles. On pourra alors trouver la médiane des 25 et 75ème centiles. Cela correspond aux 25 % des données qui sont inférieures au 25ème quantile.
La boîte à moustache ajoute alors les 2,5ème, 10ème, 90ème et 97,5ème quantiles dans la boîte à moustache. Ces quantiles sont les valeurs aberrantes.
La visualisation des données permise par la boîte à moustache concerne tous les secteurs d'activité. On peut ainsi l'utiliser dans les secteurs scientifiques et techniques, dans l'administration, les finances, le marketing, les services et même le sport. Tirer parti des informations via une visualisation, comme le box plot, est capital aujourd'hui. Cela permet de faire passer les messages visuellement et de mieux tirer parti des informations obtenues. Plusieurs professions utilisent cette boîte à moustache pour traiter les informations plus rapidement et facilement. Cela peut être le cas du data scientist, qui pourra ainsi répondre plus simplement aux besoins du marché et prendre des décisions.
Savoir créer une boîte à moustache fait partie des connaissances à maîtriser et cela s'apprend lors des études. Si vous préparez un MBA finance et data, vous pourrez le constater.
Pour se simplifier le travail et obtenir une boîte à moustache plus aisément, il est possible d'utiliser internet. Utilisez une application dédiée et copiez votre tableau de données. Sélectionnez l'onglet adapté et cliquez sur les variables que vous désirez pour créer la boîte à moustache.
Comment calculer la boîte à moustache ?
La boîte à moustache est la représentation graphique d'une série statistique. Elle fait apparaître la plus petite et la plus grande valeur et la valeur médiane. C'est donc l'illustration des variables d'une série qui permet d'interpréter rapidement la répartition des données.
Créer une boîte à moustache se fait en plusieurs étapes.
En premier lieu, il sera utile d'ordonner la série des valeurs. Il sera nécessaire, pour réaliser un calcul avec une boîte à moustache, de classer la série des données par ordre croissant. Il sera ainsi possible de trouver les deux valeurs situées au milieu de l'enchaînement et de calculer la médiane.
Autre étape, l'identification des valeurs. Les deux valeurs les plus simples à déterminer sont la plus petite et la plus grande. Pour déterminer la valeur médiane, il faudra faire un calcul. Pour cela, il faudra prendre en compte les deux valeurs situées au milieu des données. Il faudra ensuite ajouter ces deux valeurs l'une à l'autre puis diviser le résultat par deux. Vous aurez ainsi la moyenne. La série des valeurs sera ensuite divisée en deux moitiés. La valeur médiane correspond au premier quartile.
Il est ensuite indispensable de tracer la boîte à moustache. Pour cela, vous devrez tracer une ligne droite graduée selon une échelle définie. Cette ligne correspond à la suite des valeurs. Sera ensuite intégrée une ligne verticale qui représentera la médiane. Il faudra ensuite placer deux autres lignes verticales correspondant au premier et au troisième quartile. Il faudra relier ces trois repères via des lignes qui formeront des boîtes. Pour terminer, il faudra placer deux points qui représentent la plus petite et la plus grande valeur. Une ligne reliant les deux points à la boîte achèvera la création de la boîte à moustache.
Cas d'utilisation d'une boîte à moustache
La boîte à moustache est principalement utilisée pour visualiser des concepts comme la symétrie, la dispersion, la centralité de la distribution des différentes valeurs associées à une variable. On peut aussi l'utiliser pour comparer différentes variables (avec échelle similaire) ou des valeurs d'observation de groupes d'individus. Ce box plot est utilisé pour différents cas.
Visualiser de grands ensembles de données
Résumer les ensembles de données en 5 groupes permet de traiter et présenter un résumé d'une grande quantité de données. Cette organisation est un moyen efficace pour traiter des données volumineuses.
Ne pas conserver les valeurs exactes
La boîte à moustache n'est qu'un simple résumé de la distribution des résultats. Il sera ainsi plus simple de comparer ces données à d'autres données.
Avoir un résumé clair
La boîte à moustache est un moyen clair pour visualiser un résumé ou plusieurs ensembles de données. Il sera ainsi possible de comparer les résultats. Avec sa représentation graphique, le box plot propose une représentation graphique des résultats et propose la possibilité de faire une analyse plus approfondie des indications sur la symétrie des données.
Voir les données aberrantes facilement
Il sera beaucoup plus facile de repérer les données aberrantes (qui correspondent aux résultats des données qui se situent en dehors des valeurs minimales et maximales) avec ce diagramme ainsi que les résultats obscurs. Le travail sera donc plus rapide et plus simple.
La boîte à moustaches et autres outils de visualisation des données
La boîte à moustache se compare à d'autres outils de visualisation comme des histogrammes. Ces deux éléments montrent les deux formes des données.
Ces deux éléments distinguent les points inhabituels et les valeurs aberrantes. On constate souvent qu'il est utile d'employer ces deux types de graphiques avec les données. La boîte à moustache sera idéale pour distinguer le coefficient de symétrie. En effet, la ligne de dissymétrie sera présente puisque la ligne médiane n'est pas proche du centre de la boîte. Toutefois, la boîte à moustache différencie bien mieux les 25ème et 75ème centiles que l'histogramme. Celui-ci sera idéal pour distinguer la forme globale des données et cela bien mieux qu'un box plot.
D'autres outils de visualisation des données peuvent être employés conjointement avec la boîte à moustache. Il peut s'agir des :
Diagrammes ;
Graphiques ;
Tables ;
Tableaux de bord…
Comment interpréter un box plot ?
Pour interpréter une boîte à moustache, il faut passer par plusieurs étapes.
La première est de tout simplement observer le graphique. D'un simple coup d'œil, on peut comprendre les moyennes des valeurs et interpréter celles-ci en fonction de ses besoins.
Le box plot indique la plage dans laquelle se situent les 50 % intermédiaires de l'ensemble des valeurs. L'extrémité inférieure du box correspond au 1er quartile. L'extrémité supérieure renvoie, quant à elle, au 3ème quartier. De ce fait, 25 % des données sont placées en dessous du premier quartile et 25 % au-dessus du 3ème quartile. 50 % des données sont présentes dans la boîte elle-même.
Dans un box plot, la ligne pleine correspond à la médiane alors que la ligne en pointillé correspond à la moyenne. Les moustaches, quant à elles, vont jusqu'au dernier point qui se situe toujours à l'intérieur de 1,5 fois l'écart interquartile. Dans le cas d'une valeur aberrante, elles vont jusqu'à 1,5 fois l'écart interquartile. Si aucune valeur aberrante n'est présente, la moustache correspondra à la valeur maximale.
On peut ainsi constater que la moustache supérieure correspond soit à la valeur maximale, soit à 1,5 fois l'écart interquartile. La moustache inférieure correspondra à la valeur minimale ou 1,5 fois l'écart interquartile. Les points qui sont les plus éloignés sont alors considérés comme des valeurs aberrantes.