Pour apprécier les écarts dans une série (distribution) de données, on recourt à des indicateurs de dispersion. En termes statistiques, la dispersion est la mesure des écarts entre la valeur des données.
Les quantiles, qui divisent les données en plusieurs parties égales, sont les plus couramment utilisés.
La médiane correspond à la valeur pour laquelle la moitié des données lui sont inférieures, l’autre moitié supérieures. La médiane est l’indicateur de référence pour estimer le niveau général d’une distribution, notamment lorsqu’elle est exprimée en termes monétaires.
Si l'on divise l'ensemble des données, ordonnées selon leur valeur, en quatre groupes d’effectifs égaux, on obtient des quartiles. Le premier quartile (Q1) est la valeur qui sépare des autres les 25 % des données avec les valeurs les plus basses. Le deuxième quartile est la médiane. Le troisième quartile (Q3) est la valeur qui sépare des autres les 25 % des données avec les valeurs les plus élevées.
Sur le même principe, les déciles partagent la distribution en dix groupes d’effectifs égaux. Le premier décile (D1) est la valeur qui sépare des autres les 10 % des données avec les valeurs les plus basses. Le deuxième décile (D2) est la limite pour les 10 % suivants : 20 % des données ont une valeur inférieure à ce montant et 10 % ont par conséquent une valeur comprise entre D1 et D2. Et ainsi de suite jusqu’à D9, qui est la valeur qui indique la limite entre les 10 % des données avec les valeurs les plus élevées et les autres 90 %. Le cinquième décile (D5) est la médiane.
Les graphiques de dispersion appelés « boîtes à moustaches » permettent de visualiser les cinq quantiles principaux. La dispersion des valeurs est représentée par la « longueur » de la moustache. Plus les moustaches sont longues, plus la distribution est dispersée, ce qui implique de grands écarts entre les valeurs.
Le rapport entre quantiles est un autre indicateur de dispersion. Le rapport interquartile Q3/Q1 est une indication de l’écart entre le quart des données avec les valeurs les plus élevées et le quart avec les valeurs les plus basses. Basé sur le même principe, le rapport interdécile D9/D1 fournit une indication sur les écarts entre les 10 % des données avec les valeurs extrêmes.
La moyenne arithmétique est la somme des valeurs observées divisée par leur nombre. La notion de moyenne est familière et d'usage courant. C'est une valeur centrale : comprise entre les valeurs extrêmes, « vers le milieu », la moyenne arithmétique en définit d'ailleurs, au sens géométrique, le centre de gravité. Si la valeur d'une moyenne peut fournir un bon résumé statistique d'un phénomène donné, on lui préfère le souvent la médiane car cette dernière permet de réduire l’effet des valeurs extrêmes. Lorsque les valeurs sont distribuées de manière symétrique, la moyenne arithmétique coïncide avec la médiane. Lorsque la distribution est asymétrique (dans le cas des revenus, par exemple), la moyenne arithmétique dépasse la médiane si les valeurs extrêmes sont élevées et se situe en dessous de la médiane si les valeurs extrêmes sont basses.
En général, les tableaux de répartition en pour cent ou en pour mille, ainsi que les tableaux en franc, millier et million de francs, sont constitués de chiffres arrondis. Les chiffres arrondis ne sont en principe pas ajustés, si bien que leur somme peut ne pas correspondre exactement au total ou aux totaux inscrits dans le tableau.