Comment détecter, supprimer ou bloquer les doublons sur Excel ?
Dans ce tutoriel, je vais vous montrer comment détecter et supprimer les doublons dans une feuille de calcul Excel.
Les doublons peuvent entraîner des erreurs dans nos analyses et fausser nos résultats, c'est pourquoi il est essentiel de les identifier et de les éliminer correctement.
Tout au long de ce tutoriel, nous allons explorer trois niveaux de gestion des doublons : comment les repérer, comment les supprimer, et comment empêcher de les saisir.
Téléchargement
Vous pouvez télécharger le fichier d'exemple de cet article en cliquant sur le lien suivant :
Tutoriel Vidéo
1. Détection des doublons avec mise en forme conditionnelle
Dans cette première partie, nous allons apprendre à détecter les doublons dans notre feuille de calcul en utilisant la mise en forme conditionnelle.
Pour cela, nous allons utiliser l'exemple d'une liste d'inscriptions à un événement, où certains participants peuvent s'être inscrits plusieurs fois :
Dans cet exemple, nous avons donc une liste d'inscriptions avec les informations suivantes : "Nom", "Prénom", "Email" et "Inscription".
Pour identifier rapidement les informations en double, nous allons sélectionner la plage de données comprenant toutes ces colonnes.
Pour cela, nous cliquons sur la cellule en haut à gauche de notre tableau (celle contenant "Nom") et nous faisons glisser notre curseur jusqu'à la dernière cellule en bas à droite de notre tableau.
Nous pouvons également utiliser le raccourci clavier [Ctrl]+[A], après avoir sélectionné l’une des cellules de celui-ci :
Maintenant que notre plage de données est sélectionnée, nous allons accéder à l'outil de mise en forme conditionnelle.
- Nous cliquons sur l'onglet "Accueil" dans la barre de menus en haut de notre feuille de calcul.
- Ensuite, nous repérons le groupe "Styles" et nous sélectionnons l'option "Mise en forme conditionnelle".
- Une fois dans le menu de mise en forme conditionnelle, nous choisissons l'option "Règles de mise en surbrillance des cellules" et nous sélectionnons "Valeurs en double".
Cette règle va nous permettre de mettre en évidence toutes les cellules contenant des valeurs qui se répètent dans notre plage de données.
Ensuite, une boîte de dialogue s'ouvre, nous permettant de choisir comment nous voulons mettre en évidence les doublons.
Par exemple, nous pouvons choisir de mettre en évidence les doublons en remplissant la cellule d'une couleur particulière.
Seulement, comme vous pouvez le constater, de nombreuses cellules vont être identifiées en tant que doublons, ce qui pourra générer de faux positifs s’il y a par exemple des homonymes.
Pour éviter ce genre de problèmes, le plus simple est alors de sélectionner uniquement des valeurs uniques, comme l’adresse mail.
Maintenant, nous sommes certains que seules les personnes inscrites plusieurs fois seront identifiées en tant que doublon.
Pour cela, après avoir choisi notre mise en forme, nous validons en appuyant sur le bouton "OK".
Nous pouvons maintenant observer que les cellules contenant des doublons sont mises en évidence selon les paramètres que nous avons définis.
Cette mise en forme conditionnelle nous permet de visualiser rapidement les doublons dans notre feuille de calcul, ce qui facilite grandement leur identification.
2. Suppression manuelle des doublons
Maintenant que nous avons identifié les doublons grâce à la mise en forme conditionnelle, voyons comment les supprimer manuellement.
Mais avant de commencer l’opération de suppression des doublons, nous devons nous assurer que la plage de données inclut toutes les colonnes pertinentes pour l'identification des doublons.
En effet, comme nous l’avons vu dans la partie précédente, il est possible que la liste sur laquelle nous sommes en train de travailler contienne des valeurs répétées, qui ne constituent pas forcément des lignes entières considérées comme des doublons.
Nous pouvons en effet avoir des personnes ayant le même prénom, ou encore des personnes d’une même famille, qui portent donc le même nom.
Comme nous l’avons fait juste avant, nous allons donc souhaiter nous appuyer sur les adresses mail.
Maintenant, nous allons utiliser la fonctionnalité "Supprimer les doublons" d'Excel pour éliminer les entrées en double de notre liste.
- Pour commencer, nous sélectionnons toutes les cellules du tableau, y compris les en-têtes
- Puis, nous nous rendons dans l'onglet "Données" du menu Ruban
- Ensuite, dans le groupe "Outils de données", nous cliquons sur l'option "Supprimer les doublons".
Excel va alors afficher une boîte de dialogue pour indiquer les colonnes dans lesquelles celui-ci a détecté des doublons :
Pour limiter l’analyse uniquement aux adresses mail, nous désactivons toutes les autres colonnes :
Ensuite, nous nous assurons que l’option « Mes données ont des en-têtes » est bien activée, puis nous validons en appuyant sur le bouton [OK].
Excel supprime alors les doublons identifiés dans notre plage de données, en ne conservant qu'une seule occurrence de chaque entrée unique.
Ici trois doublons ont été détectés, puis supprimés de la base.
Il est important de noter que cette méthode de suppression des doublons est manuelle et nécessite une vérification attentive pour éviter toute perte de données.
Prenez votre temps pour vous assurer que seuls les doublons sont supprimés et que toutes les informations uniques sont préservées.
Il faut savoir que si nous avions sélectionné uniquement la colonne des emails avant d’appeler l’option de suppression des doublons, alors Excel aurait affiché une boîte de dialogue supplémentaire au début de l’opération pour nous demander si nous souhaitons étendre la sélection à l’ensemble des cellules de celui-ci.
Si nous choisissons l’option d’étendre la sélection, alors le résultat sera identique à ce que nous venons d’obtenir juste avant.
En revanche, si nous confirmons que nous souhaitons continuer avec la sélection en cours, alors seule la colonne sélectionnée sera affichée sur la boîte de suppression des doublons :
Ainsi, seules les cellules en double de cette colonne seront supprimées, et non pas la ligne dans son ensemble :
3. Blocage des doublons lors de la saisie
Maintenant, si nous souhaitons bloquer les doublons directement lors de la saisie dans Excel, nous allons devoir utiliser un autre outil proposé par Excel : la validation des données.
Cette méthode permet d'empêcher l'entrée de doublons dès le départ, assurant ainsi la qualité des données dès leur saisie initiale.
Voici comment procéder :
- Pour commencer, nous sélectionnons la colonne dans laquelle nous souhaitons interdire les doublons. Dans notre cas, nous opterons pour la colonne "Email". L’astuce ici va être de sélectionner une plage de cellule bien importante, pour anticiper les saisies à venir.
- Puis, nous nous rendons dans le menu "Données" du ruban, afin de cliquer sur "Validation des données" dans le groupe "Outils de données".
- Une boîte de dialogue s'ouvre alors afin de pouvoir personnaliser notre règle de validation des données. Dans le champ "Autoriser"nous spécifions que nous souhaitons utiliser une règle personnalisée.
- Cela nous permet de saisir la formule suivante dans la "Formule" :
=NB.SI($C$8:$C$23;C17)=1
Cette formule utilise la fonction NB.SI() qui permet de compter le nombre d'occurrences d'une valeur donnée dans une plage spécifiée de cellules.
Nous choisissons ici d’analyser la plage "$C$8:$C$23" dans laquelle Excel va rechercher la valeur spécifiée. Les signes "$" devant les lettres et les chiffres indiquent à Excel de maintenir ces références de cellules fixes lors du déplacement ou de la copie de la formule. Pour les insérer rapidement, nous pouvons utiliser le raccourci clavier [F4].
Puis, nous spécifions la valeur à analyser qui correspond au contenu de la cellule active, ici la cellule "C17".
Pour finir, nous comparons le résultat de la fonction NB.SI() avec 1. Si le nombre d'occurrences de la valeur dans la plage est égal à 1, la formule retournera VRAI (TRUE), sinon elle retournera FAUX (FALSE).
La règle de validation des données ne permettra maintenant de saisir du contenu que si ce résultat est égal à VRAI, et donc que le contenu est unique.
Dans le cas contraire, Excel nous affichera maintenant un message d’erreur nous invitant à modifier notre message :