En 2023, j'ai découvert par hasard que mon propre site vitrine exposait une base de données clients complète, accessible à quiconque tapait la bonne requête dans Google. Pas de piratage. Pas de faille zero-day. Juste trois mots-clés mal configurés et un moteur de recherche qui faisait son boulot. Ce jour-là, j'ai compris que le Google dorking n'est pas une technique obscure de hacker – c'est une compétence fondamentale pour quiconque travaille dans la sécurité informatique.
Le problème ? La plupart des gens pensent que leurs données sont protégées parce qu'elles ne sont pas publiquement listées. Erreur. Google indexe bien plus que ce que vous imaginez. En 2026, avec l'explosion du nombre de services cloud et d'API exposées, maîtriser le google dorking est devenu aussi essentiel que savoir configurer un pare-feu. Dans cet article, je vais vous montrer comment ça marche vraiment – les techniques que j'utilise, les erreurs que j'ai commises, et surtout comment vous protéger.
Points clés à retenir
- Le Google dorking exploite les opérateurs de recherche avancée pour trouver des données exposées par erreur
- 90% des vulnérabilités découvertes via dorking sont liées à une mauvaise configuration, pas à un bug logiciel
- Les opérateurs site:, intitle: et filetype: sont les trois piliers de toute recherche efficace
- Une seule requête malveillante peut exposer des bases de données, mots de passe ou informations confidentielles
- La protection passe par des fichiers robots.txt, des en-têtes HTTP spécifiques et une surveillance régulière
- Le hacking éthique utilise ces mêmes techniques pour auditer et sécuriser avant les attaquants
Qu'est-ce que le Google dorking ?
Le Google dorking – aussi appelé Google hacking – consiste à utiliser des opérateurs de recherche avancée pour trouver des informations que le propriétaire du site n'a pas intentionnellement rendues publiques. L'idée est simple : Google indexe tout ce qu'il trouve. Si un fichier est accessible sans mot de passe, même s'il n'est pas lié depuis une page, Google peut le référencer.
Quand j'ai commencé à m'y intéresser il y a trois ans, j'ai été stupéfait par ce que je trouvais. Des fichiers CSV contenant des adresses email, des mots de passe en clair, des configurations de serveurs... Le tout en quelques secondes. Et franchement, la plupart du temps, ce n'était pas le fait de hackers chevronnés – juste des administrateurs qui avaient oublié de verrouiller une porte.
Comment ça marche vraiment ?
Google dispose d'un index qui contient des milliards de pages. Quand vous tapez une requête normale, il vous renvoie les résultats les plus pertinents. Mais les opérateurs de recherche avancée permettent de filtrer cet index de manière extrêmement précise. Par exemple, site:exemple.com filetype:pdf vous donne tous les PDFs hébergés sur ce domaine. Rien de malveillant en soi. Mais si vous cherchez filetype:sql "password", vous tombez sur des fichiers de bases de données exposés.
Le vrai danger ? La combinaison d'opérateurs. Un attaquant peut construire une requête comme inurl:"wp-config.php" intext:"DB_PASSWORD" pour trouver des sites WordPress qui exposent leurs identifiants de base de données. Et ça marche. Je l'ai testé – et j'ai trouvé trois sites en moins de cinq minutes. J'ai immédiatement contacté leurs propriétaires, mais ça m'a glacé le sang.
Pourquoi ça marche encore en 2026 ?
Vous pensez peut-être que les entreprises ont appris la leçon. Détrompez-vous. En 2025, une étude de l'Institut de Recherche en Cybersécurité a montré que 68% des sites audités avaient au moins une page sensible indexée par Google sans protection. Les raisons ? La pression de la mise en production rapide, le manque de sensibilisation, et parfois juste une négligence : "On verra ça plus tard".
Et le cloud n'arrange rien. Les buckets S3 mal configurés, les bases de données exposées sur le port 27017 (MongoDB par défaut), les fichiers de configuration laissés dans les dépôts Git publics... Autant de cibles parfaites pour le dorking. En 2026, avec l'adoption massive de l'IA générative, on voit même des modèles de langage exposés accidentellement via des API non sécurisées.
Les opérateurs de recherche essentiels
Avouons-le : la plupart des gens utilisent Google comme un annuaire téléphonique. Ils tapent un mot, cliquent sur le premier résultat. Mais les opérateurs de recherche avancée sont la vraie puissance du moteur. En voici les cinq que j'utilise le plus souvent – et qui m'ont permis de trouver des vulnérabilités que même des outils automatisés ne détectent pas.
| Opérateur | Fonction | Exemple |
|---|---|---|
| site: | Limite la recherche à un domaine spécifique | site:exemple.com |
| intitle: | Recherche un mot dans le titre de la page | intitle:"index of" |
| filetype: | Filtre par type de fichier | filetype:pdf |
| inurl: | Recherche un mot dans l'URL | inurl:admin |
| intext: | Recherche un mot dans le contenu de la page | intext:"password" |
Mais le vrai secret, c'est la combinaison. Par exemple : intitle:"index of" "backup" filetype:sql – cette requête trouve des répertoires de sauvegarde contenant des fichiers SQL. J'ai utilisé cette combinaison lors d'un audit pour un client et j'ai découvert une base de données entière de 12 000 clients exposée. Le client ne savait même pas que ce dossier existait.
Les erreurs que j'ai commises
Quand j'ai commencé, je faisais une erreur classique : je cherchais trop large. Par exemple, filetype:sql password – ça donne des millions de résultats, la plupart inutiles. Il faut affiner. Utiliser des mots-clés plus spécifiques comme "DB_PASSWORD" ou "mysql_connect". Et surtout, ne pas oublier l'opérateur - pour exclure des termes. Par exemple, filetype:sql password -example -sample élimine les fichiers d'exemple.
Autre erreur : négliger les guillemets. Sans guillemets, Google cherche chaque mot individuellement. Avec guillemets, il cherche l'expression exacte. La différence est énorme. intext:"password" est bien plus précis que intext:password.
Exemples concrets de dorking
Je vais vous donner trois exemples réels de ce que j'ai trouvé avec le Google dorking. Attention : je ne partage pas les URLs exactes pour des raisons évidentes, mais les requêtes sont réelles.
Exemple 1 : des fichiers de configuration exposés
Requête : filetype:env "DB_PASSWORD" "DB_HOST". Les fichiers .env sont utilisés par les frameworks modernes (Laravel, Symfony, Django) pour stocker les variables d'environnement. Si un développeur oublie de les protéger, Google les indexe. J'ai trouvé un fichier contenant les identifiants de production d'une startup SaaS – y compris la clé API Stripe. En 10 minutes, j'aurais pu facturer des clients à leur place. Résultat : j'ai prévenu le CTO, qui a corrigé le problème en une heure.
Exemple 2 : des bases de données MongoDB exposées
Requête : inurl:"27017" "MongoDB" "admin". MongoDB écoute par défaut sur le port 27017. Beaucoup d'administrateurs oublient de configurer l'authentification. Google indexe parfois les pages d'administration exposées. J'ai trouvé une base de données de 50 000 utilisateurs – noms, emails, mots de passe hachés (mais avec un algo faible). Le propriétaire ? Une petite entreprise de e-commerce qui ne savait même pas que MongoDB était accessible depuis l'extérieur.
Exemple 3 : des caméras de surveillance accessibles
Requête : intitle:"Live View / - AXIS" inurl:view/view.shtml. Les caméras AXIS sont souvent livrées avec une interface web par défaut. Si l'administrateur ne change pas le mot de passe, Google les indexe. J'ai trouvé une caméra pointée sur une caisse enregistreuse dans un magasin. Le flux était en direct. C'est effrayant ce qu'on peut voir – et ce que des attaquants peuvent exploiter.
Ces exemples ne sont pas des cas isolés. En 2024, l'entreprise de sécurité Shodan a recensé plus de 2 millions de caméras accessibles publiquement. Le dorking n'est qu'une porte d'entrée – mais une porte terriblement efficace.
Comment se protéger contre le dorking ?
Bonne nouvelle : se protéger contre le Google dorking n'est pas sorcier. Mauvaise nouvelle : ça demande de la rigueur. Voici les étapes que j'applique systématiquement pour mes clients et pour mes propres projets.
Étape 1 : le fichier robots.txt
Le fichier robots.txt indique aux moteurs de recherche ce qu'ils peuvent ou ne peuvent pas indexer. C'est la première ligne de défense. Exemple :
User-agent: *Disallow: /admin/Disallow: /backup/Disallow: *.sqlDisallow: *.env
Mais attention : robots.txt n'est pas une solution de sécurité. Il empêche l'indexation, pas l'accès. Un attaquant qui connaît l'URL peut toujours y accéder directement. Il faut donc combiner avec des mesures d'authentification.
Étape 2 : les en-têtes HTTP
Les en-têtes HTTP comme X-Robots-Tag: noindex ou X-Frame-Options: DENY empêchent l'indexation et le framing. C'est plus fiable que robots.txt car ça s'applique page par page. Pour les fichiers sensibles, ajoutez aussi un en-tête Content-Disposition: attachment pour forcer le téléchargement plutôt que l'affichage.
Étape 3 : la surveillance régulière
Je consacre une heure par mois à auditer mes propres sites avec les mêmes requêtes que les attaquants. Tapez site:votresite.com filetype:sql ou site:votresite.com inurl:admin. Si vous trouvez quelque chose, corrigez immédiatement. Et si vous voulez aller plus loin, utilisez des outils automatisés comme SpiderFoot ou Google Hacking Database – mais attention à ne pas enfreindre la loi.
Franchement, la plupart des failles que j'ai trouvées étaient corrigeables en moins de 30 minutes. Le problème, c'est que personne ne les cherchait. La surveillance proactive est votre meilleure arme.
Google dorking et hacking éthique
Le Google dorking est souvent associé à des activités malveillantes. Et c'est vrai : des attaquants l'utilisent pour trouver des cibles faciles. Mais dans le cadre du hacking éthique, c'est un outil précieux pour auditer la surface d'attaque d'une organisation.
J'utilise le dorking dans mes missions de pentest depuis 2024. C'est souvent la première étape : identifier ce que Google sait de mon client. Une fois que j'ai la liste des pages exposées, je peux prioriser les corrections. Par exemple, lors d'un audit pour une PME, j'ai trouvé 14 pages sensibles indexées – dont un fichier contenant les identifiants de leur serveur de production. Le client était sous contrat avec un prestataire qui avait "oublié" de sécuriser un dossier. Résultat : économie de plusieurs milliers d'euros en frais de réparation potentiels.
Et le parallèle avec d'autres domaines ? C'est un peu comme l'AB testing : on teste, on mesure, on corrige. La différence, c'est que les conséquences d'une erreur sont bien plus graves. Une page exposée, c'est potentiellement une violation de données – avec des amendes RGPD à la clé (jusqu'à 4% du chiffre d'affaires annuel).
Les limites du dorking
Le Google dorking n'est pas magique. Il ne fonctionne que si Google a indexé les pages. Si un site est correctement configuré avec des en-têtes noindex et une authentification forte, le dorking ne donnera rien. De plus, Google met à jour son index régulièrement – une page peut disparaître des résultats après correction. Mais il faut être patient : l'indexation peut prendre plusieurs semaines.
Autre limite : les requêtes trop spécifiques peuvent ne rien donner. J'ai passé des heures à chercher des vulnérabilités sur des sites bien protégés – résultat : zéro. C'est frustrant, mais c'est aussi rassurant. Ça veut dire que la sécurité fonctionne.
Le dorking n'est pas une option – c'est une nécessité
En 2026, le Google dorking n'est plus une technique de niche réservée aux experts en sécurité. C'est une compétence de base pour tout développeur, administrateur système, ou entrepreneur qui gère des données en ligne. Je l'ai appris à mes dépens avec mon propre site, et depuis, je ne laisse plus rien au hasard.
Les trois choses à retenir :
- Auditez régulièrement vos propres sites avec les opérateurs de recherche – vous serez surpris de ce que vous trouverez
- Protégez vos fichiers sensibles avec robots.txt, en-têtes HTTP et authentification – ne comptez pas sur l'obscurité
- Adoptez une approche éthique – le dorking est un outil, pas une fin en soi. Utilisez-le pour sécuriser, pas pour nuire
Et si vous voulez aller plus loin, commencez par auditer votre propre site dès aujourd'hui. Tapez site:votresite.com filetype:env dans Google. Si vous trouvez quelque chose, corrigez-le. Si vous ne trouvez rien, recommencez avec d'autres opérateurs. C'est le meilleur moyen de comprendre votre surface d'attaque – et de protéger ce qui compte vraiment.
Questions fréquentes
Le Google dorking est-il légal ?
Tout dépend de l'intention. Utiliser des opérateurs de recherche pour trouver des informations publiquement accessibles est légal. Mais exploiter ces informations pour accéder à des systèmes sans autorisation est illégal (loi sur la fraude informatique). Le hacking éthique, avec autorisation écrite du propriétaire, est encadré et légal.
Puis-je être poursuivi si je trouve des données sensibles par hasard ?
Si vous trouvez des données par accident, ne les exploitez pas. Signalez-les au propriétaire (via un contact de sécurité ou un bug bounty) et supprimez toute copie. En France, la CNIL considère que l'accès non autorisé à des données personnelles peut être sanctionné, même sans intention malveillante.
Quels sont les meilleurs outils pour automatiser le dorking ?
Les plus connus sont Google Hacking Database (GHDB) pour les requêtes pré-construites, SpiderFoot pour l'OSINT automatisé, et GoogD0rks pour la recherche en masse. Mais attention : l'automatisation peut violer les conditions d'utilisation de Google. À utiliser avec prudence.
Comment savoir si mon site est victime de dorking ?
Utilisez les mêmes requêtes que les attaquants : site:votresite.com filetype:sql, site:votresite.com inurl:admin, site:votresite.com intitle:"index of". Si vous trouvez des pages sensibles, corrigez-les immédiatement. Vous pouvez aussi configurer des alertes Google pour être notifié en cas de nouvelles indexations.
Le dorking fonctionne-t-il sur d'autres moteurs de recherche ?
Oui, mais avec moins d'efficacité. Bing, DuckDuckGo et Yandex ont leurs propres opérateurs, mais l'index de Google est le plus complet. En 2026, certains moteurs spécialisés comme Shodan sont même plus performants pour les objets connectés et les serveurs.