Les liens vers les listes de mots-clés de quelques moteurs :

  • sur Altavista, assez basique ;
  • sur Google, le précurseur ;
  • sur Exalead, avec des recherches phonétiques ou de proximité ;
  • sur MSN, bien cachée !!!

Il y en a évidement beaucoup plus que ça et seul quelques un ont été énumérés ici. Examinons certains d'entre eux d'un peu plus près. Un des plus intéressant est "inurl" qui cible toutes les pages contenant un certain mot dans l'URL (ou si vous préférez, dans l'adresse de votre site web).

 Dassault inurl:private

À l'heure de la rédaction de ce billet, cette requête nous donne comme premier résultat une page avec une interface permettant visiblement de changer un mot de passe appartenant aux employés de Dassault.

Il y a probablement de grande chance que cette page ne soit pas destinée a être accessible à tout le monde (à moins que ce soit un leurre - honeypot - mais ça c'est une autre histoire...).

Continuons avec le mot clé "intitle", qui fait fureur car il facilite la recherche de sites qui laissent actif le listage des fichiers présents sur le serveur web :

 intitle:"Index of"

Le premier résultat est :

 http://www.ibiblio.org/pub/

Nous pouvons "naviguer" dans les fichiers de ce site web. Intéressant mais cependant Google nous retourne une tonne de sites webs affichant seulement une page HTML et ne proposant pas une liste de fichiers. Par exemple avec la requête effectuée plus haut, le deuxième présenté par Google est :

 http://www.w3.org/TR/html401/index/elements.html

C'est maintenant que nous allons utilisé ce que nous avons vu dans le précédent billet, et dans le cas présent, ce serait l'opérateur -  :

 intitle:"Index of" -inurl:".html"

Cette simple requête nous trouve les sites qui affiche le listing des fichiers, tout en retirant les pages html, ce qui rend le résultat beaucoup plus pertinent.

Dernier mot clé pour cette fois, passons à "filetype" qui précise le type de fichier recherché. Par exemple, pour rechercher des pdf :

 filetype:pdf Dassault

Cette requête retourne tous les documents PDF parlant de Dassault.

Maintenant, libre à vous de recherchez des documents très pertinents avec des requête comme :

confidential "internal use" inurl:".gov" filetype:pdf
filetype:pdf site:saic.com confidential restricted
intitle:"index of" nuclear iran center -inurl:".html"
...

Note: Nous n'avons pas testé les requêtes ce sont juste des exemples pour vous donner des idées, rien ne dit que ca va marcher.

Comme vous le voyez, Google permet à ses utilisateurs d'affiner leurs recherches. Sans être un expert de Google, il est déjà possible de découvrir des informations et/ou documents auxquels vous n'étiez peut-être pas supposé avoir accès.

Un grand merci à monsieur Google :-)




Mum, how to use keywords to get to hidden information?


We have previously seen how a search engine is working and the very rudimentary language it proposes. Let us focus now on the keywords. There is not a list of all keywords supported by a given search engine. Here are the common ones for Google: intitle, inurl, intext, filetype, site, link, inanchor, daterange, cache, info, related, phonebook, group, author, ...

Here are the links to the list of keywords for some search engine:

  • for Altavista, quite rudimentary ;
  • for Google, the forerunner ;
  • for Exalead, with phonetic and neighborhood ;
  • for MSN, well hidden !!!

Of course, they much more numerous than the few given here. We will now focus on some of them by now. One very interesting is "inurl". It retrieves the pages containing a given word in the URL (in a human comprehensible language, the address of the web page). For instance, let us ask Google about:

 Dassault inurl:private

When this is written, the first result is a web page allowing a user working at Dassault Enterprise to change his password.

It is very likely this page is not supposed to be publicly accessible (unless it is a delusion for a honeypot, but that is another story :)

We will now have a look at the keyword "intitle". It helps a lot in finding sites where one can list the content of directories, and thus see all files hidden there:

 intitle:"Index of"

The first result is:

 http://www.ibiblio.org/pub/

We can pass from directory to directory and then get all files. Even if this can be interesting, we are hindered by many results which are simple web pages but not directory listings. Based on the previous query, the second result given by Google is:

 http://www.w3.org/TR/html401/index/elements.html

We will now improve our result using a Boolean operator introduced in the previous article, the operator - :

 intitle:"Index of" -inurl:".html"

With this simple query, we get many sites where directory listing is allowed, but without the useless html pages. Hence, the results are now much more relevant.

Our last keyword for today will be "filetype". It causes the search to be made exclusively in a given type of file. For instance, to get all the pdf files containing the word Dassault:

It is now time to use your brain and your imagination to find very interesting documents:

confidential "internal use" inurl:".gov" filetype:pdf
filetype:pdf site:saic.com confidential restricted
intitle:"index of" nuclear iran center -inurl:".html"
...

Note : we did not test these queries, they are given as examples.

As you can see, Google let the users improve his results. Without being a Google hacker, you can already discover very interesting documents, or documents you did not expect to find on the Internet

Thank you Mr. Google :)