Extract of GoogleLovesWikipedia

Google aime Wikipedia

Extract of GoogleLovesWikipedia
Extract of GoogleLovesWikipedia
En 2009, afin de m’essayer un peu à la visualisation de données et à l’utilisation d’API, je me suis intéressé à la relation que pouvait entretenir Google avec Wikipedia. Google veut indexer tout le savoir de la terre et Wikipedia est une source librement accessible. Je me suis donc demandé jusqu’à quel point Google favorisait dans ses résultats de recherche l’apparition de pages provenant de la fondation Wikimedia. Il me fallait donc un point d’entrée, une liste de chose à rechercher avec Google pour ensuite observer les résultats en y pointant les liens vers Wikipedia. Ne cherchant pas une approche scientifique, mais juste un exercice qui aurait quand même un peu de sens et qui me permette d’utiliser des API, j’ai décidé de prendre la liste de tous les articles en anglais sur Wikipedia et d’utiliser le titre de chacun d’eux comme terme de recherche. La version anglaise de l’encyclopédie comptait plus d’un million d’articles à l’époque. À l’aide d’un petit script python régulièrement mis à jour, Il m’aura fallut à peu près 1 mois pour “googler” tous ces titres et enregistrer la première URL renvoyée par le moteur de recherche. J’ai ensuite composé une image où chaque pixel représentait un titre article / une recherche. En bleu, les liens renvoyant vers des pages de Wikipedia. En gris, des liens renvoyant vers d’autres sites. Les pixels rouges représentent des résultats vides. Pour ces derniers, est-ce que Google ne pouvait répondre à ce terme de recherche ou est-ce mon script qui comportait des bugs, nous ne le sauront jamais. En compilant les résultats, j’avais pu observer que Google renvoyait directement vers Wikipedia dans plus de 60% des cas. Et en observant l’image générée, il était amusant de voir de gros blocs de résultats renvoyant ou ne renvoyant pas vers l’encyclopédie. La deuxième étape de ce projet consistait à produire un outil de visualisation de ces données. Mais cette étape n’est jamais arrivée à maturité.