Visiteur unique ou pages vues

© Christian PAULUS. Document créé le 17 décembre 2002 , mis à jour le 20 mars 2007.

Ce sont nos choix qui montrent ce que nous sommes vraiment, beaucoup plus que nos aptitudes. Joanne Rowling

Accueil du site > Etudes > Visiteur unique ou pages vues

Entité totémique de la toile, le visiteur unique plonge le webmestre dans un songe perplexe. Parfois humain, parfois machine, cet être désiré est difficilement qualifiable, positivement quantifiable. Est-il vraiment la référence d’audience de site ? La page vue n’est-elle pas plus significative de l’attention portée à votre travail ? Tour d’horizon.

Les chemins de la gloire

Une des satisfactions du webmestre est d’apprécier le fruit de son labeur. Au delà de contenter l’ego, il s’agit bien souvent ici de mesurer la réussite pour trouver motivation à la poursuite de l’œuvre, obtenir un budget, envisager une campagne publicitaire ou je ne sais quoi de mercantile.

Dans certains cas, le visiteur unique est l’étalon qui détermine le taux de fréquentation. On parle même de référence utilisée pour la mesure d’audience [GQC01] ce qui compare ici le net à la radio en lui donnant au passage quelques lettres de la noblesse des grands médias. Il convient dès maintenant de distinguer le site, la visite ou le visiteur unique de la page vue, critères captivant lors des études de consultations permettant de cuber l’audience.

Le visiteur unique

Le Petit Robert (2000) définit le visiteur comme "Personne qui visite, inspecte, examine". Linux-France décrit le visiteur unique comme "entité ayant consulté au moins une fois un site WEB" [LFR01] en précisant "durant une période donnée". On y assimile cette consultation à une visite. On parle d’un acte volontaire, dans un but précis, d’une appétence de savoirs au besoin de ludisme.

On ne parlera pas de taux de pénétration, que Le Petit Robert (2000) définit par entre autres, "pourcentage d’une population donnée qui […] utilise un service". En effet, sauf à contacter un ensemble d’individus pour en déterminer le nombre d’utilisateurs derrière un écran, il est plus sage d’établir ce chiffre à minima, dans le postulat d’un seul visiteur par site distant.

Des chiffres et des lettres

Pour les outils de statistiques se basant sur le journal de consultation du serveur (le log), le site distant est identifié par l’adresse IP de sa machine. Cette adresse apparaît en général dans le journal sous la forme de chiffres séparés de points. Si l’utilisateur passe par un serveur mandataire, appelé aussi serveur de proximité ou proxy, c’est l’adresse IP de cette dernière machine qui sera enregistrée.

Le proxy est l’outil idéal permettant de baisser les coûts de connexion en conservant dans son cache les pages les plus demandées par un utilisateur. Certains proxies sont disponibles gratuitement, en OpenSource (Squid est le plus répandu) d’autres en version commerciale. Ils sont présents dans la plupart des entreprises de plus de 20 personnes et chez les grands comptes. Ils équipent également un grand nombre de fournisseurs d’accès (AOL, Noos, etc.).

L’envers de la médaille, pour le statisticien du site Internet, c’est que ce proxy ne se "distingue" sur le site visité, dans le journal, que de sa seule adresse IP, celle qu’il utilise "en sortie". Ne rentrons pas trop dans les détails techniques, mais comprenons bien ici que derrière ce proxy, derrière une seule adresse IP, se cachent potentiellement plusieurs utilisateurs. Impossible de quantifier précisément ici le nombre d’internautes visitant vos pages. Cela peut se compter en milliers de visiteurs uniques. A gauche, un utilisateur accède directement à la page. A droite, un x n utilisateurs accèdent au proxy qui lui, accède seul à la page.

Une autre sorte de proxy passif est le copieur de sites WEB. Ce genre d’automate est difficile à déceler dans les journaux. Les pages recopiées sont parfois utilisées dans les serveurs WEB Intranet d’entreprises, bien souvent au grand désespoir des auteurs.

En général, les outils d’analyse fixent la durée de consultation à 30 minutes. Ceci arbitrairement, nous verrons plus loin pourquoi. Lorsque cette durée d’inactivité est dépassée, on parle généralement de site unique. Nous noterons au passage que certains outils remettent à zéro leur compteur à minuit, ce qui fausse d’autant celui du visiteur unique.

Le visiteur envoie sa requête, nommée hit. Le serveur renvoie, si tout se passe correctement, un fichier qui souvent à son tour envoie ses propres requêtes. Les fichiers renvoyés sont de type texte, son, image, etc. L’outil d’analyse permet de qualifier un ou plusieurs types de fichiers, en vérifiant au passage leur validité (code 200 du serveur) pour en extraire les pages vues. On en déduit l’axiome :

Nb. Requêtes >= Nb. Fichiers >= Nb. Pages vues >= Nb. Visites >= Nb. Sites L’auditeur distant

La problématique du visiteur caché derrière un proxy est contournée par l’emploi de marqueur dans la page appelée. Ce marqueur, portant parfois le nom de tag, a pour mission d’appeler un élément de cette page sur un autre serveur Internet. Cet élément est bien souvent un simple pixel transparent, parfois accompagné de quelques compléments permettant d’identifier plus précisément le visiteur. Dans ce dernier cas, bien souvent, les cookies sont utilisés. L’analyse est ici beaucoup plus fine que le simple emploi du journal de service, mais elle présente deux inconvénients majeurs, nonobstant l’acceptation des cookies sur le poste utilisateur : l’emploi du serveur distant ralentit le téléchargement de votre page, le rappel d’une page en cache du navigateur local génère une nouvelle connexion.

Dans quelques cas, ce marqueur est également accompagné d’un script appelé sur ce serveur distant. Et si le cookie a réussi à se débarrasser peu à peu de sa mauvaise image de marque, il en est tout autrement du script bien souvent associé à un virus par le visiteur. Le XSS en est un exemple bien triste. Et il est vrai que l’utilisation parfois abusive de scripts et les nombreuses failles de sécurité des navigateurs ont fait de l’emploi à outrance de javascript une nuisance mondialement détestée.

Auditeur local

Il est possible d’intégrer au site lui-même, dans chaque pages appelées, l’outil permettant l’analyse d’audience, sorte d’auditeur local. Cette solution exige l’emploi d’un serveur capable d’interpréter et construire les pages à la volée.

Les compteurs de pages disponibles dans le domaine public sont légion. Par contre, on trouve très peu d’outils pointus capables d’auditer localement l’audience. Ces outils offrent l’avantage d’en maîtriser la pertinence tel que par exemple un fin réglage du temps imparti à la définition du visiteur unique. De plus, ils sont indépendants du serveur tiers, ou plus particulièrement des faiblesses éventuelles de ce dernier. Que dire en effet d’un service d’analyse d’audience qui par surcharge, ralentit fortement le téléchargement de la page, et par la même, bien évidemment, réduit cette audience par l’abandon du visiteur las ?

Métro, boulot, info

Si l’on estime que les français se connectant du bureau représentent près de 50 % de la population concernée [JDN01], le visiteur unique apparaît difficile à quantifier, si ce n’est pas impossible, du moins par l’utilisation de l’adresse IP comme seul identifiant.

Notons au passage que l’internaute attentif a parfois comme soucis de conserver son anonymat. Il peut dans ce cas utiliser les services disponibles sur le réseau dans ce but, ces derniers usant parfois du chaînage de proxies [caspam]. La recherche et l’identification du visiteur unique assurent ici un mal de tête des plus redoutables.

Médiamétrie annonce pour novembre 2002 près de 17 millions d’internautes en France avec environ 6 millions de foyers ayant accès à Internet [MMT01]. Bien heureux celui qui connaît avec précision le pourcentage de ces utilisateurs qui découvrent votre site via son ordinateur familial ou celui du bureau, voire de son école, de son université, du cybercafé préféré, voisins de palier ou ami.

Nielsen/NetRatings identifie pour octobre 2002 l’usage de l’internaute français. Ce dernier voit en moyenne 922 pages par mois, pour 59 sites visités au cours de 25 sessions [MMT02]. Pour un peu plus de 2 sites par session, ce qui est peu concevable, on peut considérer que dans la majorité des cas, le visiteur sait ce qu’il veut, il n’hésite par à visiter en profondeur le site recherché, mais il fouille finalement rarement le reste de la toile.

Si votre site use de cadres, les célèbres " frames ", l’étude de consultation devient encore plus ardue.

La durée de la visite

Le temps moyen de consultation est fixé dans nombre d’outils à 30 minutes. Si votre site est composé de 5 pages statiques, elles-mêmes composées de moins de 200 mots, vous êtes plus proche des 5 minutes. Et votre outil de statistique de consultation est probablement loin de la réalité. Il faudra bien sûr inverser le raisonnement si votre site est composé de centaines de pages de plusieurs centaines de mots. Vous devez prendre en compte également le nombre de sites distants, l’appréciation ici ne pouvant être la même si vous constatez mille connexions au lieu d’un million.

A tout cela on rajoute les habitudes de lecture. Dans un rapport paru en 2002, L’Insee estime à plus de 20 % la population de plus de 15 ans affichant de réelles compétences informatiques à domicile [INS01]. L’habitué du petit écran, et surtout celui du WEB, ne lit pas vos pages avec la même aisance que le visiteur occasionnel. Son œil exercé repère rapidement les mots clés, filtre les annonces publicitaires peu attirantes. Faîtes visiter votre œuvre par un œil innocent et, tout en mesurant le temps passé, profitez de l’occasion pour noter les erreurs de manipulation du candide.

La page vue

Si vous décidez de compter en pages vues, vous serez tenté de conserver le profil du lecteur dans un cookie. Mais n’oubliez pas que tous les navigateurs n’acceptent pas cette spécificité. Une minorité, il est vrai, estimée entre 5 et 25 % suivant le type de site, sont soit configurés pour les ignorer, soit ne les reconnaissent pas. Pensez-vous que votre visiteur a le droit de changer d’ordinateur dans la même journée ? Fait-il le ménage numérique en supprimant tous ces petits marqueurs à chaque ouverture de session ? Sans parler de ces foyers équipés de plusieurs ordinateurs [JDN02].

Les chiffres de pages vues devront ensuite préciser le type de la page. Si votre site est construit à base de cadres, ou si elle ne peut pas contenir une publicité, étant peut-être elle-même une publicité, il faudra le préciser. La page avec pub (pap), capable d’inclure une petite annonce, fait souvent l’objet d’une mesure spécifique.

Le choix des armes

Et voilà où il vous faudra choisir. Comment savoir en effet si votre visiteur unique est un automate ou un être humain ? Bien-sûr, vous pouvez référencer les principaux moteurs dans votre outil de statistiques, mais vous serez toujours loin du compte. Les moteurs se comptent par milliers. Beaucoup sont optimisés pour ne pas venir indexer en une seule fois l’ensemble de votre site, mais en visite au compte-goûtes, afin principalement de ne pas surcharger votre serveur, le tout au grés de la disponibilité de la bande passante. Et ne parlons pas des incidents réseaux reportant sine die la prochaine rencontre.

Pour l’outil Webalizer, Stephen Ostermiller référence plus de 400 moteurs de recherche dans un script d’optimisation qui pourra peut-être vous aider à optimiser vos résultats [ostermiller].

Vous pouvez également référencer les proxies, pour en estimer le nombre potentiel de lecteurs derrière ce cache.

Le compte en visiteur unique ne qualifie en rien la visite. Le voyageur de la toile a peut-être consulté une page par erreur ou par hasard, ou mieux, a consulté en détails l’ensemble du site. Parfois intéressé, il en a conservé un lien dans ses favoris et revient faire un tour sur votre œuvre régulièrement. Quelques rares outils permettent de qualifier très joliment l’audience, mais ils sont complexes à paramétrer et exigent souvent la restructuration du site audité. Un travail de longue haleine que l’ont réservera aux gros budgets.

Et c’est ainsi que beaucoup préfèrent compter en pages vues. Ce chiffre est d’ailleurs plus encourageant que celui des visites. Un nombre de visites sensiblement égal à un nombre de pages vues peut-être interprété comme un désintérêt du lecteur. Ce qui n’est pas vrai pour un annuaire ou autre serveur de ce type n’ayant pas pour vocation d’être consulté en profondeur. Par contre, lorsque le nombre de pages vues est trois ou six fois supérieur à celui du nombre de visites, vous avez là l’indicateur d’un site attachant. Et si ce chiffre est constaté dans la durée, sur plusieurs mois, il ne peut que valoriser l’ensemble.

On notera enfin que bien souvent, cette comptabilité est établie mensuellement. Ce choix hiératique, probablement issu du monde de la presse papier, peut paraître surprenant, voire ne correspondre en rien à l’audience constatée. Mais il faut bien définir un étalon.

Les petits plus

Rajoutons à l’étude le détail de la langue employée pour construire votre site. Si vous choisissez uniquement le français, vous devez considérer une population de 120 millions de francophones, dont 58 % pratique en première langue celle de Molière [aides.qc.ca].

Ne vous basez pas sur le nom de domaine (.com, .fr) pour déterminer votre lectorat. Le vœu original d’un classement par situation géographique a rapidement été délaissé par les opérateurs. Fin 2002, sur un total de plus de 31 millions de domaines, la grande majorité l’est aujourd’hui en ".com" (commercial) avec près de 22 millions de noms déposés dans ce TLD [domainstats], pour 163 milles sites en ".fr" [afnic]. Vous pouvez toujours espérer que l’internaute règle ses préférences de navigations, mais ne baignez pas dans l’utopie. Il est difficile de trouver les chiffres permettant de préciser du bon réglage de son navigateur, mais si cette particularité est quasi-automatique sur les derniers environnements, elle ne le confirmera pas par l’analyse des journaux techniques qui ne contiennent pas cette information. Pour préciser dans quel environnement se trouve votre visiteur, il faudra user de scripts ou autres artifices.

Les maux de la fin

On l’aura compris, les divers outils de statistiques ne vous donneront qu’un chiffre indicatif, d’un minimum de visites sur une période donnée. L’indicateur du nombre de sites est loin d’être fiable, ne pouvant préciser le nombre de proxies ni celui d’utilisateurs derrière un écran. Au mieux, on pourra considérer le nombre de pages chargées comme pages vues. Et c’est donc ce dernier chiffre qui sera le plus évocateur de l’intérêt porté à votre travail. Il ne vous restera plus qu’à essayer d’appréhender au mieux le parcours, de suivre la navigation effectuée, en prenant en compte la construction de vos pages, le nombre de mots, la complexité sémantique, pour, peut-être, arriver à en définir le coefficient à appliquer sur les résultats obtenus.

Références :

[INS01] http://www.insee.fr/fr/ffc/Fiche_do... [JDN01] http://www.journaldunet.com/fev99/9... [JDN02] http://www.journaldunet.com/cc/02_e... [GQC01] http://www.olf.gouv.qc.ca/ressource... [LFR01] http://www.linux-france.org/prj/jar... [LFR02] http://www.linux-france.org/prj/jar... [MMT01] http://www.mediametrie.fr/web/resul... [MMT02] http://www.mediametrie.fr/web/resul... [NDS01] http://www.domainstats.com/index.html

Plussoyez !

Les forums sont fermés.