THELIA Forum

Welcome to the THELIA support and discusssion forum

Announcement

Rejoignez la communauté sur le Discord Thelia : https://discord.gg/YgwpYEE3y3

Offline


Bonjour,

j'ai une url d'indexée par Google que je ne souhaite pas voir indexée. Il s'agit de monsite.fr/?lang=en_US je ne vois pas d'où ceci vient d'autant plus que ce site n'est pas multilingue. il s'agit du site https://www.standard-serigraphie.com. Le "pire" c'est que si vous tapez "standard sérigraphie" dans Google cette url ressort dans les "site links" avec l'ancre "skip the content" http://prntscr.com/dg3gcc
pas chouette !
une idée pour supprimer ceci ?

Évidemment tous les critères multilingues du Back-office sont désactivés.

merci

Last edited by lull (06-12-2016 17:34:19)

Offline


euh, mon site (back et front) vient de passer en anglais US d'un coup, je pige pas là... je n'ai rien fait à part installer smarty cache.
une idée ?
c'est smarty cache ?

Offline


c'est lui que j'ai installé ce matin : https://github.com/thelia-modules/SmartyCache
je suis à la version 2.3.2

Offline


j'ai viré le plugin de cache + vidé les cookies, ça repasse en français... une explication ?

Un lien avec l'url /?lang=en_US indexée peut-être (sujet du post) ?

Offline


Le cookie de lang est commun au back-office et au front-office. Si tu es en EN en front et que tu te connectes au back en FR, le front passe en FR.

Par ailleurs, si tu as installé SmartyCache, tu dois utiliser les balises {tcache} dans tes templates pour indiquer ce que tu veux cacher, sinon le module ne fera rien d'utile.


OpenStudio Toulouse

Offline


roadster31 wrote:

Le cookie de lang est commun au back-office et au front-office. Si tu es en EN en front et que tu te connectes au back en FR, le front passe en FR.

ok, mais pourquoi le EN et le cookies s'est il déclenché ? juste parce que je suis passé via l'url des serps  /?lang=en_US ?
Comment je peux supprimer cette url ? ou la rediriger vers la home ? car ce site n'est pas multilingue et ce n'est pas prévu.

roadster31 wrote:

Par ailleurs, si tu as installé SmartyCache, tu dois utiliser les balises {tcache} dans tes templates pour indiquer ce que tu veux cacher, sinon le module ne fera rien d'utile.

ok noté, merci

Offline


Peut-être que la page a été indexée alors que le site était en développement, et le bloc de changement de langue présent ?

Autre possibilité, le sitemap.xml, qui utilise toutes les langues activées dans le back-office. Il te faut donc désactiver les langues que tu n'utilises pas, sinon elles apparaitront dans le sitemap. Ceci fait, vide le cache et vérifie le contenu de ton sitemap.


OpenStudio Toulouse

Offline


roadster31 wrote:

Peut-être que la page a été indexée alors que le site était en développement, et le bloc de changement de langue présent ?

hum, ça me semblerai étonnant, je pense que j'ai très rapidement supprimé les langues et en plus j'étais en mode maintenance... L'indexation de cette url me dérange vraiment car Google ne pige pas ce qu'il se passe je pense, et c'est surtout possible qu'il crawl le site en EN (je viens de perdre pas mal de position d'un coup ces derniers jours) en passant par cette url. Qu'en penses-tu ?

roadster31 wrote:

Autre possibilité, le sitemap.xml, qui utilise toutes les langues activées dans le back-office. Il te faut donc désactiver les langues que tu n'utilises pas, sinon elles apparaitront dans le sitemap. Ceci fait, vide le cache et vérifie le contenu de ton sitemap.

bonne option, d'ailleurs je remarque que le /sitmap.xml n'est pas en ligne sur ce site, mais /sitemap donc pas au format "habituel". J'ai juste activé le module par défaut.
pour la désactivation des langues, voilà ce que j'ai (et ce depuis le début) : http://prntscr.com/dgdmkg

le robots.txt se gére comment au fait sur thelia v2 ? je ne le trouve pas, il est pourtant bien en ligne. Je voudrais mettre en disallow sur cette url.

Offline


Le robots.txt se trouve dans ton dossier /web.

Si google indexe cette url c'est qu'il la crowl forcément quelque part. Sinon si tu n'as vraiment que cette url de gênante tu peux faire une redirection 301 de celle-ci.

Offline


ronanaupetit wrote:

Le robots.txt se trouve dans ton dossier /web.

en effet, merci

ronanaupetit wrote:

Si google indexe cette url c'est qu'il la crowl forcément quelque part.

le "Skip the content" indexé par Google est dans le fichier layout.tpl mais pour l'accessibilité :

 <!-- Accessibility -->
    <a class="sr-only" href="#content">{intl l="Skip to content"}</a>

le virer me dérange un peu, mais pourquoi pas. qu'en pensez-vous ?

ronanaupetit wrote:

Sinon si tu n'as vraiment que cette url de gênante tu peux faire une redirection 301 de celle-ci.

bien vu pour le 301, par contre elle ne passe pas... sur Nginx

rewrite ^/?lang=en_US https://www.lesite.com; 

probablement parce que c'est une variable non ? une idée?

Offline


Le lien tu peux le supprimer ou le passer en nofollow je pense.
Sinon je ne connais pas nginx mais en regardant vite fait j'ai vu qu'il y avait moyen d'effectuer des redirections selon certaines conditions. Tu pourrais essayer de faire en sorte que si dans l'url il y a le pattern "?lang=en_US" tu rediriges vers l'accueil.

Je te laisse ce lien, ça pourrait peut-être t'aider : http://stackoverflow.com/questions/3472 … y-variable

Offline


merci, je vais fouiller pour la 301, mais j'aimerai surtout pouvoir virer l'url source qui fait que Google crawl cette langue...
ça ne doit pas être bien loin.

Vous n'avez pas ce problème sur vos sites vous ?

Offline


ronanaupetit wrote:

Le lien tu peux le supprimer ou le passer en nofollow je pense.

je l'ai supprimé, je verrai...
merci !

Offline


cette variable met vraiment la zone dans le site (exemple) :
http://prntscr.com/dgevc4
et dans d'autres langues aussi (dans erreurs d'explorations de search console) :
http://prntscr.com/dgewa9

Vous pensez que ça venait uniquement de :

     <!-- Accessibility -->
    <a class="sr-only" href="#content">{intl l="Skip to content"}</a>

j'ai fouillé sur le site je ne l'ai trouvé que là.
Il n'y pas autres choses à désactiver dans le BO ?

Last edited by lull (07-12-2016 12:52:40)

Offline


lull wrote:

cette variable met vraiment la zone dans le site (exemple) :
http://prntscr.com/dgevc4

Ca c'est normal, une fois ton site passé en anglais, les urls de ton site ne sont pas réécrite, donc on y voit tout les paramètres.

On dirait vraiment que google crawl toutes les langues du site, du coup je suis pas persuadé que cela venait du lien avec l'ancre "skip to content". Pour être sur il faudrait que tu récupères toutes les urls indexées de ton site.

Offline


Le lien Skip to content n'a rien à voir (même si c'est de l'anglais ☺️)


OpenStudio Toulouse

Offline


roadster31 wrote:

Le lien Skip to content n'a rien à voir (même si c'est de l'anglais ☺️)

"Skip to content" est l'encre indexée par Google c'est pour ça qu'on en parle : http://prnt.sc/dg3gcc

donc Google trouve où cette url (et les autres) à ton avis ? comment résoudre le prob ?

Pour info j'ai fait la demande de désindexation (temporaire) de l'url /?lang=en_US via search console, c'est passé (plus en ligne), mais je ne voudrais pas qu'elle revienne...

Offline


Bonjour,

De mon côté j'ai également le même problème avec les url en_US. La quasi totalité de mon site est dupliqué avec ces url en_US.

Le back office a été paramétré uniquement en français. Pourtant quand je lance un crawl via l'outil Oncrawl, j'ai un nombre très important de pages dupliquées ce qui pénalise mon seo à la longue.

URL : /visiophonie-interphonie.html
URL dupliquée : /?category_id=19&lang=en_US&view=category

Y a t il une solution pour bloquer le en_US ? Et si possible une solution définitive et pérenne svp 

Merci d'avance.

Bonne journée à tous.

Offline