Debian-facile

Bienvenue sur Debian-Facile, site d'aide pour les nouveaux utilisateurs de Debian.

Vous n'êtes pas identifié(e).

#1 01-08-2016 03:27:11

nazmi
Membre
Lieu : Normandie
Distrib. : GNU/LINUX Debian Jessie
Noyau : Linux 4.3.0-0.bpo.1-amd64
(G)UI : KDE/XFCE
Inscription : 17-07-2015

empêcher l'accès à un des dossiers de mon serveur web aux robots ?

Bon c'est un peu beaucoup hors sujet mais voilà, j'ai installé une galerie et j'aimerai éviter que tout ce que je vais poster dedans soit indexé par quelque moteur de recherche que ce soit (enfin je veux surtout pouvoir y réfléchir avant que ça soit trop tard), il se trouve que toutes mes images sont dans un dossier et ses sous dossiers,

un moteur de recherche peut il accèder à tout ce qu'il y a dans ce dossier ou seulement les images ayant des liens dans d'autres pages et celles dont il aura "deviné" le nom ?

j'ai vu que google ne tient pas compte du fichier robots.txt, pas cool de leur part, au moins ça montre leur vrai visage,
https://support.google.com/webmasters/a … 3710?hl=fr ici ils demandent même de ne pas mettre de robots.txt (ce qui donne le feu vert aux autres moteurs de recherche)

je ne sais pas trop à quoi m'attendre ni quoi faire, j'étais content d'avoir une galerie toute jolie pour partager des screens, des photos, des collections, des avancées de projets, ... et là j'hésite maintenant car déjà j'ai envie d'avoir un dossier "images privées" mais aussi garder le contrôle sur la manière dont les gens peuvent visiter cette chose, je ne veux pas qu'ils le trouvent dans google images mais plutôt qu'ils soient déjà sur mon site et aillent délibérément dans la galerie pour voir les différents thèmes disponibles

qu'en pensez vous ? en tout cas ça montre, encore, la dérive des choses...

Hors ligne

#2 01-08-2016 06:21:01

kao
Modérateur
Distrib. : Testing
Noyau : Linux 4.quelquechose
(G)UI : Gnome 3
Inscription : 28-09-2012
Site Web

Re : empêcher l'accès à un des dossiers de mon serveur web aux robots ?

Salut nazmi,

En fait, il ne demande pas de ne pas mettre de robots.txt mais de l'adapter en conséquence pour qu'il puisse lire les balises "meta noindex":

Pour empêcher la plupart des robots d'exploration des moteurs de recherche d'indexer une page de votre site, ajoutez la balise Meta suivante dans la section <head> de votre page :
<meta name="robots" content="noindex">

Pour n'empêcher que les robots d'exploration Google d'indexer une page, utilisez la balise suivante :

<meta name="googlebot" content="noindex">


Il propose en bas de page un moyen de tester le fichier robots.txt en question. https://support.google.com/webmasters/answer/6062598

Le but est de bien combiner le robots.txt et la balise noindex.

Tu peux aussi mettre un mot de passe sur tout ou partie de ton site avec les fichiers .htaccess : https://docs.ovh.com/fr/fr/web/hosting/ … ification/
Le mieux c'est de mettre un mot de passe sur le dossier qui contient la partie privé et pas seulement sur la page qui y permet l'accès.

Hors ligne

#3 02-08-2016 00:44:38

nazmi
Membre
Lieu : Normandie
Distrib. : GNU/LINUX Debian Jessie
Noyau : Linux 4.3.0-0.bpo.1-amd64
(G)UI : KDE/XFCE
Inscription : 17-07-2015

Re : empêcher l'accès à un des dossiers de mon serveur web aux robots ?

Merci beaucoup pour ta réponse smile

ah d'accord j'avais mal compris alors, ils sont un peu moins méchants que ce que j'ai dit big_smile
par contre dans le dossier de la galerie j'ai des fichiers php mais pas d'html, est-ce que je dois apporter des modifications dans les fichiers php pour ajouter les meta ?

aussi quand je fais monsite.com/gallerie/dossier_contenant_les_photos, ça me liste les sous dossiers et le contenu, est-ce avec le .htaccess qu'on peut empêcher ça ? mais si je bloque l'accès avec .htaccess, les visiteurs auront ils toujours accès aux images en question ?

sinon tout ça me fait repenser à la sécurité de mon serveur... j'imagine que le wordpress se gère bien tout seul mais qu'en est il du kanboard ? et de ce minigal nano qui permet d'accèder, à des répertoires et fichiers publics certes, mais ça fait peur quand même...

PS: si quelqu'un a un bon tuto des erreurs à ne pas commetre sur un serveur, je suis preneur big_smile

Dernière modification par nazmi (02-08-2016 00:48:38)

Hors ligne

#4 02-08-2016 09:01:40

Mercredi
Membre
Distrib. : Testing
Noyau : 4.8
(G)UI : Gnome
Inscription : 25-09-2015

Re : empêcher l'accès à un des dossiers de mon serveur web aux robots ?

Hello Nazmi,

Pour empêcher le listage des dossiers et de son contenu tu écris ceci dans le .htaccess:

Options All -indexes



Wordpress ne se gère pas si bien que ça tout seul côté sécurité, il faut lui ajouter un bon .htaccess, toujours faire les maj et perso je fais gaffe aux plugin : si il n'ont pas été mis à jour depuis trop longtemps, je n'installe pas (ou je remplace par un autre si c'en est un que j'utilise). En fait comme il est très utilisé, il est aussi très attaqué.

Je te recommande la lecture de ce lien pour le .htaccess de Wordpress : https://wpmarmite.com/htaccess-wordpress/ il est détaillé et surtout récent.

Pour sécuriser la page de connexion à l'admin j'utilise le plugin sf move login : https://wordpress.org/plugins/sf-move-login/ efficace et régulièrement mis à jour (sinon il y tout un tas de tentatives de connexion faite par les bots une fois qu'ils ont repéré ton site, j'avais halluciné en regardant mes logs).

Tu peux aussi mettre ça en place : https://perishablepress.com/6g/ ou plus simple en utilisant le plugin BBQ https://wordpress.org/plugins/block-bad-queries/ qui est basé là-dessus.

Gaffe au hotlinking des images aussi .... c'est une plaie ce truc hmm

Édith fôtes du matin big_smile

Dernière modification par Mercredi (02-08-2016 09:03:16)


De toutes les forces de l'univers, la plus dure à surmonter, c'est la force de l'habitude. T.Pratchett - Trois Soeurcières.

Hors ligne

#5 02-08-2016 10:17:27

nIQnutn
Modérateur
Lieu : Lyon
Distrib. : Jessie
Noyau : Linux 3.16-amd64
(G)UI : XFCE
Inscription : 16-03-2012
Site Web

Re : empêcher l'accès à un des dossiers de mon serveur web aux robots ?

pour les vicieux, tout ce qui se trouve derrière un noindex peut attirer la curiosité.
si tu ne veux pas que cela soit indexé et pas visité par des indésirables, il faut ajouter un mot de passe.

si chez toi tu ne mets pas de porte, mais juste un panneau "Ne pas entrer" tu risques d'avoir des surprises.

Hors ligne

#6 06-08-2016 02:42:52

nazmi
Membre
Lieu : Normandie
Distrib. : GNU/LINUX Debian Jessie
Noyau : Linux 4.3.0-0.bpo.1-amd64
(G)UI : KDE/XFCE
Inscription : 17-07-2015

Re : empêcher l'accès à un des dossiers de mon serveur web aux robots ?

désolé j'ai eu quelques problèmes ces derniers jours, pour récapituler sur cette question qui est très hors sujet mais que j'ai besoin de comprendre car je connais pas vraiment d'autre fofo avec des gens qui connaîtront potentiellement une réponse tongue

-un répertoire qui contient un fichier index.php ou index.html n'est pas listable, on ne peut pas voir son arborescence ?

-un repertoire qui contient du contenu divers est cependant listable par défaut (par exemple mon kanboard qui est personnel mais potentiellement accessible en ce moment), mais en ajoutant une ligne (Options All -indexes) dans le .htaccess on peut désactiver ça (ce que je pense faire car je ne vois pas l'intérêt de donner accès à l'arborescence de mon serv à tout le monde... de toute façon, sauf peut être à la rigeur pour certains répertoires particuliers mais dans ce cas je mettrai un .htaccess dans le dossier en question

-j'avais tout faux pour wordpress donc pour ma nouvelle installation je vais faire très attention et lire les liens en question, cependant

-je crois que j'ai fait une connerie, j'avais une ancienne installation de wordpress, avec des articles et des contenus dessus et je l'ai déplacée dans un sous dossier temporairement, en croyant que de tout redéplacer une dernière fois pour sauvegarder réparerait la chose, sauf que ça n'est pas le cas, voyez par vous même: http://nazmi.fr

-est-ce que quelqu'un peut me dire ce qui ne va pas (je suis visiblement un gros noob en sites webs et je galère bien là neutral ) et ce qu'il faudrait faire pour  récupérer mes articles, images et brouillons (je crois que c'est tout ce qui a de l'intérêt dedans...) afin que je puisse tout publier sur le nouveau wordpress qui sera dans un sous répertoire et non à la racine

-la base de données sera aussi à nettoyer, non ? (heureusement j'ai mis des tables différentes pour les deux wordpress)

-

Mercredi a écrit :

(sinon il y tout un tas de tentatives de connexion faite par les bots une fois qu'ils ont repéré ton site, j'avais halluciné en regardant mes logs).


cool, faudra que je fasse attention dans mon prochaîn blog tongue

Mercredi a écrit :

Gaffe au hotlinking des images aussi .... c'est une plaie ce truc


c'est pas bien ça ? (je le fais tout le temps, sur des forums, chats, ...)

nIQnutn a écrit :

pour les vicieux, tout ce qui se trouve derrière un noindex peut attirer la curiosité.
si tu ne veux pas que cela soit indexé et pas visité par des indésirables, il faut ajouter un mot de passe.


le truc c'est que j'arrive pas à estimer ce qui est sensible de ce qui ne l'est pas hmm par exemple cette galerie, en soi ça serait cool qu'elle apparaisse dans les moteurs de recherche car quelqu'un qui cherche une image de telle plante ou tel endroit ou tel objet pourra avoir accès aux images et les réutiliser (car j'aime bien la licence CC-BY), c'est vrai qu'en général j'ai beaucoup de mal à voir ce qui est sensible de ce qui ne l'est pas.

Qu'en pensez vous ? Les images (pour ne parler que de la galerie) sont des captures d'écrans avec un truc drôle, nul ou ridicule, des photos de spécimens vivants, morts, fossiles, minéraux, ..., d'objets, d'"oeuvres d'art" par moi (en redondance avec Deviant Art), de mes projets, sorties, ...

en soi ce genre de chose qui sera je pense dispo publiquement sur mon site, a aussi sa place dans les résultats des moteurs de recherche d'images, non ?

mais en même temps il risque d'y avoir ma tête là dedans, même si ma tête est vue par tout le monde en public, donc pourquoi pas sur le net, j'avoue que je ne réussis pas à voir tous les enjeux hmm

J'avoue avoir encore pas mal de difficultés à cerner le bien et le mal dans le domaine, quand on voit que les gros du net cherchent à tout cataloguer et cie (pour leurs bénéfices), mais en même temps c'est plutôt sympa de pouvoir chercher un truc rapidement (genre je dis papillon jour bleu ciel dans google images et bim il me trouve plein de papillons et en deux secondes je vois que j'ai affaire à un azuré bleu céleste (histoire vraie d'un jour ou google m'a bien dépanné contre un trou de mémoire)), par exemple wikipedia/media/data/... cherche a cataloguer aussi et c'est pareillement cool, mais quels sont les enjeux roll

nIQnutn a écrit :

si chez toi tu ne mets pas de porte, mais juste un panneau "Ne pas entrer" tu risques d'avoir des surprises.


tellement bien imagé big_smile c'est vrai que ça fait réfléchir, je vais y repenser, beaucoup smile*

dernièrement, est-ce que vous conaissez de bons cours pour débuter là dedans ? car c'est passionnant mais j'en ai marre de ne rien connaître...

ah et le plus important, en faisant quelques rehcerches sur le .htaccess j'ai trouvé:

You can't instruct all search engines not to index a page, unless you allow them to access the page. If you block a page with robots.txt, then Google might still index it if it has a lot of links pointing to it. You need to put the noindex Meta Robots tag on every page you want to issue that instruction on. If you aren't using a CMS or are using one that is limited in its ease, this could be a lot of work. .htaccess to the rescue!

You can apply directives to all files in a directory by creating an .htaccess file in that directory and adding this command:

        Header set X-Robots-Tag "noindex, noarchive, nosnippet"

If you want to read a bit more about this, I suggest this excellent post from Yoast:

http://yoast.com/x-robots-tag-play/


https://moz.com/blog/htaccess-file-snippets-for-seos

est-ce que ça peut être intéressant pour mon problème d'indexation ?

Dernière modification par nazmi (06-08-2016 02:46:41)

Hors ligne

#7 08-08-2016 21:31:44

Mercredi
Membre
Distrib. : Testing
Noyau : 4.8
(G)UI : Gnome
Inscription : 25-09-2015

Re : empêcher l'accès à un des dossiers de mon serveur web aux robots ?

nazmi a écrit :


-je crois que j'ai fait une connerie, j'avais une ancienne installation de wordpress, avec des articles et des contenus dessus et je l'ai déplacée dans un sous dossier temporairement, en croyant que de tout redéplacer une dernière fois pour sauvegarder réparerait la chose, sauf que ça n'est pas le cas, voyez par vous même: http://nazmi.fr


Si j'ai bien suivi, nazmi.fr pointait sur un dossier /www où tu avais les fichiers de Wordpress (admin, content, uploads, etc ...) ;
Tu les as déplacés dans un sous répertoire /www/blog
Puis voyant que ça ne fonctionnait pas tu as remis le tout sous /www
C'est ça ?
Si oui je ne comprends pas pourquoi ça merdouille, as tu fais d'autres changements que le déplacement (a->b puis b->a) des fichiers (réglages dans l'admin de WP ou d'autres choses) ?

nazmi a écrit :

-un répertoire qui contient un fichier index.php ou index.html n'est pas listable, on ne peut pas voir son arborescence ?


Oui, tu peux tester en affichant monsite.fr/nom-d-un-dossier pour vérifier.
Par exemple là si je tape nazmi.fr/blog, j'ai une liste ...
D'ailleurs est-ce normal qu'il s'y trouve 2 fichiers de Wordpress là-dedans (dont celui qui est cité dans l'erreur), ils ne manqueraient pas à l'autre emplacement ?

Sinon pour récupérer tes données : les images se trouvent dans le dossier /wp-content/uploads/ et les articles (brouillons y compris) sont enregistrés en base de données dans la table wp_post (ou autre suffixe que wp si tu as mis autre chose à l'installation).

Pense à faire des sauvegardes de tous les fichiers Wordpress + la base de données avant de bidouiller/mettre à jour, ça peut servir si il se passe une cata et qu'il faille restaurer le site.
.
Tu peux aussi dupliquer ton site pour avoir une version identique (mais accessible de toi uniquement (en localhost ou non, c'est à toi de voir) sur laquelle tu peux faire tes essais et ainsi éviter de tout casser.
Perso je suis en train de migrer mon Wordpress vers Dotclear et les tests sur mon serveur en local, ça aide bien à éviter les boulettes  big_smile

Pour le hotlinking, c'est ni plus ni moins que du vol de bande passante ; imagine que quelqu'un mette une de tes photos sur un forum, à chaque fois qu'une personne va afficher la page du forum, ça va envoyer une demande vers ton serveur pour afficher la photo ...
Imagine que 1000 personnes fassent de même et pire que le forum en question ait 2000000 visiteurs par jour... ton serveur va tirer la langue et ton site va ramer pour afficher les pages etc ... ou même atteindre ses limites dans le cas d'un petit mutualisé.

Je n'ai pas regardé ton lien pour l'indexation, je le garde pour plus tard tongue


De toutes les forces de l'univers, la plus dure à surmonter, c'est la force de l'habitude. T.Pratchett - Trois Soeurcières.

Hors ligne

#8 09-08-2016 06:05:36

nazmi
Membre
Lieu : Normandie
Distrib. : GNU/LINUX Debian Jessie
Noyau : Linux 4.3.0-0.bpo.1-amd64
(G)UI : KDE/XFCE
Inscription : 17-07-2015

Re : empêcher l'accès à un des dossiers de mon serveur web aux robots ?

Salut, merci de ta réponse, je commence à voir ce qui ne va pas:

le wordpress était en effet à la base dans la racine, puis je l'ai déplacé une fois dans /blog, les liens ne marchaient plus et cie, j'ai lu un peu et modifié de la configuration dans le panneau d'admin, ça n'a pas trop marché donc en effet je l'ai déplacé à nouveau à la racine et tout a remarché, mais plus tard j'ai continué à essayer et etant un noob j'ai du planter quelque chose, apparemment il cherche /blog/blog donc j'ai créé ce qu'il demande, on va voir ce que ça va donner big_smile (le dossier /blog qui contenait les deux fichiers devait être un ancien test pour réparer)

donc maintenant j'ai tout remis en place et l'ajout du répertoire /blog/blog avec les fichiers demandés à retiré l'erreur fatale ce qui est une bonne chose !)
http://nazmi.fr/blog/ maintenant il me demande de créer un wp-config.php, ce que j'ai fait, mais ça ne marche pas, j'ai de nouveau une erreur me demandant de nouveaux fichiers dans /blog/blog, j'ai donc entrepris la copie de tous les fichiers wordpress dans /blog/blog, on va voir ce que ça va donner, on va voir car ça prend du temps de copier 300MB de données... mais de ce que je vois ça semble être la solution car j'ai de nouvelles erreurs et cie qui apparaissent et disparaissent et deviennent de plus en plus précises (maintenant c'est lié à des plugins) !)

apparemment il reste encore une heure donc je vais laisser le traitement se faire pour la nuit...

Pour le listage, donc si il y a un index ou une règle, le répertoire n'est pas listable alors ? on est bien d'accord

Sinon pour récupérer tes données : les images se trouvent dans le dossier /wp-content/uploads/ et les articles (brouillons y compris) sont enregistrés en base de données dans la table wp_post (ou autre suffixe que wp si tu as mis autre chose à l'installation).


c'est noté, si ça marche pas je me contenterai de faire ça alors smile car à part mes articles et mes photos, je vois pas vraiment ce qu'il y a a sauvegarder...

Pense à faire des sauvegardes de tous les fichiers Wordpress + la base de données avant de bidouiller/mettre à jour, ça peut servir si il se passe une cata et qu'il faille restaurer le site.


en fait j'ai quelques sauvegardes mais vu que je suis pas organisé, j'ai aucune idée de qui est quoi et de toute façon jai pas de sauvegarde de la dernière version neutral

Tu peux aussi dupliquer ton site pour avoir une version identique



j'y penserai, c'est vrai que dans le futur (quand j'aurai du trafic) j'aimerai éviter ce genre de situations...

Pour le hotlinking, c'est ni plus ni moins que du vol de bande passante ; imagine que quelqu'un mette une de tes photos sur un forum, à chaque fois qu'une personne va afficher la page du forum, ça va envoyer une demande vers ton serveur pour afficher la photo ...


Je ne voyais pas ça comme ça, je voyais ça dans le sens de je met du code (un img src="xxx") pour demander au navigateur du client d'aller chercher la photo chez son propriétaire, à la place de la piquer et la repartager,(dans la limite des licences mais dans ce cas il n'y avait pas de problème puisque sur ma page il y avait juste du texte tongue ) je n'avais jamais eu lo'ccasion de le faire en dehors de quelques forums mais j'y repenserai...

Bon bah je reviens demain enfin tout à l'heure avec des nouvelles que 'espère bonnes...

Hors ligne

#9 09-08-2016 19:25:05

nazmi
Membre
Lieu : Normandie
Distrib. : GNU/LINUX Debian Jessie
Noyau : Linux 4.3.0-0.bpo.1-amd64
(G)UI : KDE/XFCE
Inscription : 17-07-2015

Re : empêcher l'accès à un des dossiers de mon serveur web aux robots ?

ça y est ça marche maintenant ! je finis ma sauvegarde et je place tout correctement big_smile !

Hors ligne

#10 10-08-2016 22:23:37

Mercredi
Membre
Distrib. : Testing
Noyau : 4.8
(G)UI : Gnome
Inscription : 25-09-2015

Re : empêcher l'accès à un des dossiers de mon serveur web aux robots ?

Super smile

Pour m'y retrouver dans les sauvegardes, j'ai un dossier "sauvegardes" dans lequel je crée des dossiers nommés par date de sauvegardes. J'en garde 3 ou 4 maxi et j'efface les plus anciennes sinon c'est trop le bazar.

nazmi a écrit :

Pour le listage, donc si il y a un index ou une règle, le répertoire n'est pas listable alors ? on est bien d'accord


Oui, une fois la règle mise en place tu peux vérifier que ça fonctionne en tapant l'adresse d'un dossier sur ton serveur, il doit te renvoyer une 403 Forbiden You don't have permission to access /dossier/pas-touche-les-curieux/ on this server.


De toutes les forces de l'univers, la plus dure à surmonter, c'est la force de l'habitude. T.Pratchett - Trois Soeurcières.

Hors ligne

#11 11-08-2016 03:34:01

nazmi
Membre
Lieu : Normandie
Distrib. : GNU/LINUX Debian Jessie
Noyau : Linux 4.3.0-0.bpo.1-amd64
(G)UI : KDE/XFCE
Inscription : 17-07-2015

Re : empêcher l'accès à un des dossiers de mon serveur web aux robots ?

Ça y est tout fonctionne !!! big_smile big_smile big_smile
j'ai exporté mes articles, plus qu'à les réimporter dans le nouveau wordpress et je remettrai le contenu multimédia manuellement en corrigeant/complètant chaun de ces articles à la main smile

j'ai aussi appliqué la modification de Mercredi au .htaccess et maintenant j'ai bien une erreur 403 ce qui est bien ce que je veux
, il me reste encore à voir pour la sécurisation de wordpress et le non indexage par les moteurs de recherche pour lequel j'hésite vu que ça peut être une bonne idée de les laisser indexer ce contenu qui peut servir à d'autres, on verra plus tard tongue

maintenant il ne me reste plus qu'à construire le reste du site (la page d'accueil et les autres services, c'estfou tout ce que j’apprends big_smile big_smile )

Hors ligne

Pied de page des forums