Frage Wie kann ich Google dazu ermutigen, eine neue robots.txt-Datei zu lesen?


Ich habe gerade meine robots.txt-Datei auf einer neuen Website aktualisiert. Die Google Webmaster-Tools melden, dass sie meine robots.txt 10 Minuten vor meiner letzten Aktualisierung gelesen haben.

Kann ich Google auf jeden Fall dazu ermutigen, meine robots.txt so schnell wie möglich erneut zu lesen?

UPDATE: Unter Site-Konfiguration | Crawlerzugriff | Testen Sie robots.txt:

Startseite Zugriff zeigt:

Der Googlebot ist blockiert http://my.example.com/

Zu Ihrer Information: Die robots.txt, die Google zuletzt gelesen hat, sieht folgendermaßen aus:

User-agent: *
Allow: /<a page>
Allow: /<a folder>
Disallow: /

Habe ich mich selbst in den Fuß geschossen, oder wird es irgendwann lesen: http: ///robots.txt (wie es das letzte Mal getan hat, als es es gelesen hat)?

Irgendwelche Ideen, was ich tun muss?


20
2017-08-18 18:09


Ursprung


Hinweis: Die Website ist neu und diese Nachricht wird unter Einstellungen | Crawling-Rate angezeigt: "Ihrer Website wurden spezielle Einstellungen für die Crawling-Rate zugewiesen. Sie können die Crawling-Rate nicht ändern." - condiosluzverde
FYI: Ich habe einen Eintrag in Google Groups gefunden, der besagt, dass google robots.txt "mindestens einmal am Tag" liest - kann das jemand bestätigen? [Google Groups Posting ist hier: groups.google.com/group/google_webmaster_help-indexing/... ] - condiosluzverde
FYI: 1 Tag ist vergangen, und Google hat meine aktualisierte robots.txt noch nicht gelesen. - condiosluzverde
Das gleiche Problem hier, das ist kein "Feature" ... - mate64


Antworten:


Falls jemand anderes auf dieses Problem stoßen sollte, gibt es eine Möglichkeit Google-Bot dazu zu zwingen, die robots.txt Datei erneut herunterzuladen.

Gehe zu Gesundheit -> Fetch as Google [1] und lass es /robots.txt holen

Dadurch wird die Datei erneut heruntergeladen und Google analysiert die Datei erneut.

[1] Im vorherigen Google UI war es "Diagnose -> Fetch as GoogleBot".


23
2018-05-02 18:01



Leider funktioniert das nicht, wenn deine robots.txt auf eingestellt ist Disallow: /. Stattdessen ruft der Abrufbericht "Verweigert von robots.txt" ab: /. - studgeek
Nächstes Mal diese Zeile hinzufügen. Erlaube: /robots.txt - jrosell
Ich kann die Diagnose nicht finden, vielleicht hat sich die Benutzeroberfläche geändert? - David Riccitelli
Ok, es ist jetzt Gesundheit> Fetch as Google. - David Riccitelli
Funktioniert nicht für mich, wenn ich robots.txt abzurufen versuche. FEHLER: "Die Seite konnte zu diesem Zeitpunkt nicht gecrawlt werden, da sie von der neuesten robots.txt-Datei, die der Googlebot heruntergeladen hat, blockiert wird. Wenn Sie die robots.txt-Datei kürzlich aktualisiert haben, kann es bis zu zwei Tage dauern, bis sie aktualisiert wird. Weitere Informationen finden Sie im Hilfeartikel zu robots.txt. " - Indrek


Ich weiß, das ist sehr alt, aber ... Wenn Sie die falsche robots.txt hochgeladen haben (alle Seiten nicht zulassen), können Sie Folgendes versuchen:

  • Korrigieren Sie zuerst Ihre robots.txt, um die richtigen Seiten zu erhalten
  • Lade eine sitemap.xml mit deinen Seiten hoch

Wenn Google versucht, die XML-Sitemap zu lesen, überprüft es die Datei "robots.txt" und zwingt Google, Ihre robots.txt erneut zu lesen.


4
2017-10-25 21:58



Das hat nicht für mich funktioniert. Es besagt, dass die Sitemap von der robots.txt blockiert wurde - James


OK. Hier ist, was ich getan habe, und innerhalb weniger Stunden hat Google meine robots.txt-Dateien erneut gelesen.

Wir haben 2 Websites für jede Website, die wir betreiben. Nennen wir sie die kanonische Seite (www.mysite.com) und die bare-Domain-Seite (mysite.com).

Wir haben unsere Websites so eingerichtet, dass mysite.com immer eine 301-Weiterleitung an www.mysite.com zurückgibt.

Sobald ich beide Websites in den Google Webmaster-Tools eingerichtet habe, habe ich darauf hingewiesen, dass die Website www.mysite.com die kanonische Website ist, und habe die Datei robots.txt bald darauf auf der kanonischen Website gelesen.

Ich weiß nicht wirklich warum, aber genau das ist passiert.


1
2017-09-09 02:24



Ich weiß, das ist alt, aber die Annahme Ihrer eigenen Antwort ist zu 100% legitim - Mark Henderson♦


Verkürzen Sie das Google-Scan-Intervall für einige Tage.

Auch ich habe es da unterm Hintern gesehen, um deine robots.txt zu verifizieren, das könnte es zwingen, Google zu googeln, aber ich bin mir nicht sicher.


0
2017-08-18 18:11



Kannst du genauer sein? Ich sehe: Standortkonfiguration | Crawlerzugriff | Testen Sie robots.txt, testet aber den Text, den Sie in das Feld einfügen, nicht Ihre robots.txt-Live-Datei - hier wird mir auch mitgeteilt, wann sie zuletzt heruntergeladen wurde. Wo ist der "Verify" -Button, von dem du sprichst? - condiosluzverde