Frage Hat ein Unternehmen das Recht, meine Website zu crawlen?


Ich habe festgestellt, dass McAfee SiteAdvisor meine Website als gemeldet hat "kann Sicherheitsprobleme haben".

Es ist mir egal, was McAfee von meiner Website hält (ich kann es selbst sichern, und wenn nicht, ist McAfee definitiv nicht die Firma, um die ich um Hilfe bitten würde, vielen Dank). Was mich jedoch stört, ist, dass sie meine Website anscheinend ohne meine Erlaubnis durchsucht haben.

Zur Klarstellung: Es gibt auf meiner Website noch so gut wie keinen Inhalt, nur einen Platzhalter und einige Dateien für meinen persönlichen Gebrauch. Es gibt keine ToS.

Meine Fragen lauten: Hat McAffee das Recht, Inhalte von meiner Website herunterzuladen / zu crawlen? Darf ich ihnen das verbieten? Ich habe das Gefühl, dass es ein Prinzip von "Meine Burg, meine Regeln" geben sollte, aber ich weiß grundsätzlich nichts über all die rechtlichen Dinge.

Aktualisieren: Ich hätte wahrscheinlich erwähnen sollen, dass mein Server-Provider mir regelmäßig E-Mails über die Ergebnisse von SiteAdvisor schickt - so habe ich von ihrer "Bewertung" erfahren und deshalb bin ich genervt.


30
2017-08-14 19:36


Ursprung


Würden Sie sagen, dass Menschen das Recht haben, Ihre Website zu sehen? Wenn ja, warum sollte man die Roboterdiener der Menschen diskriminieren? Wenn nicht, warum ist es überhaupt eine Website? - jwodder
Wie haben Sie herausgefunden, dass SiteAdvisor Ihre Website markiert hat? Du hast nicht gesehen ihr Seite hast du? Wenn ja, was gab dir das Recht? - Joe Sniderman
Übrigens würde ich den SiteAdvisor-Bericht nicht so leichtfertig abtun, im Allgemeinen, wenn ich ähnliche Berichte sah, waren sie legitim. Der häufigste Fall ist eine ältere / nicht gepatchte Version des populären CMS (WordPress, Joomla, Drupal, ...), die von einem automatischen Skript ausgenutzt wird, um schädliche Inhalte zu platzieren ("Trampoline" -Seiten für Spam / Phishing, Hosting von Viren) Betrug E-Mails, Browser-Exploits, Sie nennen es); Du magst schlechte Dinge hosten, ohne es zu wissen. Da sich viele Benutzer auf solche Tools verlassen, möchten Sie in der Regel einen sauberen Datensatz haben, da solche Warnungen Benutzer verscheuchen können. - Matteo Italia
Wenn Sie etwas gesperrt haben möchten, sperren Sie es. Sie haben die Website eingerichtet und den Server so konfiguriert, dass er auf GET-Anfragen antwortet. Sie haben alle eingeladen - buchstäblich alle. Dies ist kein "impliziertes" Recht, so arbeiten Webserver. Sperrung, wie erwähnt, robots.txt oder IP-Einschränkungen oder Inhalte, die für angemeldete Benutzer gesperrt sind. - mfinni
@RolazaroAzeveires: Automatisierte Prozesse sind in Ordnung, nicht weil menschliche Besucher dies implizieren, sondern weil sie, abgesehen von Angriffen, freundlich fragen: "Kann ich diese Dateien haben?" und Sie haben Ihren Webserver so konfiguriert, dass er antwortet: "Natürlich! Hier gehst du. Brauchst du noch etwas?" Das kriecht nicht ohne deine Erlaubnis, das kriecht mit deiner Erlaubnis. - Marcks Thomas


Antworten:


Es gibt einen Präzedenzfall dafür. Field v. Google Inc., 412 F. Supp. 2d 1106 (U.S. Dist. Ct. Nevada 2006). Google gewann ein summarisches Urteil basierend auf mehreren Faktoren, vor allem, dass der Autor keine robots.txt-Datei in den Metatags auf seiner Website verwendet hat, die verhindert hätte, dass Google Seiten crawlen und zwischenspeichern konnte, die der Websiteinhaber nicht indexieren wollte.

Ruling pdf

Es gibt KEIN Gesetz der Vereinigten Staaten, das sich speziell mit robots.txt-Dateien beschäftigt; Ein anderer Fall hat jedoch einen Präzedenzfall geschaffen, der dazu führen könnte, dass robots.txt-Dateien als beabsichtigte elektronische Maßnahmen zum Schutz von Inhalten betrachtet werden. In Healthcare ADVOCATES, Inc. gegen HARDING, EARLEY, FOLLMER & FRAILEY, et. al, Healthcare Advocates argumentierten, dass Harding et al im Wesentlichen die Fähigkeiten der Wayback Machine hackten, um Zugriff auf zwischengespeicherte Dateien von Seiten zu erhalten, die neuere Versionen mit robots.txt-Dateien hatten. Während Healthcare Advocates diesen Fall verloren, stellte das Bezirksgericht fest, dass das Problem nicht darin bestand, dass Harding und andere "das Schloss aussuchten", sondern dass sie Zugang zu den Dateien aufgrund eines Serverladeproblems mit der Wayback-Maschine erhielten, die Zugriff auf die Cache-Dateien, wenn es nicht haben sollte, und daher gab es "keine Sperre zu holen."

Gerichtsurteil pdf

Es ist nur eine Frage der Zeit, bis jemand diese Entscheidung trifft und auf seine Seite stellt: Das Gericht hat darauf hingewiesen, dass robots.txt ist eine Sperre, um das Crawlen und Umgehen zu verhindern ist  das Schloss auswählen.

Viele dieser Prozesse sind leider nicht so einfach wie "Ich habe versucht, Ihrem Crawler zu sagen, dass dies nicht erlaubt ist und Ihr Crawler diese Einstellungen / Befehle ignoriert hat." In all diesen Fällen gibt es eine Vielzahl anderer Probleme, die letztendlich das Ergebnis mehr beeinflussen als das Kernproblem, ob eine robots.txt-Datei nach dem US-amerikanischen DCMA-Gesetz als elektronische Schutzmethode betrachtet werden sollte.

Nachdem dies gesagt wurde, ist dies ein US-Gesetz, und jemand aus China kann tun, was er will - nicht wegen des rechtlichen Problems, sondern weil China den US-Marken- und Urheberrechtsschutz nicht durchsetzen wird, also viel Glück nach ihnen.

Keine kurze Antwort, aber es gibt wirklich keine kurze, einfache Antwort auf Ihre Frage!


48
2017-08-15 13:13



Dies ist eine großartige Antwort, danke. Was ich an robots.txt nicht mag, ist, dass es kein tatsächlicher Standard ist (der vom Gesetz geforderte Standard). Diese Unternehmen können es einfach ignorieren. Ich mag es nicht in der Position zu sein, in der sie mir sagen "Sie sollten eine robots.txt-Datei erstellen und vielleicht werden wir Ihre Website nicht crawlen, aber vielleicht werden wir das tun, was wir wollen." Es wäre großartig, wenn es einen Standard für die Angabe der Website-ToS in den Metadaten der Website geben würde. - kralyk
@jcanker In diesen beiden Fällen geht es um Urheberrechtsverletzungen. Im Verhalten von Crawlern, die Inhalte zwischenspeichern, wie sie von Google und archive.org betrieben werden, ist es durchaus sinnvoll, dass Copyright-Probleme ins Spiel kommen. Aber McAfee SiteAdvisor kopiert und speichert (viel weniger öffentlich verfügbar) Inhalte von Websites, auf die er zugreift, nicht wahr? Obwohl ich kein Anwalt bin, denke ich, dass diese Unterscheidung uns dazu veranlasst sehr stark bezweifeln dass jeder Fall in irgendeiner Weise auf das Verhalten eines Systems wie SiteAdvisor anwendbar ist, ungeachtet ob es robots.txt respektiert oder nicht. - Eliah Kagan
@kralyk - re "Diese Unternehmen können es einfach ignorieren." Nun ja. So funktioniert das Internet. Und selbst wenn es irgendwie grundlegender wäre, wäre es trivial, absolut trivial, wenn ein Crawler so tun würde, als würde ein Mensch auf Ihre Webseiten zugreifen. Sie fragen nach dem technisch unmöglich. In der Tat, wenn Sie durchdenken, was Sie fragen, was Sie suchen, ist nicht logisch, es hat keine Bedeutung. Außer in einer rechtlichen Unterscheidung. Ihr einziger möglicher Schutz besteht darin, (1) wichtige Inhalte hinter der Authentifizierung durch Benutzeranmeldungen zu verbergen und (2) rechtlichen Schutz, wie in dieser Antwort beschrieben. - ToolmakerSteve
@ToolmakerSteve Ich weiß, dass es technisch unmöglich ist, Roboter komplett zu verbieten. Dies ist jedoch eine andere Situation - ich suche keine technische Lösung, ich frage, ob es legal ist, beachte auch, dass McAffee mir mitgeteilt hat, dass sie meine Website crawlen, ich muss sie nicht erkennen. - kralyk
Es gibt auch einen Präzedenzfall in der anderen Richtung: ebay v Bieterkante - John


Ja, sie haben das Recht dazu - Sie haben eine öffentliche Website erstellt, was lässt Sie glauben, dass sie das nicht tun?

Sie haben natürlich auch das Recht, sie aufzuhalten. Sie können sie bitten, Ihre Website nicht mit zu crawlen robots.txt oder aktiv verhindern, dass sie mit etwas Ähnlichem darauf zugreifen fail2ban.

Alternativ, mach dir keine Sorgen und mach weiter mit deinem Leben. Es tut nichts weh und ist definitiv auf der guten Seite des Internetsuchens.


90
2017-08-14 19:42



> "Ja, sie haben das Recht dazu - du hast eine öffentliche Website erstellt, was lässt dich denken, dass sie das nicht tun?"  Nun, wenn etwas technisch möglich ist, bedeutet das nicht unbedingt, dass es legal ist. Zum Beispiel verbieten YouTube's ToS das Herunterladen von Videos, also ist es, obwohl es technisch sehr einfach ist, immer noch nicht erlaubt. Ich würde mir keine Sorgen machen über SiteAdvisor, wenn nicht mein Provider mir E-Mails über meine Seite schicken würde, die "vielleicht Probleme haben" ... - kralyk
@kralyk - Wenn Sie nicht möchten, dass die Öffentlichkeit (einschließlich McAfee) sie betrachtet, legen Sie sie nicht ins Internet. So einfach ist das. SIE KONTROLLIEREN IHRE WEBSEITE. Niemand zwingt dich, es da draußen zu machen, und wenn du nicht willst, dass die Leute es anschauen, dann leg es NICHT da draußen hin. Wenn du es da draußen veröffentlichen willst, dann wundere dich nicht, dass Leute (einschließlich Leute, die dir Sachen verkaufen wollen) es anschauen. Hör auf, deine Wünsche in das Problem eines anderen zu verwandeln. - Michael Kohne
@ Krylek: ernst? Glaubst du wirklich, dass das Problem hier ein doppelter Standard ist? Keine Person bei McAfee kennt Ihre Website oder kümmert sich nicht um sie. Sie sollten auch nicht. Es wäre absurd zu erwarten, dass jemand im Internet krabbelt, um alle ToS zu lesen. Deshalb wurde robot.txt erfunden. - ToolmakerSteve
@kralyk Der Zugriff auf die fraglichen Ressourcen muss gated sein, damit das ToS in der Nähe sinnvoll ist. Ein Roboter, der Ihre ungeschützten Seiten krabbelt, unterscheidet sich völlig von jemandem, der ein Konto registriert, ein ToS bestätigt und dann die Anmeldeinformationen einem Roboter zuführt. - Andrew B
@ Krylek - Was für TOS Haben Sie auf Ihrer Website das Gefühl, dass McAfee verletzt (nicht respektiert)? - Kevin Fegan


Ob dieses Verhalten ethisch ist oder nicht, ist nicht vollkommen klar.

Das Crawlen einer öffentlichen Site ist selbst nicht unethisch (es sei denn, Sie haben es ausdrücklich verboten, eine robots.txt oder andere technische Maßnahmen zu verwenden, und diese werden umgangen).

Was sie tun, ist das grobe Äquivalent der Kälte, die Sie ruft, während Sie der Welt ankündigen, dass Sie möglicherweise nicht sicher sind. Wenn das Ihren Ruf schädigt und nicht gerechtfertigt ist, ist es unethisch; Wenn es das tut und die einzige Lösung dafür ist, dass du sie bezahlst, ist es ein "Racketeering". Aber ich glaube nicht, dass das so ist.

Das andere Mal, wenn dies unethisch wird, ist, wenn jemand Ihre Website durchsucht, um Ihren Inhalt oder Ihre Daten anzupassen, und sie dann als ihre eigenen darstellt. Aber das ist auch nicht das, was vor sich geht.

Daher schlage ich vor, dass ihr Verhalten in diesem Fall ethisch ist und Sie es wahrscheinlich auch ignorieren können.

Das damit verbundene Verhalten, dich zu spammen, ist unethisch, wenn du keine Beziehung zu ihnen hast und die E-Mails nicht angefordert hast, aber ich vermute, dass sie eine funktionierende Abmeldung haben.


11
2017-08-14 20:58



Ich bin mir nicht sicher, ob ich anrufen würde Disallow Anweisung in einer robots.txt-Datei eine "verbietende technologische Maßnahme". robots.txt dient als Höflichkeitsanfrage, und obwohl sich brave Bots daran halten, gibt es keine Verpflichtung und keine echte Sicherheit. In der Tat könnten schlecht benannte Bots einen Eintrag in robots.txt als eine Einladung zum Crawlen dieses spezifischen Pfades nehmen ... - α CVn
@ MichaelKjörling, Nur zur Hälfte einverstanden. Es gibt keine wirkliche Sicherheit, aber es gibt eine Verpflichtung. Es ist ein Ausgehverbot, und Ihre Pflicht besteht darin, sich fernzuhalten, da Sie keine Einreisegenehmigung haben. - Ben
Es ist ein "Schild", ohne ein Schloss. Versuchen Sie das bei Ihnen zu Hause und sehen Sie, wie viel Sympathie Sie bekommen, wenn die Diebe kommen! (Eigentlich ist es ein "Aushalten" -Zeichen, das explizit die unverschlossenen Türen und Fenster auflistet, aus denen die Leute sich heraushalten sollen.) - Randy Orrison


Technischer Ansatz zum Blockieren bestimmter Personen oder Unternehmen vom Zugriff auf Ihre Website:

Sie können bestimmte IP-Adressen oder Adressbereiche davon abhalten, auf die Seiten Ihrer Site zuzugreifen. Diese Datei befindet sich in der Datei .htaccess (wenn Ihre Site auf Apache Web Server ausgeführt wird).

http://www.htaccess-guide.com/den-visitors-by-ip-address/

Lassen Sie Ihren Webserver IP-Adressen protokollieren, auf die er zugreift, und suchen Sie nach diesen IP-Adressen, um diejenigen zu finden, die mit McAfee verknüpft sind. Wahrscheinlich jetzt leicht zu sagen, wenn Sie keine regelmäßigen Besucher haben.

Natürlich könnten sie die IP-Adressen in Zukunft ändern. Wenn Sie jedoch nach den gefundenen IP-Adressen suchen, um zu sehen, wem sie gehören, können Sie möglicherweise einen vollständigen Adressblock von McAfee kennenlernen und alle blockieren.


Für eine rechtliche Grundlage dafür:

"Website-Besitzer können einige Benutzer rechtlich sperren, Gerichtsregeln"

http://www.computerworld.com/s/article/9241730/Website_owners_can_legally_block_some_users_court_rules

(Wenn Ihre Website eine persönliche ist, würde niemand Ihr Recht bestreiten, einige Benutzer zu blockieren. Aber wenn es eine Website für ein Unternehmen ist, gibt es rechtliche und moralische Argumente auf beiden Seiten dieser Diskussion. Je kleiner Ihr Geschäft, desto einfacher es soll rechtlich geschützt werden - und um so weniger würde sich jemand sonst für eine Beschwerde beschweren.


Sie könnten auch interessiert sein an "Verweigern Besucher durch Referrer".

"Wenn du jemals deine Stämme angeschaut und einen überraschenden Anstieg bemerkt hast   im Verkehr, aber keine Erhöhungen in tatsächlichen Dateianfragen ist es wahrscheinlich   jemand kneift Inhalte (wie CSS-Dateien) oder versucht es   hacken Sie Ihre Website (dies kann einfach bedeuten, dass Sie versuchen, nicht öffentlich zu finden)   Inhalt)."

http://www.htaccess-guide.com/dens-visitors-by-referrer/


2
2017-08-15 22:13