Frage illegitimer Traffic von User Agent Mozilla / 5.0 (Windows; U; Windows NT 5.1; de-DE; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)


Dies ist ein sich schnell änderndes Ereignis, das noch keine Antwort hat.

Bitte veröffentlichen Sie Ihre Ergebnisse oder Annahmen nicht als Antworten; Reservieren   das Antwortfeld für wenn Sie tatsächlich eine Antwort haben.

Wenn du etwas hast Neu hinzufügen, bearbeiten Sie es bitte direkt in der   Frage.


Seit Anfang des Jahres bekomme ich viel Traffic mit dem User-Agent:

Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).

Meine Zugriffsprotokolle zeigen 40% - 60% von diesem Benutzer-Agent. Das ist seltsam, weil der User Agent einen Firefox 3.0.10 Browser angibt (benutzt jemand diesen Browser 2012? Definitiv nicht 40% -60% der Besucher auf einer normalen Website).

Außerdem zeigen die Protokolle, dass dieser Benutzeragent nur das HTML-Dokument und keine referenzierten Assets wie Bilder, CSS, JS-Dateien angefordert hat.

Ich habe die IPs dieser Anfragen überprüft (mit diesem UA). Es kommt aus der ganzen Welt. Ich habe erkannt, dass diese IPs manchmal einen mobilen Benutzeragenten haben.

Mein Verdacht ist also eine mobile App, die viele "Spider-Anfragen" macht. Es wäre gut, die Ursache für den Datenverkehr von diesem Benutzeragenten zu kennen.

Kann jemand die Ursache identifizieren?

In den letzten Wochen haben wir erkannt, dass der Traffic von diesem UA gesunken ist und anderer Verkehr zugenommen hat. Es sieht so aus, als ob dieser Bot / Crawler jetzt eine häufigere UA verwendet und daher schwieriger zu blockieren ist. Ich habe jemanden gesehen, der das in einer Antwort auf diese Frage gesagt hat, aber er wurde entfernt, als Serverfault sich entschied, diese Frage neu zu arrangieren.

OLD Antworten als Referenz


Aktualisierung von Dee

Ich betreibe meine eigene, ziemlich gut besuchte Website und ich sehe genau das gleiche in unseren Apache-Logs für den letzten Monat oder so (ich hatte noch keine Gelegenheit, weiter zurück zu schauen). 40% aller Anfragen sind der Prozentsatz, den ich sehe, was natürlich verrückt ist.

Und ich habe auch bemerkt, dass die Anfragen immer zu sagen scheinen, dass der anfragende Browser die gzip-Komprimierung nicht unterstützt - was dazu führt, dass alle Webseitenanforderungen unkomprimiert gesendet werden und unsere Bandbreitennutzung durch das Dach geht!

Aber bis jetzt konnte ich nicht feststellen, was wirklich vor sich geht - alles, was ich bisher vermutete, ist, dass es sich um eine Art Proxy-Server handelt oder um ein mobiles Gerät, das eine gefälschte Useragent-Zeichenkette sendet.

BEARBEITET HINZUFÜGEN: Ich habe noch ein paar Nachforschungen angestellt und es sieht so aus, als ob es sich um Antivirus-Software handeln könnte: http://www.webmasterworld.com/search_engine_spiders/4428772.htm


Aktualisierung von Jamur21

Ja, wir haben ähnlichen Traffic über mehrere Websites hinweg festgestellt.

Wir suchen immer noch nach der Ursache, aber einige unserer Ergebnisse umfassen:

  • Wenn es eine Spinne ist, macht es einen ziemlich schlechten Job. Es scheint nur eine oder zwei URLs pro Domain zu hammern (vielleicht ein paar Stunden), bis es zu einer anderen URL weitergeht. Der Inhalt ist jedoch immer relativ "aktuell", was Google News einen gewissen Stellenwert verleiht, wie in dem Link, den Dee in seiner Antwort gepostet hat (alle unsere Seiten sind Nachrichtenseiten).

  • Während die IPs geografisch verteilt sind, scheinen sich die meisten von ihnen in der Nähe der Ursprungssite zu befinden (die meisten unserer Sites sind lokale Nachrichtenagenturen, so dass sie nicht viel nationalen Traffic bekommen). Fast keiner der Anfragen kommt von außerhalb der USA. Auch dies gibt den URLs, die von Google News heruntergeladen werden, Glaubwürdigkeit (ich vermute, dass Nutzer, die Google News per Postleitzahl lokalisiert haben, unseren Content sehen werden).

  • Meistens können die Anfragen als Hintergrundrauschen (wenn auch besonders laut) abgeschrieben werden, aber ein paar Mal am Tag werden wir einen Spitzenwert erreichen, und dieser UA allein wird für etwa 100mbps Verkehr für etwa 15-30 Minuten verantwortlich sein.

  • Google News scheint zwar ein möglicher Vektor dafür zu sein, dass diese URLs entdeckt werden, aber alles, was wir gesehen haben, ist umständlich und wir haben immer noch keine rauchende Pistole für genau, wie oder warum diese URLs gehämmert werden.


Aktualisierung von Bannow Bucht

Wir haben eine große Nachrichtenseite - unsere Geschichten werden mehrmals pro Woche von Google News erfasst. Wir bekommen seit Ende November Verkehr von dieser Quelle - und es wächst Woche für Woche - vielleicht 30 Millionen Kobolde im Februar.

Aussehen auf der Titelseite von Google News US ist ein Auslöser für diesen Verkehr - etwa 75 Prozent behauptet, von US-IPs zu sein. Aber was auch immer es ist, macht große Anstrengungen, sich selbst zu verdunkeln. Und das ist nicht freundlich.

Wir haben auch keine rauchende Pistole gefunden - aber ein großer Sicherheitsverkäufer hat freundlicherweise zugestimmt, in unserem Auftrag weiter zu ermitteln.


Aktualisierung von Artem Russakovskii

Genau das gleiche passiert mit einer Nachrichtenseite (AndroidPolice.com) zum ersten Mal. Ungefähr 10 Minuten dieser zufälligen Anfragen, die QPS über 5000% unseren Durchschnitt spiked (5000qps, das Limit von Linodes NodeBalancer ist). Die CPU begann im Leerlauf zu laufen, da die Anfragen E / A und Netzwerk auffrischten - es war ein echtes DDOS.

Dem würde ich gerne auf den Grund gehen, aber im Moment scheint es völlig rätselhaft.


Aktualisierung von Kennzeichen

Fügen Sie einfach +1 hinzu. Wir sehen das gleiche Verhalten auf unserer Website. Nicht eine Tonne neuer Informationen, die hier hinzugefügt werden, aber hier ist die allgemeine Form unseres Traffics:

  1. Der Verkehr ist stark verteilt. Der Verkehr kommt von über ~ 60k einzigartig IPs.
  2. Der Großteil des Traffics trifft auf eine einzelne URL, in der Regel auf eine kürzlich in Google News aufgeführte URL (Google News erscheint jedoch nicht immer als Vektor)
  3. Der gesamte Traffic stammt vom selben Firefox / 3.0.10-User-Agent wie in diesem Thread erwähnt, obwohl wir hier und da einige seltsame mobile Agenten gesehen haben.
  4. Der gesamte von diesem Agenten eingehende Datenverkehr enthält keine Referrer-Daten.
  5. Burst tritt 30-60 Minuten ein- oder zweimal pro Woche auf und verschwindet dann.

Aktualisierung von Don Irland

Der letzte Post war der 13. April, aber der Verkehr ist noch nicht beendet. Der seltsamste Teil davon könnte die Tatsache sein, dass jeder Malware-Autor, der sein Geld wert ist, sicherlich eine User-Agent-Zeichenfolge aus einem modernen Browser verwenden könnte, wodurch die Block-User-Agent-Verteidigung wertlos wird. Diese Tatsache lässt den Eindruck entstehen, dass ein "harmloser" Nachrichtenaggregator oder eine andere Anwendung die Quelle ist. Bis jetzt konnte ich jedoch keine wirkliche Schlussfolgerung erzielen und hoffe, dass irgendjemand mit Informationen es hier veröffentlichen wird.

Wir sehen das gleiche Muster, mit einer Geschichte, die von Google News aufgegriffen wurde, gefolgt von sehr hohen Traffic-Stößen, die die Story anfordern (aber keine Zubehördateien wie Bilder). Der ausgehende Antwortverkehr verursacht Spitzen, die das Netzwerk sättigen können (oder dies taten, bis wir anfingen, nur mit einem 503-Fehler zu antworten). Diese Angriffe (wie können wir sie sonst noch nennen?) Dauern durchschnittlich etwa 30 Minuten, aber sehr beliebte Storys können eine Stunde oder länger hohen Traffic haben (ich spreche vom firefox 3.0.10 Traffic, natürlich bleibt auch der normale Traffic hoch für eine Weile).

In einem Zeitraum von einer Stunde (für einen einzelnen Server in einer Lastausgleichsgruppe) sahen wir 200.000 Anfragen, von denen 97.000 die 3.0.10-Anfragen von Firefox waren, fast 50% aller Anfragen. Und wenn Sie bedenken, dass normalerweise eine Seite 10 oder mehr Anfragen für die Hauptdatei und Zubehördateien generiert, dann sind die 97.000 viel größer. Ich bemerke, dass von den 97.000 es 51.000 eindeutige IP-Adressen gab. Und ich spreche von einer einzigen Stunde (eigentlich war es näher an 45 Minuten). Was immer dies verursacht, ist ziemlich weit verbreitet.


Aktualisierung von Benutzer119708

Wir haben das gleiche Problem auf einer riesigen französischen High-Tech-Nachrichten-Website.

Immer wenn eine Nachricht in Google News veröffentlicht und angezeigt wird, steigt der Verkehr in den Nachrichten mit etwa 50 bis 100 Besuchen durch IP und Benutzer-Agent "Mozilla / 5.0 (Windows; U; Windows NT 5.1; de-US; rv: 1.9.0.10 ) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729) ".

Alle IP-Adressen scheinen sich in Frankreich oder in französischen Ländern zu befinden und haben keine Referer. Es scheint ein Bot zu sein, aber warum muss eine einzelne entfernte Adresse 50 oder 100 Mal in ein und derselben Nachricht innerhalb weniger Minuten zurückkommen? Könnte es infizierte Computer sein? Warum tritt das Phänomen auf, wenn die Nachrichten in Google News zu sehen sind? Ist Google für diesen merkwürdigen Traffic verantwortlich?

Wenn jemand in diesem Thema die Erklärung gefunden hat, würde es meiner Meinung nach vielen mittleren oder großen Websites helfen, ihren Traffic zu kontrollieren!

BEARBEITEN: http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html Wenn es in der Tat infizierte Computer ist, ist es sehr beunruhigend angesichts der Anzahl der beteiligten Adressen. Wir werden dieses Skript für Apache implementieren, um den gesamten Datenverkehr zu blockieren:

# Referer is empty
RewriteCond %{HTTP_REFERER} ^$

# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"

# Forbid the request
RewriteRule ^(.*)$ - [F,L]

Aktualisierung von Ernesto

Mittelgroße spanische Nachrichtenseite, bemerkte seit einigen Tagen hohen Traffic in einigen irrelevanten Nachrichten.

Wer auch immer es ist, es lädt den kompletten HTML-Code, wie wir es aufgrund der Anzahl der "Seitenaufrufe" feststellen, die wir per Datenbankaktualisierung inkrementieren, sobald die Seite geladen ist.

Wir bemerken nur eine oder zwei URLs, die täglich anvisiert werden.

Viele Anfragen (7000-12000) über dieselbe URL in ein paar Sekunden, verteilt über den Tag von verschiedenen IPs. Die nächsten Tage werden andere URLs angesprochen.

Kein Referer.

Die zielgerichteten Artikel sind in Google News erschienen, aber wir können nicht garantieren, dass sie verwandt sind.

Google Analytics erkennt sie nicht als legitimierten Datenverkehr an. Wir haben Artikel mit mehr als 8000 Treffern und GA berichtet nur 25 oder so (ich gehe davon aus, dass Javascript nicht interpretiert wurde).


Aktualisierung von Altes Pro

Fügen Sie ein paar Datenpunkte für Sie hinzu.

Bots gegen Browser hält UA nicht für einen Bot (noch).

Auf der Site mit dem höchsten Besucheraufkommen, für die ich Protokolle habe, zeigt die derzeitige Nutzung im Mai 2012, dass dieser UA weniger als 1% des Traffics ausmacht. Ein erheblicher Teil der UA-Anfragen erscheint legitim (z. B. das Laden aller erwarteten Ressourcen). Dies ist im Wesentlichen das Gleiche wie für Februar 2012.

Die Startseite dieser Seite wird nur selten aktualisiert und der gesamte dynamische Inhalt wird von robots.txt blockiert.


Dies ist wahrscheinlich von Genieo. Sie haben ihre Anwendung aktualisiert, um einen neuen Benutzeragenten zu verwenden: Mozilla / 5.0 + (kompatibel; + Genieo / 1.0 +http://www.genieo.com/webfilter.html). Es trifft mit dem gleichen Muster wie der ursprüngliche Benutzeragent, aber jetzt scheinen sie sich zu identifizieren. Wenn Sie sich die URL in ihrem Benutzeragenten ansehen, erkennen sie sogar an, dass sie möglicherweise zu viel Verkehr zu bestimmten Websites erzeugt haben oder noch generieren. -DFLW


Aktualisierung von Mike Fagan

Wir kämpfen seit Wochen mit DDOS-Angriffen. Wir haben gerade begonnen, Genieo als den User für diese Angriffe zu sehen. Zuvor sahen wir "Mozilla / 5.0 (Windows; U; Windows NT 5.1; de-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)" und eine Menge Anfragen von " Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0 ". 10.000 + verschiedene IPs, mehr als 1 Million Anfragen pro Tag auf nur 3 oder 4 Seiten, wo die gleiche IP die Seiten mehr als 100 Mal anforderte und keine zusätzlichen Assets oder Anzeigen zog. Mein Befund ist, dass keine dieser IPs tatsächlich auf andere Seiten unserer Website ging.

Ich kontaktierte Genieo und dies ist ihre Antwort:

"Danke, dass Sie uns kontaktiert haben.

Die alte Version von Genieo könnte die von Ihnen beschriebenen Verkehrslasten verursacht haben. Wir entschuldigen uns für eventuelle Unannehmlichkeiten. Wir haben gestern diese Adresse veröffentlicht und aktualisiert, die Datenlast von unserer Anwendung sollte in den nächsten 24 Stunden verschwinden. Wir waren davon überzeugt, dass wir Ihrer Website einen guten Service bieten, indem wir sie neuen Nutzern vorstellen. Wir haben nicht richtig eingeschätzt, dass unsere Installationsbasis wächst, was zu einer Überlastung einiger Sitzplätze führen kann.

Genieo ist eine persönliche Zeitung oder ein intelligenter RSS-Reader. Es ist ein clientseitiger RSS-Reader mit intelligenter semantischer Personalisierungsfilterung. Genieo Anwendung folgen RSS-Daten von den Lieblings-Websites des Benutzers "lesen" die Artikel durch die Durchführung semantischer Analyse und filtern sie in Bezug auf die Benutzer Bereiche von Interesse. Wenn der Artikel den Interessen des Benutzers entspricht, zeigt die Anwendung den Titel und das Snippet des Artikels auf der Homepage des Benutzers an. Ein Klick auf den Titel führt zur Website des Artikels - Ihrer Website. Genieo Agent ist autonom (aus Datenschutzgründen); Es läuft auf dem Endbenutzer-Computer, deshalb sehen Sie, dass der Agent von vielen verschiedenen IPs auf Ihre Site zugreift.

Die meisten Genieo-Daten stammen aus den normalen RSS-Feeds der Nutzer, aber Genieo fügt auch Inhalte aus neuen Nachrichtenseiten hinzu, die zuvor nicht von den Nutzern registriert wurden (für Serendipity und Diversity). Genieo-Algorithmen suchen nach "heißen" Artikeln, Twitter-Top-Hits, meistgesehenen YouTube-Inhalten und Google-News-Highlights und prüfen, ob sie den Interessen des Nutzers entsprechen

Uns war nicht bewusst, dass dies zu Ladeproblemen für einige Websites führte. Sobald uns dies mitgeteilt wurde, aktualisieren wir die aktuellen Benutzer mit einer neuen Version, die Lastspitzen verhindert.

Freundliche Grüße,

-Dotan

PS: Wir haben in der Vergangenheit "Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0" benutzt (wegen eines technischen Fehlers), aber alle aktuellen Genieo Benutzer sollten die Genieo Benutzeragenten verwenden (für die letzten Wochen) "


31


Ursprung


Könnten Sie der Frage einige der IP-Adressen hinzufügen, die in den Protokollen erscheinen? - ricmarques
Ich bin mir nicht sicher, ob es die Antivirus-Software von AVG ist - weil AVG das Problem behoben hat. Außerdem denke ich immer noch, dass es eine gute Chance gibt, dass eine mobile App diesen Traffic verursacht - einige News Aggregator App (etwas wie skygrid.com - aber es ist nicht skygrid, weil sie eine richtige UA verwenden). - user114293
Hier einige Beispiel IPs: 196.202.255.1 59.164.38.248 67.4.252.169 24.224.194.26 67.4.39.99 49.123.100.148 - user114293
Ja, wir haben ähnlichen Traffic über mehrere Websites hinweg festgestellt. Wir suchen immer noch nach der Ursache, aber einige unserer Ergebnisse umfassen: - Wenn es eine Spinne ist, macht es einen ziemlich schlechten Job. Es scheint nur eine oder zwei URLs pro Domain zu hammern (vielleicht ein paar Stunden), bis es zu einer anderen URL weitergeht. Der Inhalt ist jedoch immer relativ "aktuell", was Google News einen gewissen Stellenwert verleiht, wie in dem Link, den Dee in seiner Antwort gepostet hat (alle unsere Seiten sind Nachrichtenseiten). - Während die IPs geographisch verteilt sind, scheinen die meisten von ihnen in der Nähe der Ursprungsstelle zu liegen (die meisten - jamur2
Wir haben eine große Nachrichtenseite - unsere Geschichten werden mehrmals pro Woche von Google News erfasst. Wir bekommen seit Ende November Verkehr von dieser Quelle - und es wächst Woche für Woche - vielleicht 30 Millionen Kobolde im Februar. Aussehen auf der Titelseite von Google News UNS ist ein Auslöser für diesen Verkehr - etwa 75 Prozent wollen von US IPs sein. Aber was auch immer es ist, macht große Anstrengungen, sich selbst zu verdunkeln. Und das ist nicht freundlich. Wir haben auch keine rauchende Pistole gefunden - aber ein großer Sicherheitsverkäufer hat freundlicherweise zugestimmt, in unserem Auftrag weiter zu ermitteln. - Bannow Bay


Antworten:


Ich denke, der Benutzer dflaw hat es gefunden. Es ist die Software von Genieo. Wir haben einige Tests durchgeführt und Kontakt zu ihnen aufgenommen. Alle Ergebnisse sind veröffentlicht Hier.


1