Kaspersky Lab identifiziert Spam-Botnetze durch „Coordinated Distributions“

Dass Botnetze existieren, lässt sich leicht herausfinden. Weitaus schwieriger ist es jedoch, gegen die Personen oder Organisationen vorzugehen, die so einen Verbund infizierter Computer für den massenhaften Versand von Spam nutzen. Das geschieht buchstäblich auf Knopfdruck und bereitet IT-Sicherheitsexperten weltweit seit langem Kopfzerbrechen.

Dieser Artikel stellt eine Methode vor, mit deren Hilfe sich Botnetze in Echtzeit automatisch isolieren und blockieren lassen. Als Grundlage dient die statistische Annahme, dass alle in einem solchen Netzwerk zusammengeschlossenen Rechner E-Mails auf ähnliche Weise versenden. Überwacht man nämlich den Mailverkehr vieler Quellen über eine bestimmte Zeitspanne hinweg, lassen sich die Botnetz-Teilnehmer eindeutig identifizieren. Deren Nachrichten-Streams weisen verschiedene gemeinsame Charakteristika auf, die sie von anderen E-Mail-Versendern unterscheiden.

Wie treffsicher Malware-Experten ein Netzwerk von Zombie-Computern mit dieser Methode erkennen, hängt von mehreren Parametern ab. Dazu zählt unter anderem die Art und Weise, wie Nachrichten-Streams miteinander verglichen werden. Auch die Anzahl der E-Mails und die Menge an isolierten Quellen beeinflussen das Ergebnis.

Einleitung

Nicht nur DDOS-Attacken, Identitätsdiebstahl und Traffic-Spionage sind im Internet weit verbreitet. Wenn es um die Verbreitung von Malware geht, kommen bevorzugt Botnetze zum Einsatz, die auch fast immer hinter auffällig hohen Spam-Aktivitäten stecken. Solche Netzwerke sind aufgrund der dynamischen IP-Adressen ihrer Teilnehmer allerdings schwierig aufzuspüren. Traditionelle Blacklist-Services sind hier wirkungslos.

Hier setzt die nun vorgestellte statistische Methode an, die von einem Standort gesendete E-Mails mit der elektronischen Post anderer Computer vergleicht. Im simpelsten Fall versenden alle Computer eines Botnetzes ein und dieselbe E-Mail. Ein solches Netzwerk ließe sich problemlos aufspüren, indem man die MD5-Hashes von verschiedenen Quellen sammelt und miteinander vergleicht. Versenden tausende von Computern E-Mails mit demselben MD5-Hash, so handelt es sich definitiv um ein Botnetz.

Will man nicht gegen Botnetze, sondern gegen den von ihnen verschickten Spam vorgehen, empfiehlt sich ein anderes Verfahren namens Distributed Checksum Clearinghouse (DCC). Dieses blockiert Spam mittels einer Hashes-Blacklist. Normalerweise lassen sich gleiche Muster jedoch nur schwer identifizieren, weil der Inhalt von E-Mails auch innerhalb einer Spam-Charge stark variiert. Zu den Nachrichtenteilen, die sich verändern lassen, gehören unter anderem der Text, die Anzahl und Größe der Attachments sowie die Bildergröße und die Art der Verschlüsselung.

Allerdings kann man für jede Quell-IP-Adresse die Spam-Sendungen der Größe nach sortieren und miteinander vergleichen. Sicherlich sind die von verschiedenen Rechnern verschickten E-Mails nicht völlig miteinander identisch. Weil die Malware-Experten dabei aber Funktionen und keine skalaren Werte betrachten, können sie Ähnlichkeiten aufdecken, sofern die Quellen zum selben Botnetz gehören.

In einer Welt ohne Botnetze wäre es schwierig, unter Millionen von willkürlich ausgewählten Computern diejenigen PCs aufzuspüren, die nahezu identische und mit Spam versehene E-Mails verschickt haben. Präzise Berechnungen und zahlreiche Experimente stützen diese These. Für einige isolierte Netzwerke ist die Wahrscheinlichkeit zudem sehr gering, dass ein „guter“ Computer aus Versehen einer „schlechten“ Gruppe zugeordnet wird. Diese so genannten False Positives sind fester Bestandteil der statistischen Methode.

Umsetzung

Das System, das Kaspersky Lab gegen Spam-Versand einsetzt, bewältigt eine große Menge von E-Mail-Transaktionen und lässt sich daher weitläufig einsetzen. Dabei senden Mail Transfer Agents (MTA) Informationen über die von ihnen empfangenen Nachrichten an einen oder mehrere Standorte, wo sie gesammelt und analysiert werden. IP-Adressen, die sich einem Botnetz zuordnen lassen, landen in Gruppen zusammengefasst auf Blacklists, die sich beispielsweise über eine einfache DNS-Anfrage abrufen lassen.

Als problematisch erweisen sich dabei jedoch die Quelladressen. Bei den meisten infizierten und in ein Botnetz eingegliederten Computern handelt es sich um Heim-PCs, die mit dem Netzwerk ihres Internet-Providers verbunden sind. Die vom Anbieter vergebenen IP-Adressen sind häufig dynamisch und damit nur wenige Tage oder Stunden gültig. Ein Anti-Spam-System muss also schnell auf elektronischen Werbemüll reagieren können. Im Idealfall landet eine verdächtige IP-Adresse automatisch auf einer Blacklist oder wird dort wieder gestrichen, sobald sie ungültig geworden ist.

Kaspersky Lab arbeitet seit Oktober 2006 gezielt daran, Botnetze zu identifizieren, die Spam versenden. Abbildung 1 zeigt das dabei eingesetzte Verfahren, das mit dem Urgent Detection System (UDS) eine bereits existierende Methode beinhaltet. Letztere wurde ursprünglich für die Spam-Filterung entwickelt, leistet aber als Transport-Modul in der Kaspersky-Lösung ebenso gute Dienste.

Wie die Grafik zeigt, gelangen E-Mails von den Quellen (gekennzeichnet mit „S“ wie Source) an ihre Bestimmungsorte („D“ für Destination). Bei letzteren handelt es sich um Mail-Systeme, die es vor Spam zu schützen gilt. In dieser schematischen Umsetzung untersucht die Kaspersky-Software ausschließlich die E-Mail-Größe und leitet diese zusammen mit der entsprechenden IP-Adresse an einen der UDS-Server weiter. Dieser übergibt die Informationen schließlich gebündelt an den Botnetz-Analysator. Aus dieser Sammlung entwirft das Programm eine Zusammenstellung von IP-Adressen, vergleicht diese mit bestehenden Botnetz-Teilnehmern und erstellt daraus eine Blacklist. Diese Informationen aktualisiert das System alle 2 Stunden und generiert sie nach 24 Stunden komplett neu.

Noch ein paar Worte zu der Art, wie die Kaspersky-Lösung die verschiedenen Zusammenstellungen miteinander vergleicht: Ein 1:1-Vergleich einiger Millionen IP-Pakete würde viele Stunden Rechenarbeit bedeuten. Um dieses Problem zeitlich in den Griff zu bekommen, braucht es einen effektiven Algorithmus. In der von Kaspersky Lab entwickelten Umsetzung liegt jede von einer bestimmten Anzahl von IP-Adressen verteilte Spam-Charge in einzelnen Teilen vor, die untereinander verglichen werden. Der Algorithmus selbst verwendet einen iterativen Prozess. Dieser erstellt in der ersten Wiederholung eine Liste von IP-Adressen, die grobe Annäherungen an Botnetze darstellen. Alle weiteren Iterationen bilden feiner abgestufte Netzwerk-Strukturen ab. Um die innerhalb von 24 Stunden eintreffenden Nachrichten-Streams auszuwerten, braucht der Kaspersky-Lab-Algorithmus etwa 60 bis 90 Minuten.


Abbildung 1

False Positives

Egal, ob das Kaspersky-System zur Spam-Abwehr oder zum Identifizieren von Botnetzen genutzt wird – Weil die Antiviren-Experten abschätzen müssen, wie viele „gute“ Hosts fälschlicherweise einem Botnetz zugeordnet werden, lautet die entscheidende Frage: „Wie zuverlässig sind die Ergebnisse?“ Die Schätzungen hängen sehr stark von der Vergleichsmethode der Spam-Quellen ab. Deshalb berücksichtigt Kaspersky Lab mittels eines metrischen Raums die räumliche Distanz zwischen den einzelnen Nachrichten-Streams. Abbildung 2 zeigt, wie dieser metrische Raum in einer Welt ohne Botnetze aussehen würde. Die Punkte in der Grafik entsprechenden dabei den Nachrichten-Versendern und sind innerhalb des Ausschnitts nahezu gleichmäßig angeordnet. In diesem Szenario ist es unmöglich, innerhalb eines geringen Radius viele Quellen abzudecken. Unter realen Umständen, also in einer Welt mit Botnetzen (Abbildung 3) treten Bereiche mit hoher Punktdichte auf. Diese lassen sich vollständig mit kreisförmigen Bereichen abdecken, die verhältnismäßig kleine Radien besitzen. Aus den Abbildungen geht auch eindeutig hervor, dass bei kleinerem Radius einerseits weniger Computer erfasst werden und zum anderen die Wahrscheinlichkeit von False Positives geringer ausfällt.

Um so viele False Positives wie möglich auszuschließen, werden zunächst diejenigen Spam-Quellen aus einem Zeitraum von 24 Stunden gespeichert, die sich außerhalb isolierter Botnetze befinden. Diese Computer repräsentieren eine botnetlose Welt (Abbildung 2). Wenn die Experten von Kaspersky Lab ein Botnetz einschätzen wollen, stellen sie dazu verschiedene und vor rund einem Monat oder länger gespeicherte 24-Stunden-Distributionen wieder her. Anschließend wählen sie eine repräsentative Sammlung von IP-Adressen aus dem Botnetz aus. Idealerweise sind das diejenigen, die sich am nächsten zum Mittelpunkt des oben beschriebenen kreisförmigen Bereichs befinden. Nun gilt es zu überprüfen, wie viele IP-Pakete aus der „botnetzlosen“ Welt nahe der Botnetz-Distribution liegen. Das Ergebnis gibt an, wie viele „gute“ Hosts zu den Botnetz-Computern gezählt werden. Um eine zuverlässige Aussage zu erhalten, muss diese Zahl möglichst gering sein und beispielsweise zwischen null oder zwei liegen. Größere Werte bedeuten, dass die Distribution zu „trivial“ ist, um sie für weitere Analysen nutzen zu können.

Im Gegensatz zur oben vorgestellten Methode ist es einfacher, die Komplexität von Botnetz-Quellen zu schätzen. Viele dieser IP-Sammlungen weisen fast immer auf ein Botnetz hin. Auch die „Pseudo-False-Positives“ dürfen nicht unerwähnt bleiben. So kann beispielsweise ein Computer E-Mails versenden, deren Inhalt ein Botnetz-Betreiber vorgibt. Machen diese Nachrichten den Großteil der elektronischen Post aus, wird der PC höchstwahrscheinlich keinem Botnetz zugeordnet, da zusätzliche Nachrichten die Identifizierung erschweren. Das ist nicht der Fall, wenn sich diese legitimen Nachrichten außerhalb des Anwendungsbereichs unseres Systems befinden. Daher ist es wünschenswert, die erstellten Blacklists an solche Clients zu geben, die zu den Distributionsdaten beitragen.


Abbildung 2


Abbildung 3

Einige Ergebnisse

Mit der Kaspersky-Lösung werden innerhalb von 24 Stunden durchschnittlich einige Dutzend Netzwerke isoliert. Jedes davon umfasst mehrere hundert oder sogar tausend Quellen. Als Beispiele dienen die beiden untenstehenden Botnetze, die im Juli 2007 entdeckt wurden.

Eines von ihnen wurde mehrere Wochen lang überwacht und setzte sich aus knapp 2000 Adressen zusammen, die größtenteils aus Russland stammen. Interessanterweise war dieses Botnetz während der Wochenenden nicht aktiv, und nur 20 bis 25 Prozent der IP-Adressen waren länger als einen Tag nach ihrer Entdeckung noch gültig. Die IP-Adressen des zweiten Netzwerks stammten aus Argentinien, Brasilien, China, Indien und anderen Ländern. Fast alle außerhalb Russlands gelegenen Netzwerke können auf Grund unzureichender statistischer Informationen nur ungenau dargestellt werden. Die beiden folgenden Diagramme zeigen die regionale Verteilung dieser Botnetze.


Abbildung 4-5

Die nächsten 12 Abbildungen zeigen typische Nachrichten-Streams, die von jeweils sechs Computern des ersten und zweiten Botnetzes erzeugt wurden. Die Überschrift jeder Grafik enthält die IP-Nummer, den Domainnamen, die Region und die Anzahl der E-Mails, die von diesem Host innerhalb von 24 Stunden versendet wurden. Während die x-Achse die Nachrichtengrößen in 100-Byte-Intervallen markiert, zeigt die y-Achse zeigt die Anzahl der Nachrichten. Ein Punkt mit X=5000 und Y=30 sagt also aus, dass der Host 30 Nachrichten verschickt hat, deren Größen zwischen 5000 und 5099 Bytes liegen.

Fazit

Im Rahmen der Analyse wurden viele Details angeschnitten, die die Umsetzung der beschrieben Methode betreffen, doch es verbleiben noch viel mehr Informationen zu diesem Thema, die nicht erwähnt wurden. Ist man allerdings mit dem Grundprinzip dieser Methode vertraut, kann man ihre wichtigsten Vor- und Nachteile einschätzen.

Das größte Problem besteht darin, dass zur Umsetzung dieser Technologie eine Vielzahl von statistischen Informationen aus verschiedenen Quellen benötigt wird. Für die Durchführung einer aussagekräftigen Analyse benötigt man Informationen über minimal einige Dutzend, besser einige hundert E-Mails für jede einzelne Quelle, was nicht immer realisierbar ist. Zudem werden die Spam-Mails ungehindert an die Anwender versendet, während die statistischen Daten zusammengetragen werden. Ein weiterer Nachteil liegt in den komplizierten Algorithmen der Informationsanalyse, die zur Erzielung annehmbarer Resultate ebenfalls sorgfältige Überprüfungen und Einstellungen erforderlich machen. Zu den Vorteilen der Methode zählen die einfache Umsetzung auf Kundenseite und der geringe Umfang an zu übermittelnden Informationen. Die Methode gehört ganz eindeutig zu den wenigen Technologien, die es ermöglichen, Zombienetze auf Grund ihrer Wechselbeziehungen zu bestimmten Host-Gruppen nahezu lückenlos einzugrenzen. Daher ist diese Technologie nicht nur im Kampf gegen Spam, sondern auch zu Forschungszwecken einsetzbar.

Die Weiterentwicklung dieser Technologie könnte auch die Analyse von Distributionen nach anderen Parametern als der Nachrichtengröße ermöglichen sowie die Analyse von Vektordistributionen, die für verschiedene charakteristische E-Mails gleichzeitig erstellt werden.


Abbildung 6


Abbildung 7


Abbildung 8


Abbildung 9


Abbildung 10


Abbildung 11


Abbildung 12


Abbildung 13


Abbildung 14


Abbildung 15


Abbildung 16


Abbildung 17

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.