Open Source Processing

Chaos Communication Congress '97
Hamburg, Eidelstedter Bürgerhaus, 27. - 29.12.1997

[an error occurred while processing this directive]

Open Source Processing

Geheimdienst zum Selbermachen

Referent: Frank Rieger

Der Begriff "Open Source Processing" läßt sich am einfachsten mit "Verarbeitung von Daten, die öffentlich zugänglich sind" beschreiben. Dabei entstehen erst durch eine sinnvolle Filterung und Aufbereitung Informationen. Werden Informationen so weit aufbereitet, daß sie entscheidungsrelevant werden, kann man von Botschaften oder englisch von Intelligence sprechen. Geht man von den einzelnen Daten aus, so läßt sich durch 7 W-Fragen (Wer?, Was?, Wann?, Wo?, Mit wem?, Warum? und Womit?) ein Ereignis ziemlich exakt beschreiben (der Referent, in der ehemaligen DDR aufgewachsen, sprach von den "7 Stasi-Fragen"). Dabei könen die verschiedensten Formen von "Open Sources" genutzt werden, z.B. Bibliotheken, deklassifizierte Daten, Zeitschriften und Zeitungen, kommerzielle Informationsdienste und Datenbanken, CD-ROMs und das Internet.

Diese Informationsquellen werden nicht nur von Privatleuten genutzt; so ziehen z.B. die Geheimdienste ca. 80% Ihrer Informationen aus offenen Quellen. Diese werden dann weiterbearbeitet, und erst durch den Gewinn an Informationsinhalt gehören sie dann zu den Geheimdaten. Man geht davon aus, daß der größte Teil der Geheiminformationen der Geheimdienste aus Zeitungsausschnittsammlungen besteht. "Altbundeskanzler Schmidt hielt die 'Neue Zürcher Zeitung' für aktueller und akurater als BND-Lageinformationen", wie Frank Rieger meinte.

Durch den rapiden Preisverfall bei Computerleistung und Speichermedien ist es jetzt auch jedem Privatmenschen möglich, eine große Menge an Daten zusammenzuführen und nach persönlich relevanten Kriterien zu verarbeiten, dabei faßt eine 4 GB-Platte eine Volltext-Datenbank von 1 Million Seiten.

Eine mögliche Anwendung hierzu wurde am Rechner demonstriert, indem die Daten der CD-ROM "D-Info" mit denen der CD "Gewußt wo!", einem Branchenverzeichnis für bestimmte Großräume, in diesem Fall die Stadt Berlin, zusammengeführt wurden und so zu jeder Berliner Adresse eine geographische Koordinate ermittelt wurde. Aus den 1,3 Millionen Telefonteilnehmern Berlins konnte so ein "telefonischer Stadtplan" erstellt werden, in dem die verschiedensten Suchen möglich sind:

Telefonvermittlungsstellenbezirke
die Bevölkerungsdichte, bzw. bei bekannter Bevölkerungdichte schlechter situierte Randgebiete
Stadtviertel mit einem hohen Ausländeranteil (Suche nach ausländischen Vornamen/Namen)
wenig besiedelte Gebiete mit einem hohen Anteil an Frauen als Telefonanschlußinhaberinnen
Standorte für Existenzgründungen
Suchen nach nicht-gelisteten Telefonnummern, dabei ist eine Eingrenzung auf wenige Straßen ist meist möglich, in ländlichen Gebieten manchmal sogar eine Eingrenzung auf das einzelne Haus...

Eine Verknüpfung mit weiteren Datenquellen (Newsgroups, Homepages mit Foto, T-Online-Kennung) ermöglicht zu identifizierten Personen dann eine Erstellung eines Personenprofils. Wenn man verschieden alte Daten miteinander vergleicht, kann man mit verschiedenen Ausgaben der "D-Info" z.B. schon Aussagen über Migrationen und Veränderungen der sozialen Struktur erhalten.

Für die persönliche Nutzung kann man sich zum Beispiel im Internet umschauen, wo man eher das Problem hat, daß die Informationsmenge zu groß ist und sie nur mit großem Aufwand auf ein sinnvolles Maß reduziert werden kann. Man kann problemlos personenbezogene Informationen, Produkt- oder Firmen-Informationen beschaffen. Einige Internet-Dienste bieten auch Informationsprocessing an, so liefert z.B. Paperboy automatisch generierte Pressespiegel des Tages und deckt dabei 90% der deutschen Zeitungen ab.

Sucht man Informationen über Personen und deren Interessensgebiete, so hilft eine Abfrage bei Deja News. Wenn man auf komerzielle Datenbanken oder Informationsdienste zugreift, so hat man meist eine geradezu kryptische Benutzeroberfläche und zahlt gelegentlich gutes Geld für Informationen, die anderswo kostenlos erhältlich sind. Außerdem geht man hier das Risiko ein, daß die Abfragen in Abfrageprofilen ausgewertet werden.

Bei allen Informationen, die man sich beschafft, hat man aber immer gewisse Probleme, und zwar zunächst die Bewertung der Glaubwürdigkeit:

Ist die Quelle bekannt?
Gab es aus dieser Quelle schon Fehlinformationen?
Besteht die Gefahr einer gezielten Desinformation?
Wie sind die Eigentums- und Einflußverhältnisse bei der Quelle?
Wie aktuell sind die Daten (gerade CD-ROMs sind oft schon veraltet, wenn sie auf dem Markt sind)?
Hat man parallele Quellen zur Überprüfung?
Sind die Daten vollständig?

Bei der Archivierung der Daten kommen dann die nächsten Probleme: Die Datenmengen und Informationsvielfalt macht kooperatives Arbeiten mehrerer Personen notwendig. Eine sinnviolle Indexierung ist schwierig; die Informationsqualität läßt sich nicht aus der Anzahl der verwendeten Quellen ableiten. Der Fluß der Aufbereitung (Data -> Information -> Intelligence) muß beherrscht werden.

Insgesamt wurde gezeigt, daß sich heutzutage sehr genaue Informationssammlungen auch von Privatleuten mit vertretbar geringem Aufwand erzeugen lassen. Deshalb muß man auch mit seinen eigenen Daten entsprechend bewußt umgehen, da Firmen die verfügbaren Informationsquellen in jedem Fall auswerten - ganz zu schweigen von den Geheimdiensten.

Derk Marko Reckel

[ Start | Inhalt | Impressum | Hinweise | Fahrplan ]

Veröffentlichung ausdrücklich erwünscht, Belegexemplar erbeten.