Open Source Processing
Geheimdienst zum Selbermachen
Referent: Frank Rieger
Der Begriff "Open Source Processing" läßt sich am einfachsten mit
"Verarbeitung von Daten, die öffentlich zugänglich sind" beschreiben. Dabei
entstehen erst durch eine sinnvolle Filterung und Aufbereitung
Informationen. Werden Informationen so weit aufbereitet, daß sie
entscheidungsrelevant werden, kann man von Botschaften oder englisch von
Intelligence sprechen. Geht man von den einzelnen Daten aus, so läßt sich
durch 7 W-Fragen (Wer?, Was?, Wann?, Wo?, Mit wem?, Warum? und Womit?) ein
Ereignis ziemlich exakt beschreiben (der Referent, in der ehemaligen DDR
aufgewachsen, sprach von den "7 Stasi-Fragen"). Dabei könen die
verschiedensten Formen von "Open Sources" genutzt werden, z.B. Bibliotheken,
deklassifizierte Daten, Zeitschriften und Zeitungen, kommerzielle
Informationsdienste und Datenbanken, CD-ROMs und das Internet.
Diese Informationsquellen werden nicht nur von Privatleuten genutzt; so
ziehen z.B. die Geheimdienste ca. 80% Ihrer Informationen aus offenen
Quellen. Diese werden dann weiterbearbeitet, und erst durch den Gewinn an
Informationsinhalt gehören sie dann zu den Geheimdaten. Man geht davon aus,
daß der größte Teil der Geheiminformationen der Geheimdienste aus
Zeitungsausschnittsammlungen besteht. "Altbundeskanzler Schmidt hielt die
'Neue Zürcher Zeitung' für aktueller und akurater als
BND-Lageinformationen", wie Frank Rieger meinte.
Durch den rapiden Preisverfall bei Computerleistung und Speichermedien ist
es jetzt auch jedem Privatmenschen möglich, eine große Menge an Daten
zusammenzuführen und nach persönlich relevanten Kriterien zu verarbeiten,
dabei faßt eine 4 GB-Platte eine Volltext-Datenbank von 1 Million Seiten.
Eine mögliche Anwendung hierzu wurde am Rechner demonstriert, indem die
Daten der CD-ROM "D-Info" mit denen der CD "Gewußt wo!", einem
Branchenverzeichnis für bestimmte Großräume, in diesem Fall die Stadt
Berlin, zusammengeführt wurden und so zu jeder Berliner Adresse eine
geographische Koordinate ermittelt wurde. Aus den 1,3 Millionen
Telefonteilnehmern Berlins konnte so ein "telefonischer Stadtplan" erstellt
werden, in dem die verschiedensten Suchen möglich sind:
- Telefonvermittlungsstellenbezirke
- die Bevölkerungsdichte, bzw. bei bekannter Bevölkerungdichte schlechter
situierte Randgebiete
- Stadtviertel mit einem hohen Ausländeranteil (Suche nach ausländischen
Vornamen/Namen)
- wenig besiedelte Gebiete mit einem hohen Anteil an Frauen als
Telefonanschlußinhaberinnen
- Standorte für Existenzgründungen
- Suchen nach nicht-gelisteten Telefonnummern, dabei ist eine Eingrenzung
auf wenige Straßen ist meist möglich, in ländlichen Gebieten manchmal sogar
eine Eingrenzung auf das einzelne Haus...
Eine Verknüpfung mit weiteren Datenquellen (Newsgroups, Homepages mit Foto,
T-Online-Kennung) ermöglicht zu identifizierten Personen dann eine
Erstellung eines Personenprofils. Wenn man verschieden alte Daten
miteinander vergleicht, kann man mit verschiedenen Ausgaben der "D-Info"
z.B. schon Aussagen über Migrationen und Veränderungen der sozialen Struktur
erhalten.
Für die persönliche Nutzung kann man sich zum Beispiel im Internet
umschauen, wo man eher das Problem hat, daß die Informationsmenge zu groß
ist und sie nur mit großem Aufwand auf ein sinnvolles Maß reduziert werden
kann. Man kann problemlos personenbezogene Informationen, Produkt- oder
Firmen-Informationen beschaffen. Einige Internet-Dienste bieten auch
Informationsprocessing an, so liefert z.B. Paperboy automatisch generierte
Pressespiegel des Tages und deckt dabei 90% der deutschen Zeitungen ab.
Sucht man Informationen über Personen und deren Interessensgebiete, so hilft
eine Abfrage bei Deja News. Wenn
man auf komerzielle Datenbanken oder Informationsdienste zugreift, so hat
man meist eine geradezu kryptische Benutzeroberfläche und zahlt gelegentlich
gutes Geld für Informationen, die anderswo kostenlos erhältlich sind.
Außerdem geht man hier das Risiko ein, daß die Abfragen in Abfrageprofilen
ausgewertet werden.
Bei allen Informationen, die man sich beschafft, hat man aber immer gewisse
Probleme, und zwar zunächst die Bewertung der Glaubwürdigkeit:
- Ist die Quelle bekannt?
- Gab es aus dieser Quelle schon Fehlinformationen?
- Besteht die Gefahr einer gezielten Desinformation?
- Wie sind die Eigentums- und Einflußverhältnisse bei der Quelle?
- Wie aktuell sind die Daten (gerade CD-ROMs sind oft schon veraltet, wenn
sie auf dem Markt sind)?
- Hat man parallele Quellen zur Überprüfung?
- Sind die Daten vollständig?
Bei der Archivierung der Daten kommen dann die nächsten Probleme: Die
Datenmengen und Informationsvielfalt macht kooperatives Arbeiten mehrerer
Personen notwendig. Eine sinnviolle Indexierung ist schwierig; die
Informationsqualität läßt sich nicht aus der Anzahl der verwendeten Quellen
ableiten. Der Fluß der Aufbereitung (Data -> Information -> Intelligence) muß
beherrscht werden.
Insgesamt wurde gezeigt, daß sich heutzutage sehr genaue
Informationssammlungen auch von Privatleuten mit vertretbar geringem Aufwand
erzeugen lassen. Deshalb muß man auch mit seinen eigenen Daten entsprechend
bewußt umgehen, da Firmen die verfügbaren Informationsquellen in jedem Fall
auswerten - ganz zu schweigen von den Geheimdiensten.
Derk Marko Reckel