Beitragsseiten

3 Datenmodellierung in Geographischen Informationssystemen

Raumbezogene Objekte enthalten sowohl eine quantitative (geometrische) als auch eine qualitative (thematische) Komponente. Die Geometrie ist in einem einheitlichen Bezugsrahmen definiert, der i.d.R. durch ein Koordinatensystem hergestellt wird, und gibt die Position des Objektes im Raum an. Diese Positionsdaten können darüberhinaus hinsichtlich ihrer Nachbarschaftsgeometrie, der topologischen Situation, beschrieben sein. Über Sachdaten bzw. Attribute kann jedes Objekt einer Thematik zugeordnet werden (BILL/ FRITSCH 1994, S. 12). Diese Sichtweise läßt sich um temporale Bezüge erweitern, die aber in konventionellen Geographischen Informationssystemen bislang nicht berücksichtigt werden (BILL 1996, S. 359).

Die technische Realisierung der Datenmodellierung weist im GIS-Bereich einige Besonderheiten auf, die sie deutlich von der in anderen Informationssystemen unterscheidet. Ausgangsbasis der Datenmodellierung bei Standardanwendungen sind Datenbankmanagementsysteme mit einer Dominanz des relationalen Typs. Diese finden sich auch in GIS-Applikationen, wo sie aber in unterschiedlichem Maße integriert sind.

3.1 Aufbau der Datenmodellierung

Da sich die vorliegende Arbeit mit dem grundsätzlichen Aufbau eines GIS beschäftigt, muß die Datenmodellierung hier in zwei Bereiche unterschieden werden:

Zunächst ist festzustellen, wie Raum an sich in einer abstrakten Form in Geographischen Informationssystemen implementiert ist. Hierbei steht nicht ein konkreter Anwendungszweck im Vordergrund, sondern die Operationalisierung des Raumbegriffs an sich, die der Modellierung räumlich relevanter Fragestellungen vorausgeht.
Von dieser Basis ausgehend können Anwender konkrete Anwendungsprobleme formulieren, die auf den von einem GIS angebotenen Strukturen aufbauen.

Eine Analogie hierzu findet man im konventionellen Datenbankbereich, wo zwischen dem logischen Datenbankmodell einerseits und dem Datenbankschema andererseits unterschieden wird. Ersteres liefert die Beschreibungsmethode, während letzteres eine Abstraktion einer Anwendungsproblematik darstellt (LEE 1995, S. 2).

Abbildung 5: Datenmodellierung in GIS

Quelle: Eigener Entwurf

Wendet man diese Zweiteilung auf die in Abbildung 3 dargestellten Ebenen der Datenmodellierung in Informationssystemen nach ANSI-SPARC an, ergibt sich folgende Erweiterung (vgl Abbildung 5):

Auf der konzeptionellen Ebene sind rein räumliche Konzepte von anwendungsbezogenen Konzepten abzugrenzen. Räumliche Konzepte beschreiben und strukturieren Raumwahrnehmungen, um eine Orientierung zu ermöglichen. Anwendungsbezogene Konzepte bzw. Fachkonzepte beschäftigen sich mit einer bestimmten Thematk, die räumliche Bezüge verwendet.
Zur Aufnahme räumlicher Daten muß das logische Datenbankmodell entsprechend erweitert werden, um die geometrischen, thematischen und zeitbezogenen Komponenten geographischer Informationen abzubilden.

3.2 Räumliches Modellieren

3.2.1 Räumliche Konzepte

Allgemeine räumliche Konzepte dienen den Menschen dazu, ihre Raumwahrnehmungen zu organisieren und zu strukturieren. Je nach Anwendungszweck kommen dabei unterschiedliche Konzepte zum Einsatz: zur Orientierung in der unmittelbaren Umgebung bietet sich etwa ein kartesisches Koordinatensystem an, während die Navigation in einem Auto die Strukturierung des Raumes in Gestalt einer Netzwerktopologie von Straßen erfordert. Dabei bleibt die Realität selbst unverändert, aber das zugrundeliegende Raummodell kann in Abhängigkeit des Anwendungszwecks variieren (EGENHOFER/ HERRING 1991, S. 228f.; FRANK 1992, S. 411f.; CAR/ FRANK 1994, S. 151).

Ein konzeptionelles räumliches Modell kann prinzipiell unter zwei Gesichtpunkten gebildet werden (FLIEDNER 1987, S.72; HUBER/SCHNEIDER 1999, S. 28):

Raum als Kontinuum

Betrachtet man Raum als Kontinuum mit variablen Eigenschaften an verschiedenen Orten, so kann man geographische Informationen auf ein Tupel reduzieren:

T = <x, y, z₁, z₂,..., z_n>

wobei durch (x,y) die Position gegeben ist und z für n räumliche Variablen für jede Position steht. Erweitert man diesen zweidimensionalen Fall der Ebene um die vertikale Dimension h und die Zeit t erhält man das Tupel <x, y, h, t, z₁, z₂,..., z_n> (GOODCHILD 1992, S. 402; SCHNEIDER 1995, S. 18f.).

Raum als Diskreta

Der Raum setzt sich aus einer Menge gegeneinander abgegrenzter Entitäten mit räumlichen Eigenschaften zusammen. Der Raum kann nur aufgrund der in ihm befindlichen Entitäten definiert werden. Das Identifizieren von Objekten kann zu unterschiedlichen Ergebnissen führen, da die zugrundeliegende Klassifizierung abhängig ist von der übergeordneten Thematik, dem Maßstab (Stadt als Fläche oder als Punkt) und der subjektiven Interpretation des einzelnen Bearbeiters (BURROUGH 1992, S. 397).

Dieses Begriffspaar kann alternativ auch als absoluter und relativer Raum umschrieben werden, wobei beide Sichten durchaus alternative Prinzipien darstellen können. Beispielsweise kann man sich die administrative Gliederung in Gemeinden als einzeln abgrenzbare Objekte vorstellen, oder die gesamte übergeordnete Fläche wie ein Bundesland als eine Punktmenge betrachten, wobei für jeden Punkt anzugeben ist, zu welcher Gemeinde er gehört. Dennoch lassen sich Beispiele finden, in denen die Übertragung zwischen diesen Sichten nur eingeschränkt möglich ist. Topographische Höhenkarten, Bodentypenkarten oder Darstellungen zur Temperaturverteilung in einer Region besitzen die gemeinsame Eigenschaft, daß hier der Raum als Gesamtes flächendeckend hinsichtlich einer bestimmten Thematik betrachtet wird, während ein Stadtführer in Kartenform einzelne Objekte und ihre relative Lage zueinander erfaßt (MARK 1999, S. 82).

In der GIS-Praxis als auch in der Kartographie lassen sich Beispiele finden, die auf unterschiedlichen räumlichen Konzepten basieren. Manche dieser Konzepte lassen sich nicht direkt in einem Programm implementieren, da sie auf unscharf definierten Begriffen wie „nah“ oder „fern“ aufbauen, andere sind zwar formal definiert, beinhalten aber Elemente wie unendliche Punktmenge, die zunächst in eine diskrete Form übertragen werden müssen. (FRANK 1992, S. 412; SCHNEIDER 1995, S. 14ff.; ERWIG/ SCHNEIDER 1997, S.3ff.):

Punktmengen: Der Raum wird durch eine unendliche Menge dimensionsloser Punkte gebildet, die ein Kontinuum darstellen. Jeder Punkt kann anhand seiner Koordinaten identifiziert werden. Zumindest theoretisch können für jeden Punkt zusätzliche Attributwerte angegeben werden, die bestimmte Eigenschaften dieses Punktes beschreiben.
Thematische Oberflächen: Verknüpft man einen Raumausschnitt mit einem Attribut, so erhält man eine kontinuierliche Oberfläche, die die Verteilung der Attributwerte zeigt. Die Attributwerte können von Punk zu Punkt variieren bzw. bilden kontinuierliche Übergänge, oder die Werte ändern sich abrupt an bestimmten Grenzen.
Euklidische Geometrie: Hier werden Punkte und infinite Linien behandelt, für die die anwendbaren Operationen über Axiome definiert sind. Es existiert eine Abbildung in einen Koordinatenraum, in dem jeder Punkt durch ein Wertepaar der reellen Zahlen festgelegt ist.
Graphen: Ein Graph besteht aus topologischen Knoten und Kanten, die miteinander verbunden sind. Mit Hilfe der Topologie können Nachbarschaftsbeziehungen zwischen Geo-Objekten dargestellt werden, wobei eine Generalisierung der Metrik und der euklidischen Koordinaten vollzogen wird (BREUNIG 1999, S. 41). Die Graphentheorie liefert eine Anzahl an Algorithmen, die in GIS-Anwendungen zur Analyse von Netzwerkproblemen angewendet werden.
Partitionen: Der Gesamtraum wird in einzelne, paarweis disjunkte Zellen zerlegt, die sich jeweils in einer Eigenschaft von ihren Nachbarzelle unterscheiden. Beispiele für dieses Konzept finden sich in der Darstellung der Besitzverhältnisse von Parzellen oder in Bodenkarten.
Einzeln abgrenzbare Entitäten: Verzichtet man auf die Bedingung, daß alle Teilflächen disjunkt sein müssen, können auf dieser Basis einzeln abgrenzbare Entitäten definiert werden, die den Gesamtraum nicht notwendigerweise vollständig ausfüllen.

3.2.2 Geometrische Datenmodelle

Für die Realisierung eines GIS muß ein geometrisches Datenmodell entwicklt werden, daß die allgemeinen Konzepte formalisiert und diskret abbildet. Diese formale Ebene ist dadurch charakterisiert, daß sie eine algebraische Struktur darstellt, die sich aus abstrakten Individuen, den Relationen zwischen diesen sowie den erlaubten Operationen aufbaut. (BITTNER/ FRANK 1997, S. 13). Mit Hilfe eines räumlichen Bezugssystems können die geometrischen sowie die darauf aufbauenden toplogischen Eigenschaften eines Geo-Objektes definiert werden. Das wichtigste Bezugssystem in geowissenschaftlichen Anwendungen ist ein kartesisches Koordinatensystem mit paarweise rechtwinkligen Koordinatenachsen in Kombination mit der Euklidischen Metrik. Ein metrischer Raum ist in der Mathematik durch eine Funktion d(p, p) → R definiert, die die Distanz zwischen zwei Punkten p darstellt und bestimmte Axiome erfüllen muß (GATRELL 1991, S. 120f.). Für die Euklidische Metrik im zweidimensionalen Raum gilt beispielsweise für die Distanz zweier Punkte p₁(x₁, y₁) und p₂(x₂, y₂):

In GIS-Applikationen kommen aber auch andere Metriken zur Anwendung, in der andere Distanzfunktionen definiert sind. Beispielsweise wird in der sog. Manhatten-Metrik die Entfernung zwischen zwei Punkten nicht anhand einer geradlinigen, direkten Verbindung berechnet, sondern als die kürzeste Verbindung durch ein rechtwinklig angelegtes Gitter. Weitere Variationen der Distanzfunktion ergeben sich, wenn die Entfernung zwischen zwei Punkten nicht nur im Sinne einer ausschließlich räumlichen Distanz, sondern als „Erreichbarkeit“ interpretiert wird. Dabei können Wegstrecken mit zusätzlichen Gewichten bzw. Widerständen versehen werden, um z.B. in einer GIS-gestützten Analyse die unterschiedliche Qualität in der Verkehrsinfrastruktur zu simulieren (COUCLELIS 1999, S. 30).

Die nichtmetrischen räumlichen und strukturellen Beziehungen beliebiger Elemente in abstrakten Räumen behandelt die Topologie. Die Aufgabe besteht darin, topologische Invarianten zu bestimmen, die von metrischen Deformationen unabhängig sind. Die algebraische Topologie wird in GIS für Konsistenzprüfungen verwendet (vgl. Kapitel 6.1.1), während mit Hilfe der mengentheoretischen Topologie Beziehungen zwischen Geo-Objekten wie „überlappt“, „ist innerhalb“ oder „berührt“ beschrieben werden (BILL/ FRITSCH 1994, S.220 ff.).

Im GIS-Bereich werden zwei geometrische Datenmodelle verwendet (BARTELME 1995, S. 46ff.):

Das Rastermodell teilt den Interessensbereich in Zellen mit homogener Thematik auf. Dieses Mosaik kann ein regelmäßiges Gitter mit quadratischen Maschen (Pixel) darstellen, oder eine unregelmäßige Struktur besitzen. Werden beispielsweise die Teilflächen durch Dreiecke repräsentiert, spricht man von einem triangulated irregular network (TIN), das für digitale Höhenmodelle verwendet wird.
Die Grundelemente des Vektormodells sind Punkte und Linien, wobei Flächen durch einen geschlossenen Linienzug gebildet werden. Diesen Elementen werden Attribute zugeordnet, die ihren thematischen Bezug beschreiben

3.2.3 Geometrische Datenstrukturen

Während das Datenmodell festlegt, welche Operationen ausgeführt werden können, definiert die Datenstruktur, wie diese Operationen tatsächlich auszuführen sind. Die zwei wichtigsten Datenstrukturen im GIS-Bereich sind Raster- und Vektorstrukturen, wobei hier eine Unterscheidung zwischen den oben beschriebenen geometrischen Datenmodellen und den Datenstrukturen vorzunehmen ist. Beispielsweise werden digitale Geländemodelle mit Hilfe von Linienstrukturen aufgebaut, sind also von der Datenstruktur her den Vektoren zuzuordnen, während das geometrische Datenmodell ein Raster darstellt. Das Rastermodell spezifiziert lediglich, daß eine Zerlegung in Zellen vorgenommen wird, wobei dabei noch nichts über die physische Organisation der Daten ausgesagt ist (RAPER/MAGUIRE 1992, S. 389).

Die gleichzeitige Existenz mehrerer Datenstrukturen deutet darauf hin, daß eine qualitative Bewertung einzelner Lösungen nur vor dem Hintergrund einer konkreten Anwendung möglich, ist und jede Datenstruktur hinsichtlich einer Problemstellung Vorteile aufweist, für andere aber völlig ungeeignet ist. Rasterstrukturen eignen sich hervorragend für Aufgabenstellungen, in denen Attributwerte flächendeckend betrachtet werden und stark variieren, wie z.B. in meteorologische Anwendungen, sind aber nahezu unbrauchbar für Netzwerkanalysen (FRANK 1992, S. 415; RAPER/MAGUIRE 1992, S. 389).

Alle räumlichen Datenstrukturen enthalten grundsätzlich metrische Informationen über die Form und Position eines Geo-Objekts. Einige verwalten darüberhinaus auch topologische Beziehungen zu anderen Geo-Objekten und erleichtern damit räumliche Analysen (RAPER/MAGUIRE 1992, S. 389).

Vektorstrukturen

Nachfolgend ein kurzer Überblick über die wichtigsten Vektordatenstrukturen (RAPER/MAGUIRE 1992, S. 389; DEMERS 1997, S. 112f.):

Spaghetti: Diese unstrukturierte Form stellt die einfachste Möglichkeit dar, räumliche Daten in Vektorform darzustellen. Jedes Geo-Objekt wird durch eine geordnete Liste von x/y- Koordinaten repräsentiert. Der Schnittpunkt zweier Linien muß nicht durch einen Knoten gebildet werden. Die Topologie wird nicht explizit erfaßt und muß im Bedarfsfall anhand der Geometrie ermittelt werden.

„Link and Node“: Diese in der englischsprachigen Literatur auch als „spaghetti and meatball“ bezeichnete Struktur erweitert den reinen Spaghetti-Ansatz dahingehend, daß sich schneidende Linien einen gemeinsamen Schnittpunkt teilen müssen und eingeschlossene Flächen identifiziert werden. Diese Flächen können mit Attributen verknüpft („link“) werden. In einigen Systemen wie AutoCAD MAP ist dies so realisiert, daß in jeder Fläche ein Punkt plaziert wird, über den diese Verknüpfung aufgebaut werden kann. Der Punkt steht dann stellvertretend für die eingeschlossene Fläche, in der er sich befindet. Die Topologie ist ist nur für Flächen und die sie begrenzenden Linien erfaßt, andere Beziehungen wie die Nachbarschaft zweier Flächen kann über die gemeinsame Randlinie ermittelt werden.

Hierarchisch: Diese Struktur, die u.a. in CAD-basierten Systemen anzutreffen ist, verknüpft jedes Polygon mit seinen Randlinien und diese Linien wiederum mit jedem Stützpunkt.

POLYVRT: Diese von PEUCKER und CHRISMAN (1975) entwickelte und in der PolygonConverter-Software implementierten Struktur stellt die gemeinsame Grenzlinie benachbarter Polygone in den Mittelpunkt. Für jede Linie wird Anfangs- und Endknoten sowie Verweise auf die links und rechts liegenden Polygone erfaßt. Damit wird die topologische Nachbarschaftsbeziehung zwischen zwei Polygonen explizit abgebildet. Eine ähnliche Datenstruktur verwendet ARC/INFO von ESRI.

Rasterstrukturen

Da Rasterstrukturen in der vorliegenden Arbeit nicht ausführlich betrachtet werden sollen, erfolgt hier nur ein kurzer Überblick. Rasterdaten entstehen durch Scannen von Karten und Plänen oder auf direktem Weg über Digitalkameras, wie dies bei Satellitenbildern der Fall ist. Über die Geokodierung wird das Rasterbild in Bezug zu einem Koordinatensystem gesetzt. Erweiterungen dieser Grundstruktur zielen vor allem darauf ab, den Speicherbedarf von Rasterdaten zu begrenzen. Dazu werden beispielsweise Verfahren wie die Lauflängenkodierung oder hierarchische Zerlegungen wie der Quadtree verwendet. Die bekanntesten Software-Systeme in diesem Bereich sind IDRISI, GRASS und ARC/INFO – GRID, sowie SPANS, das Rasterstrukturen in Quadtrees speichert (RAPER/MAGUIRE 1992, S. 390; EBDON 1992, S.471f.).

3.3 Thematisches Modellieren

3.3.1 Das Layerprinzip

Mit Hilfe des Layerkonzepts wird ein Raumausschnitt in einzelne Informationsschichten unterteilt. Jede Thematik (z.B. Grundstücke) wird separat in einzelnen Ebenen (Layer, Coverages) erfaßt und geometrisch abgebildet. Dabei muß vorausgesetzt werden, daß an jeder Stelle des betrachteten Raumes bezüglich der Thematik ein eindeutig definierter Zustand herrscht, und alle Layer hinsichtlich ihrer Metrik, des Maßstabs und der Genauigkeit einheitlich sind. Diese Vorgehensweise läßt sich direkt aus dem Folienprinzip der klassischen Kartographie ableiten, wobei während der Kartenerstellung einzelne Folien mit verschiedenen thematischen Inhalten (z.B. Gewässerfolie, Grünflächenfolie, Schriftfolie) übereinandergelegt werden (BARTELME 1995, S. 42).

Abbildung 6: Layerprinzip

Quelle: BILL/ FRITSCH 1994, S. 17.

3.3.2 Das Objektklassenprinzip

Bei der Bildung von Objektklassen werden verschiedene thematische Mengen hierarchisch angeordnet. Dabei wird zugrundegelegt, daß sich unterschiedliche thematische Klassen jeweils zu einer übergeordneten Klasse zusammenfassen lassen. Beispielsweise können in einem Landinformationssystem einzelne Nutzungsparzellen (z.B. Feuchtbiotop, Grünland, Siedlung) zu einer Oberklasse „Landnutzung“ zusammengefaßt werden. (BILL/ FRITSCH 1994, S. 241ff.).

3.4 Datenbankmanagementsysteme

Im Datenbankbereich haben sich unterschiedliche logische Datenmodelle herausgebildet, die sich darin unterscheiden, welche Elemente dem Anwender zur Verfügung stehen und wie diese miteinander verknüpft werden können (KEMPER/EICKLER 1996, S. 23):

Netzwerkmodell
Hierarchisches Datenmodell
Relationales Datenmodell
Objektorientiertes Datenmodell
Deduktives Datenmodell

Während das Netzwerk- und das hierarchische Datenmodell heute fast nur noch von historischer Bedeutung sind und lediglich in Altinstallationen anzutreffen sind, besitzen relationale Datenbanksysteme eine marktbeherrschende Position. Das deduktive Modell stellt eine Erweiterung des Relationalen Modells um eine Regel- bzw. Deduktionskomponente dar, befindet sich aber noch im Forschungsstadium (ABDELMOTY/ WILLIAMS/ PATON 1992, S. 443). Das objektorientierte Datenmodell soll im Verlauf der Arbeit als Alternative im GIS-Bereich vorgestellt werden. Da Geographische Informationssystem heute in der Regel auf relationalen Datenbankmanagementsystemen (RDBMS) aufbauen, soll dieser Typ im Folgenden näher betrachtet werden.

Strukturteil

In relationalen Datenbankmanagementsystemen werden Daten und die Beziehungen zwischen diesen Daten in einfachen, zweidimensionalen Matrizen verwaltet. Formal betrachtet sind diese Matrizen als Relationen definiert, die jeweils eine Menge gleichartiger Tupel zusammenfassen. In einer präzisen Definition wird zwischen dem Relationenschema als der strukturellen Beschreibung einerseits, und der Relation als eine Instanz dieses Schemas in einer Datenbank andererseits unterschieden. Das Datenbankschema ist dann eine Menge von Relationenschemen, und eine Menge Relationen bilden eine Datenbank. Jede Relation ist in ihrer Struktur durch ihre Attribute festgelegt und jedem Attribut ist ein Wertebereich (Domäne) zugeordnet, der die gültigen Werte für dieses Attribut umfaßt (WORBOYS 1999, S. 375). Da die Relation als eine mathematisch definierte Menge aufgefaßt wird, muß jedes Tupel innerhalb einer Relation, d.h. jedes Element der Menge, eindeutig identifizierbar sein. Dazu wird für jede Relation ein Attribut bzw. eine Kombination mehrerer Attribute als Primärschlüssel definiert, der die geforderte Eigenschaft erfüllt. Durch diesen identifizierenden Charakter des Primärschlüssels kann er als Verweis auf einen bestimmten Datensatz benutzt werden (HEALY 1991, S. 257f.). Übertragen auf ein RDBMS werden die Daten in einfachen Tabellen gespeichert. Jede Zeile einer Tabelle bildet einen zusammenhängenden Datensatz und jede Spalte entspricht einem Attribut mit den jeweiligen Werten für jedes Tupel (WORBOYS 1999, S. 375).

Operationenteil

In der von CODD 1970 definierten Relationenalgebra sind folgende Operationen festgelegt (HEUER 1992, S.63f.):

Selektion: Die Selektion wählt durch die Angabe von Selektionsbedingungen Tupel aus einer Relation aus.
Projektion: Über die Projektion kann die Sicht auf bestimmte Attribute einer Relation beschränkt werden.
Join: Über gemeinsame Attribute können zwei Relationen miteinander verknüpft werden. Es werden jeweils Tupel mit gemeinsamen Attributwerten zu einem neuen Tupel verknüpft.
Mengenoperationen: Die üblichen Mengenoperationen Vereinigung, Differenz und Durchschnitt können nur auf Relationen angewendet werden, die über dieselbe Struktur verfügen.

Die Relationenalgebra ist abgeschlossen, d.h. jede der definierten Operationen hat wiederum eine Relation zu Ergebnis (KEMPER/EICKLER 1996, S. 64). Diese Algebra ist in Form der Structured Query Language (SQL) realisiert, mit der sowohl Abfragen formuliert werden können, als auch die Erstellung eines Datenbankschemas und die Manipulation der Daten möglich ist (WORBOYS 1999, S. 376)

Integritätsregeln

Beim Entwurf der Relationen sind die sog. Normalformen einzuhalten. Die zwei wesentlichsten Bedingungen, die durch diese Regeln erfüllt werden sollen, sind folgende:

Atomisierung der Attributwerte: jede Relation enthält nur noch einfache Attribute, die nicht mehr weiter unterteilt werden können (z.B. einzelne Zahlen oder Zeichenketten). Strukturierte Datentypen wie z.B. zusammengesetzte Typen oder Listen sind nicht erlaubt.
Funktionale Abhängigkeit: Jedes Nicht-Schlüsselattribut ist voll funktional abhängig von seinem Primärschlüssel.

Idealtypisch repräsentiert in einer voll normalisierten Datenbank jedes Attribut einen Fakt seines Primärschlüssels (HEALY 1991, S. 259). In der Praxis werden Datenbanken aus Performanzgründen wieder denormalisiert, da sonst aufwendige Verknüpfungen durchgeführt werden müssen. Dennoch sind die Normalformen ein wichtiges Instrument während der Designphase eines Informationssystems, da hiermit Redundanzen und Abhängigkeiten im Datenmodell entdeckt und durch einen entsprechende Implementierung konsistenzerhaltend behandelt werden können.

3.5 GIS-spezifische Realisierungen

3.5.1 CAD-basierte Lösungen

Die einfachste Lösung zur Realisierung eines GIS stellen Erweiterungen bestehender CAD-Applikationen dar. Systeme wie AutoCAD-Map von Autodesk, CADdy-Info von Ziegler oder MicroStation von Bentley-Systems bieten die Möglichkeit, graphische Elemente mit Sachdaten zu verknüpfen und damit zusätzliche alphanumerische Informationen zu einem Objekt zu hinterlegen. Obwohl diese Systeme nur sehr beschränkte analytische Fähigkeiten aufweisen, sind sie vor allem im ingenieurtechnischen und planerischen Bereich durchaus verbreitet, da der CAD-Kern die Herstellung von präzisen Planunterlagen nach formalen Richtlinien mit Detailzeichnungen erleichtert. Aufgrund der mangelnden Unterstützung weiterführender Konzepte zur Informationsverarbeitung und –auswertung ist aber ihre Einordnung als Geographisches Informationssystem durchaus umstritten (BILL/ FRITSCH 1994, S. 39f.).

3.5.2 Hybride Systeme

Relationale Datenbanken haben sich zwar zur Speicherung umfangreicher alphanumerischer Daten bewährt, aber die Verwaltung hochstrukturierter Daten wie Vektorgeometrien ist mit einem enormen Performanzverlust verbunden, da diese Strukturierung der Daten beim Abruf durch das System wieder hergestellt werden muß. Das führte bei den GIS-Herstellern dazu, alle geometrischen und topologischen Daten in einem proprietären Dateisystem abzulegen, das programmtechnisch hinsichtlich eines effizienten Zugriffs optimiert werden kann, während die Sachdaten in einem herkömmlichen RDBMS verwaltet werden. Dabei werden die Geometrien in Layern organisiert, denen eine Tabelle mit thematischen Attributen zugeordnet ist (BATTY 1992, S. 453f.). Das bekannteste Beispiel für diese hybride Datenverwaltung ist das GIS ARC/INFO von ESRI.^¹ Die Integration beider Systeme erfolgt über eine eineindeutige Verknüpfung zwischen Geometrie- und Sachdaten. Jedem graphischen Element im Dateisystem wird ein Identifizierer (ID) zugeordnet, der in einer Tabelle des RDBMS als Primärschlüssel fungiert (HEALY 1991, S. 260f.; ZIPF 1996, S. 30f.).

Für diese GIS-Typen wird häufig der Begriff „geo-relationale Systeme“ verwendet, um die Verbindung zwischen einem „geographischen“ Dateisystem und einer relationalen Datenbank anzudeuten. Dieser Praxis soll hier nicht gefolgt werden, da dieser Begriff in der Theorie räumlicher Datenbanken bereits durch GÜTING vorbelegt ist, und dort eine Erweiterung des Relationalen Modells um räumliche Datentypen und Operatoren beschreibt (vgl. GÜTING 1988).

Die Architektur der hier dargestellten Systeme wirft aber eine Reihe von Problemen auf. Die Aufteilung in einzelne thematische Layer hilft zwar, die Komplexität der Realwelt durch Zerlegung zu reduzieren, andererseits erzeugt es ein hohes Maß an Redundanz bei den geometrisch-topologischen Daten, sofern diese in einzelnen Dateien entsprechend der Layerstruktur abgelegt werden. Topologische Datenstrukturen berücksichtigen zwar, daß eine Grenzlinie zwischen zwei Polygonen zu beiden Flächen gehört und speichern diese Linie nur einmal, aber dieser Bezug gilt nur lokal in der einzelnen Datei. Wird diese Linie in einem anderen thematischen Kontext ebenfalls verwendet, muß sie nochmals in einem zusätzlichen Layer gespeichert werden. Bildet z.B. ein Fluß die Grenze zwischen zwei administrativen Einheiten, so wird der Fluß in einem Layer als Linie dargestellt, und dieselbe Linie wird zur Grenzdarstellung in einer anderen Datei ebenfalls gespeichert.

Deutlich gravierender sind die Nachteile der hybriden Datenhaltung hinsichtlich der Integrationsfähigkeit Geographischer Informationssysteme in eine zeitgemäße Infrastruktur informationsverarbeitender EDV-Systeme. Diese fassen GÜNTHER/ LAMBERTS (1994, S.17f.) folgendermaßen zusammen:

Die Aufteilung in zwei getrennte Datenverwaltungsysteme hat zur Folge, daß typischerweise keine einheitliche Abfragemöglichkeiten bestehen. Während die relationale Komponente thematische Abfragen durch eine SQL-Syntax unterstützt, werden räumliche Abfragen durch systemspezifische Lösungen in der graphischen Benutzeroberfläche formuliert.
Ein DBMS stellt in einer standardisierten Form Informationen zur Struktur des Datenbestandes zur Verfügung. Beispielsweise können die in der Datenbank vorhandenen Tabellen sowie die Verknüpfungen zwischen diesen ermittelt werden. In den hybriden Lösungen sind derartige Informationen in einem proprietären Format abgelegt, die nur von dem System selbst ausgewertet werden können.
In einer Mehrbenutzerumgebung fehlen häufig die in DBMS selbstverständlichen Merkmale wie selektive Zugriffskontrolle und paralleler Betrieb. Hybride Lösungen sind i.d.R. als Einzelplatz-Lösungen konzipiert und erschweren dadurch die gemeinsame Nutzung von Datenbeständen über Systemgrenzen hinweg.
Das für die räumlichen Daten verwendete Dateisystem bietet keinerlei Mechanismen zur Aufrechterhaltung der Datenkonsistenz im Fehlerfall. Ereignet sich während eines Editiervorgangs ein Systemfehler, so ist nicht eindeutig geregelt, welche Änderungen bereits in den Datenbestand aufgenommen wurden, und welche durch den „Crash“ verloren gingen. Moderne DBMS bieten hierzu das Transaktionskonzept, wonach entweder alle logisch miteinander verknüpften Änderungen übernommen werden oder die Datenbank im Fehlerfall auf den vorherigen Zustand zurückgesetzt wird.
In großen Organisationen werden heute zunehmend verteilte Datenbanken verwendet, wobei sich der gesamte Datenbestand physisch aus mehreren Datenbanken zusammensetzt, die auf unterschiedlichen Rechnersystemen abgelegt sind. Diese Aufteilung bleibt transparent, d.h. für den Benutzer stellt sich der Datenbestand als eine Datenbank dar. Die dabei notwendigen Synchronisierungstechniken stehen bei einfachen Dateisystemen nicht zur Verfügung.

3.5.3 Integrierte Systeme

Aufgrund der oben dargestellten Problematik und der zunehmenden Nachfrage nach modularen Lösungen reagierte die GIS-Industrie. In einem weitergehenden Ansatz werden die Objektgeometrien ebenfalls in das RDBMS integriert. Dieses Vorgehen bietet den Vorteil, daß alle Eigenschaften des Datenbankmanagementsystems im GIS zur Verfügung stehen. Dazu ist aber eine Erweiterung relationaler DBMS notwendig, da diese in ihrer konventionellen Form für einen GIS-Einsatz nicht geeignet sind, was sich an folgenden Punkten festmacht (ESRI 1997, S. 5):

Räumliche Objekte werden in Form von x,y-Koordinatenpaaren geometrisch beschrieben. Zur Beschreibung von Linien und Flächen sind dazu unter Umständen mehrere Hundert dieser Wertepaare notwendig, wobei die Länge dieser Liste variiert. Auch die in neueren RDBMS-Versionen zur Verfügung stehenden Arrays für einfache Datentypen können diese variablen Koordinatenketten nur unzureichend erfassen.
Zur Zugriffsbeschleunigung verwenden Datenbanksysteme sog. Indizes, die einen performanten Zugriff auf die Daten erlauben. Herkömmliche Systeme bieten aber lediglich Strukturen, die den Datenbestand in einer Dimension indizieren können, während räumliche Daten in GIS-Anwendungen über mindestens zwei Dimensionen verfügen.
Das Abfragemodul konventioneller Systeme bietet zwar Operatoren für die Analyse und Verarbeitung von einfach strukturierten Daten (Summenbildung, Mittelwerte, einfache Vergleichsoperatoren wie größer/ kleiner usw.), aber keine GIS-spezifischen Operatoren wie Nachbarschaftsabfragen, Polygon-Overlay oder Netzwerkanalysen.

Deshalb sind integrierten Geo-Informationssysteme auf Basis von relationalen Datenbanksystemen im kommerziellen Umfeld in Form von Middleware-Produkten realisiert, d.h. zwischen einem konventionellen Datenbanksystem wie Oracle oder Informix und der eigentlichen GIS-Applikation wird eine zusätzliche Software-Ebene eingeführt, die die Verwaltung räumlicher Daten ermöglicht.

Abbildung 7: Server-Datenbank als Middleware

Quelle: ESRI 1998, S.5

Systeme wie SDE von ESRI, SpatialWare von MapInfo, Oracle spatial oder der SICAD Geodatenserver von Siemens erweitern die vom Datenbanksystem angebotenen einfachen Datentypen um räumliche Typen wie Punkte, Linien und Polygone. Zusätzlich werden GIS-spezifische Funktionalitäten wie Bereichsabfragen, Spatial-Joins (Verknüpfung unterschiedlicher Tabellen anhand räumlicher Prädikate) und Editiermöglichkeiten für die geometrischen Daten angeboten. Im Unterschied zu hybriden Systemen sind diese Lösungen reine Datenbankprodukte, d.h. die Visualisierung der Daten muß von entsprechenden Client-Applikationen übernommen werden (SINGER 1991, S.71ff.; ESRI 1998, S. 3ff.).

Die Vorteile dieser Systeme zeigen sich vor allem in Konfigurationen, in denen verteilte Organisationen auf einen zentralen Datenbestand zugreifen (ORACLE 1999, S.1f.):

Der gleichzeitige Zugriff mehrerer Clients wird vom System synchronisiert und die Vergabe von individuellen Zugangsberechtigungen zu einzelnen Tabellen verhindert unbefugte Manipulationen.
Durch die Verwendung eines konventionellen Datenbanksystems können bereits bestehende Datenbestände weiter genutzt und um räumliche Informationen erweitert werden.
Insbesondere im kaufmännischen Bereich, in dem relationale Systeme weit verbreitet sind, können Unternehmen die vorhandene Infrastruktur an Fachinformationssystemen um eine GIS-Komponente erweitern. So zeigt beispielsweise ESRI besondere Aktivitäten, ihre Produkte in die betriebswirtschaftliche Standardsoftware R/3 von SAP zu integrieren. Damit kann GIS als Bestandteil der unter dem Schlagwort „Data Warehouse“ firmierenden Bestrebungen gesehen werden, Daten mit unterschiedlichsten Thematiken und aus bislang inkompatiblen Datenbanksystemen zu erschließen und gemeinsame Auswertungen zu ermöglichen. Dieser Sparte werden enorme Wachtumspotentiale prognostiziert (ESRI 1999).

Dennoch bleiben einige Probleme bestehen, die sich letztendlich auf das Relationale Modell und dessen Reduktion auf atomare Datentypen zurückführen lassen. Die Verwendung eines RDBMS offenbart dessen prinzipiellen Schwächen bei der Modellierung komplexer Systeme. Das tabellenorientierte Konzept eignet sich zwar für einfach strukturierte Anwendungen aus dem administrativen Bereich, zeigt sich aber für GIS-Applikationen als ungeeignet. (GÜNTHER/ LAMBERTS 1994, S. 17f.)

Eine Weiterentwicklung des Datenbankeinsatzes in GIS stellen die Erweiterungen auf der Basis objektorientierter Techniken dar, die im nächsten Kapitel vorgestellt werden sollen. Implementierte Beispiele sind GODOT (GÜNTHER/ RIEKERT 1993), GeO₂ (DAVID/ RAYNAL/ SCHORTER 1993), TIGRIS (HERRING 1987), CARIS++ (UNIVERSAL SYSTEMS 1998) und OOGDM (VOIGTMANN 1997). Eine Implementierung mit objektorientierten Ansätzen auf einem proprietären Datenbanksystem bietet SMALLWORLD GIS (HELOKUNNAS 1994, S 1198).

1 Der Begriff „hybrides GIS“ wird auch für Systeme verwendet, die sowohl Raster- als auch Vektordaten verarbeiten können (BREUNIG 1996, S. 4f.). In dieser Arbeit wird aber damit die spezielle Form der Datenhaltung in zwei unterschiedlichen Systemen im obigen Sinn bezeichnet.

Zeit in Geografischen Informations-Systemen

Nav view search

Navigation

Search