Methoden zur analytischen Datenverarbeitung zur Unterstützung der Entscheidungsfindung. Betriebsanalytische Datenverarbeitung (OLAP)

3.4 Verfahren zur analytischen Datenverarbeitung

Um bestehende Datenlager zum Beitrag zur Annahme von Managemententscheidungen beizutragen, sollten die Informationen durch Analysen in der richtigen Form dargestellt werden, d. H. Es muss Werkzeuge für den Zugriff auf Repository-Daten und deren Verarbeitung entwickelt haben.

Sehr oft sind Informations- und analytische Systeme, die mit der direkten Verwendung von Entscheidungsfächern erstellt wurden, extrem einfach in der Verwendung, sind jedoch streng in der Funktionalität eingeschränkt. Solche statischen Systeme werden als Informationssysteme des Kopfes (IPR) oder Executive Information Systems (EIS) bezeichnet. Sie enthalten viele Anfragen und reicht für den Alltag aus, können nicht auf alle Fragen reagieren, die bei Entscheidungen entstehen können. Das Ergebnis eines solchen Systems sind in der Regel mehrseitige Berichte, nach einer gründlichen Studie, die der Analytiker eine neue Reihe von Fragen hat. Jede neue Anforderung, die bei der Gestaltung eines solchen Systems unvorhergesehen, sollte jedoch formal formal beschrieben werden, von einem Programmierer codiert und dann ausgeführt wird. Wartezeiten in diesem Fall können Stunden und Tage erstellen, die nicht immer akzeptabel sind.

Betriebsanalytische Verarbeitung.. OLAP ist die online-analytische Bearbeitung der Schlüsselkomponente der Organisation von Data WareHouses. Das OLAP-Konzept wurde 1993 von Edgar Coddo beschrieben und verfügt über folgende Anforderungen an mehrdimensionale Analyseanwendungen:

- Multidimensionale konzeptionelle Präsentation von Daten, einschließlich voller Unterstützung für Hierarchien und mehrerer Hierarchien (Key OLAP-Anforderung);

- Bereitstellung des Benutzers an die Ergebnisse der Analyse für eine akzeptable Zeit (in der Regel nicht länger als 5 Sekunden), auch wenn der Preis unter detaillierter Analyse ist;

- die Fähigkeit, jegliche logische und statistische Analysen für diese Anwendung zu implementieren, und seine Erhaltung in einer benutzerfreundlichen Form;

- Multiplayer-Zugriff auf Daten mit Unterstützung der relevanten Sperrmechanismen und der Mittel des genehmigten Zugriffs;

- Die Fähigkeit, auf alle erforderlichen Informationen zu verweisen, unabhängig von der Lautstärke- und Lagerspeicherort.

Das OLAP-System besteht aus einer Vielzahl von Komponenten. Auf der höchsten Ansichtspegel umfasst das System eine Datenquelle, eine mehrdimensionale Datenbank (MBD), die die Möglichkeit bietet, den Berichtsmechanismus basierend auf OLAP-Technologie, OLAP-Server und Client umzusetzen. Das System ist auf dem Client-Server-Prinzip erstellt und bietet Remote- und Multiplayer-Zugriff auf den MBD-Server.

Betrachten Sie die zusammengesetzten Teile des OLAP-Systems.

Quellen.Die Quelle in OLAP-Systemen ist ein Server, der Daten zur Analyse liefert. Je nach Gebrauchsbereich des OLAP-Produkts kann die Quelle als Data Warehouse dienen, die erbte Datenbank, die allgemeine Daten enthält, eingestellt

tabellen, die Finanzdaten oder eine beliebige Kombination von aufgeführten Kombinationen kombinieren.

Datenspeicher. Die anfänglichen Daten werden gesammelt und in das Repository platziert, das gemäß den Prinzipien der Baudatenlager entworfen wurde. HD ist eine relationale Datenbank (RBD). Die Haupttabelle von HD (Tat Table) enthält zahlenwerte Indikatoren, für die statistische Informationen gesammelt werden.

Multidimensionale Datenbank.. Der Datenspeicher dient als Dienstanbieter für eine mehrdimensionale Datenbank, die ein Satz von Objekten ist. Die Hauptklassen dieser Objekte sind Messungen und Indikatoren. Die Messungen umfassen mehrere Werte (Parameter), an denen die Datenindexierung auftritt, wie Zeit, Bereiche, die Art der Institution usw. Jede Messung ist mit Werten von den entsprechenden Datenspeichermesstabellen gefüllt. Die Gesamtheit der Messungen bestimmt den Raum des untersuchten Prozesses. Die Indikatoren werden von mehrdimensionalen Datenwürfeln (Hypercubs) verstanden. Das Hypercube enthält die Daten selbst sowie Aggregate-Summen von Messungen, die Teil des Indikators sind. Indikatoren bilden den Hauptinhalt der MBD und sind gemäß der Tatsachentabelle ausgefüllt. Entlang jeder Achse hypercube können Daten in Form einer Hierarchie organisiert werden, die verschiedene Ebenen ihrer Details darstellt. Auf diese Weise können Sie hierarchische Messungen erstellen, für die die Aggregation oder Detaillierung von Daten bei nachfolgenden Analysen durchgeführt werden. Ein typisches Beispiel für hierarchische Dimension ist eine Liste von territorialen Objekten, die von Bezirken, Regionen, Bezirken, gruppiert sind.

Server.Der Anwendungsteil des OLAP-Systems ist ein OLAP-Server. Diese Komponente führt alle Arbeiten aus (je nach Systemmodell) und speichert alle Informationen, an denen aktive Zugriff gewährleistet ist. Server-Architektur verwaltet verschiedene Konzepte. Insbesondere die wichtigste Funktionseigenschaft von OLAP-Produkten ist die Verwendung von MBD oder RBD für den Datenspeicher.

Client-AnwendungDaten, die angemessen strukturiert und in MBD gespeichert sind, stehen mit der Clientanwendung zur Analyse zur Verfügung. Der Benutzer empfängt den Fernzugriff auf Daten, formulieren komplexe Abfragen, Erzeugen von Berichten, die beliebige Daten-Subsets erwerben. Der Erhalt des Berichts wird auf die Auswahl spezifischer Messwerte und den Bau des Querschnitts des Hypercubes reduziert. Der Abschnitt wird durch die ausgewählten Messwerte bestimmt. Daten für andere Abmessungen werden zusammengefasst.

OLAP. Auf dem Client und auf dem Server.Die Mehrfachdatenanalyse kann mit verschiedenen Mitteln durchgeführt werden, die in Client- und Server-Opaps unterteilt werden können.

Client-Opaps (z. B. Pivot-Tabellen in Excel 2000-Unternehmen von Microsoft- oder Proklaritätsfirmen von KNOSYS) sind Anwendungen, die Aggregatdaten berechnen und diese zeigen. In diesem Fall sind die Aggregatdaten selbst im Cache innerhalb des Adressraums eines solchen OLAP enthalten.

Wenn die anfänglichen Daten in der Desktop-DBMS enthalten sind, wird die Berechnung von Aggregatdaten vom OLAP selbst ausgeführt. Wenn die Quelldatenquelle ein Server-DBMS ist, werden viele der Client-OLAP-Fonds an den SQL-Anforderer-Server gesendet, und dadurch werden Aggregatdaten, die auf dem Server berechnet werden, erhalten.

In der Regel wird die OLAP-Funktionalität in den Mitteln der statistischen Datenverarbeitung und in einigen Tabellenkalkulationen implementiert.

Viele Entwicklungstools enthalten Klassenbibliotheken oder Komponenten, mit denen Sie Anwendungen erstellen können, die die einfachste OLAP-Funktionalität (z. B. als Entscheidungswürfelkomponenten in Borland Delphi und Borland C ++ Builder) erstellen können. Darüber hinaus bieten viele Unternehmen ActiveX-Steuerelemente und andere Bibliotheken an, die eine solche Funktionalität implementieren.

Client-Opaps werden in der Regel mit einer kleinen Anzahl von Messungen (normalerweise nicht mehr als sechs) und einer kleinen Vielfalt der Werte dieser Parameter verwendet - da die erhaltenen Aggregatdaten in dem Adressraum einer ähnlichen Mittel komprimiert werden sollten und ihre Anzahl wächst exponentiell mit einer Erhöhung der Anzahl der Messungen.

Mit vielen Client-OLAPs können Sie den Inhalt des Cache mit den Aggregatdaten in Form einer Datei speichern, um ihre Neuberechnung nicht zu erstellen. Diese Möglichkeit wird jedoch häufig verwendet, um Aggregatdaten zu fremden, um sie an andere Organisationen oder zur Veröffentlichung zu übertragen.

Die Idee, einen Cache mit aggregierten Daten in der Datei zu speichern, hat seine weitere Entwicklung in Server-OLAP (z. B. Oracle Express-Server oder Microsoft OLAP-Dienste) erhalten, in der sich Aggregatdaten speichern und ändern, sowie Unterstützung für den Speicher mit ihnen enthält, wird von einer separaten Anwendung oder einem Prozess namens OLAP-Server ausgeführt. Clientanwendungen können einen ähnlichen mehrdimensionalen Speicher und als Reaktion auf bestimmte Daten anfordern. Einige Clientanwendungen können auch Filialen erstellen oder sie gemäß den geänderten Quelldaten aktualisieren.

Vorteile der Anwendung von Server-Rolaps im Vergleich zu Client-OLAP-Tools sind ähnlich den Vorteilen des Anwenden von Server-DBMSs im Vergleich zu Desktops: Wenn Server-Tools verwendet werden, werden die Berechnung und Speicherung von Aggregatdaten auf dem Server auftreten, und die Clientanwendung erhält nur die Ergebnisse von Anfragen an sie, die den allgemeinen Fall ermöglichen, den Netzwerkverkehr, den Anforderungen an die Abfragezeit- und Ressourcenanforderungen reduzieren, die von der Clientanwendung verbraucht werden.

3.5 Technische Aspekte von mehrdimensionaler Lagerung

Multidimensionalität in OLAP-Anwendungen kann in drei Ebenen unterteilt werden:

1. Multidimensionale Datenrepräsentation. - Endbenutzerwerkzeuge, die eine mehrdimensionale Visualisierung und Datenmanipulation bereitstellen; Die mehrdimensionale Darstellungsschicht ist aus der physikalischen Datenstruktur ausgebildet und nimmt die Daten als multidimensional aus.

    Mehrdimensionale Behandlung - bedeutet (Sprache) der Formulierung von mehrdimensionalen Abfragen (die traditionelle relationale Sprache SQL hier ist nicht ungeeignet) und der Prozessor, der eine solche Anfrage verarbeiten und ausführen kann.

    Mehrdimensionaler Speicherung. - Werkzeuge der physikalischen Datenorganisation, die die effektive Implementierung von mehrdimensionalen Anfragen sicherstellen.

Die ersten beiden Ebenen sind notwendigerweise in allen OLAP-Tools vorhanden. Die dritte Ebene ist zwar weit verbreitet, ist nicht erforderlich, da die Daten für eine mehrdimensionale Darstellung aus gewöhnlichen relationalen Strukturen entfernt werden können. Der mehrdimensionale Abfrageprozessor übersetzt in diesem Fall mehrdimensionale Anforderungen an SQL-Anfragen, die von relationaler DBMs ausgeführt werden.

In jedem Data Warehouse - sowohl in der üblichen als auch in einem multidimensionalen - zusammen mit detaillierten Daten, die aus operativen Systemen extrahiert werden, werden sowohl aggregierte Indikatoren gespeichert (Gesamtindikatoren), z. B. Umsatzvolumina nach Monat, nach Kategorien von Waren usw. explizit mit dem einzigen Zweck - um die Ausführung von Anfragen zu beschleunigen. Schließlich sammelt sich zum einen anhand der Lagerung in der Regel eine sehr große Datenmenge, und andererseits sind in den meisten Fällen nicht detaillierte, aber generalisierte Indikatoren interessiert. Und wenn es jedes Mal Millionen von Einzelverkäufen für das Jahr zusammenfassen müsste, um den Umsatzbetrag zu berechnen, wäre die Geschwindigkeit höchstwahrscheinlich nicht inakzeptabel. Wenn Sie Daten in mehrdimensionale Datenbanken laden, werden alle Gesamtanzeigen oder ihrerseits berechnet und gespeichert.

Die Verwendung von aggregierten Daten ist jedoch mit Nachteilen fördert. Die Hauptnachteile sind eine Erhöhung des Volumens gespeicherter Informationen (wenn neue Messungen hinzugefügt werden, wächst der Betrag der Datenkomponenten des Würfels exponentiell) und der Zeit für ihren Download. Darüber hinaus kann der Informationsbetrag in Dutzenden und sogar hundertmal zunehmen. Zum Beispiel in einem der veröffentlichten Standardtests, die vollständige Beurteilung der Aggregate für 10 MB Quelldaten, die 2,4 GB erforderlich sind, d. H. Die Daten werden 240-mal erhöht!

Der Grad der Erhöhung der Datenmenge bei der Berechnung von Einheiten hängt von der Anzahl der Messungen des Würfels und der Struktur dieser Messungen ab, d. H. Das Verhältnis der Anzahl der Anzahl der "Eltern" und "Nachkommen" auf unterschiedlichen Messwerten. Um das Problem der Lagerung von Aggregaten zu lösen, gelten komplexe Systeme, dass bei der Berechnung von weitaus von allen möglichen Einheiten eine erhebliche Erhöhung der Leistung der Abfragen.

Sowohl Quell- als auch Aggregatdaten können entweder in gespeichert werden

relational oder in mehrdimensionalen Strukturen. In dieser Hinsicht werden derzeit drei Speicherung von mehrdimensionalen Daten angewendet:

Molap. (Multidimensionale OLAP) - Source- und Aggregat-Daten werden in einer mehrdimensionalen Datenbank gespeichert. Die Speicherung von Daten in mehrdimensionalen Strukturen ermöglicht, dass Daten als mehrdimensionales Array manipuliert werden, wodurch die Berechnung der Berechnung von Aggregatwerten für jede Messung gleich ist. In diesem Fall ist jedoch die multidimensionale Datenbank redundant, da multidimensionale Daten vollständig quellen relationalen Daten enthalten.

Diese Systeme bieten einen vollständigen OLAP-Verarbeitungszyklus. Sie enthalten zusätzlich zur Serverkomponente, dass ihre eigene integrierte Clientschnittstelle entweder mit den Benutzer externer Arbeitsprogramme mit Tabellenkalkulationen kommuniziert wird.

Rolap. (Relational Olap) - Die anfänglichen Daten bleiben in derselben relationalen Datenbank, in der sie ursprünglich waren und waren. Die Aggregatdaten werden in den Service-Tabellen eingesetzt, die speziell für den Speicher in derselben Datenbank erstellt werden.

Holap (Hybrid-OLAP) - Die anfänglichen Daten bleiben in derselben relationalen Datenbank, in der sie ursprünglich aufbewahrt wurden, und aggregierte Daten werden in einer mehrdimensionalen Datenbank gespeichert.

Einige OLAPs unterstützen die Datenspeicherung nur in relationalen Strukturen, einige sind nur in multidimensionalem Zustand. Die meisten modernen Server-OLAP-Fonds unterstützen jedoch alle drei Speichermethoden. Die Auswahl des Speicherverfahrens hängt von der Größe und Struktur der Quelldaten ab, den Anforderungen an die Geschwindigkeit der Ausführung von Anforderungen und der Aktualisierungsfrequenz von OLAP-Cubes.

3.6 Intelligente Datenanalyse (Daten.Bergbau.)

Der Begriff Data Mining bezeichnet den Prozess der Feststellung von Korrelationen, Trends und Beziehungen durch verschiedene mathematische und statistische Algorithmen: Clustering, Regressions- und Korrelationsanalyse usw. für Entscheidungssysteme. Gleichzeitig werden die angesammelten Informationen automatisch auf Informationen zusammengefasst, die als Wissen charakterisiert werden können.

Die Basis des modernen Technologiendatenabbaus basiert auf dem Begriff der Vorlagen, die mit den Daten suborativen und Komponenten des sogenannten verborgenen Wissens inhärtig sind.

Die Suche nach Vorlagen erfolgt mit Methoden, die keine Priori-Annahmen über diese Unterbahnen verwenden. Ein wichtiges Merkmal des Data Mining ist nicht standardmäßig und die Nichtfreundlichkeit von gewünschten Vorlagen. Mit anderen Worten unterscheiden sich Data Mining-Tools von Daten statistischen Werkzeugen und OLAP-Tools dadurch, dass die vorbestimmten Verbindungsnutzer anstelle der vorbestimmten Verbindungsnutzer überprüft werden.

zwischen den Daten sind sie auf der Grundlage der verfügbaren Daten in der Lage, solche Wechselbeziehungen unabhängig zu finden sowie Hypothesen um ihre Natur aufzubauen.

Im allgemeinen Fall besteht die Daten der Daten intellektuell (Data Mining) aus drei Stufen

    muster identifizieren (kostenlose Suche);

    die Verwendung von identifizierten Mustern zum Vorhersagen unbekannter Werte (prognostische Modellierung);

    ausführungsanalyse zur Identifizierung und Interpretation von Anomalien in den gefundenen Regelmäßigkeiten.

Manchmal zeichnete das Zwischenstadium der Überprüfung der Überprüfung der Zuverlässigkeit der Regularitäten ausdrücklich ausdrücklich aus, die zwischen ihrer Erkenntnis und Verwendung (Validierungsphase) gefunden wurden.

Schwere fünf Standardtypen von Muster, die von Data Mining-Methoden erkannt wurden:

1.Esoziation.ermöglicht das Auswählen stabiler Gruppen von Objekten, zwischen denen es implizit gegebenen Verbindungen gibt. Die Häufigkeit des Erscheinungsbildes eines separaten Subjekts oder einer in Prozent ausgedrückten Objekte, ausgedrückt als Prozentsatz, wird als Prävalenz bezeichnet. Niedrige Prävalenz (weniger als ein Tausendstel Prozent) legt nahe, dass ein solcher Assoziation nicht signifikant ist. Verbände werden in Form von Regeln erfasst: EIN.=> B.wo ABER -paket IM -logische Folge. Um die Bedeutung jeder empfangenen assoziativen Regel zu ermitteln, ist es erforderlich, den Wert des Vertrauens als Vertrauen zu berechnen ABERzu IM(oder Verbindung A und B).Vertrauen zeigt, wie oft wann ABERerscheint IM.Wenn zum Beispiel, wenn d (a / b)\u003d 20%, dann bedeutet dies, dass beim Kauf eines Produkts ABERin jedem fünften Fall wird auch die Ware gekauft IM.

Ein typisches Beispiel für die Anwendung des Verbandes ist die Analyse der Kaufstruktur. Wenn Sie zum Beispiel eine Studie in einem Supermarkt durchführen, ist es möglich, festzustellen, dass 65% der Kartoffelchips auch die "Coca-Cola" aufnehmen, und wenn es einen Rabatt für ein solches Kit gibt, wird die Kola in 85% erworben von Fällen. Ähnliche Ergebnisse sind bei der Bildung von Marketingstrategien wertvoll.

2. Empfang - dies ist das Verfahren zum Identifizieren von Assoziationen in der Zeit. In diesem Fall werden die Regeln, die das konsistente Erscheinungsbild bestimmter Ereignisgruppen beschreiben, bestimmt. Solche Regeln sind für den Bau von Szenarien erforderlich. Darüber hinaus können sie zum Beispiel ein typischer Satz von vorherigen Verkäufen eingesetzt werden, der den nachfolgenden Umsatz eines bestimmten Produkts beinhalten kann.

3. Klassifizierung. - instrument der Verallgemeinerung. Sie können sich von der Berücksichtigung von einzelnen Objekten zu generalisierten Konzepten bewegen, die einige Objekte kennzeichnen und ausreichen, um Objekte zu erkennen, die zu diesen Colts gehören (Klassen). Die Essenz des Konzepts der Bildung von Konzepten besteht darin, Muster, die den Klassen inhärent sind. Um Objekte zu beschreiben, werden viele verschiedene Funktionen (Attribute) verwendet. Das Problem der Bildung von Konzepten auf den charakteristischen Beschreibungen wurde von m.m formuliert. Bongart Seine Lösung basiert auf der Verwendung von zwei Hauptverfahren: Lernen und Prüfen. Die Studienverfahren werden von einer Klassifizierungsregel basierend auf der Verarbeitung eines Lernsatzes von Objekten erstellt. Das Überprüfungsverfahren (Prüfung) ist die Verwendung der erhaltenen Klassifizierungsregel, um Objekte aus der neuen (Prüfungs-) Probe zu erkennen. Wenn die Testergebnisse als zufriedenstellend erkannt werden, endet der Lernprozess, andernfalls wird die Klassifizierungsregel im Prozess des erneuten Lernens angegeben.

4. KLUSHVERVERIERUNG - Dies ist die Verteilung von Informationen (Datensätzen) aus der Datenbank für Gruppen (Cluster) oder Segmente mit der gleichzeitigen Definition dieser Gruppen. Im Gegensatz zu Klassifizierung erfordert es keine vorläufige Aufgabe der Analyseklasse.

5. Prognowierzeit-Zeitreihe es ist ein Werkzeug zum Bestimmen der Trends in den Attributen der von der Zeit unter Berücksichtigung der Gegenleistung. Die Analyse des Verhaltens von Zeitreihen ermöglicht es Ihnen, die Werte der untersuchten Merkmale vorherzusagen.

Um solche Aufgaben zu lösen, werden verschiedene Methoden und Data Mining-Algorithmen verwendet. Aufgrund der Tatsache, dass Data Mining an der Kreuzung von Disziplinen wie Statistiken, Informationstheorie, Maschinenlernen, Datenbanktheorie entwickelt und entwickelt, ist es ganz natürlich, dass die meisten Algorithmen und Data Mining-Methoden auf der Grundlage verschiedener Methoden von entwickelt wurden diese Disziplinen.

Aus dem Verteiler der vorhandenen Datenforschungsmethoden können Sie Folgendes auswählen:

    regression, Dispersion und Korrelationsanalyse(in den meisten modernen statistischen Paketen implementiert, insbesondere in Produkten von Unternehmen SAS Institute, Statsoft usw.);

    analysemethodenin einem bestimmten Themenbereich, basierend auf empirischen Modellen (häufig verwendet, beispielsweise in günstigen Mitteln der Finanzanalyse);

    neuronale Netzwerkalgorithmen- Verfahren zur Nachahmung von Prozessen und Phänomenen, die komplexe Abhängigkeiten wiedergeben können. Das Verfahren basiert auf der Verwendung eines vereinfachten Modells des biologischen Gehirns und ist, dass die anfänglichen Parameter als Signale als Signale behandelt werden, die in Übereinstimmung mit den Verbindungen zwischen den "Neuronen" und als Antwort umgewandelt werden, was das Ergebnis der Analyse ist, wird von der Antwort des gesamten Netzwerks an die Quelldaten berücksichtigt. Die Kommunikation wird in diesem Fall mit dem sogenannten Netzwerktraining erstellt, indem ein großes Volume sowohl die Quelldaten als auch die richtigen Antworten enthält. Neuronale Netzwerke werden weit verbreitet, um Klassifizierungsaufgaben zu lösen;

    fuzzy-Logik.es wird zur Datenverarbeitung mit unscharfen Wahrheitswerten verwendet, die durch eine Vielzahl von sprachlichen Variablen dargestellt werden können. Die Fuzzy-Präsentation des Wissens wird weit verbreitet, um die Aufgaben der Klassifizierung und Prognose zu lösen, beispielsweise im Xpertrule-Miner-System (Attar-Software Ltd., Vereinigtes Königreich) sowie in AIS, Neufuz usw.;

    induktive Schlussfolgerungen.erlauben Sie Verallgemeinerungen der in der Datenbank gespeicherten Fakten. Bei der induktiven Schulung kann ein Spezialist mit Hypothesen teilnehmen. Diese Methode wird als Lernen mit dem Lehrer bezeichnet. Die Suche nach Generalisierungsregeln kann ohne Lehrer durch automatisches Erzeugen von Hypothesen durchgeführt werden. In moderner Software werden in der Regel beide Methoden kombiniert, und statistische Methoden werden verwendet, um die Hypothesen zu testen. Ein Beispiel eines Systems mit der Verwendung induktiver Schlussfolgerungen ist Xpertrule-Miner, der von Attar Software Ltd. entwickelt wurde. (Großbritannien);

    begründung basierend auf Ähnliche Fälle(Die "nächstgelegene Nachbarn" -Methode) (Fallbasierte Argumentation - CBR) basiert auf der Suche nach Situationen, deren Beschreibungen einer Reihe von Funktionen mit einer bestimmten Situation ähneln. Das Prinzip der Analogie legt nahe, dass die Ergebnisse ähnlicher Situationen auch nahe beieinander liegen. Der Nachteil dieses Ansatzes liegt in der Tatsache, dass es keine Modelle oder Regeln gibt, die die vorherige Erfahrung verallgemeinern. Darüber hinaus hängt die Zuverlässigkeit der Ausgabeergebnisse von der Vollständigkeit der Beschreibung der Situationen ab, wie in den induktiven Ausgangsprozessen. Beispiele für Systeme mit CBR sind: Kate Tools (ACKNOSOFT, Frankreich), Mustererkennung Workbench (Unica, USA);

    bäumelösungen- Verfahren zur Strukturierung einer Aufgabe in Form eines Baumgraphen, dessen Scheitelpunkte den produktiven Regeln entsprechen, um Daten zu klassifizieren oder die Auswirkungen von Entscheidungen zu analysieren. Diese Methode ergibt eine visuelle Idee des Systems der Klassifizierungsregeln, wenn nicht sehr viele von ihnen vorhanden sind. Einfache Aufgaben werden mit dieser Methode viel schneller als mit neuronalen Netzwerken gelöst. Bei komplexen Problemen und für einige Datentypen können die Lösungsbäume inakzeptabel sein. Darüber hinaus ist dieses Verfahren durch das Problem der Bedeutung gekennzeichnet. Eine der Folgen von hierarchischen Datenclustering ist das Fehlen einer großen Anzahl von Schulungsbeispielen für viele Sonderfälle, und daher kann die Klassifizierung nicht als zuverlässig angesehen werden. Methoden der Entscheidungen Bäume werden in vielen Software implementiert, nämlich: C5.0 (Rulequest, Australia), Clementine (Integral Solutions, Vereinigtes Königreich), Sipina (Universität Lyon, Frankreich), Idis (Information Discovery, USA);

    evolutionäre Programmierung.- Suchen und Erzeugen eines Algorithmus, der die Abhängigkeit von Daten auf der Grundlage des ursprünglich angegebenen Algorithmus ausdrückt, der während des Suchvorgangs modifiziert ist; Manchmal wird die Suche nach Interdependenzen unter allen spezifischen Funktionen (z. B. Polynome) durchgeführt.

algorithmen der eingeschränkten IntegritätComputerkombinationen von einfachen logischen Ereignissen in Datenuntergruppen.

3.7 IntegrationOLAP. undDaten.Bergbau.

Betriebsanalytische Verarbeitung (OLAP) und intelligente Datenanalyse (Data Mining) - zwei Komponenten des Entscheidungsprozesses. Die Mehrheit der OLAP-Systeme konzentriert sich jedoch heute nur darauf, den Zugriff auf mehrdimensionale Daten bereitzustellen, und die meisten Datenabbauwerkzeuge, die im Bereich der Muster arbeiten, beschäftigen sich mit eindimensionalen Datenaussichten. Um die Effizienz der Datenverarbeitung für Entscheidungsunterstützungssysteme zu erhöhen, müssen diese beiden Arten der Analyse kombiniert werden.

Derzeit scheint der zusammengesetzte Begriff "OLAP Data Mining" (Multidimensionale intelligente Analyse) eine solche Union zu benennen.

Es gibt drei Hauptmöglichkeiten, um "OLAP Data Mining" zu bilden:

    "Cubing, dann Bergbau." Die Fähigkeit, intelligente Analyse durchzuführen, sollte über jedes Ergebnis einer Anforderung an eine mehrdimensionale konzeptionelle Darstellung sichergestellt werden, dh über jedes Fragment einer Projektion der Hypercube-Indikatoren.

    "Mining dann Würfel." Wie die aus dem Repository extrahierten Daten sollten die Ergebnisse der intellektuellen Analyse in hyperdrobischer Form zur anschließenden mehrdimensionalen Analyse eingereicht werden.

    "Würfel beim Bergbau." Mit diesem flexiblen Weg, um zu integrieren, können Sie automatisch den gleichen Typ von intellektuellen Verarbeitungsmechanismen über das Ergebnis jedes Schritts der multidimensionalen Analyse (Übergang) zwischen den Verallgemeinerungsniveaus aktivieren, ein neues Hypercube-Fragment usw. extrahieren).

    Klasse 11 [Text ... sie wie teil alle systeme ... assistenzprofessorIn ... Cheboksary., 2009. Nr. 10. S. 44 -49 ... Autoren- kompiller: N. ... abstraktvorlesungen, ...

  • Lehranleitung

    ... vorlesungen. Vorbereitung vorlesungen Mathematik. Schreiben abstraktvorlesungen vorlesungen. Verwendet informationtechnologie ...

  • Und nach Kondaurov mit in Lebedev-Forschungsaktivitäten des zukünftigen Lehrers der mathematischen kreativen Aufgaben für elementare Mathematik und der Methode des Unterrichts

    Lehranleitung

    ... vorlesungen. Vorbereitung vorlesungen Mathematik. Schreiben abstraktvorlesungen. Vorbereitung visueller Vorteile. Lesetechnik. vorlesungen. Verwendet informationtechnologie ...

  • M Bei der Modernisierung der Medienmodernisierung der beruflichen Ausbildung März - August 2011

    Zusammenfassung

    ... 11 .08.2011 "Dead Souls-2" in Rnim sie ... 3,11 -3,44 . ... Öffentlichkeit vorlesungen Führer ... Cheboksary. ... und Schlaganfall abstrakt die Zuschauer - ... informationsysteme und technologien. ... system Bildung - sagt assistenzprofessorIn ... kompiller ... teile Real verbessern inhalt ...

Analytische Technologien von Geschäftsprozessen

Business Intelligence Business Intelligence (BI) kombiniert verschiedene Mittel und Technologieanalyse und Datenverarbeitung des Unternehmens. BI-Systeme werden auf der Grundlage dieser Fonds erstellt, deren Zweck, die Qualität der Information zur Bekanntgabe von Managemententscheidungen zu verbessern.

Das BI enthält Softwareprodukte der folgenden Klassen:

· Betriebsanalytische Verarbeitungssysteme (OLAP);

· Intelligente Datenanalysewerkzeuge (DM);

Softwareprodukte jeder Klasse führen mit speziellen Technologien einen bestimmten Satz von Funktionen oder Vorgängen durch.

OLAP (online analytische Verarbeitung) - Die operative Analyseverarbeitung ist der Name eines nichtspezifischen Produkts, aber eine ganze Technologie. Die Basis des OLAP-Konzepts liegt eine mehrdimensionale Datenpräsentation.

1993 veröffentlichte der Gründer des relationalen Ansatzes für den Aufbau der Datenbanken von Edgar Codd mit Partnern (Edgar Codd, Mathematics und Scholant IBM) einen von der Gesellschaft eingeleiteten Artikel und mit dem Titel "OLAP-Bestimmung (operative Analytische Verarbeitung) für Analyst-Benutzer" in Welche 12 wurden formulierte OLAP-Technologiekriterien anschließend zum Hauptinhalt der neuen und sehr vielversprechenden Technologie.

Später wurden sie im Fasmi-Test überarbeitet, der die Anforderungen an OLAP-Produkte definiert:

· Schnell. Die OLAP-Anwendung muss eine minimale Zugriffszeit für analytische Daten bereitstellen - ein Durchschnitt von etwa 5 Sekunden;

· Analyse (Analyse). Die OLAP-Anwendung sollte dem Benutzer die Möglichkeit geben, numerische und statistische Analysen durchzuführen;

· Shared (Shared Access). Die OLAP-Anwendung sollte die Möglichkeit bieten, mit Informationen zu vielen Benutzern gleichzeitig mit Informationen zu arbeiten.

· Multidimensionale (Multidimensionalität);

· Informationen (Informationen). Die OLAP-Anwendung sollte dem Benutzer die Möglichkeit geben, die erforderlichen Informationen zu erhalten, in welchem \u200b\u200belektronischen Data Warehouse es nicht ist.

Basierend auf Fasmi können Sie die folgende Definition angeben: OLAP-Anwendungen - Dies ist das System des schnellen Multiplayer-Zugriffs auf mehrdimensionale Analytische Informationen mit den Fähigkeiten der numerischen und statistischen Analyse.

Die Grundidee von OLAP besteht darin, mehrdimensionale Würfel aufzubauen, die für Benutzeranfragen verfügbar sein werden. Multidimensionale Würfel (Abb. 5.3) sind auf der Grundlage von Quell- und Aggregatedaten gebaut, die sowohl in relationaler als auch in mehrdimensionalen Datenbanken gespeichert werden können. Daher werden derzeit drei Methoden der Datenspeicherung angewendet: Molap. (Multidimensionales OLAP) Rolap. (Relationales OLAP) und Holap (Hybrid-OLAP).



Dementsprechend sind OLAP-Produkte durch Speichermethode in drei ähnliche Kategorien unterteilt:

1. Im Falle von MOLAP werden die anfänglichen und mehrdimensionalen Daten in einer mehrdimensionalen Datenbank oder in einem mehrdimensionalen lokalen Kuba gespeichert. Diese Speichermethode bietet schnelle Geschwindigkeit OLAP-Operationen ausführen. Die multidimensionale Base in diesem Fall wird jedoch am häufigsten überflüssig sein. Der darauf basierende Würfel ist stark von der Anzahl der Messungen abhängig. Mit einer Erhöhung der Anzahl der Messungen wird das Volumen des Würfels exponentiell wachsen. Manchmal kann es zu "explosivem Wachstum" des Datenvolumens führen.

2. In ROLAP-Produkten werden die anfänglichen Daten in relationalen Datenbanken oder in flachen lokalen Tabellen auf dem Dateiserver gespeichert. Die Aggregatdaten können in den Servicetabellen in derselben Datenbank eingesetzt werden. Konvertieren von Daten aus der relationalen Datenbank in mehrdimensionale Cubes erfolgt auf Antrag von OLAP. In diesem Fall ist die Geschwindigkeit des Bauens eines Würfels stark von der Art der Datenquelle abhängig.

3. Bei der Verwendung einer Hybridarchitektur verbleibt die anfänglichen Daten in der relationalen Basis, und die Einheiten werden in mehrteiligem Zustand gelegt. Der Aufbau des OLAP-Cube erfolgt auf Anfrage von OLAP-Tools basierend auf relationalen und mehrdimensionalen Daten. Dieser Ansatz vermeidet das explosive Datenwachstum. Gleichzeitig ist es möglich, die optimale Ausführungszeit von Clientanforderungen zu erreichen.

Mit OLAP-Technologien kann der Benutzer eine flexible Ansicht von Informationen ausüben, unterschiedliche Datenabschnitte erhalten, Analysevorgänge von Details, Faltung, durch Verteilung, Zeitvergleiche, d. H. Erstellen und dynamisch Berichte und Dokumente erstellen und dynamisch veröffentlichen.

Die Struktur der Speicherdatenbank wird normalerweise so entwickelt, dass die Analyse der Informationen maximiert wird. Die Daten sollten in verschiedenen Richtungen bequem "Auslegen" sein (Messungen genannt). Zum Beispiel möchte der Benutzer heute die Lieferung der Lieferanten an die Lieferanten an die Lieferanten sehen, um ihre Aktivitäten zu vergleichen. Morgen wird derselbe Benutzer ein Bild von Änderungen des Lieferumfangs der Lieferung von Details in Monaten benötigen, um die Dynamik der Lieferungen zu verfolgen. Die Datenbankstruktur sollte solche Arten von Analysen sicherstellen, sodass Sie Daten zuordnen können, die dem angegebenen Messsatz entsprechen.

Die Grundlage der operativen analytischen Datenverarbeitung ist das Prinzip der Organisation von Informationen in einem hypercubischen Modell. Der einfachste dreidimensionale Cubbe für Details für die zuvor betrachtete Testdatenbank ist in Fig. 4 gezeigt. 3.11. Jede Zelle entspricht "Tatsachen" - zum Beispiel das Liefervolumen des Teils. Entlang einer Fläche des Würfels (eine Messung) gibt es Monate, in denen der reflektierte Lieferwürfel durchgeführt wurde. Die zweite Dimension ist die Arten von Details, und der dritte entspricht Lieferanten. Jede Zelle enthält die Lieferzeit für die entsprechende Wertekombination für alle drei Dimensionen. Es sei darauf hingewiesen, dass beim Ausfüllen des Würfels eine Aggregation von Werten für die Lieferung jedes Monats aus der Testdatenbank vorgenommen wird.


3.11. Eine Variante eines vereinfachten Hypercubes zur Analyse der Teileversorgungen

OLAP-Klassensysteme unterscheiden sich nach der Datendarstellungsverfahren.

Multidimensionales OLAP (MOLAP)) - Die Basis dieser Systeme ist ein mehrdimensionales, basierend auf dynamischen Arrays. Datenstruktur mit geeigneten Zugriffsmethoden. Molap wird auf patentierten Technologien umgesetzt, um mehrdimensionale DBMs zu organisieren. Der Vorteil dieses Ansatzes ist der Bequemlichkeit, dass das Berechnen der Berechnung über den Zellen des Hypercubes, weil Unter allen Kombinationen von Messungen werden die entsprechenden Zellen (beide in der Tabellenkalkulation) aufgeladen. Klassische Vertreter solcher Systeme umfassen Oracle Express, SAS Institute MDDB.



Relation OLAP (ROLAP) - Unterstützt multidimensionale analytische Modelle über relationale Datenbanken. Diese Systemklasse umfasst Meta Cube Informix, Microsoft Olap Services, Hyperion Solutions, SAS Institute Relational Olap.

Desktop-OLAP (Desktop-OLAP)- Mittel zum Erzeugen von mehrdimensionalen Anforderungen und Berichten für lokale Informationssysteme (Tabellenkalkulationen, flache Dateien). Sie können die folgenden Systeme auswählen - Business-Objekte, Cognos Power Play.

E.F. Der Code definierte die zwölf Regeln, die den Produktklassen-OLAP erfüllen müssen, einschließlich einer mehrdimensionalen konzeptionellen Darstellung von Daten, Transparenz, Verfügbarkeit, nachhaltiger Leistung, Client-Server-Architektur, Messgleichheit, dynamische Verarbeitung von Rarefied-Matrizen, Unterstützung von Multiplayer-Modus, unbegrenzter Unterstützung für Querdimensionale Operationen, intuitive Datenmanipulation, flexibler Berichtsgenerierungsmechanismus, unbegrenzte Mess- und Aggregationsebenen.



Die häufigsten Systeme der ROLAP-Klasse. Sie erlauben es Ihnen, sich zu organisieren informationsmodell Über die relationale und vollständige Speicherung von einer Struktur oder über einen speziellen Displayfall.

Feige. 3.12. Schema des Typs "Star" Analytical Showcase für die Lieferung von Teilen

Für die meisten Datenlager ist der effektivste Weg, um einen n-dimensionalen Würfel zu modellieren, ein Stern. In FIG. 3.11 Das Modell des Hypercube zur Analyse der Lieferung von Teilen, in dem die Informationen in vier Dimensionen (Lieferant, Detail, Monat, Jahr) konsolidiert werden. Das "Star" -Schema basiert auf der Tatsachentabelle. Die Tatsache Tabelle enthält eine Spalte, in der die Lieferzeit angegeben ist, sowie Spalten, die externe Schlüssel für alle Messtische angeben. Jede Messung des Würfels wird mit einem Werttabelle dargestellt, der ein Hinweis auf die Fabrik der Fakten ist. Um das Verallgemeinern der Verallgemeinerung von Informationen zu Messungsreferenzbüchern zu organisieren, werden kategoriefressere Eingänge organisiert (z. B. "Material-Detail", "Stadtlieferant").

Der Grund, warum das Schema in FIG. 3.12 Name "Star" ist offensichtlich. Die Enden der "Sterne" werden von den Messtischen gebildet, und ihre Verbindung mit der Tatsachentabelle, die sich in den zentralen Formstrahlen befinden. Mit dieser Datenbankstruktur kombinieren die meisten Anfragen aus dem Bereich der Geschäftsanalyse die zentrale Takultabteilung mit einem oder mehreren Messtischen. Beispielsweise ist ein Antrag zum Erhalten von Belieferungen von Lieferungen aller Teile im Jahr 2004 im Monat mit einem Zusammenbruch von Lieferanten so aus:

Summe (Wert), Lieferant.suppiername, fact.month_id

Tatsache, Lieferant

Wo fact.year_id \u003d 2004

Und fat.supplier_code \u003d supplier.supplier_code

Group_by Supplier_Code, Monat_id

BESTELLER_BY Supplier_Code, Monat_ID.

In FIG. 3.13 Ein Fragment des Berichts, das als Ergebnis einer angegebenen Anforderung ausgebildet ist, wird angezeigt.

Begriff betriebsanalytische Verarbeitung.(Online-Analyse-Analyse-OLAP) wurde erstmals in dem für Arbor Software Corp vorbereiteten Bericht erwähnt. 1993 wurde zwar die Definition dieses Begriffs, wie bei Data Warehousing, viel später formuliert worden. Das durch diesen Begriff angegebene Konzept kann als "interaktiver Prozess zum Erstellen, Aufrechterhalten, Analysieren von Daten und Ausstellungsberichten" definiert werden. Darüber hinaus fügen sie in der Regel hinzu, dass die unter Berücksichtigung der in Betracht gezogenen Daten so wahrgenommen und so verarbeitet werden, als würden sie in eingelagert mehrdimensionales Array.Bevor Sie jedoch mit der Diskussion einer mehrdimensionalen Präsentation selbst fortfahren, berücksichtigen Sie die entsprechenden Ideen in Bezug auf traditionelle SQL-Tische.

Die erste Funktion ist, dass in der analytischen Verarbeitung sicherlich eine Aggregation erfordert. daten,typischerweise sofort mit ein paar ausgeführt verschiedene Wege oder mit anderen Worten in Übereinstimmung mit vielen verschiedenen Gruppierkriterien. Im Wesentlichen ist eines der Hauptprobleme der analytischen Verarbeitung, dass die Anzahl aller Arten von Gruppierungsmethoden ist

sehr bald wird zu groß. Trotzdem müssen Benutzer alle oder fast alle diese Weise berücksichtigen. Nun, jetzt im SQL-Standard, wird diese Aggregation unterstützt, jedoch alle spezifisch sQL-Anfrage. entwickelt sich als sein Ergebnis nur einen Tisch, und alle Linien in dieser resultierenden Tabelle haben die gleiche Form und die gleiche Interpretation10 (zumindest so

9 Wir geben den Rat aus dem Buch von den Data Warehouses aus: "[Ablehnen] aus der Normalisierung ... auf Folter, um alle Tabellen in einer multidimensionalen Datenbank ausschließlich zum Speichern von Disk-Datenträger zu normalisieren [genauso so!] - In einer vergeblichen Zeit Zeit ... Tische der Dimension sollten nicht normalisiert werden ... Normalisiert Die Dimensionstabellen schließen die Anzeigen der Möglichkeit aus. "

10 Wenn nur diese Ergebnistabelle keine undefinierten Werte oder Nullwerte enthält (siehe Kapitel 19, Abschnitt 19.3, Unterabschnitt "für weitere Informationen zu Prädikaten"). Tatsächlich kann das Design von SQL: 1999, das in diesem Abschnitt beschrieben werden sollte, als "basierend auf der Verwendung" dieser sehr empfohlenen SQL (?) In Aktion betonen sie die Tatsache, dass unbestimmte Werte in ihren verschiedenen Manifestationen unterschiedliche Bedeutung haben können, und ermöglichen es Ihnen, dass Sie also viele verschiedene Vorhersage der Stangen in einem Tisch einreichen können (wie unten gezeigt).

es war vor dem SQL: 1999 Standardaussehen). So zu implementieren. p.verschiedene Wege zu gruppieren, müssen Sie durchführen p.separate Abfragen und erstellen Sie als Ergebnis einzelner Tabellen. Berücksichtigen Sie beispielsweise die folgende Reihenfolge von Anfragen, die in der Anbieter- und Teilendatenbank ausgeführt werden.

1. Bestimmen Sie den Gesamtbetrag der Lieferungen.

2. Bestimmen Sie die Gesamtzahl der Lieferanten an Lieferanten.

3. Bestimmen Sie den Gesamtbetrag der Lieferungen im Detail.

4. Bestimmen Sie den Gesamtbetrag der Lieferungen an Lieferanten und Details.

(Sicherlich ist die "totale" Nummer für diesen Anbieter und für diesen Teil einfach ein tatsächlicher Betrag für diesen Lieferanten und dieses Teil. Ein Beispiel wäre realistisch, wenn die Gründungsdatenbank, Details und Projekte verwendet wurden. Aber dieses Beispiel nicht komplizieren Wir stehen noch an der üblichen Basis von Lieferanten und Details an.)

Nehmen Sie nun an, dass es nur zwei Details mit der Ziffer P1 und P2 gibt, und der Versorgungstisch ist wie folgt.

Multidimensionale Datenbanken

Es wurde immer noch davon ausgegangen, dass OLAP-Daten in einer herkömmlichen Datenbank mit SQL-Sprache gespeichert sind (nicht zählen, dass wir manchmal noch die Terminologie und Konzepte betreffen mehrdimensionale Datenbanken).In der Tat beschrieb wir, ohne klar darauf hinweisen, das sogenannte System beschrieben Rolap.Relational. OLAP-relational. OLAP).Viele glauben jedoch, dass die Verwendung des Systems Molap.(Multi-dimensional OLAP.- Multidimensionales OLAP) - vielversprechenderer Pfad. In diesem Unterabschnitt werden die Prinzipien des Erstellens von MOLAP-Systemen mehr als mehr angesehen.

Das MOLAP-System bietet Wartung multidimensionale Datenbankenin dem die Daten konzeptionell in den Zellen des multidimensionalen Arrays gespeichert sind.

Hinweis. Obwohl oben undÖ. konzeptionelldie Methode der Organisation von Speicher, in der Realität, der physischen Organisation von Daten in Molap.sehr ähnlich ihrer logischen Organisation.

Die Unterstützung von DBMS wird aufgerufen multidimensional.Als einfaches Beispiel können ein dreidimensionales Array bzw. Waren, Kunden und Zeiträume vertreten. Der Wert jeder einzelnen Zelle kann den Gesamtbetrag des angegebenen Produkts des Kunden im angegebenen Zeitraum darstellen. Wie oben erwähnt, können Kreuztische des vorherigen Unterabschnitts auch solche Arrays betrachtet werden.

Wenn ein ausreichend klares Verständnis der Struktur des Datensatzes besteht, können alle Verbindungen zwischen den Daten bekannt sein. Außerdem, variableneine solche Gesamtheit (nicht im Sinne der herkömmlichen Programmiersprachen), das grobsprozess, kann in eingeteilt werden abhängigund unabhängig. IMvorheriges Beispiel waren, Kundeund zeitspannekann als unabhängige Variablen betrachtet werden, und menge -die einzige abhängige Variable. Im Allgemeinen sind unabhängige Variablen Variablen, deren Werte zusammen die Werte der abhängigen Variablen bestimmen (auf dieselbe Weise, wenn Sie eine relationale Terminologie verwenden, der Potentialschlüssel ist ein Set

spalten, deren Werte die Werte der verbleibenden Spalten bestimmen). Daher legen unabhängige Variablen die Dimension des Arrays ein, mit dem die Daten organisiert sind, und auch bilden sich ansprache von Scheme11.für dieses Array. Die Werte der abhängigen Variablen, die die tatsächlichen Daten darstellen, werden in den Zellen des Arrays gespeichert.

Hinweis. Unterscheidung zwischen den Werten unabhängiger oder dimensionalvariablen

und Werte von abhängiger oder rückgängig machenvariablen kennzeichnen manchmal als Unterschied zwischen ortund inhalt.

Daher werden die Array-Zellen symbolisch angesprochen, und verwenden nicht numerische Indizes, die üblicherweise zur Arbeit mit Arrays verwendet werden.

Leider ist die oben genannten Merkmale von mehrdimensionalen Datenbanken zu vereinfacht, da die meisten Datensätze zunächst bleiben nichtvoll studiert. Aus diesem Grund streben wir normalerweise, zunächst die Daten analysieren, um sie besser zu verstehen. Oft kann ein unzureichendes Verständnis so signifikant sein, dass es unmöglich ist, im Voraus zu bestimmen, welche Variablen unabhängig sind und welche abhängig sind. Dann werden die unabhängigen Variablen entsprechend der aktuellen Darstellung von ihnen ausgewählt (d. H. Anhand der Hypothese), wonach das resultierende Array überprüft wird, um zu bestimmen, wie gut die unabhängigen Variablen ausgewählt werden (siehe Abschnitt 22.7). Ein solcher Ansatz führt dazu, dass viele Iterationen an dem Prinzip der Proben und Fehler durchgeführt werden. Daher ermöglicht das System normalerweise den Austausch von dimensionalen und nicht unähnlichen Variablen, und dieser Vorgang wird aufgerufen schaltachsen der Koordinaten(Schwenken). Andere unterstützte Operationen umfassen umsetzung von Massiva.und abmessungen neu zuordnen.Es muss auch ein Weg sein, um Dimensionen hinzuzufügen.

Übrigens, aus der vorherigen Beschreibung sollte klar sein, dass die Zellen des Arrays oft leer sind (und die mehr Abmessungen, desto häufiger wird ein solches Phänomen beobachtet). Mit anderen Worten, Arrays sind normalerweise neu geschriebenAngenommen, zum Beispiel, dass das Produkt R mit über den gesamten Zeitraum nicht an den Kunden verkauft wurde t.Dann Cell. [C, p, t]es ist leer (oder am besten, um Null enthalten). Multidimensionale DBMSS unterstützen verschiedene Speichermethoden spärlicher Arrays in effizienter, komprimierter Repräsentation12. Dies sollte hinzufügen, dass leere Zellen entsprechen fehlende Informationdaher müssen Systeme für leere Zellen etwas Berechnung unterstützen. Eine solche Unterstützung ist in der Regel wirklich verfügbar, aber es sieht leider aus wie ein in SQL angenommener Stil. Achten Sie auf die Tatsache, dass, wenn diese Zelle leer ist, dann Informationen oder nicht bekannt ist oder nicht eingeführt oder nicht anwendbar oder aufgrund anderer Gründe nicht anwendbar oder nicht vorhanden ist

(Siehe Kapitel 19).

Unabhängige Variablen werden oft in Verbindung gebracht hierarchiedefinieren von Wegen, auf denen die Aggregation von abhängigen Daten auftreten kann. Zum Beispiel gibt es eine temporäre

eine Hierarchie, die Sekunden mit wenigen Minuten, Minuten mit einer Uhr verbunden ist, eine Uhr mit einem Tag mit einem Tag, einem Tag mit Wochen, Wochen mit Monaten, Monate im Laufe der Jahre. Oder ein anderes Beispiel: Hierarchie ist möglich

zusammensetzungen Verbinden von Teilen mit einem Satz von Teilen, Teile von Teilen mit einem Knoten, Knoten mit einem Modul, Modulen mit einem Produkt. Oft können die gleichen Daten durch viele verschiedene Arten aggregiert werden, d. H. Dieselbe unabhängige Variable kann zu vielen verschiedenen Hierarchien gehören. Das System bietet Betreibern für übergehen(Bohren) und nachlassen(Bohren) für eine solche Hierarchie. obenbedeutet, vom unteren Aggregationsniveau nach oben zu ziehen, und passage nach unten -

Übergang in die entgegengesetzte Richtung. Um mit Hierarchien zu arbeiten, gibt es andere Operationen, beispielsweise eine Operation, um die Ebenen der Hierarchie neu zu ordnen.

Hinweis.Zwischen den Operationen übergehen(Bohren) und akkumulation des Ergebnisses.(Rollen

up) Es gibt einen subtilen Unterschied: Betrieb akkumulation von Ergebnissen -dies ist ein Betriebsvorgang

12 Achten Sie auf dem Andeutenden, im Gegensatz zu relationalen Systemen. In der vorliegenden relationalen Analogon dieses Beispiels in der Zeichenfolge Ic, p,t) Es würde keine leere "Zell-Menge" geben, da die Zeile (S, R,t) Das Gewicht würde einfach fehlen. Daher, wenn ein relationales Modell verwendet wird, anders als mehrdimensionale ArraysKeine Notwendigkeit, "seltene Arrays" oder eher "sparsame Tabellen" aufrechtzuerhalten, dh es heißt, dass komprimierende Kompressionsmethoden nicht erforderlich sind, um mit solchen Tabellen zusammenzuarbeiten.

erforderliche Methoden zur Gruppierung und Aggregation und Betrieb übergehendies ist eine Operation zugriffzu den Ergebnissen der Implementierung dieser Methoden. Und ein Beispiel für den Betrieb nachlassenes gibt eine solche Anfrage: "Die endgültige Menge an Lieferungen ist bekannt; um die endgültigen Daten für jeden einzelnen Lieferanten zu erhalten." Natürlich sollten für die Antwort auf diese Anfrage (oder berechenbare) Daten von detaillierteren Ebenen verfügbar sein.

Eine Reihe statistischer und anderer mathematischer Funktionen sind auch in den Produkten von mehrdimensionalen Datenbanken bereitgestellt, die dazu beitragen, Hypothesen (dh Hypothesen in Bezug auf die vorgeschlagenen Verbindungen) zu formulieren und zu überprüfen. Darüber hinaus werden Visualisierungswerkzeuge und Berichtsgenerierungswerkzeuge zur Lösung solcher Aufgaben bereitgestellt. Leider gibt es jedoch keine Standardabfragesprache für mehrdimensionale Datenbanken, obwohl die Forschung für die Entwicklung der Berechnung der Berechnung unterwegs ist, auf der ein solcher Standard basieren könnte. Aber nichts wie die relationale Normalisierungstheorie, die als wissenschaftliche Grundlage für das Design multidimensionaler Datenbanken, leider dienen könnte, nicht nein.

Wir beachten, dass einige Ansätze in einigen Produkten kombiniert werden - ROLAP und MOLAP. Eine solche oLAP Hybrid System.anruf Holap.Große Diskussionen werden mit dem Ziel gehalten, herauszufinden, welcher dieser drei Ansätze besser ist, daher lohnt es sich, ein paar Worte zu diesem Thema zu sagen. Im Allgemeinen Fall liefert das Molp-System schnellere Berechnungen, unterstützen jedoch kleinere Datenvolumina im Vergleich zu ROLAP-Systemen, d. H. Es wird weniger effektiv, da die Daten zunimmt. Und Rolap-Systeme bieten im Vergleich zu ähnlichen Fähigkeiten von MOLAP-Systemen eine weitere entwickelte Skalierbarkeit, Parallelität und Kontrolle. Darüber hinaus wurde der SQL-Standard kürzlich ergänzt und viele statistische und analytische Funktionen wurden darin enthalten (siehe Abschnitt 22.8). Daraus folgt, dass derzeit Rolap-Produkte erweiterte Funktionen bereitstellen kann.

OLAP (Online Analytische Verarbeitung - Betriebsanalytische Bearbeitung) ist informationsprozess.was dem Benutzer den System anfordern, das System anzufordern, Analyse usw. Betriebsmodus (online). Die Ergebnisse werden innerhalb von Sekunden erzeugt.

OLAP-Systeme werden für Endbenutzer ausgeführt, während OLTP-Systeme Gemacht für professionelle Benutzer von IP. OLAP bietet solche Aktionen als Abfrageerzeugung, ungültige Berichte, statistische Analysen und Bauen von Multimedia-Anwendungen.

Um das OLAP sicherzustellen, ist es notwendig, mit dem Datenspeicher (oder mehrdimensionalen Speicher) sowie mit einem Werkzeugsatz, in der Regel mit mehrdimensionalen Fähigkeiten, zusammenarbeiten. Diese Fonds können abfragen Toolkit, Tabellenkalkulationen, Data Mining-Tools, Datenvisualisierungswerkzeuge usw.

Die Grundlage des Begriffs von OLAP liegt das Prinzip der mehrdimensionalen Datenpräsentation. E. codd überprüfte die Mängel des relationalen Modells, vor allem die Unmöglichkeit, Daten aus der Sicht der Multiplizität von Messungen, dh das verständlichste Verfahren für Unternehmensanalysten zu ermitteln, zu ermitteln und zu ermitteln Allgemeine Anforderungen an OLAP-Systeme, die die Funktionalität von relationalen DBMs erweitern und eine Multidimeside-Analyse als eine seiner Eigenschaften umfassen.

12 Regeln, die die Software-Produktklasse OLAP erfüllen müssen. Diese Regeln:

1. Multidimensionale konzeptionelle Darstellung von Daten.

2. Transparenz

3. Zugänglichkeit

4. Nachhaltige Leistung.

5. Client-Server-Architektur.

6. Gleichheit der Messung.

7. Dynamische Bearbeitung von seltenen Matrizen.

8. Unterstützung für den Multiplayer-Modus.

9. Unbegrenzte Unterstützung für kreuzdimensionale Operationen.

10. Intuitive Datenmanipulation.

11. Flexibler Berichtsgenerierungsmechanismus.

12. Unbegrenzte Mess- und Aggregationsebenen.

Der Satz dieser Anforderungen, die als eigentliche Definition von OLAP bedient werden, sollte als Empfehlungsprodukt betrachtet werden, und das spezifische Produkt wird durch den Grad der Annäherung an die vollkommen vollständige Übereinstimmung mit allen Anforderungen bewertet.


Intelligente Datenanalyse (Data Mining) und Wissen (Wissensbergbau). Verwaltung und Analyse großer Datenmengen (große Daten). Business Analytics Systems (Business Intelligence, BI).

Intelligente Datenanalyse (IAD) - ein gemeinsamer Begriff, um die Datenanalyse mit aktivem Einsatz anzuzeigen mathematische Methoden und Algorithmen (Optimierungsmethoden, genetische Algorithmen, Bilderkennung, statistische Methoden, Data Mining usw.) mit den Ergebnissen der Verwendung von Methoden visuelle Darstellung Daten.



Im Allgemeinen Fall besteht der JIAD-Prozess aus drei Stufen:

1) Identifizierung von Mustern (kostenlose Suche);

2) die Verwendung von identifizierten Mustern zum Vorhersagen unbekannter Werte (Vorhersage);

3) Analyse der Ausnahmen zur Identifizierung und Interpretation der Anomalien in den gefundenen Regularitäten.

Manchmal zeichnete das Zwischenstadium der Überprüfung der Zuverlässigkeit der Regularitäten (Validierungsphase) zwischen ihrem Finden und der Verwendung aus.

Alle Methoden der JIAD auf dem Prinzip der Arbeit mit Quelldaten sind in zwei Gruppen unterteilt:

Die Argumentationsmethoden basierend auf der Analyse von Präzedenzfällen - die anfänglichen Daten können in einem deutlich detaillierten Form gespeichert werden und werden direkt zum Vorhersagen und / oder Analysieren von Ausnahmen verwendet werden. Der Nachteil dieser Methodengruppe ist die Komplexität ihrer Verwendung in großen Datenmengen.

Verfahren zur Identifizierung und Verwendung von formalisierten Mustern, die Informationen aus den primären Daten erfordern und in einigen formalen Strukturen verwandeln, deren Art von der jeweiligen Methode abhängt.

Data Mining (DM) ist eine Erkennungs-Technologie in den "rohen" Daten zuvor unbekannter nicht -trivialer, praktisch nützlicher und erschwinglicher Interpretation des Wissens, das zur Entscheidung in verschiedenen Bereichen der menschlichen Tätigkeit erforderlich ist. Die in Data Mining verwendeten Algorithmen erfordern eine große Anzahl von Berechnungen, die zuvor eine Abschreckung für die breite praktische Anwendung dieser Methoden war, aber das Wachstum der Leistung moderner Prozessoren nahm die Schärfe dieses Problems an.

Der Business Intelligence-Markt besteht aus 5 Sektoren:

1. OLAP-Produkte;

2. Data Mining-Tools;

3. Werkzeuge zum Bau von Speicher- und Daten-Showcasen (Data Warehouse);

4. Management informationssysteme und Anwendungen;

5. Beenden Sie Benutzerwerkzeuge zur Abfrageausführung und -berichterstattung.

Derzeit können Sie zwischen den Führern von Corporate BI-Plattformen MicroStrategy, Business-Objekte, Cognos, Hyperion-Lösungen, Microsoft, Oracle, SAP, SAS Institute und andere (in Anhang B, eine vergleichende Analyse von einigen funktionalität BI-Systeme).

Fortsetzung des Themas:
Smartphone

Konfigurieren und aktivieren Sie einen speziellen AHCI-Modus, der vorzugsweise jedem Benutzer, der erheblich erweitern möchte, und gleichzeitig die Fähigkeiten Ihres PCs zur Arbeit mit ...