意思決定を支援するための分析データ処理のための方法 運用分析データ処理(OLAP)

3.4分析データ処理のための方法

既存のデータウェアハウスが管理決定の採用に貢献するためには、情報は適切な形式の分析によって表されるべきである。すなわち、リポジトリデータおよびそれらの処理にアクセスするためのツールを開発している必要があります。

意思決定者の直接使用に登録された情報および分析システムは使用が非常に簡単ですが、機能的には厳密に制限されています。 そのような静的システムは、ヘッド(IPR)、またはエグゼクティブ情報システム(EIS)の情報システムと呼ばれる。 彼らは多くの要求を含み、毎日のレビューに十分であることは、決定を下すときに発生する可能性のあるすべての質問に対応することができません。 そのようなシステムの結果は、原則として、徹底的な研究の後、アナリストが新しい一連の質問をしている、マルチページレポートです。 しかしながら、そのようなシステムを設計するときの各新たな要求は、正式にプログラマによって符号化され、その後実行されるべきである。 この場合の待ち時間は、必ずしも許容できるわけではありません。

運用分析処理。 またはオンライン分析処理では、OLAPはデータウェアハウスの組織の重要なコンポーネントです。 OLAPの概念は、1993年にEdgar Coddoによって説明されており、多次元分析用途には以下の要件があります。

- 階層と複数の階層のフルサポートを含む、データの多次元概念表示(キーOLAP要件)。

- 価格が詳細な分析よりも小さい場合でも、許容時間(通常5秒以下)の分析の結果にユーザーを提供する。

- このアプリケーションに特徴的な論理的および統計的分析を実装する能力、そして使いやすい形での保全。

- 関連するブロッキングメカニズムのサポートと許可されたアクセス手段を持つデータへのマルチプレイヤーアクセス。

- そのボリュームおよび保管場所に関係なく、必要な情報を参照する機能。

OLAPシステムはさまざまな構成要素で構成されています。 最上位のビューレベルでは、システムは、OLAPテクノロジ、OLAPサーバー、クライアントに基づいてレポートメカニズムを実装する機能を提供する、データソース、多次元データベース(MBD)を含む。 システムはクライアントサーバーの原則に基づいて構築されており、MBDサーバーへのリモートおよびマルチプレイヤーアクセスを提供します。

OLAPシステムの複合部品を検討してください。

ソースOLAPシステムのソースは、分析用のデータを供給するサーバーです。 OLAP製品の使用面積に応じて、ソースはデータウェアハウスとして機能し、一般データを含むデータベースを継承します。

財務データまたはリストされた任意の組み合わせを組み合わせるテーブル。

データストア. 初期データは収集され、データウェアハウスの構築の原則に従って設計されたリポジトリに配置されます。 HDはリレーショナルデータベース(RBD)です。 HDのメインテーブル(ファクトテーブル)には 数値 統計情報が収集されるインジケータ。

多次元データベース。データ記憶域は、一連のオブジェクトである多次元データベースのサービスプロバイダとして機能します。 これらのオブジェクトの主なクラスは測定とインジケータです。 測定値には、時間、地域、機関の種類など、データのインデックス作成が行われる複数の値(パラメータ)が含まれます。各測定値は、対応するデータ記憶測定テーブルからの値で埋められます。 測定の全体が研究中のプロセスの空間を決定します。 指標は多次元データキューブ(ハイパーカブ)によって理解されます。 ハイパーキューブには、データ自体、およびインジケータの一部である測定値の総和が含まれています。 インジケータはMBDの主な内容を構成し、ファクト表に従って埋められます。 すべての軸ハイパーキューブに沿って、データは異なるレベルのそれらの詳細を表す階層の形で編成できます。 これにより、後続の分析、集計または詳細データが実行される階層測定値を作成できます。 階層ディメンションの典型的な例は、地区、地域、地区によってグループされた領土のオブジェクトのリストです。

サーバ。OLAPシステムの適切な部分はOLAPサーバーです。 このコンポーネントは、すべての作業を(システムモデルに応じて)実行し、アクティブなアクセスが保証されるすべての情報を格納します。 サーバーアーキテクチャはさまざまな概念を管理します。 特に、OLAP製品の主な機能特性は、データ保存のためのMBDまたはRBDの使用です。

クライアントアプリケーション適切に、MBDに格納されているデータは、クライアントアプリケーションを使用した分析に利用可能です。 ユーザーはデータへのリモートアクセスを受け取り、複雑なクエリを作成し、レポートの生成、任意のデータサブセットを取得します。 報告書の受領は、特定の測定値の選択およびハイパーキューブの断面の構造に減少する。 セクションは選択された測定値によって決まります。 他の寸法のデータはまとめられています。

オラプス。 クライアントとサーバー上で。複数のデータ分析は、クライアントおよびサーバOLAPに分割できる様々な手段を使用して実行することができる。

クライアントOLAPS(例えば、Excel 2000 MicrosoftまたはProclarity企業のKnosysの企業のピボットテーブル)は、集計データを計算して表示するアプリケーションです。 この場合、集約データ自体はそのようなOLAPのアドレス空間内のキャッシュに含まれています。

初期データがデスクトップDBMSに含まれている場合、集計データの計算はOLAP自体によって実行されます。 ソースデータソースがサーバDBMSである場合、クライアントOLAPファンドの多くがSQL要求サーバに送信され、その結果、サーバ上で計算された総データが取得される。

原則として、OLAP機能は、統計データ処理と一部のスプレッドシートで実装されています。

多くの開発ツールには、最も単純なOLAP機能を実装するアプリケーションを作成できるクラスライブラリまたはコンポーネントが含まれています(たとえば、Borland DelphiおよびBorland C ++ BuilderのDecistion Cubeコンポーネントなど)。 さらに、多くの企業はそのような機能を実装するActiveXコントロールおよびその他のライブラリを提供しています。

得られた集約データは同様の手段のアドレス空間で圧縮されるべきであるので、クライアントOLAPは、ルールとして(通常6個以下)、これらのパラメータの小さな値を有する。そして、それらの数は測定数の増加と共に指数関数的に成長している。

多くのクライアントOLAPSでは、再計算を行わないようにするために、キャッシュの内容をファイルの形式で集計データを保存できます。 ただし、この可能性は、それらを他の組織に転送するために、または出版物のために集計データを疎外するためによく使用されます。

ファイル内の集約データを含むキャッシュを保存するというアイデアは、サーバーOLAP(たとえば、Oracle Express ServerまたはMicrosoft OLAPサービス)でそのさらなる開発を受けており、そのまま集計データの保存と変更、およびストレージのサポートを受けています。それらを含むことは、OLAPサーバーと呼ばれる別のアプリケーションまたはプロセスによって実行されます。 クライアントアプリケーションは、同様の多次元ストレージを要求し、特定のデータを受信することができます。 一部のクライアントアプリケーションは、変更されたソースデータに従ってそれらをそのような保存または更新することもできます。

クライアントOLAPツールと比較してサーバーOLAPを適用する利点は、デスクトップと比較してサーバーのDBMSを適用する利点と似ています。サーバーツールが使用されている場合は、サーバー上で集計データの計算と記憶が行われ、クライアントアプリケーションはの結果だけを受け取ります。一般的な場合では、クライアントアプリケーションによって消費されるネットワークトラフィック、クエリ時間、およびリソース要件を減らすことができます。

3.5多次元貯蔵の技術的側面

OLAPアプリケーションの多次元性は3つのレベルに分類できます。

1。 多次元データ表現 - 多次元視覚化とデータ操作を提供するエンドユーザツール。 多次元表現層は物理データ構造から抽象化され、データを多次元として知覚する。

    多次元治療 - 多次元クエリを策定する(ここでは伝統的なリレーショナル言語SQLは不適切な)、そのような要求を処理し実行できるプロセッサを意味する(言語)。

    多次元貯蔵 - 多次元要求の効果的な実装を確実にする物理データ組織のツール。

最初の2つのレベルは必ずすべてのOLAPツールに存在します。 第3のレベルは、多次元表現のデータが通常のリレーショナル構造から取り除かれる可能性があるので、それは不要であるが、不要である。 多次元クエリプロセッサは、この場合は、リレーショナルDBMSによって実行されるSQLクエリに多次元要求を変換します。

任意のデータウェアハウスでは、通常、多次元的には、業務システムから抽出された詳細なデータと共に、両方の集約インジケータが月ごと、商品のカテゴリなどの販売数量などの販売数量(総指標)に格納されます。唯一の目的と明示的に - 要求の実行をスピードアップする。 結局のところ、一方では、ストレージは、ルール、非常に大量のデータとして蓄積され、一方で、ほとんどの場合詳細ではなく一般化されたインジケータが興味があります。 そして、販売額を計算するために年間の何百万もの個人販売を要約するだけであれば、スピードは容認できない可能性が最も高いです。 したがって、データを多次元データベースにロードするとき、すべての総インジケータまたはそれらの部分が計算され保存されます。

ただし、集約されたデータを使用することは、不利益を伴います。 主な欠点は、保存されている情報の量が増加しています(新しい測定が追加された場合、キューブのデータコンポーネントの量が指数関数的に拡大しています)およびそれらのダウンロードの時間。 さらに、情報量は数十分および数百回も増加する可能性があります。 たとえば、公開されている標準テストのいずれかで、10 MBのソースデータに対する集計の全評価が必要な2.4 GB、すなわちデータは240回増加しました。

ユニットの計算におけるデータ量を増やす度合いは、立方体の測定数およびこれらの測定の構造、すなわち、異なる測定レベルでの「親」および「子孫」の数の比率に依存する。 集合体の保管の問題を解決するために、複雑なスキームは、すべての可能なユニットから遠くを計算するときに、クエリの性能の大幅な増加を達成するために適用されます。

ソースデータと集約データの両方に保存できます。

リレーショナルまたは多次元構造における。 これに関して、多次元データの記憶方法の3つの方法が現在適用されています。

モラップ。 (多次元OLAP) - ソースデータと集約データは多次元データベースに格納されています。 多次元構造におけるデータの格納は、集約値の計算速度が任意の測定に対して同じであるため、多次元アレイとしてデータを操作することができる。 しかしながら、この場合、多次元データはソース関係データを完全に含むので、多次元データベースは冗長である。

これらのシステムは完全なOLAP処理サイクルを提供します。 それらは、サーバーコンポーネントに加えて、それら自身の統合クライアントインターフェースがスプレッドシートを持つユーザー外部作業プログラムと通信するために使用されます。

ローラップ。 (リレーショナルOLAP) - 最初のデータは同じリレーショナルデータベースに残ります。 集約データは、同じデータベース内のそれらのストレージ用に具体的に作成されたサービステーブルに配置されます。

ハーラップ (ハイブリッドOLAP) - 最初のデータは同じリレーショナルデータベースに残り、それらはもともと保持され、集計データは多次元データベースに格納されます。

一部のOLAPSはリレーショナル構造でのみデータ記憶をサポートし、いくつかは多次元的にのみあります。 ただし、最近のほとんどのサーバーOLAPファンドは、3つのストレージメソッドすべてをサポートしています。 ストレージ方式の選択は、ソースデータのサイズと構造、要求の実行速度の要件、およびOLAPキューブの更新頻度によって異なります。

3.6インテリジェントデータ分析(データ。鉱業)

データマイニングという用語は、様々な数学的および統計的アルゴリズムを通して、様々な数学的および統計的アルゴリズムを通して相関、傾向および関係を見つけるプロセスを決定する意思決定システムのためのクラスタリング、回帰および相関分析など。 同時に、累積情報は知識として特徴付けることができる情報に自動的に要約されます。

現代の技術データマイニングの基礎は、いわゆる隠された知識のデータのサパリットとコンポーネントに固有のパターンを反映したテンプレートの概念に基づいています。

テンプレートの検索は、これらの下層油に関する先験的な仮定を使用しない方法によって行われます。 データマイニングの重要な機能は、標準ではなくテンプレートの非表示性です。 言い換えれば、データマイニングツールは、所定の相互接続ユーザをチェックする代わりに、データ統計ツールおよびOLAPツールとは異なる。

データの間には、利用可能なデータに基づいていますが、そのような相互関係を独立して見つけることができます。また、それらの性質についての仮説を構築することができます。

一般的な場合、データ知的分析のデータ(データマイニング)は3段階で構成されています

    パターンを特定する(無料検索)。

    未知の値を予測するための識別されたパターンの使用(予後モデリング)。

    実行分析は、見つかった規則的な異常を識別し解釈するように設計されています。

発見と使用(検証段階)の間に見られる規則性の信頼性の検証の中間段階を明示的に区別することがあります。

データマイニング方法によって検出された厳しい5つの標準タイプのパターン:

1.アサイエーション暗黙的に指定された接続があるオブジェクトの安定したグループを選択できます。 パーセンテージとして表される、別の被写体またはオブジェクトのグループの外観の頻度は有病率と呼ばれます。 低罹患率(1000分の1百万未満)は、そのような会合が重要ではないことを示唆しています。 協会は規則の形式で記録されます。 A.=> bどこ だが -小包 -コロラリー。 受信した各連想ルールの重要性を判断するためには、信頼と呼ばれる値を計算する必要があります だが(または相互接続 aとb)。信頼はいつの頻度であるかを示しています だが見える に。たとえば、 d(A / B)\u003d 20%、これは製品を購入するときにそれを意味します だが各5番目のケースでは、商品も購入されます に。

関連付けの適用の典型的な例は、購入構造の分析です。 例えば、スーパーマーケットで研究を行うときは、ポテトチップの65%が「コカコーラ」を取り、そのようなキットの割引があると確立することができます、コラは85%で取得されますケースの マーケティング戦略の形成においても同様の結果が貴重です。

受付 - これは、関連する関連性を識別する方法です。 この場合、イベントの特定のグループの一貫した外観を記述する規則が決定されます。 そのような規則はシナリオを構築するために必要です。 さらに、それらは、例えば、以前の販売の典型的なセットを形成するために使用することができ、それは特定の製品のその後の販売を伴う可能性がある。

3.分類 - 一般化のツール これにより、単一のオブジェクトを考慮して、いくつかのオブジェクトセットを特徴付ける一般化された概念に移動することができ、これらのColts(クラス)に属するオブジェクトを認識するのに十分です。 概念の形成の概念の本質は、クラスに固有のパターンを見つけることです。 オブジェクトを説明するために、さまざまな機能(属性)が使用されます。 特徴的な説明上の概念の形成の問題は、m.m.によって定式化された。 ボンガルト。 その解決策は2つの主な手順の使用に基づいています。学習とチェック。 調査手順は、学習用のオブジェクトセットの処理に基づいて分類規則によって構築されている。 検証手順(試験)は、取得した分類規則を使用して、新規(試験)サンプルからオブジェクトを認識することです。 試験結果が満足のいくものとして認識されている場合、学習処理は終了し、そうでなければ再学習の過程で分類規則が指定される。

4.クレイベーション - これは、これらのグループの同時定義を持つグループ(クラスタ)またはセグメントのデータベースからの情報(レコード)の配布です。 分類とは異なり、分析のためのクラスの予備的なタスクは必要ありません。

5.予測時系列 それは時間とともに検討中のオブジェクトの属性の傾向を決定するためのツールです。 Time Seriesの動作の分析により、調査された特性の値を予測することができます。

そのような作業を解決するために、様々な方法およびデータマイニングアルゴリズムが使用される。 データマイニングが統計、情報理論、機械学習、データベース理論のような分野のジャンクションで開発および開発されたという事実のために、ほとんどのアルゴリズムとデータマイニング方法がさまざまな方法に基づいて開発されたことは非常に自然です。これらの分野

既存のデータ研究方法のマニホールドから、次のものを選択できます。

    回帰、分散および相関分析(特に、企業SAS Institute、Stathoftなどの製品に実装されています。

    分析方法経験的モデル(例えば、財務分析の低コスト基金で使用されることが多い)に基づく特定の対象領域。

    ニューラルネットワークアルゴリズム- プロセスと現象の模倣方法で、複雑な依存性を再現することができます。 この方法は、生物学的脳の単純化されたモデルの使用に基づいており、初期パラメータは「ニューロン」との間の接続に従って変換された信号として扱われ、解析の結果である回答として扱われることである。ソースデータへのネットワーク全体の応答によって考慮されます。 この場合の通信は、ソースデータと正解の両方を含む大容量をサンプリングすることによって、いわゆるネットワークトレーニングを使用して作成されます。 ニューラルネットワークは分類タスクを解決するために広く使用されています。

    ファジーロジックそれは、さまざまな言語変数によって表すことができるぼやけた真理値を有するデータ処理に使用されます。 ファジー表示は、例えば、Xpertrule Miner System(Attar Software Ltd.、イギリス)、ならびにAIS、Neufuzなどで、分類および予測の課題を解決するために広く使用されています。

    誘導結論データベースに格納されている事実の一般化を取得できるようにします。 帰納的訓練の過程で、専門的な仮説を供給することができます。 この方法は教師との学習と呼ばれます。 一般化規則の検索は、仮説を自動的に生成することによって教師なしで実行できます。 現代のソフトウェアでは、原則として、両方の方法が組み合わされ、統計的方法は仮説をテストするために使用されます。 誘導結論を使用したシステムの例は、Attar Software Ltd.によって開発されたXprotule Minerです。 (グレートブリテン);

    推論に基づく 同様の事件(「最近傍」方法)(ケースベースの推論 - CBR)は、状況の検索に基づいており、その説明は特定の状況を備えた多数の機能と似ています。 同様の状況の結果も互いに近くなることを示唆している。 このアプローチの不利な点は、以前の経験を一般化するモデルや規則がないという事実にあります。 さらに、出力結果の信頼性は、誘導出力プロセスのように、状況の説明の完全性に依存します。 CBRを使用したシステムの例は、Kate Tools(Acknosoft、フランス)、パターン認識ワークベンチ(UNICA、USA);

    木のソリューション- データを分類するか決定の影響を分析するための生産規則に対応するツリーグラフの形式でタスクを構造化する方法。 この方法は、それらの多くがない場合、規則を分類するシステムの視覚的な考えを与えます。 シンプルなタスクは、ニューラルネットワークを使用するよりもはるかに速くこの方法で解決されます。 複雑な問題のために、そしていくつかのデータ型のために、解決策の木は許容できないかもしれません。 また、この方法は重要な問題を特徴としています。 階層データクラスタリングの結果の1つは、多くの特別なケースにとって多くのトレーニング例が不在であるため、分類は信頼できると見なすことはできません。 決断の方法は、さまざまなソフトウェアで実装されています。ここでは、C5.0(Rulsquest、オーストラリア)、クレメンタイン(Integral Solution、イギリス)、シピナ(フランス大学)、IDIS(Information Discovery、USA)。

    進化的プログラミング- 検索プロセス中に修正された最初に指定されたアルゴリズムに基づくデータの相互依存性を表すアルゴリズムの検索と生成。 特定の種類の関数の中から相互依存の検索が実行されることがあります(たとえば、多項式)。

限られた完全性のアルゴリズムデータサブグループ内の単純な論理イベントのコンビネーションの合成

3.7統合オラプス。 そしてデータ。鉱業

運用分析処理(OLAP)およびインテリジェントデータ解析(データマイニング) - 意思決定プロセスの2つの構成要素。 しかし、今日、OLAPシステムの大部分は多次元データへのアクセスを提供するためだけに焦点を当てており、パターンの分野で働くほとんどのデータマイニングツールは一次元データの見通しを扱っています。 意思決定支援システムのデータ処理効率を高めるためには、これら2種類の分析を組み合わせる必要があります。

現在、コンポジット用語「OLAPデータマイニング」(多次元インテリジェント分析)は、そのような組合を指定するように見えます。

「OLAPデータマイニング」を形成する方法は3つあります。

    「次に採掘する」 インテリジェント分析を実行する能力は、多次元概念表現への要求の結果、すなわち、ハイパーキューブインジケータの任意の断片にわたって確実に保証されるべきである。

    「鉱山は次に立方体」 リポジトリから抽出されたデータのように、知的分析の結果は、その後の多次元分析のために高キュービリック形式で提出されるべきです。

    「マイニング中のキュービング」 統合するこの柔軟な方法では、一般化のレベルと新しいハイパーキューブフラグメントなどを抽出する、多次元解析(遷移)の各ステップの結果にわたって同じ種類の知的処理メカニズムを自動的にアクティブにすることができます。

    グレード11 [テキスト... それら なので すべて システム ... 助教授 ... チェボクツアリー2009. S. 44 -49 ... 著者 - コンパイラ:N. ... 概要講評, ...

  • 教育マニュアル

    ... 講評。 準備 講評 数学。 書き込み 概要講評 講評。 using 情報技術 ...

  • そして、RebedevのRebedevの研究活動の将来の教師の将来の教師の研究活動、小学校数学のための創造的課題とそれを教える方法

    教育マニュアル

    ... 講評。 準備 講評 数学。 書き込み 概要講評。 視覚的利益の準備 読書技術 講評。 using 情報技術 ...

  • メディアのメディアの職業教育の近代化3月 - 8月2011年8月

    概要

    ... 11 .08.2011 Rnimの「死んだ魂 - 2」 それら ... 3,11 -3,44 。 ... 公衆 講評 リーダー... チェボクツアリー ...と脳卒中 概要 聴衆 - ... 情報システム そして テクノロジー. ... システム 教育 - 言う 助教授 ... コンパイラ ... 部品 強化 コンテンツ ...

ビジネスプロセスの分析技術

Business Intelligence Business Intelligence(BI)は、企業のさまざまな手段と技術分析とデータ処理を組み合わせたものです。 これらの資金に基づいて、BI-Systemsが作成され、その目的は管理の決定を下すための情報の質を向上させることです。

BIには、次のクラスのソフトウェア製品が含まれています。

・運転分析処理システム(OLAP)。

・インテリジェントデータ解析ツール(DM);

各クラスのソフトウェア製品は、特別なテクノロジを使用して特定の機能セットまたは操作を実行します。

OLAP(オンライン分析処理) - オペレーショナル分析処理は、非特定の製品の名前ですが、テクノロジ全体です。 OLAPコンセプトの基礎は多次元データ提示にあります。

1993年に、パートナー(Edgar Codd、数学、学者IBM)を搭載したEdgar Coddのデータベースを構築するためのリレーショナルアプローチの創設者は、会社が開始し、「OLAP提供(オペレーショナル分析処理)」と題する記事を掲載しています。どちらの12がOLAP技術基準を策定し、その後、新しく有望な技術の主な内容となります。

後に彼らはOLAP製品の要件を定義するFasmi Testで修正されました。

・高速です。 OLAPアプリケーションは、分析データへの最小アクセス時間を提供する必要があります - 平均約5秒。

・分析(分析)。 OLAPアプリケーションは、ユーザーに数値的および統計分析を実行する能力を与えるべきです。

・共有(共有アクセス)。 OLAPアプリケーションは、情報を同時に多くのユーザーに処理する機能を提供する必要があります。

・多次元(多次元);

・情報(情報)。 OLAPアプリケーションは、ユーザに必要な情報を受信する機会を与えるべきであり、電子データウェアハウスではない。

FASMIに基づいて、次の定義を与えることができます。 OLAPアプリケーション - これらは、数値的および統計的分析の能力を持つ多次元分析情報への迅速な多人数層アクセスのシステムです。

OLAPの基本的な考え方は、ユーザー要求に利用可能になる多次元キューブを構築することです。 多次元キューブ(図5.3)は、ソースデータと集約データに基づいて構築されており、これはリレーショナルデータベースと多次元データベースの両方に格納できます。 したがって、データストレージの3つの方法が現在適用されています。 モラップ。 (多次元OLAP) ローラップ。 (リレーショナルOLAP) ハーラップ (ハイブリッドOLAP)。



したがって、記憶方法によるOLAP製品は3つの類似のカテゴリに分けられる。

MOLAPの場合、初期データおよび多次元データは多次元データベースまたは多次元局所キューバに格納される。 この記憶方法が提供する 高速 OLAP操作を実行します。 しかし、この場合の多次元ベースは最も頻繁に冗長になるでしょう。 それに基づく立方体は測定数に大きく依存します。 測定数が増加すると、立方体の音量は指数関数的に大きくなります。 時々それはデータ量の「爆発的な成長」につながる可能性があります。

2. ROLAP製品では、初期データはリレーショナルデータベースまたはファイルサーバー上のフラットローカルテーブルに格納されています。 集約データは、同じデータベース内のサービステーブルに配置できます。 リレーショナルデータベースから多次元キューブへのデータを変換すると、OLAPの要求で発生します。 この場合、キューブを構築する速度はデータソースの種類に大きく依存します。

ハイブリッドアーキテクチャを使用する場合、初期データはリレーショナルベースに残り、ユニットは多次元に配置されます。 OLAPキューブの構成は、リレーショナルデータおよび多次元データに基づいてOLAPツールの要求で実行されます。 このアプローチはデータの爆発的な成長を回避します。 同時に、クライアント要求の最適な実行時間を達成することが可能です。

OLAP技術を使用して、ユーザは情報の柔軟な視聴を行い、異なるデータセクションを取得し、詳細な詳細、畳み込み、畳み込み、時間比較、すなわち レポートやドキュメントを作成して動的に公開します。

ストレージデータベースの構造は通常、情報の分析を最大にするように開発されています。 データは異なる方向に「レイアウト」(測定と呼ばれる)に都合よく「レイアウト」する必要があります。 たとえば、今日、ユーザーは自分の活動を比較するためのサプライヤーのサプライヤの配信概要を見たいと考えています。 明日同じユーザーは、物資のダイナミクスを追跡するために数ヶ月の細部の配達量の変化の絵を必要とします。 データベース構造はそのような分析を確実にする必要があり、指定された測定セットに対応するデータを割り当てることができます。

運用分析データ処理の基礎は、超クリビックモデル内の情報を編成する原理です。 以前に検討されたテストデータベースの詳細について最も簡単な3次元キューブを図4に示す。 3.11。 各セルは「事実」(例えば、部品の送達量)に対応する。 立方体の一方の面に沿って(1回)反射配送キューブが行われた数ヶ月があります。 2番目の寸法は詳細の種類であり、3番目はサプライヤに対応しています。 各セルには、3次元すべての値の対応する値の組み合わせの配信量が含まれています。 キューブを記入するときには、テストデータベースからの毎月の供給の値の集約が行われることに留意されたい。


3.11。 部品供給品の分析のための単純化されたハイパーキューブの変形

OLAPクラスシステムはデータ表現方法によって異なります。

多次元OLAP(モラップ) - これらのシステムの基礎は、動的配列に基づく多次元である。適切なアクセス方法を用いたデータ構造 MOLAPは、多次元DBMSを整理するための特許取得済み技術に実装されています。 このアプローチの利点は、ハイパーキューブのセルを介してコンピューティングを実行するのが便利です。 測定値の組み合わせの下で、対応するセル(スプレッドシート内)は充電されます。 そのようなシステムの古典的な代表者は、Oracle Express、SAS Institute MDDBを含む。



関係OLAP(ROLAP) - リレーショナルデータベースに対する多次元分析モデルをサポートします。 このクラスのシステムには、Meta Cube Informix、Microsoft OLAPサービス、Hyperion Solutions、SAS Institute Relap OLAPが含まれます。

デスクトップOLAP(デスクトップOLAP)- ローカル情報システム(スプレッドシート、フラットファイル)の多次元要求とレポートを生成するための手段。 次のシステム - ビジネスオブジェクト、Cognos Power Playを選択できます。

e.f. コードは、データの多次元概念表現、透明性、可用性、持続可能な性能、クライアント - サーバーアーキテクチャ、測定等価性、希薄化行列の動的処理、マルチプレイヤーモード、無制限のサポートを含む、製品クラスOLAPを満たさなければならない12の規則を定義しました。相互次元操作、直感的なデータ操作、柔軟なレポート生成メカニズム、無制限の測定および集約レベル。



ROLAPクラスの最も一般的なシステム。 彼らはあなたが整理することを可能にします 情報モデル 任意の構造のリレーショナルおよび完全なストレージを超えて、または特別な表示ケースを介して。

図。 3.12。 部品供給のためのタイプ「星」分析ショーケースのスキーム

ほとんどのデータウェアハウスでは、N次元キューブをモデル化する最も効果的な方法は星です。 図1において、No。 3.11情報が4次元(供給者、詳細、月、年)で連結されている部品の供給を分析するためのハイパーキューブのモデル。 「スター」スキームはファクトテーブルに基づいています。 ファクト表には、配信量が指定されている列、およびすべての測定テーブルの外部キーを示す列が含まれています。 キューブの各測定には、事実の工場への参照である値の表が表示されます。 測定基準書に関する情報の一般化レベルを整理するために、カテゴリ入力が整理されています(例えば、「材料詳細」、「市サプライヤー」)。

図5の方式が異なるのは、 3.12という名前の「星」はかなり明白です。 「星」の端は、測定テーブルによって形成され、それらの中央の形の光線にある事実の表との接続が形成されます。 このデータベース構造では、ビジネス分析の分野からのほとんどの要求は、事実の中央テーブルと1つまたは複数の測\u200b\u200b定テーブルを組み合わせています。 たとえば、2004年のすべての部品の納入量の取得要求は、サプライヤによる内訳で、次のようになります。

sum(value)、supplier.supplier_name、fact.month_idを選択します

事実、サプライヤーから

fact.year_id \u003d 2004

とFACT.SUPPLIER_CODE \u003d SUPPLIERS.SUPPLIER_CODE

group_by supplier_code、month_id

order_by supplier_code、month_id。

図1において、No。 3.13指定された要求の結果として形成されたレポートのフラグメントを示す。

期間 運用分析処理(オンライン分析処理 - OLAP)は、Arbor Software Corp.に準備した報告書に最初に述べられた。 1993年には、データウェアハウスの場合のように、この用語の定義は後で策定されました。 この用語で示された概念は、「データを作成、維持、分析し、報告の発行の発行」として定義することができます。 さらに、それらは通常、検討中のデータがそれらが保存されているかのように知覚され処理されるべきであることを追加します。 多次元配列しかし、多次元発表自体の議論を続ける前に、従来のSQLテーブルに関して適切なアイデアを考えてみましょう。

最初の特徴は、分析処理において確かにいくつかの集約を必要とすることです。 データ、通常、数字ですぐに実行されます 違う方法 または言い換えれば、さまざまなグループ化基準に従って。 本質的には、分析処理の主な問題の1つは、すべての種類のグループ化方法の数があることです。

すぐに大きすぎるようになります。 それにもかかわらず、ユーザーはすべてまたはほとんどすべての方法を考慮する必要があります。 もちろん、今やSQL規格では、そのような集約はサポートされていますが、特定のものです。 sQLリクエスト その結果として1つのテーブルだけを開発し、このテーブルのすべての行は同じ形式と同じ解釈10を持ちます(少なくとも

9私たちは、データウェアハウスで本からアドバイスをします。「正規化から[拒否] ...ディスクディスクを保存するためのテーブルのいずれかのテーブルを、ディスクディスクを保存するためのテーブルを正規化します。) - 無駄な時間に - の範囲...寸法の表は正規化されてはいけません...正規化ディメンションテーブルは表示能力を除外します。」

10この結果表だけに未定義の値、またはNULL値が含まれていない場合(第19章「述語の詳細」を参照)。 実際、このセクションで説明するSQL:1999の設計は、この推奨されていないSQL(?)の「使用に基づいて「使用に基づいて」と尋ねられます。 アクションでは、彼らはさまざまな症状では、無期限の値が異なる可能性があり、したがって、1つのテーブルにロッドの多くの異なる予測を送信することができるという事実を強調しています(以下に示すように)。

sQLの前にありました:1999標準外観)。 実装するために pグループへのさまざまな方法で、実行する必要があります p個々のテーブルの結果としてクエリを区切り、作成します。 たとえば、サプライヤデータベースと部品データベースで実行された次の要求の順序を考慮してください。

1.配達の総額を決定します。

2.サプライヤーのサプライヤーの総数を決定します。

3.配達の総額を詳細に決定します。

4.サプライヤーと詳細への配達の総額を決定します。

(確かに、このプロバイダの「総」数とこの部分はこのサプライヤとこの部分の実際の金額です。創設データベース、詳細、プロジェクトが使用されている場合、例はより現実的になります。この例を複雑にするわけではありません。 、私たちはまだサプライヤーの通常の基盤と詳細に止まりました。)

ここで、数字P1とP2を持つ2つの詳細しかないと仮定し、サプライテーブルは次のとおりです。

多次元データベース

SQL言語を使用してOLAPデータが従来のデータベースに格納されていると仮定されていました(時々私たちはまだ専門用語と概念を心配していません。 多次元データベース)。実際、私たちは明確に指摘せずに、いわゆるシステムを説明しました ローラップ。関連した オラプ -関連した OLAP)。しかし、多くの人がシステムの使用を信じる モラップ。(多次元 オラプス。- 多次元OLAP) - より有望な道。 このサブセクションでは、MOLAPシステムを構築する原則はもっと考慮されます。

MOLAPシステムはメンテナンスを提供します 多次元データベースデータは概念的に多次元配列のセルに格納される。

注意。 上記ですが そしてo 概念ストレージを整理する方法、実際にはデータの物理的編成 モラップ。彼らの論理的組織と非常に似ています。

DBMSをサポートする 多次元。簡単な例として、それぞれ、商品、顧客、および期間を表す3次元配列を与えることができる。 各個別セルの値は、指定された期間に顧客によって販売された特定の製品の総量を表すことができます。 上記のように、前のサブセクションのクロステーブルもそのような配列と見なすことができます。

一連のデータの構造を十分に明確に理解している場合、データ間のすべてのリンクを知ることができる。 また、 変数そのような全体的な(従来のプログラミング言語の意味ではない)、大まかに言えば、分割することができます 依存そして 独立した。 に前の例 商品、顧客そして 期間独立した変数と見なすことができます 数量 -唯一の依存変数。 一般に、独立した変数は、値が依存変数の値を判断する変数です(リレーショナル用語を使用する場合は、潜在的なキーはセットです。

値が残りの列の値を決定する列)。 したがって、独立した変数は、データが整理されているアレイの寸法を設定し、また形式を設定します。 アドレッシングスキーム11この配列のために。 実際のデータを表す従属変数の値は、配列のセルに格納されています。

注意。 独立した値の値を区別する 寸法変数

扶養家族の値と価値 不思議な変数は、違いとして特徴付けることがあります ロケーションそして コンテンツ。

「したがって、アレイセルは象徴的にアドレス指定され、アレイで動作するために一般的に使用される数値インデックスを使用しない。

残念ながら、ほとんどのデータの大部分が最初に残っているため、多次元データベースの上記の特徴は簡素化されています。 じゃあ完全に勉強しました。 このため、通常、まず、それらをよりよく理解するためにデータを分析します。 多くの場合、理解が不十分であることは、どの変数が独立しているか、そしてどのような依存性を事前に決定することは不可能であることが非常に重要になる可能性があります。 次に、独立した変数は、それらの現在の表現(すなわち、仮説に基づいて)に従って選択され、その後、結果の配列がチェックされて独立した変数が選択されるかを決定する(セクション22.7参照)。 そのようなアプローチは、サンプルおよびエラーの原理について多くの反復が実行されるという事実をもたらす。 したがって、システムは通常、寸法および非異なる変数の置き換えを可能にし、この操作は呼び出されます。 座標のシフト軸(ピボット)。 他のサポートされている操作には含まれています マッシバの転置そして 寸法の並べ替え寸法を追加する方法もあります。

ちなみに、以前の説明から、アレイのセルがしばしば空(そしてより寸法が多いほど、このような現象が観察されるほど観察される)であることは明らかであるべきである。 言い換えれば、配列は通常 再描画しました。例えば、製品Rが全期間にわたって顧客に販売されなかったことを仮定する。 t。それからセル [C、P、T]それは空になるでしょう(またはゼロを含むために最良の)。 多次元DBMSSは、より効率的で圧縮された表現12でスパースアレイの様々な記憶方法をサポートする。 これは空のセルに対応することを追加する必要があります 欠けている情報したがって、システムは空のセルに対して何らかの計算サポートを提供する必要がある。 そのようなサポートは本当に利用可能ですが、残念ながら、SQLで採用されているスタイルのように見えます。 このセルが空の場合には、情報は知られているか、または該当しないか、または他の理由のために該当せず、または欠席しなかったという事実に注意を払ってください。

(第19章を参照)。

独立した変数はしばしば関連付けられています 階層従属データの集約が発生する可能性があるパスを定義します。 たとえば、一時的なものがあります

数分、時計で数分、時計、1分、1週間の時計、数週間、数週間、数週間、数週間で数週間、数週間。 あるいは別の例:階層が可能です

部品のセット、ノードを持つ部品のセット、モジュールを持つ部品のセット、モジュール、製品のセット。 多くの場合、同じデータをさまざまな方法で集約できます。 同じ独立変数がさまざまな階層に属することができます。 システムはオペレータを提供します passing(ドリルアップ) passingそのような階層のために(ドリルダウン)。 低レベルの集約から上部への移動を意味します。 パッセージダウン -

反対方向に遷移する。 階層を操作するには、階層のレベルを並べ替えるための操作など、他の操作があります。

注意。運営の間 passing(ドリルアップ) 成果の蓄積(ロール

上)微妙な違いがある:営業 結果の蓄積 -これは運用操作です

12リレーショナルシステムとは異なり注意を払う。 この例の現在のリレーショナルアナログでは、文字列内の IC、t)行の事実のために空の「セル」数量はありません (S、R、t)体重は単に欠けているでしょう。 したがって、関係モデルを使用する場合は 多次元配列「希薄な配列」、またはむしろ「スパーステーブル」を維持する必要はありません。つまり、熟練した圧縮方法はそのようなテーブルを使用する必要がないことを意味します。

グループ化と集約の必要な方法、および操作 passingこれは操作です アクセスこれらの方法の実装の結果に。 そして運用の一例 passingこのような要求があります。「配達の最終額は知られています。各個別サプライヤの最終データを入手する。」 もちろん、この要求に対する応答のために、より詳細なレベルの利用可能な(または計算可能な)データであるべきです。

多次元データベースの製品には、多次元データベースの製品にもいくつかあります。これは、仮説を定式化して確認してください(つまり、提案されたリンクに関する仮説に関する仮説)。 さらに、そのようなタスクを解決するために可視化ツールおよびレポート生成ツールが提供されています。 しかし、残念ながら、多次元データベースのための標準的なクエリ言語はありませんが、そのような標準が基づく計算の開発のための研究は進行中です。 しかし、残念ながら、多次元データベースの設計のための科学的基礎として機能する可能性がある正規化の関係理論のようなものは何もありません。

このセクションを完了すると、いくつかのアプローチがいくつかの製品で組み合わされています - ROLAPとMORAPです。 そのような oLAPハイブリッドシステムコール ホワープ。これらの3つのアプローチのどれがより良いかを見つけることを目的として、広い議論は開催されます。したがって、この問題について少しの言葉を言うことを試みる価値があります。 一般的な場合、MOLAPシステムはより速い計算を提供しますが、ROLAPシステムと比較してより小さなデータ量をサポートします。 データが増えるにつれて効果が低くなります。 そしてROLAPシステムは、モルラップシステムの同様の機能と比較して、より開発されたスケーラビリティ、並列処理および制御を提供する。 さらに、SQL規格は最近補足され、多くの統計的および分析機能が含まれていました(セクション22.8を参照)。 これから、現在ROLAP製品は拡張機能を提供することができることになります。

OLAP(オンライン分析処理 - 運用分析処理) 情報処理これはシステムをシステムに要求し、分析などを行うようにユーザーに与えます。 運用モード(オンライン) 結果は数秒以内に生成されます。

OLAPシステムは終了ユーザーに対して実行されます OLTPシステム IPのプロのユーザーのために作られました。 OLAPは、クエリ生成、無効なレポート、統計分析、およびマルチメディアアプリケーションの構築などの動作を提供します。

OLAPを確実にするためには、通常多次元能力を有する一連のツールと同様に、データ記憶装置(または多次元記憶装置)と連携する必要があります。 これらの資金は、クエリツールキット、スプレッドシート、データマイニングツール、データ可視化ツールなどにすることができます。

OLAPの概念の基礎は多次元データ提示の原則にあります。 E. CODDは、まず、リレーショナルモデルの欠陥を回避し、測定の多数の測定値、すなわち企業アナリストのための最も理解可能な方法からデータを組み合わせ、表示、分析することの不可能性を指定し、決定したリレーショナルDBMSの機能を拡張し、その特性の1つとして多目的分析を含むOLAPシステムの一般的な要件。

12ソフトウェア製品クラスOLAPを満たさなければならない12の規則。 これらの規則:

1.データの多次元概念表現。

透明性。

アクセシビリティ。

持続可能な性能

5.クライアント - サーバアーキテクチャ。

測定平等

7.希薄な行列の動的処理

8.マルチプレイヤーモードのサポート。

9.相互次元操作のための無制限のサポート。

10.直感的なデータ操作。

フレキシブルレポート生成メカニズム。

12.無制限の測定と集約レベル。

OLAPの実際の定義として機能するこれらの要件のセットは推奨製品と見なされるべきであり、特定の製品はすべての要件に完全に完全に完了するための近似度によって評価されます。


インテリジェントデータ分析(データマイニング)と知識(知識マイニング) 大量のデータの管理と分析(ビッグデータ)。 ビジネス分析システム(ビジネスインテリジェンス、BI)。

インテリジェントデータ分析(IAD) - アクティブな使用によるデータ分析を示す一般的な用語 数学的方法 方法の使用結果を用いたアルゴリズム(最適化方法、遺伝的アルゴリズム、画像認識、統計的方法、データマイニングなど) 視覚的表現 データ。



一般的な場合、JIADプロセスは3段階で構成されています。

1)パターンを特定する(無料検索)。

2)未知の値を予測するための識別されたパターンの使用(予測)。

3)発見された規則的な異常を識別し解釈するための例外の分析。

発見と使用の間に、規則性(検証段階)の信頼性の信頼性の検証の中間段階を区別することがあります。

ソースデータを扱う原則に関するJIADのすべてのメソッドは、2つのグループに分けられます。

先例の分析に基づいて推論する方法 - 初期データは、明確に詳細な形式で保存することができ、例外を予測および/または分析するために直接使用されます。 この群の方法の不利な点は、大量のデータに対するそれらの使用の複雑さである。

一次データから情報を必要とし、それをいくつかの正式な構造に変換する形式化されたパターンを識別して使用するための方法は、そのタイプが特定の方法に依存する。

データマイニング(DM)は、以前は未知の非研究の「生の」データ、実質的に有用で、人間の活動のさまざまな分野で決定を下すのに必要な知識の手頃な価格の解釈です。 データマイニングで使用されるアルゴリズムは、以前にこれらの方法の広い実用的な適用に抑止されていた多数の計算を必要としますが、現代のプロセッサの性能の成長はこの問題の鮮明さを踏み出しました。

ビジネスインテリジェンス市場は5つのセクターで構成されています。

1. OLAP製品。

2.データマイニングツール。

3.ストレージとデータの表示ツール(データウェアハウス)。

管理 情報システム そしてアプリケーション。

5.クエリの実行とレポートのためのユーザーツールをエンドします。

現在、企業のBI-Platformのリーダーの中で、MicroStrategy、Business Objects、Cognos、Hyperion Solutions、Microsoft、Oracle、SAP、SAS Instituteなどがハイライトされています(付録B、一部の比較分析 機能 BIシステム)。

トピックを続ける:
デバイス

スターターのために、それが集まったのはそれが集まったことが私たちだったことを理解しましょう。 バージョンでは、すべて、ヘンがクリアされています。それはシステムの名前(Windows 10に関連する)に存在する番号で示されます。