ビッグデータパラダイムに基づく応用システム。 誰がそれを必要としますか? 世界のビッグデータ

ビッグデータ-これはデータ自体だけでなく、それらの処理と使用のためのテクノロジー、大きな配列で必要な情報を見つけるための方法でもあります。 ビッグデータの問題は、何十年にもわたって多種多様な情報を蓄積するシステムにとって、オープンで重要なままです。

この用語は、式に関連付けられています 「ボリューム、ベロシティ、バラエティ」-ビッグデータを扱う際の原則。 これは直接 情報量, 処理速度さまざまな情報配列に格納されます。 V 最近 3つの基本原則に、もう1つ追加され始めました- 価値つまり、 情報の価値..。 つまり、それは理論的または実用的な観点から有用かつ必要である必要があり、それはその保管と処理のコストを正当化するでしょう。

ソーシャルメディアは、典型的なビッグデータソースの例です。各プロファイルまたは公開ページは、構造化されていない情報の海の1つの小さなドロップです。 さらに、特定のプロファイルに保存されている情報の量に関係なく、各ユーザーとの対話は可能な限り高速である必要があります。

ビッグデータは、人間の生活のほぼすべての分野で絶えず蓄積されています。 これには、人間の相互作用またはコンピューティングに関連するあらゆる業界が含まれます。 これらは、ソーシャルメディア、医療、銀行、および毎日の計算の多数の結果を受け取るデバイスシステムです。 たとえば、天文観測、気象情報、地球検知装置からの情報などです。

あらゆる種類の追跡システムからの情報も、特定の会社のサーバーにリアルタイムで送信されます。 テレビおよびラジオ放送、オペレーターコールベース セルラー通信-個々の人と彼らとの相互作用は最小限ですが、全体として、このすべての情報はビッグデータになります。

ビッグデータ技術は、研究開発と商取引に不可欠になっています。 さらに、彼らは行政の領域を引き継ぎ始めています-そしてどこでも情報を保存し操作するためのますます効率的なシステムを導入する必要があります。

「ビッグデータ」という用語は、2008年にネイチャーエディターのクリフォードリンチが大量のデータを処理するテクノロジーを使用した科学の未来の発展に関する記事を発表したときに初めて報道されました。 2009年まで、この用語は科学的分析の観点からのみ考慮されていましたが、さらにいくつかの記事がリリースされた後、マスコミはビッグデータの概念を広く使用し始め、現在も使用を続けています。

2010年に、ビッグデータの増大する問題を解決する最初の試みが現れ始めました。 ソフトウェア製品がリリースされ、そのアクションは、巨大な情報アレイを使用する際のリスクを最小限に抑えることを目的としていました。

2011年までに、Microsoft、Oracle、EMC、IBMなどの大企業がビッグデータに関心を持つようになりました。彼らは開発戦略でビッグデータを最初に使用し、非常に成功しました。

大学はすでに2013年に別の科目としてビッグデータの研究を開始しました。現在、データサイエンスはこの分野の問題だけでなく、計算科目と組み合わせた工学にも関わっています。

データ分析と処理の主な方法は次のとおりです。

  1. クラスメソッドまたは詳細分析(データマイニング)。

これらの方法は非常に多くありますが、それらは1つのものによって統合されています。それは、情報技術の分野での成果と組み合わせて使用​​される数学ツールです。

  1. クラウドソーシング。

この手法により、複数のソースから同時にデータを取得でき、後者の数は事実上無制限です。

  1. A / Bテスト。

データの全量から、要素のコントロールセットが選択され、要素の1つが変更された他の同様の母集団と交互に比較されます。 このようなテストを実施すると、どのパラメーターの変動が対照母集団に最大の影響を与えるかを判断するのに役立ちます。 大量のビッグデータのおかげで、膨大な数の反復を実行することが可能であり、それぞれが最も信頼できる結果に近づいています。

  1. 予測分析。

この分野の専門家は、この状況で最も有利な決定を下すために、制御対象がどのように動作するかを事前に予測および計画しようとします。

  1. 機械学習(人工知能)。

これは、情報の経験的分析と、それに続く自己学習システムのアルゴリズムの構築に基づいています。

  1. ネットワーク分析。

ソーシャルネットワークを調査するための最も一般的な方法-統計データを取得した後、グリッドに作成されたノードが分析されます。つまり、個々のユーザーとそのコミュニティの間の相互作用です。

2017年、ビッグデータが新しく未知のものでなくなったとき、その重要性は低下しなかっただけでなく、さらに増加し​​ました。 現在、専門家は、大量のデータの分析が巨大な組織だけでなく、中小企業でも利用できるようになると確信しています。 このアプローチは、次のコンポーネントを使用して実装される予定です。

  • クラウドストレージ。

データの保存と処理はより速く、より経済的になっています-独自のデータセンターを維持するコストやスタッフの拡大の可能性と比較して、クラウドを借りることははるかに安価な代替手段のようです。

  • ダークデータの使用。

いわゆる「ダークデータ」-直接の使用では重要な役割を果たさないが、に切り替える理由として役立つ可能性がある会社に関するすべての非デジタル情報 新しいフォーマット情報の保存。

  • 人工知能とディープラーニング。

人間の脳の構造と働きを模倣する機械知能学習技術は、絶えず変化する大量の情報を処理するのに最適です。 この場合、マシンは人間が行うべきと同じようにすべてを実行しますが、同時にエラーの可能性は大幅に減少します。

  • ブロックチェーン。

このテクノロジーにより、国際取引を含む多数のインターネット取引を高速化および簡素化することができます。 ブロックチェーンのもう1つの利点は、トランザクションコストを削減できることです。

  • セルフサービスと値下げ。

2017年には、「セルフサービスプラットフォーム」の導入が計画されています。これらは、中小企業の代表者が独自にデータを評価して整理できる無料のサイトです。

何らかの形でのすべてのマーケティング戦略は、情報の操作と既存のデータの分析に基づいています。 そのため、ビッグデータを使用することで、会社のさらなる発展を予測し、調整する機会を提供できます。

たとえば、ビッグデータに基づいて作成されたRTBオークションでは、広告をより効率的に使用できます。特定の商品は、購入に関心のあるユーザーのグループにのみ表示されます。

マーケティングやビジネスでビッグデータテクノロジーを使用する利点は何ですか?

  1. 彼らの助けを借りて、あなたははるかに速く新しいプロジェクトを作成することができ、それはバイヤーの間で需要になる可能性があります。
  2. これらは、クライアントの要件を既存または計画中のサービスと関連付けて修正するのに役立ちます。
  3. ビッグデータ手法により、すべてのユーザーおよび各ユーザーの現在の満足度を個別に評価できます。
  4. ビッグデータ処理技術により、顧客の忠誠心が高まります。
  5. 膨大な量のデータを制御できるため、インターネット上でターゲットオーディエンスを引き付けることが容易になります。

たとえば、特定の製品の人気の可能性を予測するための最も人気のあるサービスの1つは、Google.trendsです。 マーケターやアナリストによって広く使用されており、使用統計を取得できます。 この製品の過去と次のシーズンの予測。 これにより、企業のリーダーは広告予算をより効果的に割り当て、どの分野にお金を投資するのが最適かを判断できます。

ビッグデータの使用例

ビッグデータテクノロジーの市場および現代生活への積極的な導入は、世界的に有名な企業がビッグデータテクノロジーを使用し始めた直後に始まり、世界中のほぼすべての地域にクライアントがいます。

これらは、FacebookやGoogle、IBMなどの社会的巨人であり、Master Card、VISA、Bank ofAmericaなどの金融構造でもあります。

たとえば、IBMはビッグデータ技術を金融取引に適用しています。 彼らの助けを借りて、15%以上の不正取引が検出され、保護された資金の量を60%増やすことが可能になりました。 システムの誤検知に関する問題も解決されました。その数は半分以上減少しました。

VISAは同様の方法でビッグデータを使用し、特定の操作を実行するための不正な試みを追跡しました。 これのおかげで、彼らは毎年20億ドル以上の漏出を節約しています。

ドイツ労働省は、ビッグデータを失業手当に統合することにより、100億ユーロのコストを削減することができました。 同時に、市民の5分の1が不当にこれらの恩恵を受けていることが明らかになった。

ビッグデータもゲーム業界を惜しまない。 そこで、World of Tanksの開発者は、すべてのプレーヤーに関する情報の調査を実施し、彼らの活動の利用可能な指標を比較しました。 これは、プレーヤーの将来の解約の可能性を予測するのに役立ちました-行われた仮定に基づいて、組織の代表者はユーザーとより効果的に対話することができました。

ビッグデータを使用している注目すべき組織には、HSBC、ナスダック、コカコーラ、スターバックス、AT&Tも含まれます。

ビッグデータの最大の問題は、それを処理するコストです。 これには、高価な機器と、膨大な量の情報を提供できる熟練した専門家への賃金のコストの両方が含まれる可能性があります。 明らかに、データ量が増加しても最小のパフォーマンスが失われないように、機器は定期的に更新する必要があります。

2番目の問題も、処理する必要のある大量の情報に関連しています。 たとえば、ある研究で2〜3ではなく多数の結果が得られた場合、客観的であり続け、一般的なデータフローから、現象の状態に実際に影響を与えるものだけを選択することは非常に困難です。

ビッグデータのプライバシーの問題。 ほとんどのカスタマーサービスプロバイダーがデータのオンライン使用に移行しているため、サイバー犯罪者の次の標的になるのは非常に簡単です。 オンライントランザクションを実行せずに個人情報を単純に保存するだけでも、クラウドストレージの顧客にとって望ましくない結果を招く可能性があります。

情報損失の問題。 予防措置は、単純な1回限りのデータバックアップに限定される必要はなく、少なくとも2〜3回実行する必要があります。 バックアップストレージ。 ただし、ボリュームが増えると、冗長性の問題が大きくなり、ITスペシャリストはこの問題の最適な解決策を見つけようとしています。

ロシアと世界のビッグデータ技術市場

2014年現在、ビッグデータ市場のボリュームの40%はサービスで構成されています。 コンピューター機器でのビッグデータの使用による収益は、この指標よりもわずかに劣っています(38%)。 残りの22%はソフトウェアによるものです。

統計によると、ビッグデータの問題を解決するためのグローバルセグメントで最も有用な製品は、インメモリおよびNoSQL分析プラットフォームです。 市場のそれぞれ15%と12%は、分析ソフトウェアLog-fileとColumnarプラットフォームによって占められています。 しかし、Hadoop / MapReduceは、実際にはビッグデータの問題を処理するのにあまり効率的ではありません。

ビッグデータテクノロジーの実装結果:

  • カスタマーサービスの質の向上。
  • サプライチェーンにおける統合の最適化。
  • 組織計画の最適化。
  • クライアントとの相互作用の加速;
  • 顧客の要求を処理する効率を改善する。
  • サービスコストの削減。
  • クライアント注文の処理の最適化。

ビッグデータに関する最高の本



ビッグデータ処理技術の初期研究に適しています-簡単かつ明確にコースを紹介します。 豊富な情報が日常生活とそのすべての分野(科学、ビジネス、医学など)にどのように影響したかを明らかにします。多数のイラストが含まれているため、それほど労力をかけずに認識されます。

Pang-Ning Tan、Michael Steinbach、VipinKumarによるデータマイニングの紹介

また、「単純なものから複雑なものまで」の原則に基づいてビッグデータを操作する方法を説明したビッグデータに関する本も初心者に役立ちます。 初期段階では、処理、視覚化、OLAPの準備、およびデータ分析と分類のいくつかの方法など、多くの重要なポイントについて説明します。

Pythonプログラミング言語を使用してビッグデータを使用および操作するための実用的なガイド。 工学部の学生と知識を深めたい専門家の両方に適しています。

Hadoop for Dummies、Dirk Derus、Paul S. Zykopoulos、Roman B. Melnik

Hadoopは、数千のノードで同時にアクションを実行する分散プログラムと連携するように特別に設計されたプロジェクトです。 これに精通していると、ビッグデータの実際のアプリケーションをより詳細に理解するのに役立ちます。

ビッグデータを扱う神話と事例に関するHSE教員のコラム

ブックマークに

KonstantinRomanovとBeelineのデジタルトランスフォーメーションディレクターでもあるHSESchool of NewMediaのAlexanderPyatigorskyは、ビッグデータに関する主な誤解についてのサイトのコラムを執筆しました。テクノロジーとツールの使用例です。 著者は、この出版物が会社の幹部がこの概念を理解するのに役立つことを示唆しています。

ビッグデータに関する神話と誤解

ビッグデータはマーケティングではありません

ビッグデータという用語は非常にファッショナブルになりました。これは、何百万もの状況や何百もの異なる解釈で使用され、多くの場合、それが何であるかとは無関係です。 多くの場合、人々の頭の中には概念の置き換えがあり、ビッグデータはマーケティング製品と混同されています。 さらに、一部の企業では、ビッグデータはマーケティング部門の一部です。 ビッグデータ分析の結果は、実際にはマーケティング活動のソースになる可能性がありますが、それ以上のものはありません。 それがどのように機能するか見てみましょう。

2か月前に3000ルーブル以上で当店で商品を購入した人のリストを特定し、これらのユーザーにオファーを送信した場合、これは典型的なマーケティングです。 構造データから明確なパターンを推測し、それを使用して売上を伸ばします。

ただし、CRMデータをInstagramなどのストリーミング情報と組み合わせて分析すると、パターンが見つかります。水曜日の夜に活動を減らし、最後の写真で子猫が特定のオファーを行う必要があることを示している人です。 すでにビッグデータになります。 私たちはトリガーを見つけてマーケターに渡し、彼らはそれを自分たちの目的に使用しました。

このことから、テクノロジーは通常、非構造化データで機能し、データが構造化されている場合でも、システムはそれらの中に隠されたパターンを探し続けますが、マーケティングでは行われません。

ビッグデータはITではありません

この話の2番目の極端な例:ビッグデータはITと混同されることがよくあります。 これは、ロシアの企業では、原則として、ビッグデータを含むすべてのテクノロジーの推進力はITスペシャリストであるという事実によるものです。 したがって、この特定の部門ですべてが発生した場合、会社全体としては、これはある種のIT活動であるように思われます。

実際、ここには根本的な違いがあります。ビッグデータは特定の製品を取得することを目的とした活動であり、ITとはまったく関係ありませんが、テクノロジーはそれらなしでは存在できません。

ビッグデータは必ずしも情報の収集と分析ではありません

ビッグデータについては別の誤解があります。 この技術は大量のデータに関連していることは誰もが理解していますが、どのような種類のデータが意味されるのかは必ずしも明確ではありません。 誰もが情報を収集して使用できるようになり、今では映画だけでなく、非常に小さな会社でも可能になっています。 唯一の問題は、何を収集し、それをどのように活用するかです。

しかし、ビッグデータ技術は絶対的な情報の収集と分析ではないことを理解する必要があります。 たとえば、ソーシャルネットワーク上の特定の人物に関するデータを収集する場合、それはビッグデータにはなりません。

ビッグデータとは本当に

ビッグデータは次の3つの要素で構成されています。

  • データ;
  • 分析;
  • テクノロジー。

ビッグデータは、これらのコンポーネントの1つであるだけでなく、3つの要素すべてのバンドルです。 多くの場合、人々は概念を代用します。ビッグデータは単なるデータであると考える人もいれば、テクノロジーであると考える人もいます。 しかし実際には、収集するデータの量に関係なく、適切なテクノロジーと分析がなければ、それを使って何もすることはできません。 優れた分析はあるがデータがない場合、それはさらに悪いことです。

データについて言えば、これはテキストだけでなく、Instagramに投稿されたすべての写真、そして一般的に分析してさまざまな目的やタスクに使用できるすべてのものです。 言い換えれば、データはさまざまな構造の膨大な量の内部および外部データとして理解されます。

ビッグデータのタスクはいくつかのパターンを構築することであるため、分析も必要です。 つまり、分析とは、隠れた依存関係を特定し、異種データのボリューム全体の分析に基づいて新しい質問と回答を検索することです。 さらに、ビッグデータは、このデータから直接導き出すことができない疑問を提起します。

画像について言えば、青いTシャツに写真を投稿したからといって何の意味もありません。 しかし、ビッグデータモデリングに写真を使用する場合、あなたの社会集団ではこの行動が行動の特定の現象を示しているため、今すぐローンを提供する必要があることが判明する可能性があります。 したがって、ビッグデータの隠れた非自明な依存関係を明らかにすることなく、分析なしの「裸の」データはそうではありません。

つまり、ビッグデータがあります。 彼らの配列は巨大です。 アナリストもいます。 しかし、この生データから具体的な解決策があることをどのように確認するのでしょうか。 これを行うには、それらを保存するだけでなく(以前は不可能でした)、分析することもできるテクノロジーが必要です。

簡単に言えば、大量のデータがある場合は、Hadoopなどのテクノロジーが必要です。これにより、後で分析するためにすべての情報を元の形式で保持できます。 この種のテクノロジーは、大量のデータを保存し、その後の現金化のために分析するという問題に最初に直面したため、インターネットの巨人に登場しました。

最適化された低コストのデータストレージ用のツールに加えて、分析ツールと、使用するプラットフォームへのアドオンが必要です。 たとえば、関連するプロジェクトとテクノロジーのエコシステム全体が、Hadoopの周りにすでに形成されています。 それらのいくつかを次に示します。

  • Pigは、宣言型データ分析言語です。
  • Hive-SQLに近い言語を使用したデータ分析。
  • OozieはHadoopのワークフローです。
  • Hbaseは、Google Big Tableに類似したデータベース(非リレーショナル)です。
  • Mahoutは機械学習です。
  • Sqoop-RSDBからHadoopへのデータ転送およびその逆。
  • Flume-ログをHDFSに転送します。
  • Zookeeper、MRUnit、Avro、Giraph、Ambari、Cassandra、HCatalog、Fuse-DFSなど。

これらのツールはすべて無料で誰でも利用できますが、有料のアドオンのセットもあります。

さらに、スペシャリストが必要です。これは開発者およびアナリスト(いわゆるデータサイエンティスト)です。 また、特定の問題を解決するためにこの分析を適用する方法を理解できるマネージャーも必要です。これは、ビジネスプロセスに組み込まれていない場合、それ自体はまったく意味がないためです。

3人の従業員全員がチームとして働く必要があります。 データサイエンススペシャリストに特定のパターンを見つけるタスクを与えるマネージャーは、自分が必要としているものを正確に見つけることが常に可能であるとは限らないことを理解する必要があります。 この場合、マネージャーはデータサイエンティストが見つけたものに注意深く耳を傾ける必要があります。なぜなら、彼の発見はビジネスにとってより興味深く有用であることがよくあるからです。 あなたの仕事はこれをあなたのビジネスに適用し、それから製品を作ることです。

現在、さまざまな種類の機械や技術が存在するという事実にもかかわらず、最終的な決定は常に人に委ねられています。 これを行うには、情報を何らかの方法で視覚化する必要があります。 これにはかなりの数のツールがあります。

最も具体的な例は、地理分析レポートです。 Beeline社は、さまざまな都市や地域の政府と多くの協力関係にあります。 多くの場合、これらの組織は「特定の場所での交通渋滞」タイプのレポートを注文します。

そのような報告は、単純で理解しやすい形で政府の構造に届くはずであることは明らかです。 私たちが彼らに巨大で完全に理解できない表(つまり、私たちがそれを受け取る形の情報)を提供する場合、彼らはそのようなレポートを購入する可能性は低いです-それは完全に役に立たないでしょう、彼らはそれから知識を奪うことはありません彼らは手に入れたかったのです。

したがって、データサイエンティストがどれほど優れていても、どのようなパターンを見つけても、高品質の視覚化ツールがなければこのデータを操作することはできません。

データソース

受信データの配列は非常に大きいため、いくつかのグループに分けることができます。

社内データ

収集されたデータの80%はこのグループに分類されますが、このソースが常に使用されるとは限りません。 多くの場合、これは、たとえばログなど、だれもまったく必要としないように見えるデータです。 しかし、それらを別の角度から見ると、予期しないパターンが見つかることがあります。

シェアウェアソース

これには、ソーシャルネットワーク、インターネット、および無料でアクセスできるその他すべてのデータが含まれます。 なぜシェアウェアなのか? 一方で、このデータは誰でも利用できますが、大企業の場合、数万、数百、または数百万の顧客の加入者ベースのサイズでデータを受信することはすでにあります 簡単な作業ではありません..。 したがって、このデータを提供するための有料サービスが市場に出回っています。

有料ソース

これには、データを金銭で販売する企業が含まれます。 これらは、電気通信、DMP、インターネット会社、信用局、およびアグリゲーターである可能性があります。 ロシアの電気通信はデータを販売していません。 第一に、それは経済的に不採算であり、第二に、それは法律によって禁止されています。 したがって、彼らは処理の結果、たとえば地理分析レポートを販売します。

オープンデータ

州はビジネスの途中で会合し、彼らが収集したデータを使用することを可能にします。 かなりの程度、これは西側で開発されていますが、この点でロシアも時代に歩調を合わせています。 たとえば、モスクワ政府のオープンデータポータルがあり、さまざまな都市インフラ施設に関する情報を公開しています。

モスクワの居住者とゲストの場合、データは表形式と地図形式で表示され、開発者の場合は特別な機械可読形式で表示されます。 プロジェクトの実行中 制限付きモード、しかしそれは進化しています。つまり、ビジネスタスクに使用できるデータソースでもあります。

リサーチ

すでに述べたように、ビッグデータのタスクはパターンを見つけることです。 多くの場合、世界中で行われている研究は、特定のパターンを見つけるための支点になる可能性があります。特定の結果を得て、同様のロジックを自分の目的に適用しようとすることができます。

ビッグデータは、数学のすべての法則が機能するわけではない分野です。 たとえば、「1」+「1」は「2」ではありませんが、データソースを混合すると効果が大幅に向上するため、さらに多くなります。

製品の例

多くの人がSpotifyミュージックピッカーに精通しています。 彼はユーザーに今日の気分を尋ねないという点で美しいですが、彼は利用可能な情報源に基づいてこれを計算します。 彼はあなたが今必要としているもの、つまりジャズやハードロックを常に知っています。 これは、ファンベースを提供し、他のサービスと差別化する主な違いです。

そのような製品は通常、センス製品と呼ばれます-彼らのクライアントを感じるもの。

ビッグデータ技術は自動車産業でも使用されています。 たとえば、テスラはこれを行います-彼らの中で 最新モデルオートパイロットがあります。 同社は、乗客が好きな場所に乗れる車の作成に努めています。 これはビッグデータなしでは不可能です。なぜなら、私たちが直接受け取ったデータだけを人のように使用すると、車は改善できないからです。

私たちが自分で車を運転するとき、私たちはニューロンを使用して、私たちが気付かない多くの要因に基づいて決定を下します。 たとえば、なぜすぐに青信号まで加速しないことにしたのかわからない場合がありますが、その決定は正しかったことがわかります。車が猛スピードであなたを通り過ぎ、事故を回避しました。

スポーツでビッグデータを使用する例を示すこともできます。 2002年、オークランドアスレチックスの野球チームのゼネラルマネージャーであるビリービーンは、アスリートを見つける方法のパラダイムを打ち破ろうと試みました。彼は選手を数で選び、トレーニングしました。

通常、マネージャーはプレーヤーの成功を見ますが、 この場合すべてが異なっていました-結果を得るために、マネージャーは個々の特性に注意を払いながら、彼が必要とするアスリートの組み合わせを研究しました。 さらに、彼はそれ自体ではあまり可能性を示さないアスリートを選びましたが、チーム全体としては非常に成功し、20試合連続で勝ちました。

ベネットミラー監督は​​後にこの物語に捧げられた映画を作りました-ブラッドピット主演の「すべてを変えた男」。

ビッグデータテクノロジーは、金融セクターでも役立ちます。 誰かにローンを組む価値があるかどうかを独立して正確に判断できる人は、世界で1人もいません。 決定を下すために、スコアリングが実行されます。つまり、確率モデルが構築され、それに従って、この人がお金を返すかどうかを理解することができます。 さらに、スコアリングはすべての段階で適用されます。たとえば、特定の瞬間に人が支払いを停止することを計算できます。

ビッグデータはお金を稼ぐだけでなく、それを節約することもできます。 特に、この技術は、情報を分析した後、給付の20%が不当に支払われたことが明らかになったため、ドイツ労働省が失業給付のコストを100億ユーロ削減するのに役立ちました。

また、技術は医学で使用されています(これは特にイスラエルで一般的です)。 ビッグデータの助けを借りて、30年の経験を持つ医師よりもはるかに正確な分析を提供することが可能です。

どんな医者も、診断をするとき、彼だけに頼っています 自分の経験..。 機械がそれを行うとき、それは何千人ものそのような医者の経験とすべての既存の医療記録から来ます。 患者の家がどのような素材でできているか、被害者がどの地域に住んでいるか、どのような煙がそこにあるかなどが考慮されます。 つまり、それは医師が考慮に入れていない多くの要因を考慮に入れています。

ヘルスケアにおけるビッグデータの使用例は、トロント小児病院によって実施されたプロジェクトアルテミスプロジェクトです。 赤ちゃんのデータをリアルタイムで収集・分析する情報システムです。 このマシンでは、毎秒1260の各子供の健康指標を分析できます。 このプロジェクトは、子供の不安定な状態を予測し、子供の病気を予防することを目的としています。

ロシアでもビッグデータが使用され始めています。たとえば、Yandexにはビッグデータ部門があります。 同社は、アストラゼネカおよびロシア臨床腫瘍学会RUSSCOとともに、遺伝学者および分子生物学者向けのRAYプラットフォームを立ち上げました。 このプロジェクトは、癌を診断し、癌に対する感受性を特定するための方法を改善することを可能にします。 プラットフォームは2016年12月に動作を開始します。

怠惰な人だけがビッグデータについて話しませんが、彼らはそれが何であるか、そしてそれがどのように機能するかをほとんど理解していません。 最も単純な用語から始めましょう。 ロシア語で言えば、ビッグデータは、特定のタスクや目的に使用するために、構造化データと非構造化データの両方を処理するさまざまなツール、アプローチ、および方法です。

非構造化データとは、事前定義された構造がないか、特定の順序で編成されていない情報です。

「ビッグデータ」という用語は、2008年にジャーナルNature Clifford Lynchの編集者によって、世界の情報量の爆発的な増加に捧げられた特別号で造られました。 もちろん、ビッグデータ自体は以前から存在していました。 専門家によると、1日あたり100GBを超えるデータストリームの大部分はビッグデータカテゴリに属しています。

また読む:

今日、この単純な用語は、データの保存と処理という2つの単語だけを隠しています。

ビッグデータ-簡単に言えば

現代の世界では、ビッグデータは社会経済現象であり、膨大な量のデータを分析するための新しい技術的機会が出現したという事実に関連しています。

また読む:

理解を容易にするために、すべての商品が通常の注文ではないスーパーマーケットを想像してみてください。 果物の横にあるパン、冷凍ピザの横にあるトマトペースト、アボカド、豆腐、椎茸などが入ったタンポンラックの前で軽くします。 ビッグデータはすべてをその場所に置き、ナッツミルクを見つけ、コストと有効期限を見つけ、そしてあなた以外に誰がそのようなミルクを購入するのか、そしてなぜそれが牛のミルクよりも優れているのかを知るのに役立ちます。

Kenneth Kukier:ビッグデータは最高のデータです

ビッグデータテクノロジー

膨大な量のデータが処理されるため、人はさらに効果的に使用するために特定の必要な結果を得ることができます。

また読む:

実際、ビッグデータは問題解決であり、従来のデータ管理システムに代わるものです。

マッキンゼーによるビッグデータに適用可能な分析手法と方法:

  • クラウドソーシング;

    データの混合と統合。

    機械学習;

    人工ニューラルネットワーク;

    パターン認識;

    予測分析;

    シミュレーションモデリング;

    空間分析;

    統計分析;

  • 分析データの視覚化。

データ処理を可能にする水平方向のスケーラビリティは、ビッグデータ処理の基本原則です。 データは計算ノードに分散され、パフォーマンスを低下させることなく処理が行われます。 マッキンゼーはまた、適用性の文脈でリレーショナル管理システムとビジネスインテリジェンスを含めました。

テクノロジー:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • ハードウェアソリューション。

また読む:

ビッグデータの場合、2001年にメタグループによって開発された従来の定義特性が区別されます。これは「 3つのV»:

  1. 音量-物理ボリュームのサイズ。
  2. 速度-成長の速度と結果を得るための高速データ処理の必要性。
  3. バラエティ-さまざまなタイプのデータを同時に処理する機能。

ビッグデータ:アプリケーションと機会

従来のツールを使用して、大量の異種の迅速に到着するデジタル情報を処理することは不可能です。 データ自体の分析により、人が見ることができない特定の知覚できないパターンを見ることができます。 これにより、政府から製造、電気通信まで、私たちの生活のすべての領域を最適化することができます。

たとえば、数年前にクライアントを詐欺から保護し、クライアントのお金を管理している企業もあります。つまり、自分のお金を管理しています。

Susan Etleiger:ビッグデータはどうですか?

ビッグデータベースのソリューション:Sberbank、Beeline、その他の企業

Beelineには、加入者に関する膨大な量のデータがあり、加入者と協力するだけでなく、外部コンサルティングやIPTV分析などの分析製品を作成するためにも使用されます。 Beelineはデータベースをセグメント化し、ストレージにHDFSとApache Sparkを使用し、データ処理にRapidminerとPythonを使用して、金銭詐欺やウイルスから顧客を保護しました。

また読む:

または、ASSAFIと呼ばれる古いケースのSberbankを思い出してください。 写真を分析して銀行の顧客を特定し、不正を防止するシステムです。 このシステムは2014年に導入されました。システムの中心は、コンピュータービジョンのおかげで、ラック上のWebカメラから取得したデータベースの写真の比較です。 システムの基本は生体認証プラットフォームです。 これにより、詐欺の件数は10分の1に減少しました。

世界のビッグデータ

2020年までに、予測によれば、人類は40〜44ゼタバイトの情報を生成します。 IDCのアナリストが作成したレポートTheData Age 2025によると、2025年までに10倍に成長するでしょう。 レポートは、ほとんどのデータが消費者ではなく企業自身によって生成されると述べています。

リサーチアナリストは、データが重要な資産になり、セキュリティが人生の重要な基盤になると信じています。 また、作品の著者は、テクノロジーが経済情勢を変えると確信しており、 通常のユーザー接続されているデバイスと1日に約4800回通信します。

ロシアのビッグデータ市場

通常、ビッグデータは次の3つのソースから取得されます。

  • インターネット(ソーシャルネットワーク、フォーラム、ブログ、メディア、その他のサイト);
  • ドキュメントの企業アーカイブ。
  • センサー、機器、その他のデバイスからの読み取り。

銀行のビッグデータ

上記のシステムに加えて、2014-2018年のズベルバンクの戦略。 質の高い顧客サービス、リスク管理、コスト最適化のために大量のデータを分析することの重要性について話します。 現在、銀行はビッグデータをリスク管理、詐欺対策、顧客の信用度のセグメンテーションと評価、人事管理、支店のキューの予測、従業員のボーナスの計算などのタスクに使用しています。

VTB24はビッグデータを使用して、顧客離れのセグメント化と管理、財務諸表の生成、ソーシャルネットワークやフォーラムでのレビューの分析を行います。 これを行うために、彼はTeradata、SAS Visual Analytics、およびSAS MarketingOptimizerソリューションを使用しています。

ビッグデータ(またはビッグデータ)は、大量の構造化または非構造化情報を処理するためのメソッドのコレクションです。 ビッグデータのスペシャリストは、それを処理および分析して、視覚的で人間が読める結果を取得します。 Look At Meは専門家と話をし、ロシアのビッグデータ処理の状況はどうなっているのか、この分野で働きたい人にとってどこで何が良いのかを学びました。

ビッグデータ、顧客とのコミュニケーション、数字の世界の分野における主な方向性についてのAlexey Ryvkin

私はモスクワ電子技術研究所で学びました。 私がそこから抜け出すことができた主なものは、物理学と数学の基礎知識でした。 研究と同時に、R&Dセンターで働き、安全なデータ伝送のためのノイズ耐性コーディングアルゴリズムの開発と実装に従事しました。 学士号を取得した後、高等経済学部でビジネス情報学の修士号を取得しました。 その後、IBSで働きたいと思いました。 当時、プロジェクトの数が多かったため、インターンが追加で採用され、数回の面接の後、最大規模のIBSで働き始めたのは幸運でした。 ロシア企業この地域。 3年間で、私はインターンからエンタープライズソリューションアーキテクトになりました。 現在、私は金融および電気通信セクターの顧客企業向けにビッグデータテクノロジーの専門知識を開発しています。

ビッグデータを扱いたい人のための2つの主な専門分野があります。ビッグデータを扱うためのテクノロジーを作成するアナリストとITコンサルタントです。 さらに、ビッグデータアナリストの職業、つまり、顧客のITプラットフォームを使用してデータを直接操作する人々について話すこともできます。 以前は、これらは通常のアナリストでした。統計と数学を知っていて、統計ソフトウェアを使用してデータ分析の問題を解決した数学者です。 今日では、統計と数学の知識に加えて、テクノロジーとデータのライフサイクルの理解も必要です。 私の意見では、これが現代のデータアナリストと以前のアナリストの違いです。

私の専門はITコンサルティングです。つまり、ITテクノロジーを使用してビジネス上の問題を解決する方法を考え出し、顧客に提供しています。 さまざまな経験を持つ人々がコンサルティングに来ますが、この職業の最も重要な資質は、クライアントのニーズを理解する能力、人々や組織を支援したいという願望、優れたコミュニケーションとチームスキルです(これは常にクライアントと協力しているため、チームで)、優れた分析スキル。 本質的な動機付けは非常に重要です。私たちは競争の激しい環境で働き、顧客は待っています 珍しい解決策と仕事への関心。

私の時間のほとんどは、顧客との話し合い、ビジネスニーズの形式化、および最も適切なテクノロジアーキテクチャの設計の支援に費やされています。 ここでの選択基準には、独自の特性があります。 機能性およびTCO(総所有コスト)、システムの非機能要件は非常に重要であり、ほとんどの場合、応答時間、情報処理時間です。 お客様を納得させるために、概念実証アプローチを使用することがよくあります。テクノロジーが機能することを確認するために、特定のタスクで、狭いデータセットでテクノロジーを無料で「テスト」することを提案します。 このソリューションは、追加のメリット(xセル、クロスセリングなど)を取得することで顧客に競争上の優位性をもたらすか、ビジネスの問題を解決する必要があります。 上級クレジット詐欺。

クライアントが既成のタスクを持って来れば、はるかに簡単になります。しかし、これまでのところ、彼らは数年で市場を変えることができる革新的な技術が出現したことを理解していません

どのような問題に直面する必要がありますか? 市場はまだビッグデータ技術を使用する準備ができていません。 顧客が既成のタスクを持って来ればはるかに簡単ですが、彼らはまだ数年で市場を変えることができる革新的な技術が現れたことに気づいていません。 そのため、実際にはスタートアップモードで作業しています。テクノロジーを販売するだけでなく、クライアントにこれらのソリューションに投資する必要があることを納得させるたびにです。 これがビジョナリーの立場です。データとITを活用してビジネスを変える方法をお客様に示します。 私たちはこの新しい市場、つまりビッグデータの分野における商用ITコンサルティングの市場を創造しています。

ビッグデータの分野でデータ分析やITコンサルティングを行いたい場合、最初に重要なことは、優れた数学のトレーニングを受けた数学または技術教育です。 SAS、Hadoop、R、IBMソリューションなどの特定のテクノロジーに精通することも役立ちます。 さらに、ビッグデータに適用される問題に積極的に関心を持つ必要があります。たとえば、銀行や経営陣のクレジットスコアを改善するためにそれらをどのように使用できるかなどです。 ライフサイクルクライアント。 この知識やその他の知識は、CourseraやBig DataUniversityなどの利用可能なソースから取得できます。 ペンシルベニア州ウォートン大学には顧客分析イニシアチブもあり、興味深い資料が数多く公開されています。

私たちの分野で働きたい人にとって深刻な問題は、ビッグデータに関する情報が明らかに不足していることです。 書店や一部のWebサイトにアクセスして、たとえば、銀行のビッグデータテクノロジーのすべてのアプリケーションに関する事例の網羅的なコレクションを入手することはできません。 そのような参考書はありません。 情報の一部は本にあり、別の部分は会議で収集され、一部は自分で到達する必要があります。

もう1つの問題は、アナリストは数字の世界では問題ありませんが、ビジネスで常に快適であるとは限らないことです。 これらの人々はしばしば内向的であり、コミュニケーションが困難であるため、研究結果をクライアントに説得力を持って伝えることが困難です。 これらのスキルを伸ばすには、ピラミッドの原則、図の言語を話すなどの本をお勧めします。 彼らはあなたの考えを簡潔かつ明確に表現するプレゼンテーションスキルを開発するのに役立ちます。

高等経済学部での勉強中にさまざまなケースチャンピオンシップに参加したことは、私を大いに助けてくれました。 ケースチャンピオンシップは、学生がビジネス上の問題を研究し、解決策を提案するための知的競争です。 マッキンゼー、BCG、アクセンチュアなどのコンサルティング会社向けのケースチャンピオンシップと、チェンジレンゲなどの独立したケースチャンピオンシップの2種類があります。 それらに参加している間、私は複雑な問題を見て解決することを学びました-問題を特定して構造化することから、それを解決するための推奨事項を守ることまで。

ロシア市場でのOlegMikhalskiyとビッグデータの分野での新製品作成の詳細

アクロニスに入社する前は、すでに他社で新製品の発売に携わっていました。 いつも面白くて難しいので、すぐにクラウドサービスやデータストレージソリューションに取り組む可能性に興味を持ちました。 この分野では、私自身のスタートアッププロジェクトであるI-acceleratorを含め、IT業界でのこれまでのすべての経験が役に立ちました。 基礎工学に加えてビジネス教育(MBA)を取得することも役立ちました。

ロシアでは、大企業-銀行、 携帯電話会社など-ビッグデータ分析の必要性があるので、この分野で働きたい人のために私たちの国には見通しがあります。 確かに、多くのプロジェクトは現在統合されています。つまり、海外の開発やオープンソース技術に基づいて行われています。 このようなプロジェクトでは、根本的に新しいアプローチやテクノロジーは作成されませんが、既存の開発が適応されます。 アクロニスでは、別の方法を採用し、利用可能な代替案を分析した後、独自の開発に投資することを決定しました。たとえば、Amazon S3よりもコストが劣らないが、確実に機能し、効率的かつ大幅に小規模です。 大規模なインターネット企業もビッグデータに関する独自の開発を行っていますが、外部の顧客のニーズを満たすよりも内部のニーズに重点を置いています。

ビッグデータ処理の分野に影響を与えている傾向と経済力を理解することは重要です。 これを行うには、たくさん読んだり、IT業界の権威ある専門家のスピーチを聞いたり、テーマ別の会議に出席したりする必要があります。 現在、ほぼすべての会議にビッグデータに関するセクションがありますが、テクノロジー、ビジネス、またはマーケティングの観点から、すべてが異なる角度からビッグデータについて話し合っています。 あなたは行くことができます プロジェクト作業または、このトピックに関するプロジェクトをすでに実施している企業でのインターンシップ。 あなたが自分の能力に自信を持っているなら、ビッグデータの分野でスタートアップを組織するのに遅すぎることはありません。

市場との絶え間ない接触なし新しい開発は、請求されないリスクを伴います

あなたが担当しているときは本当 新製品、市場分析と、クライアントとそのニーズについて多くのことを知っている潜在的なクライアント、パートナー、プロのアナリストとのコミュニケーションに多くの時間が費やされています。 市場との絶え間ない接触がなければ、新しい開発は請求されないリスクを冒します。 常に多くの不確実性があります。誰が最初のユーザー(アーリーアダプター)になるのか、彼らにとって何が価値があるのか​​、そしてどのようにして大勢の聴衆を引き付けるのかを理解する必要があります。 2番目に重要なタスクは、最終製品の明確で全体的なビジョンを形成して開発者に伝え、一部の要件がまだ変更される可能性があり、優先順位が依存するような状況で作業するように開発者を動機付けることです。 フィードバック最初の顧客から来ています。 したがって、重要なタスクは、一方では顧客の期待を管理し、他方では開発者の期待を管理することです。 そのため、どちらも興味を失い、プロジェクトを完了させることはありませんでした。 最初の成功したプロジェクトの後、それはより簡単になり、主な課題は新しいビジネスのための適切な成長モデルを見つけることです。

「ビッグデイト」という用語は今日認識できるかもしれませんが、それが実際に何を意味するのかについてはまだ多くの混乱があります。 実際、この概念は、人工知能、データサイエンス、モノのインターネットなど、進行中のデジタルトランスフォーメーションの波の背後にある原動力であり続けているため、絶えず進化し、改訂されています。 しかし、ビッグデータテクノロジーとは何ですか?それは私たちの世界をどのように変えていますか? ビッグデータ技術の本質とそれが何を意味するのかを簡単な言葉で説明するためにそれを理解してみましょう。

ビッグデイトの驚くべき上昇

それはすべて、デジタル時代の始まり以来、私たちが作成したデータの量の爆発的な増加から始まりました。 これは主に、私たちの周りの世界からのデータを「奪う」ことができるコンピューター、インターネット、およびテクノロジーの開発によるものです。 データだけでは新しい発明ではありません。 コンピュータやデータベースの時代以前から、私たちはデータである紙の取引記録、顧客記録、アーカイブファイルを使用していました。 コンピューター、特にスプレッドシートとデータベースにより、大規模なデータの保存と整理が容易になりました。 突然、マウスを1回クリックするだけで情報が利用できるようになりました。

ただし、元のテーブルとデータベースからは長い道のりを歩んできました。 現在、2日ごとに、最初から2000年までに受け取ったデータと同じ量のデータを作成しています。 そうです、2日ごとに。 そして、私たちが作成するデータの量は急速に増加し続けています。 2020年までに、利用可能なデジタル情報の量は約5ゼタバイトから20ゼタバイトに増加します。

今日、私たちがとるほとんどすべての行動はその痕跡を残しています。 オンラインに接続するとき、検索モジュールを備えたスマートフォンを転送するとき、ソーシャルネットワークやチャットを介して友達と話すときなどにデータを生成します。 さらに、機械で生成されたデータの量も急速に増加しています。 スマートホームデバイスが相互に、またはホームサーバーと通信するときに、データが生成および配布されます。 工場や工場の産業機器には、データを蓄積して送信するセンサーがますます装備されています。

「ビッグデータ」という用語は、このすべてのデータの収集と、ビジネスを含む幅広い分野でそれを有利に使用する能力を指します。

ビッグデータテクノロジーはどのように機能しますか?

Big Dateは原則に基づいて機能します。特定の主題や現象について理解すればするほど、新しい理解に到達し、将来何が起こるかをより確実に予測できます。 比較中 もっとデータポイントは、以前は隠されていた関係を作成します。これらの関係により、学習してより適切な意思決定を行うことができます。 これは、最も一般的には、収集できるデータからモデルを構築し、シミュレーションを実行して、データポイントの値を毎回調整し、それらが結果にどのように影響するかを追跡するプロセスを通じて行われます。 このプロセスは自動化されています。最新の分析テクノロジーは、これらのシミュレーションを何百万も実行し、取り組んでいる問題の解決に役立つモデル(またはアイデア)が見つかるまで、考えられるすべての変数を微調整します。

ビル・ゲイツが1枚のCDの紙の内容にぶら下がっている

最近まで、データはスプレッドシートまたはデータベースに限定されていました。すべてが非常に整然としていて整頓されていました。 行と列に簡単に整理できないものは、操作が難しすぎると見なされ、無視されました。 ただし、ストレージと分析の進歩により、大量のデータをキャプチャ、保存、処理できるようになりました。 他の種類..。 その結果、今日の「データ」とは、データベースから写真、ビデオ、録音物、テキスト、センサーデータまであらゆるものを意味します。

この厄介なデータをすべて理解するために、ビッグデータに基づくプロジェクトでは、人工知能と コンピューター学習..。 たとえば、パターン認識や自然言語処理を通じて、特定のデータが何であるかを判断するようにコンピューターに教えることで、自分よりもはるかに高速かつ確実にモデルを識別するようにコンピューターに教えることができます。

Big Dateはどのように使用されますか?

センサーデータ、テキスト、音声、写真、ビデオデータに関するこの増え続ける情報の流れは、数年前には想像できなかった方法でデータを使用できるようになったことを意味します。 これは、ほぼすべての業界のビジネス界に革命をもたらしています。 今日の企業は、どの特定の顧客カテゴリがいつ購入したいかを信じられないほど正確に予測できます。 ビッグデータは、企業がビジネスをより効率的に行うのにも役立ちます。

ビジネスの領域外でも、ビッグデータに関連するプロジェクトはすでにさまざまな方法で私たちの世界を変えるのに役立っています。

  • ヘルスケアの改善-データ駆動型医療は、病気を早期に発見して新薬を開発するのに役立つモデルの膨大な量の医療情報と画像を分析することができます。
  • 自然災害と人為的災害の予測と対応。 センサーデータを分析して、地震が発生する可能性のある場所を予測できます。人間の行動パターンは、組織が生存者を支援するための手がかりを提供します。 Big Datesテクノロジーは、世界中の戦争地帯からの難民の流れを追跡して保護するためにも使用されています。
  • 犯罪の防止。 警察は、独自のインテリジェンスとオープンソース情報を含むデータ駆動型戦略をますます使用しています。 有効活用必要に応じて、リソースと説得力のある対策。

ビッグデータテクノロジーに関する最高の本

  • 誰もが嘘をつきます。 検索エンジン、ビッグデータ、インターネットはあなたのことをすべて知っています。
  • ビッグデータ。 1冊の本のすべての技術。
  • 幸福の産業。 ビッグデータと新技術が製品やサービスに感情を追加するのにどのように役立つか。
  • 分析の革命。 運用分析を使用してビッグデータ時代のビジネスを改善する方法。

ビッグデータの問題

Big Dateは、前例のない洞察と機会を提供しますが、対処する必要のある問題と質問も引き起こします。

  • データの機密性-今日私たちが生成するビッグデータには、私たちの個人的な生活に関する多くの情報が含まれています。 完全な権利..。 開示する個人データの量と、BigDateのアプリやサービスが提供する利便性とのバランスをとることがますます求められています。
  • データ保護-誰かが特定の目的のために私たちのデータを持っているという事実に満足していると私たちが判断したとしても、私たちは私たちのデータの安全性とセキュリティで彼らを信頼できますか?
  • データに対する差別-すべての情報がわかっている場合、私生活のデータに基づいて人々を差別することは容認できますか? 私たちはすでにクレジットスコアを使用して誰がお金を借りることができるかを決定しており、保険もデータに大きく依存しています。 より詳細に分析および評価されることを期待する必要がありますが、これがリソースの少ない人々の生活を複雑にしないように注意する必要があります。 制限付きアクセス情報へ。

これらのタスクを実行することはBigDatesの重要な部分であり、そのようなデータを使用したい組織が対処する必要があります。 これを怠ると、評判だけでなく、法律上および財務上の面でもビジネスが脆弱になる可能性があります。

未来を見据えて

データは私たちの世界と私たちの生活を前例のない速度で変えています。 ビッグデータが今日これらすべてに対応できるのであれば、明日何ができるか想像してみてください。 私たちが利用できるデータの量は増えるだけであり、分析のテクノロジーはさらに高度になります。

企業にとって、ビッグデータを適用する機能は、今後数年間でますます重要になります。 データを戦略的資産と見なす企業だけが生き残り、繁栄します。 この革命を無視する人々は取り残される危険があります。



トピックの続き:
ソリューション

誰もが望んでいるわけではありません。 ただし、欠点が1つあります。視覚的なタブがないことです。 通常、これらはすべてのブラウザにありますが、Mozillaでのビジュアルブックマークの設定は個別に行われます...