« 考察、トライアルとリピート、そして、需要予測! | Main | 食品スーパー、市場規模14兆円強、100.8%! »

July 29, 2015

Big Data分析の本命、Spark、ポストHadoop?

ビッグデータ処理の新本命「Spark」、人気の「R」も分散処理で高速化
・日経Big Data:2015.07.23
・http://business.nikkeibp.co.jp/atclbdt/15/258682/071700003/
・ビッグデータ処理の本命と目されるソフト「Spark」が、米国で急速に普及している。オープンソースソフトウエア(OSS)の分散データ処理ソフトだ。6月に公開した最新版の「Spark 1.4」では、データサイエンティストに人気の高い「R言語」にも対応している。
・Sparkは、必要なデータをメモリー上に保存してこの検証処理を行う。低速なHDDを使用しないため、Hadoopに比べて処理時間を短縮できる。

ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し
・IT Leaders :2015年7月8日(水)
・http://it.impressbm.co.jp/articles/-/12562
・ビッグデータを扱うための基盤環境として真っ先に名前が挙がるのが、ご存じ「Apache Hadoop/MapReduce」。一方で、数年前から先進企業/エンジニアの間で“ポストHadoop”と呼ばれている技術があります。UCバークレー・AMPLab発の「Apache Spark」です。先月、IBMが「今後10年間で最も重要なオープンソースプロジェクト」と位置づけてSparkへの注力を宣言するなど、ここにきて普及の兆しもあります。そこで、まずは「Sparkって一体何?」というレベルから動向を確認してみます。

「Spark」をクラウドサービスで利用すべき3つの理由--Databricks担当者に聞く
・ZDNet Japan:2015年06月30日
・http://japan.zdnet.com/article/35066400/
・オープンソースプロジェクト「Apache Spark」は、いまやカリフォルニア大学バークレー校のAMPLabが生んだ成果の中で、もっとも有名なものと言えるかもしれない。Sparkを生んだAMPLabは、機械学習、クラウドコンピューティング、クラウドソーシングという3つの大きなトレンドをテーマとしており、アルゴリズムと機械、そして人の力を組み合わせて、ビッグデータから意味を引き出すことに取り組んでいる。

Sparkがアナリティクスのオペレーティング・システムになる
・EnterpriseZine:2015/07/23
・http://enterprisezine.jp/dbonline/detail/7064
・ビッグデータの活用では非構造化データを大量に蓄積する必要があり、それをリレーショナルデータベースに入れるのは得策ではないのでHadoopなどを利用する。これはいまやビッグデータ・ソリューションの定番になりつつある流れだ。拡張性の高い分散ファイルシステムのHadoopは、増え続けるデータを格納するのに向いている。とはいえHadoopに入れれば、それで問題がすべて解決するわけではない。

IBM:
・IBM | Spark:Power of data. Simplicity of design. Speed of innovation.
・http://www.ibm.com/analytics/us/en/technology/spark/

PI研のコメント:
・Big Data分析の本命登場かと思わせる記事が次々にアップされています。Sparkについてです。ここにあげただけでも、5つありますが、いずれも、Sparkが今後のBig Dataの分析を担う中核ソフトになるのではとの解説をしています。特に、IBMは本格的にSparkシフトをこの6月に打ち出しており、これまでのすべての技術をSparkを中心に作りかえるとの意気込みです。また、AWS、アマゾンもすでに、Sparkに対応しつつあるとのことです。では、なぜSparkがこれほど、世の中に登場以来、約1年でブレイクしたかというと、これまでBig Data分析の本命と目されていたHadoopの弱点、リアルタイムへの対応がSparkではインメモリを使うため、各段のスピード、インメモリ環境で100倍の差が生じるとのことで、これが注目されたことによるといえます。Big Dataが大量、多様の分析でとどまっている間はHadoopの方がむしろフィットしているといえますが、リアルタイムが勝負になった場合は、圧倒的にSparkが有利とのことです。ただし、IBMの三浦氏は、「Hadoopの課題を解決するために出てきた技術がSparkです。SparkはHadoopを置き換えるものではなく、補完するものです」とも述べていますので、置き換わる訳ではなく、補う技術ともいえます。それにしても、Big Dataは日新月歩であり、技術の進歩は予想以上に速いといえます。BIツールも含め、今後、さらに進化するといえますので、これで終わりはなく、新技術を柔軟に取り入れ、実務にどう活かすかを考えててゆくことが肝要といえます。

お知らせ:
1.2014年度版、食品スーパー・ドラックストア財務3表連環分析、リリース!
  *食品スーパー・ドラックストア、全上場企業約100社を対象!
  *過去5年間を(ドラックストア3年)、エクセルで自由自在に分析!
2.MBQ(マービック)オープン:Big Data、マーケティング!
  →MBQのfacebookはこちら!
3.週間!食品スーパーマーケット最新情報:まぐまぐ! 
4.facebookに「食品スーパーマーケット最新情報」グループ創設603人!

« 考察、トライアルとリピート、そして、需要予測! | Main | 食品スーパー、市場規模14兆円強、100.8%! »

Comments

Post a comment

Comments are moderated, and will not appear on this weblog until the author has approved them.

(Not displayed with comment.)

TrackBack


Listed below are links to weblogs that reference Big Data分析の本命、Spark、ポストHadoop?:

« 考察、トライアルとリピート、そして、需要予測! | Main | 食品スーパー、市場規模14兆円強、100.8%! »