Big Data分析の本命、Spark、ポストHadoop?
ビッグデータ処理の新本命「Spark」、人気の「R」も分散処理で高速化
・日経Big Data:2015.07.23
・http://business.nikkeibp.co.jp/atclbdt/15/258682/071700003/
・ビッグデータ処理の本命と目されるソフト「Spark」が、米国で急速に普及している。オープンソースソフトウエア(OSS)の分散データ処理ソフトだ。6月に公開した最新版の「Spark 1.4」では、データサイエンティストに人気の高い「R言語」にも対応している。
・Sparkは、必要なデータをメモリー上に保存してこの検証処理を行う。低速なHDDを使用しないため、Hadoopに比べて処理時間を短縮できる。
ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し
・IT Leaders :2015年7月8日(水)
・http://it.impressbm.co.jp/articles/-/12562
・ビッグデータを扱うための基盤環境として真っ先に名前が挙がるのが、ご存じ「Apache Hadoop/MapReduce」。一方で、数年前から先進企業/エンジニアの間で“ポストHadoop”と呼ばれている技術があります。UCバークレー・AMPLab発の「Apache Spark」です。先月、IBMが「今後10年間で最も重要なオープンソースプロジェクト」と位置づけてSparkへの注力を宣言するなど、ここにきて普及の兆しもあります。そこで、まずは「Sparkって一体何?」というレベルから動向を確認してみます。
「Spark」をクラウドサービスで利用すべき3つの理由--Databricks担当者に聞く
・ZDNet Japan:2015年06月30日
・http://japan.zdnet.com/article/35066400/
・オープンソースプロジェクト「Apache Spark」は、いまやカリフォルニア大学バークレー校のAMPLabが生んだ成果の中で、もっとも有名なものと言えるかもしれない。Sparkを生んだAMPLabは、機械学習、クラウドコンピューティング、クラウドソーシングという3つの大きなトレンドをテーマとしており、アルゴリズムと機械、そして人の力を組み合わせて、ビッグデータから意味を引き出すことに取り組んでいる。
Sparkがアナリティクスのオペレーティング・システムになる
・EnterpriseZine:2015/07/23
・http://enterprisezine.jp/dbonline/detail/7064
・ビッグデータの活用では非構造化データを大量に蓄積する必要があり、それをリレーショナルデータベースに入れるのは得策ではないのでHadoopなどを利用する。これはいまやビッグデータ・ソリューションの定番になりつつある流れだ。拡張性の高い分散ファイルシステムのHadoopは、増え続けるデータを格納するのに向いている。とはいえHadoopに入れれば、それで問題がすべて解決するわけではない。
IBM:
・IBM | Spark:Power of data. Simplicity of design. Speed of innovation.
・http://www.ibm.com/analytics/us/en/technology/spark/
PI研のコメント:
・Big Data分析の本命登場かと思わせる記事が次々にアップされています。Sparkについてです。ここにあげただけでも、5つありますが、いずれも、Sparkが今後のBig Dataの分析を担う中核ソフトになるのではとの解説をしています。特に、IBMは本格的にSparkシフトをこの6月に打ち出しており、これまでのすべての技術をSparkを中心に作りかえるとの意気込みです。また、AWS、アマゾンもすでに、Sparkに対応しつつあるとのことです。では、なぜSparkがこれほど、世の中に登場以来、約1年でブレイクしたかというと、これまでBig Data分析の本命と目されていたHadoopの弱点、リアルタイムへの対応がSparkではインメモリを使うため、各段のスピード、インメモリ環境で100倍の差が生じるとのことで、これが注目されたことによるといえます。Big Dataが大量、多様の分析でとどまっている間はHadoopの方がむしろフィットしているといえますが、リアルタイムが勝負になった場合は、圧倒的にSparkが有利とのことです。ただし、IBMの三浦氏は、「Hadoopの課題を解決するために出てきた技術がSparkです。SparkはHadoopを置き換えるものではなく、補完するものです」とも述べていますので、置き換わる訳ではなく、補う技術ともいえます。それにしても、Big Dataは日新月歩であり、技術の進歩は予想以上に速いといえます。BIツールも含め、今後、さらに進化するといえますので、これで終わりはなく、新技術を柔軟に取り入れ、実務にどう活かすかを考えててゆくことが肝要といえます。
お知らせ:
1.2014年度版、食品スーパー・ドラックストア財務3表連環分析、リリース!
*食品スーパー・ドラックストア、全上場企業約100社を対象!
*過去5年間を(ドラックストア3年)、エクセルで自由自在に分析!
2.MBQ(マービック)オープン:Big Data、マーケティング!
→MBQのfacebookはこちら!
3.週間!食品スーパーマーケット最新情報:まぐまぐ!
4.facebookに「食品スーパーマーケット最新情報」グループ創設603人!
« 考察、トライアルとリピート、そして、需要予測! | Main | 食品スーパー、市場規模14兆円強、100.8%! »
« 考察、トライアルとリピート、そして、需要予測! | Main | 食品スーパー、市場規模14兆円強、100.8%! »
Comments