devkuma – BigData

Apache Hadoop

kc@example.com (kc kim) — Sat, 24 Dec 2022 10:22:54 +0900

Apache Hadoopの概要

Hadoop（ハドゥープ）は、大規模データの蓄積と分析を分散して処理するフレームワークであり、Java言語で実装されている。 Hadoopの元になったのは、Googleの大量データを効率的に処理するための分散処理基盤であるMapReduceとGoogle File Systemである。

Googleはこのシステムに関する論文を2004年に公開し、それを参考にDoug CuttingとMike Cafarellaによって開発された。Hadoopという名前は、Dougの息子が黄色い象のぬいぐるみに付けた名前に由来し、意味がなく、簡単で、他の場所で使われていないという理由で採用された。黄色い象はHadoopのマスコットキャラクターでもある。

Hadoopは分散処理基盤であるため、各処理をクラスター内のマシンに分け（Map）、各マシンで処理された結果を集約（Reduce）して最終的な結果を得る。
近年、大量データ（BigData）の中から目的のデータを抽出したり、保存されたデータから何らかの傾向を読み取ったりするなど、データマイニングへの要求が高まっている。また、BigDataを処理できるだけでなく、より短時間でそのような情報を算出したいという要求も増えている。
以前はBigDataを処理するためにデータウェアハウスのような専用製品を使用する必要があった。Hadoopは、このようなデータ処理を一般的なサーバーマシンを複数台接続（スケールアウト）することで可能にする。

複数のサーバーで構成されるHadoopシステムは、複数台に分散されることでシステムの柔軟性を高める。処理性能を向上させるには、Hadoopクラスターにシステムを追加するだけでよい。Hadoopクラスターシステムは一般的なサーバーマシンで構成できるため、ハードウェア調達が容易である。またソフトウェア面でも、クラスターに追加するサーバーにHadoopシステムをインストールして設定するだけでHadoopクラスターをスケールアップできる。この特徴から、ハードウェア、ソフトウェアの両面で拡張性が高いと言える。

近年はクラウドサービスを使用して複数台のサーバーを簡単に起動できるようになったため、Hadoopを使用してデータ処理を行いたい場合にだけクラウド上にHadoopクラスターを構築できる。さらに性能が不足すればサーバーを追加し、リソースが余ればサーバーを減らし、1つの処理が終わった時点でHadoopクラスターのすべてのマシンを解放する、といった使い方も可能であるため、今後ますます利用場面が増えると考えられる。

Hadoopバージョン1まではMapReduceのみの並列処理フレームワークだったが、Hadoopバージョン2からはStorm、Spark、Tez/Impalaなどの他の並列処理フレームワークを利用できるようになった。また、Hadoop上のデータに対するMapReduce（Java）以外の処理インターフェースも増えた。例えばImpalaやTezで動作するHiveやPigを通じて、ユーザーは使い慣れたSQLとほぼ同等のクエリを使用してデータへアクセスできる。さらにStormやSparkではストリーミングによるリアルタイムデータ処理が可能になり、HDFS上に存在するデータ以外でもHadoopシステムを利用できるようになっている。

Hadoopの特徴

Hadoopは次の4つのCoreモジュールで構成されている。

Hadoop Distributed File System (HDFS)
Hadoop MapReduce
Hadoop Common
Hadoop YARN

また、次の2つはHadoopプロジェクトとは別のモジュールである。

Apache Ozone
Apache Submarine

HDFS（Hadoop Distributed File System）

Hadoop固有の分散ファイルシステムである。ユーザーには1つの大きなファイルシステムに見えるが、各ノードにまたがってファイルを保存する。1つのノードで障害が発生してもデータの欠損がないよう、デフォルトで3つのノードに同じデータを保持（三重化）している。

MapReduce

分散されたデータに対して並列に処理を行うためのフレームワークである。Mapステップでは各スレーブノードのデータに対して処理を行い、ReduceステップでMapステップにより複数ノードに分散・実行された処理結果の集約を行う。

Hadoop Common

Hadoopの機能を支援するユーティリティ集合である。

YARN（Yet Another Resource Negotiator）

Hadoopバージョン1までは独立したコンポーネントではなかったが、Hadoopバージョン2ではリソース管理を専門とするモジュールとして独立した。MapReduceリソース、ジョブスケジューリングだけでなく、Giraph、Storm、Spark、Tez/Impalaなど他の分散処理フレームワークのリソース管理も可能になった。

Apache Ozone

Hadoopで分散オブジェクトストレージを実現するためのプロジェクトである。数千億規模のファイルとブロックへ拡張できるよう設計されており、YARNやKubernetesのようなコンテナ環境での動作もサポートする。S3およびHadoop File System APIなど複数のプロトコルを使用してアクセスできる。元々はHadoopのサブプロジェクトだったが、Apacheトップレベルプロジェクトの一つとして独立した。

Apache Submarine

YARNのようなリソース管理プラットフォーム上でディープラーニングアプリケーション（TensorFlow、PyTorch、MxNetなど）を実行できるようにするプロジェクトである。元々はHadoopのサブプロジェクトだったが、Apacheトップレベルプロジェクトの一つとして独立した。Hadoop 2.7.3以上で使用できる。

Hadoopの使用例

HadoopはMapReduceの代わりに、より高速に処理できるApache Sparkを使用できる。詳細はhttps://openstandia.jp/solution/hadoop-spark/を参照する。

Hadoopの動作環境

HadoopはJava言語で作られているため、JVMが必要である。2022年4月時点の安定版であるHadoop 3.3.2ではJava 8およびJava 11をサポートする。JVMが実行される環境であればOSは問わない。

Hadoopが実行されるOS

主要Linuxディストリビューション
Windows
MacOSX

HadoopはOpenJDKで正常に動作することが確認されている。各JDKの動作検証結果は、以下のHadoop Wikiページで確認できる。
https://cwiki.apache.org/confluence/display/HADOOP/Hadoop+Java+Versions

Hadoopはコンパイル済みバイナリパッケージと、ユーザーが直接コンパイルするソース版の両方を提供する。
コンパイル済みバイナリパッケージはすぐに使用できる一方で、拡張できない設定もあるため、ユーザーが必要な機能を有効にするにはソースからビルドする必要がある場合もある。

Hadoopライセンス

HadoopはApacheのトップレベルプロジェクトの一つである。
ライセンスはApache License 2.0であり、ユーザーはソフトウェアの使用、配布、修正、派生版配布に制限を受けない。

Hadoop公式サイト

Hadoopの公式サイトは以下のURLである。 http://hadoop.apache.org/

また、Hadoop公式WikiページにはHadoopに関するさまざまな情報がある。 https://cwiki.apache.org/confluence/display/HADOOP/Home

Hadoopダウンロード

https://hadoop.apache.org/releases.html

Hadoopを構成する3つのレイヤー

Hadoopアーキテクチャは主に次の3つのレイヤーで構成される。

分散処理エンジン（HadoopではHadoop MapReduceを使用）
リソースマネージャー（HadoopではHadoop YARNを使用）
分散ファイルシステム（HadoopではHDFSを使用）

そして、Hadoopはデータにアクセスするためにクエリエンジンを使用することが多い。

Hadoopはすべてのコンピューターに上記の構成をインストールし、データの読み書きと処理を分散する。

分散処理エンジン

分散処理エンジンは、Hadoopで並列分散処理を担当するソフトウェア群である。

基本的にはMapReduceという分散処理エンジンが実行される。

MapReduce処理概要

MapReduceは次のように分散処理を行う。 - Map: 入力をkey-value形式で出力し、各Mapをノード別に分散可能 - Shuffle: Map出力をソート - Reduce: 同じキーを集約

代表的な分散処理エンジンの特徴は次のとおりである。下に行くほど速い。

MapReduce: 中間結果をHDFS（ストレージ）へ出力
Tez: 中間結果をYARNコンテナ（ストレージ）へ出力
Spark: 中間結果をメモリへ出力

なお、MapReduceは終わらないコンテンツのように見えるため、TezやSparkを使用することを推奨する。

リソースマネージャー

リソースマネージャーは、Hadoopでリソース（CPU、メモリ）管理を担当する。

MapReduceで使用するリソースマネージャーは、アプリケーションレベルコンテナを管理するHadoop YARNである。

そのほかに、OSレベルコンテナを管理するApache Mesosもある。こちらはDockerのような技術（Linuxコンテナ）を利用する。

分散ファイルシステム

分散ファイルシステムは、Hadoopでデータの読み書き分散を担当する。Hadoopで使用される分散ファイルシステムには次が含まれる。

HDFS: Hadoop標準ファイルシステム
EMRFS: Amazon S3をストレージとして使用するファイルシステム
MapR-FS: C言語でHDFSを書き直したファイルシステム。高速である。

そのほかにもCloud StorageまたはBlob Storageをストレージとして使用できるように見えるが、内部的にどの分散ファイルシステムを使用するかは分からない。

Hadoopエコシステム一覧

デフォルトではないHadoopを構成するソフトウェア、または周辺ソフトウェアをHadoopエコシステムという。

Hadoopエコシステムは次のように組み合わせて、さまざまな分散処理を実行できる。

データウェアハウス構成例: Hadoop + Tez + Hive
- Hiveを使用してHadoopをSQLで操作できる。
機械学習構成例: Hadoop + Spark
- 機械学習でよく発生する反復処理をSparkのインメモリ処理で効率化できる。
全文検索構成例: Hadoop + Elasticsearch
- Elasticsearch for Apache Hadoopを使用して全文検索サービスを実装できる。
- Hadoopの分散ファイルシステムとしてElasticsearchクラスターを活用する。
ストリーム処理構成例: 各サーバーおよびIoTデバイス –> Kafka –> Hadoop
- 複数サーバーおよびIoTデバイスからストリーム処理を行い、Hadoopにデータを集約するにはKafkaを使用する。

以下に代表的なHadoopエコシステムと関連システム、およびその機能を紹介する。

Hadoopエコシステム	実現する機能
Apache Accumulo	KVS型のNoSQL。セキュリティ重視
Apache Atlas	ガバナンス制御、コンプライアンス対応
Cascading	MapReduceを簡単に扱うAPI
Apache Drill	エッジ機器データを操作する分散SQLエンジン
Apache Falcon	データライフサイクル管理
Apache Flume	複数データソースからHadoopへ非構造化データを集約（ストリームデータ処理）
Apache HBase	KVS型NoSQL
Apache Hive	SQLライク（HiveQL）なクエリでデータを操作できる。耐障害性重視の場合。DWH実現
Apache Hue	HadoopおよびHadoopエコシステムをGUIで操作
Apache Impala	SQLライク（Impala SQL）なクエリでデータを操作できる。速度重視の場合。リアルタイム処理実現
Apache Kafka	複数データソースからHadoopへ非構造化データを集約（ストリームデータ処理）。Flumeとの差は別途参照
Apache Knox	中央集中型認証およびアクセス管理
Apache Mahout	線形代数、統計分析、機械学習ライブラリ
Apache Mesos	OSレベルコンテナを管理するリソースマネージャー
Apache Oozie	ジョブスケジューラー
Apache Phoenix	HBaseをデータストアとして使用するリアルタイムRDB
Apache Pig	データ処理（ETL）ツール
Apache Ranger	認証済みユーザーへ属性ベースのアクセス権限を付与
Apache Sentry	認証済みユーザーへロールベースのアクセス権限を付与
Apache Slider	YARNアプリケーション制御。長時間起動している場合はKillするなど
Apache Solr	全文検索（Elasticsearchで使用される）
Apache Spark	機械学習、SQL操作、R言語、グラフをメモリ内で処理
Apache Sqoop	RDBMSからHadoopへ構造化データをインポート、エクスポート
Apache Tez	MapReduceより高速な分散処理フレームワーク
Presto	中間結果をメモリへ出力するSQLクエリエンジン

Apache Spark

kc@example.com (kc kim) — Sat, 24 Dec 2022 10:22:54 +0900

Apache Sparkの概要

Apache Sparkは、ビッグデータや機械学習のような大規模データを処理するクラスタコンピューティングのための分散処理フレームワークである。Sparkは2009年にカリフォルニア大学バークレー校のAMPLabで、HadoopのコミッターでもあるMate Zahariaによって開発が開始され、現在はApacheソフトウェア財団のトップレベルプロジェクトの一つとして管理、開発されている。

Sparkが開発された目的としては、従来のMapReduceの処理速度の遅さを改善することと、MapとReduceの繰り返しというスタイルに縛られない柔軟な処理スタイルへの対応が挙げられる。

Sparkは分散処理フレームワークとして単独でも動作するため、ポストHadoopとして注目されている一方で、MapReduce、HDFS、YARNなどで構成されるHadoopコアシステム内のMapReduceの代替として利用することも可能である。

Apache Sparkの主な特徴

Sparkの大きな特徴として、Sparkが提供する簡潔なAPIを使用して柔軟な処理モデルを簡単にプログラミングできること、大規模データを従来のMapReduceに比べてはるかに短い時間で処理できることなどが挙げられる。

従来のMapReduceでは、処理モデルとしてMapとReduceを1セットで実行する必要があったため、Hadoop上で動作するアプリケーションを開発するにはこのスタイルに従って開発する必要があった。そのため、柔軟な処理モデルを開発することが難しいという問題があった。

またMapReduceでは、1回のMapおよびReduce処理ごとに処理結果をディスクへ書き込むため、処理速度を向上させることが難しいという問題があった。これに対してSparkでは、メモリに読み込んだデータセット（RDD）に対して複数回のMap処理を連続して実行し、さらにReduceした結果をディスクに書き込まずインメモリ状態のまま次のMap処理をそのデータセットに対して行う方式を取っているため、MapReduceに比べて最大100倍以上の処理速度向上が見られる場合もあるとされる（従来のMapReduceと同様に処理結果をディスクへ書くこともできる）。

Sparkの特徴は次のとおりである。

Speed
- インメモリ（In-Memory）ベースの高速処理
Ease of Use
- Java、Scala、Python、R、SQLなど多様な言語対応による使いやすさ
Generality
- SQL、Streaming、機械学習、グラフ演算など多様なコンポーネントを提供
Run Everywhere
- YARN、Mesos、Kubernetesなど多様なクラスターで動作可能
- HDFS、Cassandra、HBaseなど多様なファイル形式とストレージをサポート

Apache Sparkのコンポーネント構成

Sparkは分散処理フレームワークとして、次のコンポーネント要素で構成される。

Spark Core（Scala、Java、Python、R APIを含む）
Spark SQL + DataFrames
Spark Streaming
MLlib
GraphX

Spark Core

Sparkは処理するデータをRDD（Resilient Distributed Dataset）形式で保持する。
RDDは不変で並列実行可能なコレクションであり、分散された各コンピューターに配置される。
Sparkを使用したプログラミングモデルでは、このRDDに対してSpark Coreで提供されている各種メソッドを適用しながら処理を行っていく。Spark Coreが提供するAPIを通じてRDDを操作するとき、開発者は分散されたデータを意識せずに分散処理を実行できる。
これはSparkの特徴の一つである、柔軟な処理を容易にプログラミングできるという点である。
Spark Coreで提供されるAPIは、Sparkの開発言語であるScala以外にも、Java、Python、Rといった言語から呼び出し可能なAPIが標準で提供されている。また、サードパーティライブラリの中には、Scalaと同じくJava VM上で動作する関数型言語ClojureからSpark APIを呼び出すためのライブラリも存在しており、他の言語向けSpark APIも今後増えていくと予想される。

Spark SQL + DataFrames

Sparkでは、Sparkが提供するAPIを通じてRDDを操作する方法のほかに、Spark SQLというSQLのような言語を使用して、DataFramesというデータベーステーブルのような名前付き列を持つ抽象化されたデータセットを操作できる。
これはScala、Java、Python、Rのような言語を習得していないユーザーでも、SQLの知識があればSpark SQLを通じてSparkでデータを処理できるインターフェースである。

Spark Streaming

Spark Streamingは、Sparkに絶えず送信されるストリーミングデータに対してリアルタイム分散処理を可能にする機能を提供するエンジンである。
同様にストリーミングデータを処理するフレームワークとしてApache Stormがある。Apache Stormがストリーミングデータ処理に特化したフレームワークである一方、Spark StreamingはSparkでリアルタイムデータを処理するエンジンとしての機能である。
ほかにもApache Flinkというストリーミング処理フレームワークがある。こちらはバッチ処理も可能であり、機械学習ライブラリやグラフ処理ライブラリなども存在するため、Sparkにかなり似た構成となっており、Sparkの対抗馬と呼ばれている。

Apache Storm
http://storm.apache.org/

Apache Flink
http://flink.apache.org/introduction.html

MLlib

MLlibはSparkの機械学習ライブラリである。Sparkの柔軟な処理スタイルで機械学習を実行するプログラムを作成できる。
機械学習ライブラリとしては、まずHadoopと連携して機械学習を行うMahoutというソフトウェアが存在したが、Hadoop + MahoutではMapReduceのプログラミングモデルを使用して機械学習プログラムを作成する必要があり、処理速度低下という問題があった。
それに比べてSparkはHadoopより高速に処理でき、SparkとSparkが提供するMLlibを使用した機械学習は効率がよいという点で注目が高まっている。

Apache Mahout
http://mahout.apache.org/

GraphX

GraphXはSparkを通じてグラフデータを並列処理するAPIを提供する。
Sparkの特徴である高速処理により、グラフデータの並列処理が可能である。

上で説明したSparkを構成する一部のコンポーネントには、ストレージに分類されるものがない。 Sparkでは読み書きに既存の各種ストレージを利用できる。以下はSparkと連携可能なストレージの一部である（サードパーティライブラリ利用を含む）。

HDFS, Cassandra, HBase, S3, MongoDB, Couchbase, Riak, Neo4j, OrientDB

また、読み取れるデータソースとしてはCSVやXMLなどのファイルから、Solr、Elasticsearchなどの検索エンジンまで多様である。

Sparkと各種データソースとの連携パッケージ一覧
https://spark-packages.org/?q=tags%3A%22Data%20Sources%22

上で示した多様なデータソースとの連携を可能にするパッケージ以外にも、既存のSparkエコシステムを拡張するための各種パッケージが提供されている。このパッケージはSparkPackageとして次のサイトに掲載される。
https://spark-packages.org/

Apache Sparkの動作環境

Sparkが動作保証しているのは、以下のようなOSである。また、実行するにはJavaがインストールされている必要がある。

主要Linuxディストリビューション
Windows
Linux
MacOSX

Sparkで提供されるAPIがサポートするバージョンは次のとおりである。

Java 8, 11, 17（Java 8u201未満はSpark 3.2.0では非推奨）
Scala 2.12, 2.13（Spark 3.3.0は互換性のあるScala 2.12.xを使用する必要がある）
Python 3.7以上（Python 3.9の場合、Apache Arrowとpandas UDFが動作しない場合がある）
R 3.5以上

Apache Sparkのライセンス形式

SparkはApacheのトップレベルプロジェクトの一つである。
ライセンスはApache License 2.0であり、ユーザーはソフトウェアの使用、配布、修正、派生版の配布に制限を受けない。

Apache Spark参考情報

Spark開発者たちが始めたDatabricksという会社によって提供されている。

PySparkの概念と主な機能

kc@example.com (kc kim) — Fri, 06 Jan 2023 12:36:13 +0900

PySparkとは

PySparkは、リアルタイムの大規模データ処理のためのオープンソース分散コンピューティングフレームワークおよびライブラリ群であるApache Spark向けのPython APIである。PythonやPandasのようなライブラリにすでに慣れているなら、PySparkはよりスケーラブルな分析とパイプラインを作る方法を学ぶのに適した言語である。

Apache Sparkは基本的に、並列およびバッチシステムで処理することで巨大なデータセットを扱う計算エンジンである。SparkはScalaで書かれており、PySparkはSparkとPythonの連携をサポートするためにリリースされた。Spark用APIを提供するだけでなく、PySparkはPy4Jライブラリを活用してRDD（Resilient Distributed Datasets）とのインターフェースをサポートする。

PySparkで使用される主なデータ型はSpark DataFrameである。このオブジェクトはクラスター全体に分散されたテーブルと考えることができ、RやPandasのデータフレームと似た機能を持つ。PySparkを使用して分散計算を行うには、他のPythonデータ型ではなくSpark DataFrame上で操作を実行する必要がある。

PandasとSpark DataFrameの主な違いの1つは、即時実行と遅延実行である。PySparkでは、結果がパイプラインで実際に要求されるまで操作が遅延される。例えば、Amazon S3からデータセットをロードし、DataFrameに複数の変換を適用する処理を指定できるが、これらの操作はすぐには適用されない。代わりに変換グラフが記録され、データが実際に必要になったとき、例えば結果をS3へ書き戻すときに、変換が単一のパイプラインジョブとして適用される。このアプローチは、DataFrame全体をメモリへ取り込むことを防ぎ、システムクラスター全体でより効果的な処理を可能にするために使われる。Pandas DataFrameを使用すると、すべてをメモリに取り込み、すべてのPandas操作が即座に適用される。

PySparkの機能とライブラリ

Py4JはPySpark内に統合されている広く使われるライブラリで、PythonがJVM（Java Virtual Machine）オブジェクトと動的にインターフェースできるようにする。PySparkは効率的なプログラム作成のために多くのライブラリを提供する。また、以下を含む互換性のあるさまざまな外部ライブラリがある。

PySparkSQL

PySparkSQLは、大容量の構造化または半構造化データにSQLに似た分析を適用するPySparkライブラリである。PySparkSQLとともにSQLクエリを使用することもできる。

MLlib

MLlibは、PySparkおよびSparkのラッパー機械学習（ML）ライブラリである。MLlibは分類、回帰、クラスタリング、協調フィルタリング、次元削減、基本的な最適化プリミティブのための多くの機械学習アルゴリズムをサポートする。

GraphFrames

GraphFramesは、PySpark CoreおよびPySparkSQLを使用してグラフ分析を効率的に実行するための一連のAPIを提供するグラフ処理ライブラリである。高速な分散コンピューティングに最適化されている。

まとめ

Pythonは知っているがScalaは知らないデータエンジニアにとって、PySparkは純粋なSparkよりはるかに使いやすいが、欠点もある。PySparkのエラーはJavaのスタックトレースエラーとPythonコードへの参照の両方を表示するため、PySparkアプリケーションのデバッグは非常に難しい場合がある。

Sparkは他のデータ処理オプションより多くの処理オーバーヘッドと複雑な設定を含む。RayとDaskが最近登場した。Daskは純粋なPythonフレームワークであるため、ほとんどのデータエンジニアはすぐにDaskを使用できる。