CDH5のでHadoopクラスタをインストールする
CDHとは
CDH は Apache Hadoop や関連製品を含む Cloudera のソフトウェアディストリビューションです。 Apache Flume や Hive や Spark、Kudu なども含みます。
CDH のおかげでとても簡単に環境を構築することが可能です。ただし、癖がある部分もありしっかりと手順を抑えておき、 やり直しがないようにしておく必要はありそうです。
ちなみに最近では EMR や Dataproc などもあるため自前で構築することは少し減ってきたかもしれません。 実際に裏で何をしているか理解するために、構築し冗長化をしてみたり触っていくことで内部を理解することも大事かもしれません。
Hadoopをインストール
事前知識
以下の参考書が基礎知識の習得にはよいと思います。日本語で書かれています。
- 作者: Eric Sammer,Sky株式会社玉川竜司
- 出版社/メーカー: オライリージャパン
- 発売日: 2013/11/27
- メディア: 大型本
- この商品を含むブログ (4件) を見る
サーバの準備
今回、サーバを5台用意しました。HDFS と YARN の NameNode は後ほど冗長化します。 以下のスペックで用意しました。よく OOM になるのでメモリはそれなりに必要です。
CPU: 8core Memory: 32GB SSD: 100GB OS: CentOS7
- すべて名前解決できる状態にしておきます。今回は hosts を全台に記載しておきます。
/etc/hosts /etc/hostname
時刻はすべて NTP と同期しておきます
yum update でパッケージを最新にしておきます
各サーバに鍵認証かパスワードで SSH ログインできる環境を作っておきます
swap と transparent hugepages の調整
以下のような警告がでます。調整しておくと良いと思います。
/proc/sys/vm/swappiness を最大値の 10 に設定することをお勧めします。現在の設定は 30 です。sysctl コマンドを使用して、この設定を実行時に変更します。この設定が再起動後に保存されるよう /etc/sysctl.conf を編集します。インストールは続行できますが、スワッピングが原因でホストの状態に問題が発生したと Cloudera Manager からレポートされる可能性があります。以下のホストが影響を受けます
$ echo 10 > /proc/sys/vm/swappiness
恒久的には以下の対応を入れてください。
vm.swappiness = 10
$ echo never > /sys/kernel/mm/transparent_hugepage/defrag $ echo never > /sys/kernel/mm/transparent_hugepage/enabled
こちらも同じように恒久的には rc.local などに記載をしておきます
echo never > /sys/kernel/mm/transparent_hugepage/defrag echo never > /sys/kernel/mm/transparent_hugepage/enabled
インストール
以下、サーバ1台 で作業します。インストーラが立ち上がりますので、Next で次へ進んでいきます。
$ cd /tmp $ curl -O http://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin $ chmod +x cloudera-manager-installer.bin $ ./cloudera-manager-installer.bin
CDH セットアップ
インストールが終わったら、対象サーバの 7180
ポートへアクセスします。
ポートが開くまで時間がかかると思います。
初期パスワードは admin / admin です。
ライセンスに同意して続けます。
今回はサポートなどは必要ありませんので、Express 版を利用します。
このまま続けます
IPアドレスを記載してスキャンします
SSH が可能なユーザと鍵(もしくはパスワード)を設定します
parcel によって全サーバに展開されます
今回は、コア Hadoop でインストールします
各サーバに割り当てるロールを選択します
今回、データベースは組み込みの PostgreSQL を利用します
セットアップが進みます。名前解決に問題があるまま進んでいるとここで大コケします
問題なければセットアップが完了します。
管理画面です。
次回は NameNode の冗長化を書きたいと思います。
シェアして頂けると嬉しいです。
参考になったという方がいれば是非お願いしますm(_ _ )m
モチベーション維持の観点で非常に励みになります。
Hadoop超入門: - ビッグデータ時代のオープンソース分析基盤 -
- 作者: 武内瑛紀
- 発売日: 2017/07/26
- メディア: Kindle版
- この商品を含むブログを見る
ビッグデータを支える技術―刻々とデータが脈打つ自動化の世界 (WEB+DB PRESS plus)
- 作者: 西田圭介
- 出版社/メーカー: 技術評論社
- 発売日: 2017/09/22
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (2件) を見る
Hadoop徹底入門 第2版 オープンソース分散処理環境の構築
- 作者: 太田一樹,岩崎正剛,猿田浩輔,下垣徹,藤井達朗,山下真一,濱野賢一朗
- 出版社/メーカー: 翔泳社
- 発売日: 2013/07/09
- メディア: 大型本
- この商品を含むブログ (5件) を見る
- 作者: 田澤孝之,横井浩,松井一比良
- 出版社/メーカー: 技術評論社
- 発売日: 2012/11/27
- メディア: 単行本(ソフトカバー)
- クリック: 5回
- この商品を含むブログ (2件) を見る