Tag: hdfs

Spark #03: Query Apache Access Log with Spark SQL

kanakorn.h

March 31, 2017
ต่อจาก
- Spark #02: Cluster Installation ซึ่งทำให้เรามี Spark Cluster ที่พร้อมจะทำงานแบบ Distributed Computing แล้ว
- ขั้นตอนการติดตั้ง Hadoop Cluster อย่างง่าย ทำให้มี Hadoop HDFS เป็นพื้นที่จัดกับ
- Zeppelin #01 Installation ทำให้สามารถใช้งาน Spark ได้ง่ายขึ้น
บทความนี้ จะกล่าวถึงการนำเข้าไฟล์ Apache Access Log เข้าไปเก็บไว้ใน Hadoop HDFS แล้ว ให้ Apache Spark Cluster เข้าไปค้นหาข้อมูล โดยใช้ภาษา SQL ผ่าน Spark SQL API

นำ Apache Access Log เข้า HDFS
1. ให้ Copy Apache Access Log ที่มีอยู่มาเก็บไว้ในเครื่องที่สามารถติดต่อ Hadoop HDFS ได้ (ในที่นี้ ชื่อไฟล์เป็น apache.access.log)
2. ใช้คำสั่งต่อไป
  (แทน /test/ ด้วย Path ที่สร้างไว้ใน HDFS)
```
hdfs dfs -copyFromLocal apache.access.log /test/
```
3. เมื่อไปดูผ่าน Web UI ของ Hadoop HDFS ก็จะเห็นไฟล์อยู่ดังนี้
วิธี Query ข้อมูลจาก Zeppelin ไปยัง Spark Cluster
1. เปิด Zeppelin Web UI แล้วสร้าง Note ใหม่ โดยคลิกที่ Create new node
  แล้วใส่ชื่อ Note เช่น Query Apache Access Log
  ตั้ง Default Interpreter เป็น Spark
  แล้วคลิก Create Note
2. ใส่ Code ต่อไปนี้ลงไป
3. ด้านขวามือบน จะมีรูปเฟือง ให้คลิก แล้วเลือก Insert New
4. แล้วใส่ข้อความนี้ลงไป
5. จากนั้นคลิก Run all paragraphs
6. ผลที่ได้
ตอนต่อไปจะมาอธิบายวิธีการเขียนคำสั่งครับ
March 31, 2017
ขั้นตอนการติดตั้ง HBase บน Hadoop อย่างง่าย

kanakorn.h

September 14, 2016
HBase เป็น Database บน Hadoop [1]

จากบทความ ขั้นตอนการติดตั้ง Hadoop Cluster อย่างง่าย จะได้ HDFS อยู่ที่ hdfs://192.168.1.101:9000 แล้ว ก็จะสามารถใช้ HBase บน Hadoop HDFS ได้

ขั้นตอนการติดตั้ง
1. โคลนเครื่องต้นฉบับ แล้วตั้ง ip address ให้เรียบร้อย เช่น 192.168.1.121
2. ติดตั้ง HBase (mama shell)
```
(mama shell)
cd ~
wget http://www-us.apache.org/dist/hbase/stable/hbase-1.2.3-bin.tar.gz
tar -zxvf hbase-1.2.3-bin.tar.gz
sudo mv hbase-1.2.3 /usr/local/hbase
sudo chown -R hduser.hadoop /usr/local/hbase
sudo mkdir /usr/local/zookeeper
sudo chown -R hduser.hadoop /usr/local/zookeeper
```
3. แก้ไขไฟล์ /usr/local/hbase/conf/hbase-site.xml (hduser shell)
```
<configuration>
<property>
 <name>hbase.cluster.distributed</name>
 <value>true</value>
</property>
<property>
 <name>hbase.rootdir</name>
 <value>hdfs://192.168.1.101:9000/hbase</value>
</property>
 <property>
 <name>hbase.zookeeper.property.dataDir</name>
 <value>/usr/local/zookeeper</value>
 </property>
</configuration>
```
4. ขั้นตอนการ Start HBase (hduser shell)
```
 /usr/local/hbase/bin/start-hbase.sh
```
5. ดูผลการทำงาน จาก Hadoop HDFS ว่าสร้าง /hbase แล้ว
```
 http://192.168.1.101:50070/explorer.html#/hbase
```
6. ใช้งานผ่าน Shell ได้จากคำสั่ง (hduser shell)
```
 /usr/local/hbase/bin/hbase shell
```
7. ขั้นตอนการ Stop HBase (hduser shell)
```
 /usr/local/hbase/bin/stop-hbase.sh
```
References:

[1] https://hbase.apache.org/
September 14, 2016
ขั้นตอนการติดตั้ง Hadoop Cluster อย่างง่าย

kanakorn.h

September 14, 2016
Hadoop เป็น Framework สำหรับสร้างการประมวลผลแบบกระจาย (Distributed Processing) กับข้อมูลขนาดใหญ่ (Large Data Sets) สามารถเริ่มต้นจากทดสอบบนเครื่องคอมพิวเตอร์เครื่องเดียว ไปจนเป็นระบบ Cluster ได้[1]

อธิบายง่ายๆได้ว่า Hadoop ประกอบด้วย ส่วนประมวลผลแบบกระจายเรียกว่า YARN (หรือ MapReduce) และ ส่วนเก็บข้อมูลแบบกระจายเรียกว่า HDFS (Hadoop Distributed File System) สำหรับการสร้าง Hadoop Cluster ในบทความนี้ใช้ Hadoop version 2.7.2 บน Ubuntu 16.04 โดย Cluster จะประกอบด้วย 1 Master และ N Slaves โดยจะใช้วิธีการสร้างเครื่องต้นฉบับ แล้ว Clone ไปเป็น Master/Slave ต่อไป

1.ขั้นตอนการสร้างตันฉบับสำหรับการ Clone
1.1. ติดตั้ง Ubuntu 16.04 ตามปรกติ สร้าง User คนแรกชื่อ mama
1.2. สร้างกลุ่มชื่อ hadoop
```
sudo addgroup hadoop
```
1.3. สร้างผู้ใช้ชื่อ hduser อยู่ในกลุ่ม hadoop
```
sudo adduser hduser --ingroup hadoop
```
1.4. ติดตั้ง Java
```
sudo apt-get install default-jre openjdk-8-jdk-headless
```
1.5. ติดตั้ง hadoop
```
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz
tar -zxvf hadoop-2.7.2.tar.gz
sudo mv hadoop-2.7.2 /usr/local/hadoop
sudo mkdir /usr/local/hadoop/etc/hadoop/tmp
sudo chown -R hduser.hadoop /usr/local/hadoop
```
1.6. เพิ่มตัวแปรใน /etc/environment
```
HADOOP_HOME=/usr/local/hadoop
HADOOP_PREFIX=/usr/local/hadoop
JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
```
1.7. แก้ไขค่าใน .bashrc
```
su hduser; cd ~
```
แล้วแก้ไข .bashrc โดยเพิ่มบรรทัดต่อไปนี้ ท้ายไฟล์
```
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_PREFIX=/usr/local/hadoop
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
```
2.ขั้นตอนการสร้าง Master (namenode)
2.1. Clone เครื่องต้นฉบับมา แล้วแก้ไข ip address, /etc/hosts, /etc/hostname ให้เหมาะสม
โดยเครื่องนี้ต้อง Static IP เช่น 192.168.1.101
2.2. แก้ไข /usr/local/hadoop/etc/hadoop/core-site.xml ดังนี้
```
<configuration>
<property>
 <name>hadoop.tmp.dir</name>
 <value>/usr/local/hadoop/tmp</value>
 </property>
 <property>
 <name>fs.defaultFS</name>
 <value>hdfs://192.168.107.116:9000</value>
 </property>
</configuration>
```
2.3. แก้ไข /usr/local/hadoop/etc/hadoop/hdfs-site.xml
```
<configuration>
 <property>
 <name>dfs.replication</name>
 <value>3</value>
 </property>
 <property>
 <name>dfs.namenode.datanode.registration.ip-hostname-check</name>
 <value>false</value>
 </property>
</configuration>
```
2.4. แก้ไข /usr/local/hadoop/etc/hadoop/slaves

โดยใส่ IP ของเครื่องที่จะเป็น Slave หรือ datanode ลงไป เช่น 192.168.1.102 ถึง 192.168.1.111 เป็นต้น
```
192.168.1.102
192.168.1.103
192.168.1.104
192.168.1.105
192.168.1.106
192.168.1.107
192.168.1.108
192.168.1.109
192.168.1.110
192.168.1.111
```
3.ขั้นตอนการสร้าง Slave (datanode)
3.1. Clone เครื่องต้นฉบับมา แล้วแก้ไข ip address, /etc/hosts, /etc/hostname

เช่น ตั้ง IP เป็น 192.168.1.102
3.2. แก้ไข /usr/local/hadoop/etc/hadoop/core-site.xml ดังนี้ (สังเกตว่า 192.168.1.101 เป็น IP Address ของเครื่อง Master)
```
<configuration>
 <property>
 <name>fs.defaultFS</name>
 <value>hdfs://192.168.1.101:9000</value>
 </property>
</configuration>
```
4.ขั้นตอนการตั้งค่า Passwordless SSH

ที่เครื่อง Master ใช้คำสั่งต่อไปนี้ เพื่อให้สามารถ Login ไปเป็น hduser บนเครื่อง slave ได้โดยไม่ต้องใส่รหัสผ่าน
```
(hduser@master shell)
ssh-keygen -t rsa
ssh hduser@192.168.1.102 mkdir -p .ssh
ssh-copy-id -i .ssh/id_rsa.pub hduser@192.168.1.102
```
จากนั้นจะสามารถ ssh hduser@192.168.1.102 โดยไม่ต้องใส่ Password อีก แล้วหลังจากนี้ สามารถใช้เครื่อง Slave นี้เป็นต้นฉบับในการ Clone เป็น datanode ต่างๆได้ตามต้องการ

5.ขั้นตอนการ Start Hadoop Cluster

ในครั้งแรกสุด ที่เครื่อง Master ต้อง format HDFS ก่อน โดยใช้คำสั่ง (จาก hduser shell)
```
hdfs namenode -format
```
จากนั้นใช้คำสั่งต่อไปนี้เพื่อ start ระบบ
```
start-dfs.sh
start-yarn.sh
```
6.ดูผลการทำงาน

http://192.168.1.101:50070

http://192.168.1.101:8088

7.ขั้นตอนการ Stop Hadoop Cluster
```
stop-dfs.sh
stop-yarn.sh
```
References:
[1] http://hadoop.apache.org/
September 14, 2016