Spark #03: Query Apache Access Log with Spark SQL

Written by

in

Cloud Computing, Cluster & Load Balancing, Open Source Software & Freeware, System Monitoring

ต่อจาก

Spark #02: Cluster Installation ซึ่งทำให้เรามี Spark Cluster ที่พร้อมจะทำงานแบบ Distributed Computing แล้ว
ขั้นตอนการติดตั้ง Hadoop Cluster อย่างง่าย ทำให้มี Hadoop HDFS เป็นพื้นที่จัดกับ
Zeppelin #01 Installation ทำให้สามารถใช้งาน Spark ได้ง่ายขึ้น

บทความนี้ จะกล่าวถึงการนำเข้าไฟล์ Apache Access Log เข้าไปเก็บไว้ใน Hadoop HDFS แล้ว ให้ Apache Spark Cluster เข้าไปค้นหาข้อมูล โดยใช้ภาษา SQL ผ่าน Spark SQL API

นำ Apache Access Log เข้า HDFS

ให้ Copy Apache Access Log ที่มีอยู่มาเก็บไว้ในเครื่องที่สามารถติดต่อ Hadoop HDFS ได้ (ในที่นี้ ชื่อไฟล์เป็น apache.access.log)
ใช้คำสั่งต่อไป
(แทน /test/ ด้วย Path ที่สร้างไว้ใน HDFS)
```
hdfs dfs -copyFromLocal apache.access.log /test/
```
เมื่อไปดูผ่าน Web UI ของ Hadoop HDFS ก็จะเห็นไฟล์อยู่ดังนี้

วิธี Query ข้อมูลจาก Zeppelin ไปยัง Spark Cluster

เปิด Zeppelin Web UI แล้วสร้าง Note ใหม่ โดยคลิกที่ Create new node
แล้วใส่ชื่อ Note เช่น Query Apache Access Log
ตั้ง Default Interpreter เป็น Spark
แล้วคลิก Create Note
ใส่ Code ต่อไปนี้ลงไป
ด้านขวามือบน จะมีรูปเฟือง ให้คลิก แล้วเลือก Insert New
แล้วใส่ข้อความนี้ลงไป
จากนั้นคลิก Run all paragraphs
ผลที่ได้

ตอนต่อไปจะมาอธิบายวิธีการเขียนคำสั่งครับ

Post Views: 2

hadoop hdfs spark workshop

Comments

Leave a Reply Cancel reply

More posts