Spark #01: Standalone Installation

Written by

Cloud Computing, Cluster & Load Balancing, Open Source Software & Freeware

Apache Spark : เป็นระบบ Data Processing ในระดับ Large-Scale ซึ่งทำงานได้เร็วกว่า Apache Hadoop MapReduce 100 เท่าบน Memory และ 10 เท่าบน Disk สามารถพัฒนาโปรแกรมเพื่อทำงานบน Spark ได้หลายภาษา ทั้ง Java, Scala, Python และ R อีกทั้งยังมี Library ทำงานกับ SQL, Machine Learning และ Graph Parallel Computation

ในบทความนี้ จะกล่าวถึงเฉพาะวิธีการติดตั้ง Apache Spark เบื้องต้น บน Ubuntu 16.04 จำนวน 1 Machine ก่อน

ไปที่ http://spark.apache.org/downloads.html
เลือก Release, Package ที่ต้องการ แล้วเลือก Copy Link จาก Download Link มาได้เลย

ที่ Ubuntu Server ใช้คำสั่งต่อไปนี้ ติดตั้ง Java และ Download Spark มาไว้บนเครื่อง

sudo apt-get install default-jre openjdk-8-jdk-headless
cat <<EOF >> .bashrc 
export SPARK_HOME=/home/mama/spark
export PATH=\$PATH:\$SPARK_HOME/bin
EOF
wget http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz
tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz ; ln -s spark-2.1.0-bin-hadoop2.7 spark
cd spark

แล้วทำการ Start Spark Master Server ด้วยคำสั่ง
```
sbin/start-master.sh
```
จากนั้น สามารถเรียกดู Web UI ได้ที่ port 8080 (Default) และต่อไป เครื่อง Worker หรือ เครื่องที่จะมาเข้า Cluster จะติดต่อเครื่องนี้ผ่าน port 7077 (Default)
สามารถใช้งาน Spark Shell ซึ่ง จะเป็นภาษา Scala แบบ Interactive ด้วยคำสั่ง
bin/spark-shell
สามารถดู Jobs ที่ทำงานได้ผ่านทาง Web UI ที่ port 4040 (Default)

ประมาณนี้ก่อน ในบทความต่อไปจะเป็นการสร้าง Spark Cluster

Reference:

http://spark.apache.org/

Post Views: 53

spark workshop

Spark #01: Standalone Installation

Comments

Leave a Reply Cancel reply

More posts

SSH with MFA

[บันทึกกันลืม] RCE ผ่านทาง Postgresql

[บันทึกกันลืม] แก้ปัญหาการติดตั้ง R package ใน Jupyter Notebook

WordPress Content Security Policy