Author: kanakorn.h

Ambari #05 การดึงข้อมูลเข้าจาก MySQL เข้าสู่ Hive ด้วย Sqoop

kanakorn.h

October 24, 2017
Apache Hive เป็นระบบ Data Warehouse ซึ่งสร้างอยู่บน Hadoop ใช้สำหรับการวิเคราะห์ข้อมูล โดยจุดเด่นคือการใช้คำสั่งภาษา SQL ในการเรียกข้อมูล ทั้งที่อยู่ในรูปแบบของ Database และไฟล์บน Hadoop ได้ เหมาะสำหรับการเก็บข้อมูลขนาดใหญ่มากๆ เช่น การเก็บข้อมูลที่ Rotate ออกจากฐานข้อมูลหลักอย่าง MySQL ก็นำมาเก็บไว้ใน MySQL เพื่อใช้วิเคราะห์ต่อไป

ในการดึงข้อมูลจาก MySQL จะแบ่งเป็น 2 ส่วน คือ
1. Full Backup คือการนำข้อมูลทั้งหมดจาก MySQL มาเก็บไว้ใน Apache Hive
2. Incremental Backup คือการดึงเฉพาะข้อมูลที่เพิ่มขึ้นมาเก็บไว้ใน Apache Hive
แต่ในบทความนี้ จะแนะนำการทำแบบ Incremental Backup ซึ่งในครั้งแรกจะทำ Full Backup และครั้งต่อๆไป จะทำ Incremental Backup เลย

Incremental Backup

sqoop ออกแบบมาให้สามารถ Run คำสั่งให้ทำงานทันทีก็ได้ หรือ จะสร้างเป็น Job เอาไว้ เพื่อใช้งานภายหลังก็ได้ ในที่นี้จะสร้างแบบ Job เพราะให้สะดวกในการทำ Incremental Backup
การสร้าง Sqoop Job ใช้คำสั่ง
```
 sqoop job --create JobName -- import ...
```
ในส่วนที่จะบอก sqoop ให้ทำงานแบบ incremental backup ต้องตามด้วย Options
```
--incremental append 
--check-column your_primary_key
```
ในตัวอย่างต่อไปนี้ จะสร้าง sqoop job ชื่อ maillog-incremental
ใช้คำสั่งต่อไปนี้ เพื่อดึงข้อมูลทั้งหมดจาก your.mysql.server ใน Database: mailscanner จาก Table: maillog โดยสมมุติใช้ username/password เป็น root/123456
แล้วนำมาใส่ใน Hive Database: mailscanner
เพิ่มเติมคือ ให้เก็บไว้ในรูปแบบ Paquet File
และ กำหนดให้ใช้ Field: timestamp เป็น Key เพื่อแบ่งงานเพื่อดึงข้อมูลแบบ Parallel ในที่นี้กำหนดให้แบ่งออกเป็น 10 ส่วนพร้อมๆกัน

UPDATE: sqoop job จะไม่ยอมให้ใส่ password ตรงๆ แต่จะต้องสร้างไฟล์ password เก็บไว้ใน hdfs และต้องเป็น mode 400 ให้ทำคำสั่งต่อไปนี้ก่อน
```
echo -n "123456" > mysqlpassword.txt
hdfs dfs -put mysqlpassword.txt mysqlpassword.txt
hdfs dfs -chmod 400 mysqlpassword.txt
```
แล้วจึงสร้าง sqoop job ด้วยคำสั่งต่อไปนี้
```
sqoop job --create maillog-incremental 
-- 
import 
--connect jdbc:mysql://your.mysql.server:3306/mailscanner 
--username root 
--password-file /user/hdfs/mysqlpassword.txt 
--table maillog 
--hive-database mailscanner 
--as-parquetfile 
--hive-import 
--split-by timestamp 
-m 10 
--incremental append 
--check-column timestamp
```
เมื่อสร้าง sqoop job เสร็จแล้ว สามารถเรียกดูได้ด้วยคำสั่ง
```
sqoop job --list
```
ดูรายละเอียดการทำงานได้ด้วย คำสั่ง
```
sqoop job --show maillog-incremental
```
และ สั่งให้ sqoop job ทำงานด้วยคำสั่ง
```
sqoop job --exec maillog-incremental
```
เมื่อทำการ Run ระบบก็จะแบ่งงานออกเป็น 10 ส่วนให้เครื่องใน Cluster ช่วยกัน Import เข้า Hive

ในการสั่งานครั้งแรก ระบบจะดึงข้อมูลทั้งหมดมาก่อน เช่น ในตัวอย่างนี้ ดึงมา 12 ล้าน record

แต่เมื่อสั่งอีกครั้ง ด้วยคำสั่ง
```
sqoop job --exec maillog-incremental
```
จะดึงเฉพาะส่วนที่เพิ่งเพิ่มเข้าม (233 records ตามภาพ)

ต่อไป ก็ตั้งเป็น cron ไว้เพื่อทำให้ทำงานทุกๆ 1 ชั่วโมงก็ได้
October 24, 2017
Ambari #04 การสร้าง Hadoop ด้วย Ambari บน AWS

kanakorn.h

October 16, 2017
การจัดการข้อมูลขนาดใหญ่ (Big Data) มีเครื่องมือที่ได้รับความนิยมหลายตัว หนึ่งในนั้นคือ Apache Hadoop ซึ่งสามารถติดตั้งได้โดยตรง ตาม บทความที่เล่าให้ฟังก่อนหน้านี้

ขั้นตอนการติดตั้ง Hadoop Cluster อย่างง่าย

แต่ Hadoop เอง ไม่ได้มีแค่ HDFS และ MapReduce เท่านั้น ยังประกอบด้วย Modules ต่างๆ รวมกันเป็น Ecosystem ซึ่งจะต้องติดตั้งไปทีละตัวๆ และก็ไม่ง่ายนัก

จึงมีโปรเจคชื่อ Apache Ambari ทำหน้าที่ Deploy Hadoop และส่วนประกอบต่างๆได้ง่ายขึ้น ดังที่เคยเล่าให้ฟังมาแล้วใน (ใช้ Ambari ที่อยู่ในบริการของ Hortonwors)

Ambari #01: ติดตั้ง Ambari Server

Ambari #02 ติดตั้ง Ambari Agent

คราวนี้ ถ้าจะลองทำกับระบบขนาดใหญ่ขึ้น ทางเลือกหนึ่ง ที่ประหยัด และรวดเร็วคือ ไปใช้บริการ Cloud ซึ่งในที่นี้ จะขอเล่าให้ฟังในกรณีการติดตั้งบน Amazon Web Service (AWS)

Prerequisite

เปิดบัญชี AWS ก่อนนะ AWS Getting Start

ขั้นตอนการใช้งาน
1. สิ่งที่เรากำลังจะทำคือ สร้าง Ubuntu 14.04 LTS จำนวน 4 เครื่อง แต่ละเครื่อง ใช้เป็น t2.medium ซึ่งมี CPU Intel Xeon 2.5 GHz 2 ตัว, มี RAM 4 GB และมี SSD HD 30 GB
2. Login เข้าไปยัง AWS Console (ผมเลือกใช้ Singapore นะครับ) แล้วคลิก Launch Instance
3. เลือก Ubuntu Server 14.04 LTS 64bit คลิก Select
4. เลือก Instance Type เป็น t2.medium แล้วคลิก Next: …
5. ต่อไป เลือกขนาด Storage ในที่นี้ ใส่ size เป็น 30 GB แล้วคลิก Next …
6. Add Tags ในกรณีต้องการใส่ Tag เพือให้ง่ายต่อการจัดกลุ่มสามารถทำได้ แต่ไม่ขอทำในตอนนี้ คลิก Next
7. ต่อไป สร้าง Security Group กล่าวคือ เปิด Port ให้มีการเข้าถึงได้จากที่ใด ไปยัง port ใดบ้าง ให้เลือก Create a new security group และ คลิก Add Rule เพิ่ม Port 8080 เพื่อให้สามารถเรียกใช้ Ambari Web UI ได้ และ เปิด All TCP จากเครือข่ายภายใน ในที่นี้คือ 172.31.0.0/16 จากนั้น คลิก Review and Launch
8. มีเตือนเรื่องความปลอดภัย … ใช่ … แต่ผ่านไปก่อน คลิก Launch
9. สร้าง Key pair เพื่อให้สามารถ SSH เข้าไปใน Instance ได้โดยไม่ต้องใส่รหัสผ่าน ในที่นี้จะเลือก Create a new key pair ตั้งชื่อว่า ambari (จะได้ไฟล์ ambari.pem) แล้วคลิก Launch Instances
  ระวัง! ต้องเก็บไฟล์ .pem นี้ให้ดี หายไปแล้วไม่สามารถขอใหม่ได้
10. คลิก View Instances
11. จะพบว่า ระบบสร้างเครื่อง 4 เครื่องให้เราแล้ว ต่อไป ให้คลิกใน Column “name” เลือกเครื่องแรกให้เป็น Ambari Web UI และเครื่องอื่นตั้งชื่อเป็น node1, node2, node3
12. ในการใช้งาน AWS จะเรียกผ่าน Name และ IP Address
  ในตอนนี้ ขอให้คลิกแต่ละ Instance แล้วจดค่า
  – Public DNS IPv4
  – Private DNS
  – Private IPs
  ซึ่ง หากมีการ Restart Instance ค่าของ Public DNS IPv4 จะเปลี่ยนไปเรื่อยๆ
  
  ประมาณนี้
13. วิธีการ SSH ไปยังเครื่องต่างๆ คลิกที่ Connect ก็จะแสดงรายละเอียด
14. ต่อไป เพื่อให้ง่ายต่อการจัดการ เราจะ Key Pair “ambari.pem” ที่ AWS สร้างให้ เอาไปใส่ในเครื่องที่เราตั้งเป็น Ambari Web UI
  ซึ่งทุก Instance ที่สร้างขึ้นทั้ง 4 ตัวนี้ จะมี Public Key อยู่ใน /home/ubuntu/.ssh/authorized_hosts แล้ว ทำให้สามารถ SSH เข้าไปโดยใช้ ambari.pem ซึ่งไม่ต้องใส่รหัสผ่าน (จริงๆแล้วสามารถทำตามขั้นตอน วิธีทำ Password-less SSH บน Ubuntu เพื่อสร้าง Key Pair อีกชุดได้) ให้ทำการ scp ambari.pem ไปไว้ใน hom directory ของ ubuntu ด้วยคำสั่ง
```
scp -i ambari.pem ambari.pem ubuntu@ec2-xx-xx-xx-xx.ap-southeast-1.compute.amazonaws.com:
```
15. จากนั้น SSH เข้าไปยังเครื่อง Ambari Web UI
```
ssh -i ambari.pem ubuntu@ec2-xx-xx-xx-xx.ap-southeast-1.compute.amazonaws.com
```
16. ตอนนี้ เราก็จะเข้ามาอยู่ใน home directory ของ ec2-user บนเครื่อง Ambari Web UI
  ต่อไป ทำการสร้าง .ssh/id_rsa ด้วยคำสั่งนี้
```
mv ambari.pem .ssh/id_rsa
```
17. ต่อไป ให้ sudo su เพื่อเป็น root แล้วติดตั้ง Ambari Server ตามคำสั่งต่อไปนี้
  (ในขั้นตอนของ ambari-server setup ให้เคาะ Enter ใช้ค่า Default ไปทั้งหมด)
```
sudo su

wget -O /etc/apt/sources.list.d/ambari.list http://public-repo-1.hortonworks.com/ambari/ubuntu14/2.x/updates/2.5.2.0/ambari.list

apt-key adv --recv-keys --keyserver keyserver.ubuntu.com B9733A7A07513CAD

apt-get update -y

apt-get install -y ambari-server

ambari-server setup
```
18. ซึ่งจะ Error น่ะ 555 เพราะ Postgresql รุ่นนี้ต้องสร้าง cluster ก่อนจึงจะทำงานได้
  ให้ใช้คำสั่งต่อไปนี้
```
export LC_ALL=en_US.UTF-8

pg_createcluster 9.3 main --start

/etc/init.d/postgresql restart
```
  แล้วจึง setup อีกครั้ง
```
ambari-server setup
ambari-server start
```
19. เสร็จแล้ว ไปทำต่อบน Ambari Web UI ที่
  http://ec2-xx-xx-xx-xx.ap-southeast-1.compute.amazonaws.com:8080
  Default user/password คือ admin/admin
20. คลิก launch Install Wizard
21. ตั้งค่า Cluster แล้วคลิก Next
22. เลือก Version ล่าสุด HDP-2.6.2.0
  
  แล้วคลิก Next
23. ต่อไป ให้เอา Private DNS ของทุกเครื่องที่ต้องการจะติดตั้ง Ambari Agent มาใส่ (ในที่นี้ ใส่ทั้งตัว Ambari Web UI และ node1 – node3) แล้ว เลือก Provide your SSH Private Key “ambari.pem” และ กำหนด SSH User Account เป็น ubuntu ใช้ Port 22
24. ระบบจะทำการติดต่อไปยัง nodes ต่างๆแล้วติดตั้ง Ambari Agent เมื่อเสร็จแล้ว คลิก Next
25. จากนั้น เลือก Services ที่ต้องการใช้งาน
  ในที่นี้ จะใช้ HDFS, Yarn, Tez, Hive, Sqoop, Spark2, Zeppelin
  หากมี Service ใดที่ต้องใช้งานร่วมด้วย ระบบจะแจ้งเตือนอีกครั้ง
  
  แล้วคลิก Next
26. เลือก Master ว่าจะอยู่บนเครื่องใดบ้าง
  หาก Deploy ระบบขนาดใหญ่ๆ ก็ควรจะจัดกลุ่ม Server ไว้เลย แล้วพวก Slave เป็นอีกกลุ่มหนึ่ง
27. เลือกว่า Slaves and Clients จะติดตั้งไว้ในเครื่องใดบ้าง
28. ต่อไป จะเป็นการปรับแต่งระบบ ในที่นี้ ซึ่งถ้ามี ตัวแดง ปรากฏที่ใด ก็ให้ตามไปใส่ค่าที่ระบบแนะนำให้ปรับแต่ง
  ในที่นี้ จะเป็น Hive, Ambari Matrics และ SmartSense ซึ่งจะเป็นเรื่องการกำหนด Password
29. เมื่อปรับแต่งเรียบร้อย ก็ Review
30. ระบบจะติดตั้ง Service/Clients ต่างๆ เมื่อเสร็จแล้วจะได้ผลดังภาพ แล้วคลิก Next
31. แสดง Summary
  คลิก Next
32. แล้วก็จะได้ระบบพร้อมใช้งาน
33. คราวนี้ เรื่องค่าใช้จ่าย ก็ประมาณนี้
  
  ประมาณ 22 บาทต่อชั่ว่โมง จะใช้งาน ค่อย Start ใช้งานเสร็จก็ Stop ไม่คิดตังค์ (เว้นแต่ EBS Storage ที่คิดเป็นรายเดือน)
Addtional
- หากต้องการใช้ Hive2 View จะต้องสร้าง /user/admin directory ก่อน ด้วยคำสั่ง
```
sudo su hdfs

hdfs dfs -mkdir /user/admin

hdfs dfs -chown admin.hdfs
```
  แล้วไปแก้ไขใน Ambari Web UI
  http://AmbariWebUI:8080/#/main/services/HDFS/configs
  แก้
```
hadoop.proxyuser.root.groups=*

hadoop.proxyuser.root.hosts=*
```
- หากต้องการติดต่อ mysql จาก Spark ให้ Download จาก https://dev.mysql.com/downloads/connector/j/
  จากนั้นให้ Unzip จะได้ไฟล์ mysql-connector-java-5.1.44-bin.jar (Version อาจจะแตกต่างกัน)
  แล้วนำไปไว้ใน /usr/hdp/current/spark2-client/jars *** ของทุก Nodes ***
October 16, 2017
วิธีทำ Password-less SSH บน Ubuntu

kanakorn.h

October 11, 2017
ในการทำงานกับ Server Cluster ขนาดใหญ่ ซึ่งประกอบด้วย Ubuntu Server จำนวนมาก หากต้องแก้ไขระบบทั้งหมด โดยการ Secure Shell หรือ SSH เข้าไปทีละเครื่อง “โดยต้องเป็น root ด้วย” จะเป็นงานที่ใช้เวลาอย่างมาก เค้าจึงมีระบบที่เรียกว่า Password-less SSH โดยการแลกเปลี่ยน Public Key แทนที่จะต้อง Login ด้วย Username/Password

และเนื่องจาก Ubuntu โดย Default ไม่มีการสร้าง root password (มี root แต่ไม่มี password –> ก็เลย Login ไม่ได้ด้วย Password) ซึ่งก็ดีในเรื่องของ Security แต่ทำให้การทำงานยุ่งยากนิดหน่อย

บทความนี้จะกล่าวถึงวิธีการทำ Password-less SSH รวมไปถึง การที่ไม่ต้องถาม Known Host ในครั้งแรกที่เข้าใช้งานด้วย โดยระบบจะประกอบด้วย server01 เป็นเครื่องที่จะสั่งการเครื่อง server02 … serverNN ในสิทธิ์ root และในระบบนี้ ทุกเครื่องมี user ชื่อ mama ซึ่งมีสิทธิ์ sudo

ที่เครื่อง server01
1. ใช้คำสั่งต่อไปนี้ เพื่อสร้าง Public/Private rsa key pair
```
ssh-keygen
```
  จะได้ผลดังนี้
  
  ซึ่งจะได้ไฟล์มา 2 file อยู่ใน directory: ~/.ssh
  – id_rsa
  – id_rsa.pub
2. เพื่อไม่ให้การ SSH ไปยังเครื่องใหม่ๆ มีการถาม Known Host แบบนี้ แล้วก็ต้องคอยตอบ yes ทุกเครื่องไป
  
  ก็ให้สร้างไฟล์ .ssh/config ว่า (วิธีนี้จะมีผลเฉพาะ mama เท่านั้น) หรือสร้างใน /etc/ssh/ssh_config เพื่อให้มีผลทั้งระบบ
```
Host *
 StrictHostKeyChecking no
 UserKnownHostsFile=/dev/null
```
3. จากนั้น ให้เอาไฟล์ Public Key คือ .ssh/id_rsa.pub ไปยังเครื่องปลายทาง ในที่นี้คือ server02 (ใช้วิธี scp ไปยัง mama@server02)
```
scp .ssh/id_rsa.pub mama@server02:~
```
  ในครั้งแรกนี้ ยังต้องใส่ Password ของ mama บนเครื่อง server02 อยู่
  จากนั้น ไปดำเนินการต่อใน server02
ที่เครื่อง server02
1. ใน home directory ของ mama บน server02 จะมีไฟล์ id_rsa.pub อยู่ ลองตรวจสอบโดยใช้คำสั่ง
```
ls -l /home/mama/id_rsa.pub
```
2. เปลี่ยนเป็น root ด้วยคำสั่ง
```
sudo su
```
  แล้ว เข้าไปใน root home directory ด้วยคำสั่ง
```
cd
```
3. สร้าง directory .ssh และ สร้างไฟล์ .ssh/authorized_keys โดยนำข้อมูลในไฟล์ /home/mama/id_rsa.pub มาต่อท้าย
```
mkdir .ssh
cat /home/mama/id_rsa.pub >> .ssh/authorized_keys
```
4. เพื่อความปลอดภัย ตั้งค่า Permission ให้ถูกต้อง
```
chmod 700 .ssh
chmod 600 .ssh/authorized_keys
```
จากนั้น ลองทดสอบ ssh จาก mama บน server01 ไปยัง root บน server02
```
ssh root@server02
```
ก็จะไม่มีการถาม Password และ ไม่ถาม Known Host อีก

หลังจากนี้ สามารถ clone เครื่อง server02 ไปเป็นเครื่องต่างๆได้เลย
October 11, 2017
Spark #04 – Pyspark connect to MySQL

kanakorn.h

September 29, 2017
ในบทความนี้ จะกล่าวถึง การดึงข้อมูลจาก MySQL ผ่าน JDBC เพื่อนำมาใช้งานใน Spark ด้วยภาษา Python ซึ่งจะใช้ Library Pyspark

ในขั้นตอนนี้ขอกล่าวเฉพาะวิธีการก่อน (รายละเอียดจะตามมาทีหลัง)
1. สร้าง SparkSession ตั้งชื่อว่า myspark
```
from pyspark.sql import SparkSession
myspark = SparkSession \
 .builder \
 .appName("Python Spark SQL basic example") \
 .config("spark.some.config.option", "some-value") \
 .getOrCreate()
```
2. ติดต่อ MySQL และสร้าง View ชื่อ myuser
```
myuser=myspark.read.jdbc(url="jdbc:mysql://mysql/mysql",table="user", properties={
 'user': 'user1', 'password': '123456'}
 )
myuser.createOrReplaceTempView(name="myuser")
```
3. จากนั้นก็จะสามารถ Query ข้อมูลที่เก็บไว้มาใช้งานใน Spark ได้
```
myspark.sql(sqlQuery="select user,host from myuser where user='user1'").show()
```
ซึ่งต่อจากนี้ จะสามารถใช้ความสามารถของ Spark ซึ่งทำงานด้าน Distributed Computing ได้ดี มาปรับปรุงความเร็วในการ Query ที่ซับซ้อน เช่นการ JOIN ได้ โดยจะกล่าวในบทความต่อๆไป
September 29, 2017
Machine Learning #01 – Python with iris dataset

kanakorn.h

September 26, 2017
ในบทความนี้ จะแนะนำวิธีการสร้างกระบวนการ Machine Learning ด้วย Python โดยใช้ iris dataset ตั้งแต่การโหลดข้อมูล, สร้าง Model, Cross Validation, วัด Accuracy และการนำ Model ไปใช้งาน

เพื่อความสะดวกในการเรียนรู้ เราจะเลือกใช้ Anaconda ซึ่งเป็น Python Data Science Platform ซึ่งจะรวบรวมเครื่องมือ และ Library ที่จำเป็นต่อการพัฒนา โดยสามารถเลือก Download รุ่นที่เหมาะกับระบบปฏบัติการของท่านได้ที่ https://www.anaconda.com/download/

สามารถ Clone Repository ตัวอย่างทั้งหมดที่กล่าวถึงในบทความนี้ได้จาก https://github.com/nagarindkx/pythonml

และ แนะนำให้ใช้งาน jupyter-notebook เพื่อสะดวกในการเรียนรู้

บทความนี้ใช้ Notebook: 01 – SVM with iris dataset.ipynb

เริ่มจาก import dataset “iris” จาก SciKit

ซึ่งเป็น dataset ตัวอย่างทีดี ในการสร้างระบบ Predict ชนิดของดอกไม้ จากการป้อนค่า ความกว้างและความยาวของกลีบดอก Iris (รายละเอียดอ่านได้จาก https://en.wikipedia.org/wiki/Iris_flower_data_set) ซึ่งเป็นการวัดความกว้าง และ ความยาวของกลีบดอก ของดอก “iris” (sepal width, sepal length, petal width, petal length) ใน 3 Spicy

Image Source: https://en.wikipedia.org/wiki/Iris_flower_data_set

ชุด iris dataset นี้ มักจะใช้ในการเริ่มต้นเรียนรู้ กระบวนการสร้าง Machine Learning เพื่อการ Classification โดยในตัวอย่างนี้จะใช้ Support Vector Machine (SVM) โดยเมื่อสร้างและ Train Model เสร็จแล้ว สามารถนำ Model นี้ไปใช้ในการ จำแนก Species ได้ โดยการระบุ ความกว้างและความยาวดังกล่าว แล้วระบบจะตอบมาได้ว่า เป็น Species ใด

ในการเริ่มต้นนี้ เราจะใช้ iris dataset ที่มาพร้อมกับ SciKit (sklearn) ซึ่งเป็น Machine Learning Package ในภาษา Python (ซึ่งติดตั้งมาในชุดของ Anaconda เรียบร้อยแล้ว)

นำเข้าข้อมูล
```
from sklearn import datasets
iris = datasets.load_iris()
```
สำรวจข้อมูล
```
print(iris.data)
print(iris.target)
print(iris.data.shape)
print(iris.target.shape)
```
ใช้งาน SVM (Support Vector Machine)

สร้าง SVC (Support Vector Classification) เพื่อทำการ Training ด้วยคำสั่ง fit โดยใส่ค่า data และ target ลงไป
```
from sklearn import svm
clf = svm.SVC()
clf.fit(iris.data, iris.target)
```
ผลที่ได้คือ
```
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)
```
ทดลองทำการ Predict

ด้วยคำสั่ง predict แล้วใส่ Array ข้อมูลลงไป
```
print(clf.predict([[ 6.3 , 2.5, 5., 1.9]]))
```
ซึ่งระบบจะตอบออกมาเป็น
```
[2]
```
ต้องการแสดงผลเป็นชื่อของ Target

ต้องทำในขั้นตอน fit ดังนี้
```
clf.fit(iris.data, iris.target_names[ iris.target])
print(clf.predict([[ 6.3 , 2.5, 5., 1.9]]))
```
ผลที่ได้คือ
```
['virginica']
```
ทำการ Cross Validation

โดยแบ่งข้อมูลเป็นสองส่วน คือ ส่วน Train และ Test ทั้ง X และ Y จากนั้น ใช้ Function “fit” ในการ Train
```
from sklearn.model_selection import train_test_split
x_train,x_test,y_train, y_test = train_test_split( iris.data, iris.target, test_size=0.4 , random_state=0)

print(x_train.shape, x_test.shape, y_train.shape, y_test.shape)

clf.fit(x_train, y_train)
```
ผลที่ได้คือ
(90, 4) (60, 4) (90,) (60,) SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, decision_function_shape=None, degree=3, gamma='auto', kernel='rbf', max_iter=-1, probability=False, random_state=None, shrinking=True, tol=0.001, verbose=False)

ทดสอบความแม่นยำ

ด้วยการ นำข้อมูลส่วน Test ไปทดสอบใน Model ด้วย Function “score”

print(clf.score(x_test, y_test))

ผลที่ได้คือ

0.95

นำ Model ที่สร้างเสร็จไปใช้ต่อ

ใช้กระบวนการ pickle หรือ serialization

import pickle pickle.dump(clf, open("myiris.pickle","wb"))

ซึ่ง ก็จะได้ไฟล์ “myiris.pickle” สามารถนำไปใช้งานต่อได้
ในบทความต่อไป จะกล่าวถึง การนำ Model นี้ไปใช้งานผ่าน django REST Framework
September 26, 2017
การใช้ GitHub Command Line #newbie

kanakorn.h

September 21, 2017
Prerequisite
- ต้องมี GitHub Account ก่อน ทำตามวิธีการนี้ https://help.github.com/articles/signing-up-for-a-new-github-account/
- สร้าง GitHub Repository บน Web ก่อน (ในที่นี้ จะสร้าง Repository ชื่อ mynewrepo) ซึ่งจะได้ URL มาเป็น https://github.com/your-username/mynewrepo.git
สร้าง local repository
```
mkdir mynewrepo
cd mynewrepo
git init
git status
```
สร้างไฟล์ใหม่
```
# สมมุติสร้างไฟล์ใหม่
echo "Hello World" > mynewfile.txt
git add .
git status
```
ทำการ Commit
```
git commit -m "This is a first Commit"
```
สร้าง Connection ระหว่าง Local Folder กับ GitHub Repository
```
git remote add origin https://github.com/your-username/mynewrepo.git
git push -u origin master
```
จากนั้น ใส่ Username/Password ของ GitHub Account

ไปดูผลงานใน Repository “mynewrepo” ที่ https://github.com/your-username/mynewrepo

เมื่อมีการแก้ไขไฟล์
```
echo "Hello New World" >> mynewfile.txt
git status
```
ทำการ เพิ่ม > Commit > Push
```
git add .
git commit -m "This is a second Commit"
git push -u origin master
```
วนไป
September 21, 2017
วิธียกเลิก “Keep a local copy as well” บน PSU Webmail

kanakorn.h

September 15, 2017
จากที่เริ่มมีการใช้งาน PSU GSuite (Google Apps for Education – GAFE เดิม) ซึ่งมีเอกสารแนะนำวิธีการใช้งานคือ

http://gafe.psu.ac.th/support/1/1

ในช่วงแรก เกรงผู้ใช้จะไม่คุ้นชินกับ Gmail (หึมมมม) ก็เลยแนะนำให้ทำ “Keep a local copy as well” ไว้ด้วย เผื่อว่า ยังสับสน ก็จะได้ดูบน PSU Webmail เดิมได้

แต่ต่อมา ก็อาจจะลืมไปว่า Redirect ไปแล้ว ก็ยังมีเก็บไว้ในพื้นที่ PSU Webmail อยู่ ไม่ได้เข้ามาลบอีกเลย นานเข้าก็ทำให้พื้นที่เต็ม

ต่อไปนี้ เป็น วิธียกเลิก “Keep a local copy as well” บน PSU Webmail
1. Login เข้า PSU Webmail ที่ https://webmail.psu.ac.th
2. ลบ Email จนได้พื้นที่เป็นสีเขียว
  จาก
  
  เป็น
3. คลิก Filters
4. คลิก Edit ในบรรทัดที่เป็นของ @g.psu.ac.th
5. คลิก Keep a local copy as well ออก
  จาก
  
  เป็น
6. เลื่อนไปล่างสุดของหน้าจอ คลิกปุ่ม Apply Change
7. เสร็จ จบ
September 15, 2017
ELK #6 วิธีการติดตั้ง ELK และ Geoserver แบบ Docker ให้ทำงานร่วมกัน

kanakorn.h

September 13, 2017
จาก ELK #5 การประยุกต์ใช้ ELK ในงานด้าน GIS และ การสร้าง Web Map Service (WMS) บน Geoserver ก็จะเห็นถึงการนำไปใช้เบื้องต้น

>> ขอบคุณ คุณนพัส กังวานตระกูล สถานวิจัยสารสนเทศภูมิศาสตร์ทรัพยากรธรรมชาติและสิ่งแวดล้อม ศูนย์ภูมิภาคเทคโนโลยีอวกาศและภูมิสารสนเทศ (ภาคใต้) สำหรับความรู้มากมายครับ <<

ต่อไปนี้ จะเป็นขั้นตอนการติดตั้ง ELK และ Geoserver แบบ Docker โดยผมได้สร้าง Github Repository เอาไว้ ซึ่งได้แก้ไขให้ระบบสามารถเก็บข้อมูลไว้ภายนอก

Prerequisite
1. ถ้าเป็น Windows ก็ต้องติดตั้ง Docker Toolbox หรือ Docker for Windows ให้เรียบร้อย
2. ถ้าเป็น Linux ก็ติดตั้ง docker-ce ให้เรียบร้อย (เรียนรู้เกี่ยวกับ Docker ได้จาก ติดตั้ง docker 17.06.0 CE บน Ubuntu)
ขั้นตอนการติดตั้ง
1. สร้าง Folder ชื่อ Docker เอาไว้ในเครื่อง เช่นใน Documents หรือ จะเป็น D:\ หรืออะไรก็แล้วแต่
2. เปิด Terminal หรือ Docker Quickstart Terminal จากนั้นให้ cd เข้าไปมา Folder “Docker” ที่สร้างไว้
3. ดึง ELK ลงมา ด้วยคำสั่ง
  git clone https://github.com/deviantony/docker-elk.git
4. ดึง Geoserver ลงมา ด้วยคำสั่ง (อันนี้ผมทำต่อยอดเค้าอีกทีหนึ่ง ต้นฉบับคือ https://hub.docker.com/r/fiware/gisdataprovider/)
  git clone https://github.com/nagarindkx/geoserver.git
5. เนื่องจาก ไม่อยากจะไปแก้ไข Git ของต้นฉบับ เราจึงต้องปรับแต่งนิดหน่อยเอง
  ให้แก้ไขไฟล์ docker-elk/docker-compose.yml
  โดยจะเพิ่ม Volume “data” เพื่อไป mount ส่วนของ data directory ของ Elasticsearch ออกมาจาก Containerแก้ไขจาก
```
elasticsearch:
 build: elasticsearch/
 volumes:
 - ./elasticsearch/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml
```
  เป็น
```
elasticsearch:
 build: elasticsearch/
 volumes:
 - ./elasticsearch/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml
 - ./elasticsearch/data:/usr/share/elasticsearch/data
```
6. สร้าง docker-elk/elasticsearch/data
```
mkdir docker-elk/elasticsearch/data
```
7. แก้ไขไฟล์ docker-elk/logstash/pipeline/logstash.conf ตามต้องการ เช่น ใส่ filter
```
filter {
 csv {
   separator => ","
   columns => [
	"cid","name","lname","pid","house","road","diagcode","latitude","longitude","village","tambon","ampur","changwat"
   ]
 }
 if [cid] == "CID" {
   drop { }
 } else {
   # continue processing data
   mutate {
     remove_field => [ "message" ]
   }
   mutate {
     convert => { "longitude" => "float" }
     convert => { "latitude" => "float" }
   }
   mutate {
     rename => {
       "longitude" => "[geoip][location][lon]"
       "latitude" => "[geoip][location][lat]"
     }
   }
 }
}
```
8. จาก Terminal ให้เข้าไปใน docker-elk แล้ว start ด้วยคำสั่ง
```
cd docker-elk
docker-compose up -d
```
9. จาก Terminal ให้เข้าไปใน geoserver แล้ว start ด้วยคำสั่ง
```
cd ../geoserver
docker-compose up -d
```
ถึงขั้นตอนนี้ ก็จะได้ ELK และ Geoserver ทำงานขึ้นแล้ว

ELK: http://localhost:5601

Geoserver: http://localhost:9090/geoserver/web

ขั้นตอนต่อไป จะเป็นการ นำข้อมูลเข้า และ เชื่อ Kibana กับ Geoserver

วิธีการนำข้อมูลเข้า Elasticsearch

เนื่องจาก pipeline ของ Logstash กำหนดว่า จะรับข้อมูลทาง TCP Port 5000 จึงใช้วิธี netcat ไฟล์เข้าไป ด้วยคำสั่ง (ตัวอย่างนี้ ใช้ข้อมูลจากไฟล์ sample.csv)
```
cat sample.csv | nc localhost 5000
```
วิธีการดึง Map จาก Geoserver มาใช้งานใน Kibana

ทำตามขั้นตอนที่กล่าวไว้ใน การสร้าง Web Map Service (WMS) บน Geoserver ซึ่งจะได้ URL ของ Layer Preview มา ประมาณนี้
http://localhost:9090/geoserver/test/wms?service=WMS&version=1.1.0&request=GetMap&layers=test:hadyai_vil&styles=&bbox=631866.963048935,748605.6609660918,677997.0295239205,791055.6681053439&width=768&height=706&srs=EPSG:32647&format=application/openlayers

ทำตามขั้นตอนที่กล่าวไว้ใน ELK #5 การประยุกต์ใช้ ELK ในงานด้าน GIS ในส่วนของ วิธีใส่ Map Server อื่น แล้วเอา URL นี้ไปใส่ และรายละเอียดเกี่ยวกับ Layer, version, format ตามที่กำหนดไว้ ก็จะสามารถเอา Map ที่เราต้องการ พร้อม Shape File มาใช้งานได้

หวังว่าจะเป็นประโยชน์ครับ
September 13, 2017
วิธีการ Upload ไฟล์ไปบน Google Drive File Stream ด้วย Google Client Library for Python

kanakorn.h

September 6, 2017
Google Drive File Stream จริงๆแล้วก็คือการเปิดให้ PC ทั้ง Windows และ Mac สามารถ Map Drive จาก Google Drive มาเป็น G:\ หรืออะไรทำนองนั้น แต่ปัจจุบัน (September 2017) บน Windows Server ซึ่งใช้ Secure Boot จะไม่สามารถติดตั้ง Client ได้ และ Ubuntu Server ก็ยังไม่มีตัวติดตั้ง ดังนั้น ในภาพของผู้ดูแลระบบ ไม่สามารถใช้ความสามารถนี้ได้ … โดยตรง

ส่วนใน Windows Desktop ทั่วไปก็จะติดตั้งได้ แม้ว่า จากคำโฆษณา จะบอกว่าผู้ใช้สามารถใช้งานได้ แม้พื้นที่บน Local Drive ไม่เยอะ แต่เอาเข้าจริง ด้วยความสามารถที่จะใช้งาน Offline ได้บ้าง ทำให้ Client ต้อง Cache ไฟล์ที่ใช้งานด้วยเช่นกัน และหาก upload ไฟล์ขนาดใหญ่ จาก Local Drive ไปเก็บใน G:\ ข้างต้น ก็จะทำให้ต้องเสียพื้นที่ในขนาดเท่าๆกันไปด้วย เช่น ใน Local Drive มีไฟล์ที่จะ Backup ขึ้นไป ขนาด 1 GB บน C:\ เมื่อทำการ Copy ไปยัง G:\ ก็จะเสียพื้นที่อีก 1 GB ด้วยเช่นกัน

ทางออกก็คือ ใช้ความสามารถของ Google Client Library ทำการ Upload ไฟล์ขึ้นไปโดยตรง เท่าที่ทดลองมา จะไม่ได้ Cache บน Local Drive ทำให้สามารถ Upload ไฟล์ขนาดใหญ่ได้ โดยไม่เสียพื้นที่เพิ่มแบบ Client ข้างต้น

วิธีการใช้งาน Python เพื่อ Upload File ขึ้น Google Drive File Stream
1. ผมเขียน Code เอาไว้ ชื่อ upload2gdrive.py ไว้บน GitHub (https://github.com/nagarindkx/google) สามารถดึงมาใช้งานได้โดยใช้คำสั่ง
```
clone https://github.com/nagarindkx/google.git
cd google
```
2. สร้าง Project, Credential ตาม “ขั้นที่ 1” ในบทความ การใช้งาน Google Drive API ด้วย Google Client Library for Python ซึ่งจะได้ไฟล์ Client Secret File มา ให้แก้ไขชื่อเป็น “client_secret.json” แล้ว นำไปไว้ใน directory “google” ตามข้อ 1
3. วิธีใช้คำสั่ง
  ดูวิธีใช้
```
python upload2gdrive.py --help
```
  Upload ไฟล์ จาก /backup/bigfile.tar,gz
```
python upload2gdrive.py --file /backup/bigfile.tar.gz
```
  บน Windows ก็สามารถใช้งานได้ ด้วยคำสั่ง
```
python upload2gdrive.py --file D:\backup\bigfile.tar.gz
```
  หากต้องการระบุตำแหน่ง Folder บน Google Drive ที่ต้องการเอาไฟล์ไปไว้ ให้ระบุ Folder ID
```
python upload2gdrive.py --file /backup/bigfile.tar.gz ----gdrive-id xxxxxxxbdXVu7icyyyyyy
```
  หากต้องการระบุ Chunk Size (ปริมาณข้อมูลที่จะแบ่ง Upload เช่น ไฟล์ 1 GB หากกำหนด Chunk Size เป็น 100MB โปรแกรมจะแบ่งข้อมูลเป็น 10 ส่วน — ขนาดที่เล็กที่สุดคือ 1 MB และค่า Default คือ 100 MB)
```
python upload2gdrive.py --file /backup/bigfile.tar.gz ----gdrive-id xxxxxxxbdXVu7icyyyyyy --chunk-size 100
```
4. ผลการทำงานจะประมาณนี้
  
  ใน Google Drive ที่กำหนด ก็จะมีไฟล์ปรากฏอยู่
หวังว่าจะเป็นประโยชน์ครับ

PS: ในบทความต่อไป จะมาอธิบายว่า เขียนขึ้นมาได้อย่างไร โปรดติดตามชม
September 6, 2017