Author: kanakorn.h

Introduction to Kaggle – เรียนรู้การงานด้าน Data Science

kanakorn.h

July 18, 2018
Kaggle เป็นแพลตฟอร์มสำหรับ Predictive Modelling และการแข่งขันด้าน Analytics เพื่อหา Model ที่ดีที่สุดสำหรับ Dataset จากบริษัทและบุคคลทั่วไป [อันนี้ คำอธิบายอย่างเป็นทางการ [1] ]

กล่าวให้ง่ายกว่านั้น Kaggle เป็นสนามทดลองสำหรับคนที่อยากจะทำงานด้าน Data Science โดย ไม่ต้องนับ 0 จากการติดตั้ง OS, Software โน่นนี่นั่น, Library ต่างๆ แล้วต้อง Configuration ให้ทำงานร่วมกันได้ อีกทั้ง เพียงแค่ สมัคร หรือ Authentication ด้วย Facebook, Google, Yahoo แล้ว สร้าง Profile ของตัวเอง เป็นอันเรียบร้อย หลังจากนั้น เราจะได้ “Kernel” ซึ่งจริง ๆ ก็คือ Virtual Machine ที่พร้อมใช้งาน สเปคเครื่องคือ [2]
1. 4 CPU
2. 16 GB RAM
3. 6 Hours Execution Time
4. 1 GB of disk space เอาไว้เก็บ Output จากการทำงาน
5. สามารถใช้ GPU ในการคำนวณได้ด้วย
6. ติดตั้ง Jupyter Notebook – Interactive Web สำหรับเขียน Code ภาษา Python/R เพื่อวิเคราะห์ข้อมูลได้
7. สามารถเพิ่ม Collaborator เข้ามาร่วมงานกันได้ด้วย ทั้งในส่วนของ Kernel และ Dataset
ส่วนต่อไปคือ Dataset ก็จะมีผู้คนทั่วโลกได้ Upload ที่เปิด “Public” ให้พวกเราได้ลองวิเคราะห์กัน รวมถึง เราสามารถนำข้อมูลของเราเอง ขึ้นไปวิเคราะห์ก็ได้ โดยกำหนดให้เป็น “Private” ก็ได้เช่นกัน

ชนิดของ Dataset ประกอบด้วย
1. CSV
2. JSON
3. SQLite
4. Archives
5. BigQuery
นอกจากนั้น ยังมีส่วนของการเรียนรู้ จาก Learn [3] ให้ศึกษาได้ตั้งแต่ การเขียนโปรแกรมภาษา Python, Machine Learning, Pandas, Data Visualization, SQL, R, Deep Learning

สรุปคือ จากที่ทดลองทำผิดทำถูกมานานเป็นเวลา 2 ปีกว่า เพื่อ “สร้าง” ระบบของตนเอง (โดยพยายามสร้าง Hadoop Cluster + Spark) และ การศึกษาการเรียนภาษา Python บนเครื่อง Notebook ของตนเอง ซึ่งพบว่า เมื่อมีการประมวลผลหนัก ๆ เครื่อง Core i5 , 8 GB ก็ยังหน่วง ๆ ไม่ไปไหนมาไหนเลย หลังจากได้ลองใช้ Kaggle ในเวลาไม่นาน ก็เข้าใจ Concept ของ Data Science มากขึ้น

ในบทความต่อ ๆ ไป จะมาแสดงตัวอย่างการใช้งานครับ
ตอนนี้ ดู Youtube ไปพลาง ๆ

What’s Kaggle?

Introduction to Kaggle Kernels

How to Make a Data Science Project with Kaggle

Reference:

[1] https://en.wikipedia.org/wiki/Kaggle

[2] https://www.kaggle.com/docs/kernels

[3] https://www.kaggle.com/learn/overview
July 18, 2018
การใช้งาน Google Datalab Notebook บน Dataproc เพื่อสร้าง Machine Learning Model เบื้องต้น

kanakorn.h

July 16, 2018
ต่อจาก สร้าง Hadoop และ Spark Cluster เพื่องานด้าน Data Science ด้วย Google Cloud Dataproc + Datalab
1. จาก Google Cloud Datalab คลิก Notebookแล้ว ตั้งชื่อ Demo01
  
  เลือได้ว่า จะใช้ Python2 หรือ Python3 ในที่นี้จะเลือก Python3
2. ตรวจสอบรุ่นของ Spark ที่ใช้งานด้วยคำสั่ง
```
spark.version
```
  แล้วกดปุ่ม Shift+Enter เพื่อ Run
3. สามารถใช้คำสั่งไปย้ง Shell ซึ่งเป็น Linux ได้ โดยใช้เครื่องหมาย ! นำหน้า
  ในที่นี้ จะ Download iris dataset จาก https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data มาไว้ในเครื่อง mycluster-m ด้วย คำสั่ง
```
! wget https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
```
  แล้ว เอาไปใส่ใน HDFS ด้วยคำสั่ง
```
! hdfs dfs -put iris.data /
```
  จะได้ผลประมาณนี้
4. จาก Machine Learning #01 – Python with iris dataset ซึ่งเดิมใช้ sklearn จะเปลี่ยนเป็น Spark MLlib เพื่อใช้ความสามารถของ Spark Cluster ได้ เริ่มต้นจาก Import Library ที่จำเป็นดังนี้
```
# Import Libaries
from pyspark.ml import Pipeline
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.tuning import ParamGridBuilder, CrossValidator
from pyspark.ml.feature import VectorAssembler
from pyspark.sql.types import *
```
5. จากนั้น สร้าง Spark Dataframe (Concept จะคล้ายกับ Pandas แต่มีรายละเอียดที่มากกว่า)
```
# get into DataFrame
csvFile = spark.read.csv('/iris.data', inferSchema=True)
diz = {"Iris-setosa":"1", "Iris-versicolor":"2", "Iris-virginica":"3" }
df = csvFile.na.replace(diz,1,"_c4")
df2 = df.withColumn("label",df["_c4"].cast(IntegerType())) \
.withColumnRenamed("_c0","sepal_length") \
.withColumnRenamed("_c1","sepal_width") \
.withColumnRenamed("_c2","petal_length") \
.withColumnRenamed("_c3","petal_width") 
train,test = df2.randomSplit([0.75,0.25])
```
  เริ่มจาก ให้ spark session (spark) อ่านไฟล์ CSV จาก HDFS /iris.data โดยระบุว่า ให้กำหนด Data Type อัตโนมัติ (inforSchema=True) และไฟล์นี้ไม่มี Header
  
  Dataset นี้ ประกอบด้วย 5 columns เมื่อ Spark อ่านข้อมูลเข้ามา จะตั้งชื่อ column เป็น _c0, _c1, _c2, _c3, _c4 โดย _c4 จะเป็น label ของชนิดของดอก iris ซึ่งกำหนดเป็น String => Iris-setosa, Iris-vesicolor, Iris-virginica ในการใช้งาน Logistic Regression ขั้นตอนต่อไป ไม่สามารถนำเข้าข้อมูลชนิด String เพื่อไปใช้งานได้ จึงต้องทำการเปลี่ยน จาก “Iris-setosa” เป็น “1” แล้วทำการเปลี่ยน “1” ซึ่งเป็น String ให้เป็น Integer ด้วย ฟังก์ชั่น cast และตั้งชื่อว่า column ว่า “label”
  
  จากนั้น ทำการเปลี่ยนชื่อ column _c0, _c1, _c2, _c3 เป็นชื่อตามต้องการ
  
  สุดท้าย ใช้ randomSplit([0.75, 0.25]) เพื่อแบ่งข้อมูลสำหรับ train 75% และ test 25%
6. ลอง แสดง Schema ดู
```
df2.printSchema()
```
  ได้ผลดังนี้
  
  และใช้คำสั่งนี้ เพื่อดูข้อมูล
```
df2.show()
```
  ได้ผลประมาณนี้
7. ใน Spark 2.x จะมี Concept ของการใช้ Pipeline เพื่อให้สามารถออกแบบการทดลอง ปรับค่า Meta Parameter ต่าง ๆ ของโมเดล และทำงานอย่างเป็นระบบยิ่งขึ้น (ในขั้นตอนนี้ ขอไม่ปรับค่าใด ๆ ก่อน)
```
# Model
assembler = VectorAssembler(
inputCols=["sepal_length","sepal_width","petal_length","petal_width"],
outputCol="features")
lr = LogisticRegression()
paramGrid = ParamGridBuilder().build()

#Pipeline
pipeline = Pipeline(stages=[assembler, lr])
```
  ในการใช้งาน Logistic Regression ต้องกำหนดค่า field คือ features โดยกำหนดให้มาจาก Column sepal_length, sepal_width, petal_length, petal_width ส่วน label ได้กำหนดในขั้นก่อนหน้าแล้ว
  
  จากนั้นสร้าง lr เป็น instant ของ LogisticRegression
  
  ในการปรับค่า Parameter จะมาใส่ใน ParamGridBuilder ซึ่งจะไม่กล่าวถึงในขั้นนี้
  
  สุดท้าย นำ assembler และ lr มาเข้าสู่ stage วิธีการนี้ทำให้การทำซ้ำขั้นตอนต่าง ๆ ใน Pipeline สะดวกยิ่งขึ้น (ต้องเห็นกระบวนการที่ซับซ้อนกว่านี้ จึงจะเห็นประโยชน์)
8. ขั้นตอนสำคัญ pipeline มาแล้ว ก็ต้องนำมาสร้าง model โดยการ Train ด้วยชุดข้อมูล “train”
```
model = pipeline.fit(train)
predictions = model.transform(train)
```
  แล้ว นำ model ที่ได้ มาทดลอง predictions ด้วย transform() บนข้อมูล train ผลที่ได้ คือ ผลการ Predict จาก Model
9. ต่อไป คือ การตรวจสอบว่า Model ที่สร้างขึ้น มีความแม่นยำแค่ไหน ในที่นี้ จะใช้ MulticlassClassificationEvaluator เพราะ label มีมากว่า 2 ชนิด
```
evaluator=MulticlassClassificationEvaluator(predictionCol="prediction", labelCol="label")
```
  แล้วนำ เปรียบเทียบว่า สิ่งที่ predict ได้จาก model
```
evaluator.evaluate(predictions)
```
  ถูกต้องมากน้อยขนาดไหน กับข้อมูล test
```
evaluator.evaluate(model.transform(test))
```
10. ผลที่ได้ ประมาณนี้
  โดยจะเห็นได้ว่า มีความถูกต้อง 0.9521 … หรือ 95.21% นั่นเอง
July 16, 2018
สร้าง Hadoop และ Spark Cluster เพื่องานด้าน Data Science ด้วย Google Cloud Dataproc + Datalab

kanakorn.h

July 10, 2018
จาก Ambari #01: ติดตั้ง Ambari Server , Ambari #02 ติดตั้ง Ambari Agent , Ambari #04 การสร้าง Hadoop ด้วย Ambari บน AWS และ GCP #01 วิธีการสร้าง Virtual Machine บน Google Cloud Platform จะเห็นได้ว่า ก็ยังมีความยุ่งยากอยู่ อีกทั้ง หากต้องการใช้ PySpark ก็ต้องตามติดตั้ง Python Packages ต้องปรับค่ามากมาย และหากต้องการขยายระบบ ก็มีงานต้องทำอีกเยอะ

ในบทความนี้ จะแนะนำอีกวิธีหนึ่ง คือ การใช้งาน Google Cloud Dataproc ซึ่งจะทำให้เราได้ใช้ Hadoop + Spark Cluster ซึ่งได้รับการทดสอบเป็นอย่างดี อีกทั้งยังสามารถเลือกใช้ Spark รุ่นต่างๆได้อย่างง่ายได้ ทำให้สามารถโฟกัสไปยัง Data และ กระบวนทำ Machine Learning ได้เต็มที่
1. ไปที่ Google Cloud Console เพื่อเลือก Project ที่จะทำงานด้วย และเปิดช้งาน Cloud Dataproc และ Compute Engine APIs และ ในที่นี้ จะมี project-id คือ kx-dataproc-01 (สามารถสร้างในชื่อที่ต้องการเองได้)
  https://console.cloud.google.com/
2. เปิดใช้งาน Google Cloud Dataproc
  https://console.cloud.google.com/dataproc/
3. เปิด GCLOUD COMMAND
4. ในที่นี้ จะสร้าง Cluster ชื่อ mycluster ใน project-id ชื่อ kx-dataproc-01 แล้วให้ copy คำสั่งต่อไปนี้ลงไปใน gcloud command แล้วกดปุ่ม Enter
```
gcloud dataproc clusters create mycluster --project kx-dataproc-01 --initialization-actions gs://dataproc-initialization-actions/datalab/datalab.sh
```
5. ใช้เวลาประมาณ 5 นาที ก็จะได้ Hadoop + Spark Cluster ที่มี 1 Master และ 2 Workers
  ซึ่ง Master จะชื่อว่า mycluster-m
  และ Workers จะชื่อ mycluster-w-0 และ mycluster-w-1
6. ต่อไป ทำ SSH Tunnel จาก Master คือ mycluster-m Port 8080 ออกมา โดยพิมพ์คำสั่งต่อไปนี้
```
gcloud compute ssh mycluster-m --project kx-dataproc-01 --zone=asia-southeast1-a -- -4 -N -L 8080:mycluster-m:8080
```
  โดย
  –project ไว้สำหรับระบุชื่อ project-id
  –zone ไว้ระบุ Zone ที่ Cluster อยู่
  — ไว้เป็นตัวคั่น (separator) ว่าหลังจากนี้เป็นคำสั่งของ ssh
  -4 บอกว่า ติดต่อด้วย IPv4
  -N บอกว่า ไม่ต้องเปิด Shell ของเครื่อง Master
  -L บอกว่า จะ Forward Port 8080 ไปยังเครื่อง mycluster-m ที่ port 8080
7. จากนั้น เปิด Web Preview on port 8080
8. ก็จะได้ Google Cloud Datalab ซึ่งติดต่อกับ Hadoop+Spark ที่อยู่บน Google Cloud Dataproc ได้แล้ว
Reference:

https://cloud.google.com/dataproc/docs/tutorials/dataproc-datalab
July 10, 2018
ขั้นตอนการติดตั้ง Django ด้วย Python3 บน Windows

kanakorn.h

July 5, 2018
ขั้นตอนการติดตั้ง Django ด้วย Python3 บน Windows
1. ติดตั้ง Python จาก https://www.python.org/downloads/
2. เปิด cmd โดย Run As Administrator
3. ใช้คำสั่ง
```
python -m pip install django
```
4. ทดสอบโดยใช้คำสั่ง
```
python -m django --version
```
5. สร้าง Project ด้วยคำสั่ง
```
 django-admin startproject mysite
```
6. เข้าไปใน project “mysite” directory ด้วยคำสั่ง
```
cd mysite
```
7. ทดสอบ runserver
```
python manage.py runserver
```
8. เปิด website:
  http://127.0.0.1:8000/
เดี๋ยวมาต่อเรื่อง การสร้าง App, การใช้ Database, การ Authentication และการสร้าง REST API เพื่อใช้งานกับ OAuth2
July 5, 2018
ระวังการใช้งานบนเครื่องที่ยังเป็น Windows XP จะถูกติดตั้ง Key Logger ระบาดในมหาวิทยาลัย

kanakorn.h

May 23, 2018
ช่วง 2-3 วันนี้ ระบบ PSU Webmail ตรวจพบว่า มีบัญชีผู้ใช้อย่างน้อย 3 ราย ถูกใช้งานจากสิงคโปร์ และตุรกี แล้วส่ง email ออกไปเป็นจำนวนมาก ระบบตรวจจับได้ จึงทำการ Force Reset Password ของระบบ PSU Email บัญชีผู้ใช้ดังกล่าวอัตโนมัติ

IP ที่ใช้งาน PSU Webmail ดังภาพด้านบน ตรวจสอบแล้ว พบว่า มาจาก
- 202.189.89.116 จากเครือข่ายของ Twentieth Century Fox ที่ ตุรกี
- 206.189.89.212 จากเครือข่ายของ Twentieth Century Fox ที่ สิงคโปร์
- 128.199.202.189 จากเครือข่ายของ DigitalOcean ที่สิงคโปร์
ส่งอีเมลจำนวน 4 ฉบับ ถึง 800 emails ภายใน 1 นาที ดังภาพ

ในการตรวจสอบเชิงลึกต่อไป พบว่า IP 206.189.89.116 ยังพยายาม Login ไปยังบัญชีผู้ใช้ 2 ใน 3 ข้างต้นอีกด้วย จึงสันนิษฐาน ว่า น่าจะเป็นคนร้ายกลุ่มเดียวกัน เพียงแต่สลับแหล่งที่เข้าใช้ PSU Webmail ไปมา

จากการลงพื้นที่ ไปดูที่เครื่องผู้ใช้ พบว่า มีพฤติกรรมที่เหมือนกัน คือ
1. ยืนยันว่า ไม่เคยคลิกเปิด email ที่ต้องสงสัยจริง ๆ (เอ่อ ใครก็จะพูดเช่นนั้น เอาว่าไม่มีหลักฐาน ก็ไม่สามารถสรุปได้ว่าไม่จริง)
2. *** มีการใช้คอมพิวเตอร์ส่วนกลาง *** ซึ่งหนึ่งในนั้น จะเป็น Windows XP และมีโปรแกรมเถื่อนเป็นจำนวนมาก
จึงขอตั้งข้อสังเกตว่า ถ้าผู้ใช้ยืนยันว่า ไม่ได้คลิก email หลอกลวงแน่ ๆ และยืนยันว่า ไม่ถูกหลอกแน่ ๆ เป็นจริง ก็น่าจะเป็นเพราะพฤติกรรมการใช้คอมพิวเตอร์ส่วนกลาง ที่เป็น Windows XP ซึ่งเป็นไปได้อีกว่า คงจะมี Key Logger หรือ โปรแกรมดักจับการพิมพ์บน Keyboard แล้วส่งไปให้คนร้าย

ในภาพใหญ่ของมหาวิทยาลัยสงขลานครินทร์ ยังมีเครื่องรุ่นเก่าที่ยังใช้ Windows XP อยู่ แถมยังใช้โปรแกรมเถื่อนที่อาจจะติดมาจากร้าน หรือ คนในออฟฟิซเองเอามาติดตั้งอยู่ หากสามารถ Enforce ให้เปลี่ยนได้ น่าจะลดปัญหาพวกนี้ได้

กำลังหาหลักฐานที่หนักแน่นพอ เพื่อนำเสนอผู้ใหญ่ต่อไปครับ
May 23, 2018
วิธีการใส่เลขหน้า ให้กับเอกสาร PDF แบบบ้าน ๆ

kanakorn.h

May 3, 2018
สืบเนื่องจาก ทะเลาะกับ Printer เป็นวันๆ เพื่อที่จะใส่เลขหน้าให้กับเอกสาร PDF เสียกระดาษ เวลา และอารมณ์ไปเยอะ สุดท้าย ก็ได้วิธีการ เห็นว่าน่าจะเป็นประโยชน์ จึงอยากนำมาเล่าสู่กันฟัง
1. Printer ที่ใช้เป็น Ricoh Africo MP301 SPF
2. รุ่นนี้ มีที่ใส่กระดาษ 2 Tray อันบนคือ Tray 1 เอาไว้ใส่กระดาษเปล่า ส่วน อันล่าง Tray 2 ไว้ใส่กระดาษใช้แล้ว ซึ่ง ในที่นี้ เราจะเอาไว้ใส่กระดาษที่มีเลขหน้าในขั้นตอนต่อไป
3. ปัญหาคือ ต้องจัดรูปเล่มเอกสารใหม่ เอาไฟล์ Word บ้าง PowerPoint บ้าง ภาพจากการ Capture บ้าง มารวม ๆ กัน เป็นเอกสารใหม่ ที่ต้องมีเลขหน้ากำกับ
4. วิธีการคือ สร้าง PowerPoint หรือ Word ก็ได้ ที่มีเลขหน้า อยู่ในตำแหน่งที่ต้องการ และ จำนวนแผ่นที่เท่ากับจำนวนทั้งหมดที่ต้องการ แล้วสั่งพิมพ์ออก Tray 1 ปรกติ
5. จากนั้น นำกระดาษที่พิมพ์เลขหน้าเสร็จแล้ว กลับมาใส่ใน Tray 2 *** จุดสำคัญคือ การวางหัวกระดาษ*** ให้หันไปทางซ้ายมือ ดังภาพ
6. จากนั้น ก็ Print สิ่งที่ต้องการใส่ เลขหน้า ตามลำดับ ลงไปที่ Tray 2
7. สุดท้าย เราก็จะได้ กระดาษที่มีเนื้อหาตามต้องการ พร้อมเลขหน้าตามลำดับ
  ในภาพนี้ ได้ผลออกมาแล้ว นำกลับไป Scan เป็น PDF อีกครั้งหนึ่งที่ความละเอียด 600 dpi แบบ Photo
หวังว่าจะเป็นประโยชน์ครับ
May 3, 2018
จดหมายลอกลวง 23/4/61

kanakorn.h

April 23, 2018
ช่วง ศุกร์ที่ 20 ถึง เช้าวันนี้ จันทร์ที่ 23 เมษายน 2561 พบว่า มีผู้ใช้หลายท่านได้รับ email ลักษณะประมาณนี้

แล้วมีคำถามว่า เป็นของมหาวิทยาลัยส่งจริงหรือไม่

ตอบก่อนเลยว่า “ไม่ใช่อีเมลของทางมหาวิทยาลัย” เป็นจดหมายหลอกลวง

ทางระบบของมหาวิทยาลัยจะไม่ส่ง email แจ้งเตือนใดๆอย่างนี้

ข้อสังเกต
1. ลิงค์ใน email ที่ให้คลิก จะเป็นอะไรที่ไม่ใช่ psu.ac.th (ทราบไม๊ครับ ? ว่าโดเมนเนมของมหาวิทยาลัยสงขลานครินทร์ คือ psu.ac.th ???)
  
  ถ้าเป็นเว็บไซต์ที่ถูกต้อง ของมหาวิทยาลัย จะต้องปรากฏ รูปกุญแจเขียว และ โดเมนเป็นของมหาวิทยาลัยสงขลานครินทร์ ซึ่งใช้โดเมนเนม psu.ac.th ดังภาพ
2. ผู้ส่ง (From) ในทางปฏิบัติ จะ “ตั้งค่า” ให้เป็นใครก็ได้ แต่ในที่นี้ เค้าจะไม่สามารถตั้งค่าเป็น @psu.ac.th ได้ เพราะเราได้ทำการจดทะเบียน DomainKeys Identified Mail (DKIM) และทำตามกระบวนการ Sender Policy Framework (SPF) แล้ว ซึ่งจะกำหนดว่า ต้องเป็น IP ที่ได้รับอนุญาตเท่านั้น จึงจะบอกว่า ส่งจาก @psu.ac.th ได้เท่านั้น …. แม้จะส่งได้และเข้ามาใน Inbox ของท่าน แต่อาจจะเป็นบน gmail.com, hotmail.com, yahoo.com ก็ตาม ก็จะถูกระบุว่า ไม่สามารถเชื่อถือได้
  ในที่นี้ จึงเลี่ยงไปใช้ @itservice.psu.ac.th ซึ่ง ก็ไม่มีอยู่จริงเช่นกัน
หากหลงเชื่อ คลิก Link แล้วกรอกข้อมูลไปแล้วควรทำอย่างไร?

ให้ทำการตั้งรหัสผ่าน PSU Email ใหม่ที่ ตามวิธีการนี้เท่านั้น

http://gafe.psu.ac.th/support/1/1

และ เว็บไซต์ที่จะทำการ ตั้งรหัสผ่าน PSU Email ได้ ต้องเป็นเว็บไซต์นี้เท่านั้น ซึ่งต้องยืนยันตัวจริง ด้วย PSU Passport อีกชั้นหนึ่งด้วย

https://webmail.psu.ac.th/src/resetpassword.html

ลืม PSU Passport / ไม่แน่ใจว่า PSU Passport คืออะไร ทำอย่างไร ???
1. บุคลากรมหาวิทยาลัยสงขลานครินทร์ >>> ติดต่อการเจ้าหน้าที่ คณะ หน่วยงานของท่าน
2. นักศึกษา >>> ติดต่อ ศูนย์คอมพิวเตอร์ ม.สงขลานครินทร์ วิทยาเขตหาดใหญ่ (email สอบถาม: passport@psu.ac.th)
3. บุคลากรที่เกษียณ/ไม่ได้ทำงานที่มหาวิทยาลัยแล้ว >>> มหาวิทยาลัยยังคง email ของท่านไว้เสมอ สามารถใช้ต่อไปได้ แม้ เกษียณ/ลาออก ก็ตาม แต่ในกรณีที่ท่านต้องการเปลี่ยนรหัสผ่าน PSU Email แล้ว ไม่สามารถใช้งาน PSU Passport ได้แล้ว ให้มาติดต่อด้วยตนเองที่ศูนย์คอมพิวเตอร์ มหาวิทยาลัยสงขลานครินทร์ วิทยาเขตหาดใหญ่เท่านั้น
April 23, 2018
วิธีขยาย Disk ใน VM/Virtualbox แล้วให้ Ubuntu

kanakorn.h

February 2, 2018
ในกรณีใช้ VMWare/VirtualBox บางครั้งเราต้องการขยาย Disk ให้ Ubuntu มีพื้นที่มากขึ้น
1. เดิมมี Disk 100 GB
2. แก้ไขให้เป็น 300 GB
3. Login เข้าไป ดูข้อมูล ด้วยคำสั่ง df -h จะเห็น 100 GB อยู่
  
  แล้ว sudo reboot
4. ลอง Login ใหม่ แล้วใช้คำสั่ง
```
sudo su
fdisk -l
```
  ก็จะ ขนาดเพิ่มเป็น 300 GB
  จากนั้นใช้คำสั่ง
```
growpart /dev/sda 1
resize2fs /dev/sda1
```
  แล้วลอง
```
df -h
```
  ก็จะพบว่า ได้ขนาดมาเป็น 300 GB แล้ว
February 2, 2018
วิธีใช้ Google Sheets เป็นฐานข้อมูล เพื่อการเฝ้าระวังระบบ โดยการใช้งานผ่าน Google API Client Library for Python

kanakorn.h

January 30, 2018
ต่อจาก
คราวนี้ ใครมีข้อมูลที่เกิดขึ้นในเซิร์ฟเวอร์ภายในองค์กร แล้วต้องการส่งไปเขียนเก็บไว้ใน Google Sheets แบบต่อท้าย (Append)

เช่น ในตัวอย่างนี้ วัดระยะเวลาการโอนย้ายข้อมูล เปรียบเทียบระหว่าง rsync เพื่อสำรองข้อมูลไปไว้ในเครื่องเซิร์ฟเวอร์สำรองที่ต่างวิทยาเขต กับ การนำไปเก็บไว้ใน Google Drive ตามวิธีการที่กล่าวไว้ใน วิธีการ Upload ไฟล์ไปบน Google Drive File Stream ด้วย Google Client Library for Python

ผมได้เขียนโค๊ดเอาไว้ที่ https://github.com/nagarindkx/google.git
สามารถโคลนไปใช้งานได้ (ช่วย Reference กันด้วยนะครับ)

ขั้นตอนการใช้งานมีดังนี้
1. ใช้คำสั่ง
```
git clone https://github.com/nagarindkx/google.git
cd google
```
2. ติดตั้ง python, pip, google-api-python-client ตามที่เขียนไว้ใน การใช้งาน Google Drive API ด้วย Google Client Library for Python และสร้างโปรเจคใน Google Developer Console เปิดใช้งาน Google Sheets API, สร้าง Credentials > OAuth Client ID แล้ว download JSON มาไว้ในชื่อว่า client_secret.json
3. รูปแบบคำสั่งคือ
```
$ python append2gsheet.py --help

usage: append2gsheet.py [-h] [--auth_host_name AUTH_HOST_NAME]
                             [--noauth_local_webserver]
                             [--auth_host_port [AUTH_HOST_PORT [AUTH_HOST_PORT ...]]]
                             [--logging_level {DEBUG,INFO,WARNING,ERROR,CRITICAL}]
                              --data DATA --sheetid SHEETID [--range RANGE]
                             [--value-input-option VALUEINPUTOPTION]

optional arguments:
 -h, --help show this help message and exit
 --auth_host_name AUTH_HOST_NAME
   Hostname when running a local web server.
 --noauth_local_webserver
   Do not run a local web server.
 --auth_host_port [AUTH_HOST_PORT [AUTH_HOST_PORT ...]]
   Port web server should listen on.
 --logging_level {DEBUG,INFO,WARNING,ERROR,CRITICAL}
   Set the logging level of detail.
 --data DATA CSV format
 --sheetid SHEETID Google Sheets ID
 --range RANGE Simply Sheet Name like 'Sheet1!A1'
 --value-input-option VALUEINPUTOPTION
   Optional: [RAW,USER_ENTERED]
```
4. สิ่งที่ต้องมี คือ Google Sheets ที่สร้างไว้แล้ว ให้สังเกตที่ URL
  ตัวข้อความที่อยู่หลัง https://docs.google.com/spreadsheets/d/ จะเป็น “Sheet ID” ซึ่งจะใช้ในตัวแปร “sheetid” ในขั้นต่อไป
5. ในแต่ละ Google Sheets จะประกอบด้วย หลาย Sheet ในที่นี้ จะเขียนลง Sheet ที่ชื่อว่า “Data” ซึ่งจะใช้ในตัวแปร “range” ในขั้นต่อไป
6. ตัวอย่างการใช้งาน เมื่อระบบทำการสำรองข้อมูล จับเวลา ก็จะทำการส่งข้อมูลไปเก็บในลักษณะ CSV อย่างนี้ส่งไป เช่น
```
20180129-12,37.0188,27.5338,943.7682,902.7372
```
  ซึ่งประกอบด้วย 5 ฟิลด์ คือ วันเวลาที่วัด และ ข้อมูล เป็นจำนวนวินาที อีก 4 ฟิลด์
  วิธีการส่งคำสั่งในการใช้งาน ครั้งแรก ต้องใส่ –noauth_local_webserver ด้วย
```
python append2gsheet.py --data 20180129-12,37.0188,27.5338,943.7682,902.7372 --sheetid 1YV_W_k8VkJbYn1fG1XXXXXXXXXXXXF8y5YtQwRC0DAY --range 'Data!A1' --noauth_local_webserver
```
  จะได้ผลดังนี้
  
  ให้เอา URL ไปเปิดบนเว็บ Browser ที่สามารถยืนยันตัวตนกับ Google ได้ ผลดังนี้
  
  แล้วก็ให้การอนุมัติ
  
  ก็จะได้ Verification Code อย่างนี้
  
  เอาไปใส่
  
  สำเร็จ และ ผลที่ได้
7. แต่จะเห็นว่า ข้อมูล ตัวเลขที่ใส่เข้ามา จะถูกแปลงเป็นข้อความ ซึ่ง สามารถแก้ไขได้ด้วยการใส่ –value-input-option USER_ENTERED
```
python append2gsheet.py --data 20180129-12,37.0188,27.5338,943.7682,902.7372 --sheetid 1YV_W_k8VkJbYn1fG1XXXXXXXXXXXXF8y5YtQwRC0DAY --range 'Data!A1' --noauth_local_webserver --value-input-option USER_ENTERED
```
  ผลที่ได้คือ คือ บรรทัดล่าง จะได้ชนิดเป็น Numeric มาเลย
8. เมื่อเก็บผลเรียบร้อยแล้ว สามารถดูเป็น Chart แบบ Realtime ได้
เผื่อเป็นประโยชนครับ
January 30, 2018