ข้อมูล Iris Dataset มักจะใช้ในการเริ่มต้นศึกษาการใช้งาน เครื่องมือทาง Data Science โดยเฉพาะ Classification เพราะไม่ซับซ้อน มี 4 ฟิลด์ ที่ใช้เป็น Features และมี 1 ฟิลด์ ที่จะเป็น Class (มี 3 Categories)
- เริ่มจาก New Kernel
- ในที่นี้ เลือก Notebook
- จากนั้น เลือก Add Dataset จากที่เค้ามีให้ หรือ จะ Upload ขึ้นไปก็ได้
- จากนั้น ข้อมูลของเราจะมาอยู่ที่ ../input/ ในกรณีเรามีไฟล์ ../input/iris.data
จาก Code ที่ให้มาในเบื้องต้น ให้กดปุ่ม Shift+Enter หรือ กดเครื่องหมาย Run ด้าน ซ้ายมือ ก็จะได้ผลดังนี้
- จากนั้น มาเขียน Code กัน เริ่มจาก Import Package ที่ต้องใช้
import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline
- สร้างตัวแปร iris อ่านข้อมูลจากไฟล์
iris = pd.read_csv('../input/iris.data')
- สำรวจข้อมูลเบื้องต้น
iris.head()
iris.info()
iris.describe()
- ลองทำ Data Visualization เบื้องต้น ด้วย pairplot แยกตามสีของ species
sns.pairplot(iris, hue='species')
หรือ จะดูเป็น scatterplot
plt.scatter(iris['sepal_length'], iris['sepal_width'], marker='.', color='r') plt.xlabel('Sepal Length') plt.ylabel('Sepal Width')
- ต่อไป เป็นขั้นตอนการแบ่งข้อมูลออกเป็น 2 ส่วน สำหรับ Train และ Test
from sklearn.model_selection import train_test_split
X = iris.drop(['species'], axis=1)
Y = iris['species']
X_train, X_test, y_train, y_test = train_test_split(X,Y, test_size=0.3)
- จากนั้น Train Model
from sklearn.linear_model import LogisticRegression model = LogisticRegression() model.fit(X_train, y_train)
- แล้วก็ ตรวจสอบความแม่นยำ Model Evaluation
prediction = model.predict(X_test) from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
ขั้นตอนไม่ยากครับ ส่วนว่าเราจะเลือกใช้ Model ไหน ทำอะไร อันนี้ต้องมาดูรายละเอียดกันต่อครับ