Kaggle – วิธีการใช้ Logistic Regression บนข้อมูล Iris
ข้อมูล Iris Dataset มักจะใช้ในการเริ่มต้นศึกษาการใช้งาน เครื่องมือทาง Data Science โดยเฉพาะ Classification เพราะไม่ซับซ้อน มี 4 ฟิลด์ ที่ใช้เป็น Features และมี 1 ฟิลด์ ที่จะเป็น Class (มี 3 Categories) เริ่มจาก New Kernel ในที่นี้ เลือก Notebook จากนั้น เลือก Add Dataset จากที่เค้ามีให้ หรือ จะ Upload ขึ้นไปก็ได้ จากนั้น ข้อมูลของเราจะมาอยู่ที่ ../input/ ในกรณีเรามีไฟล์ ../input/iris.data จาก Code ที่ให้มาในเบื้องต้น ให้กดปุ่ม Shift+Enter หรือ กดเครื่องหมาย Run ด้าน ซ้ายมือ ก็จะได้ผลดังนี้ จากนั้น มาเขียน Code กัน เริ่มจาก Import Package ที่ต้องใช้ import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline สร้างตัวแปร iris อ่านข้อมูลจากไฟล์ iris = pd.read_csv(‘../input/iris.data’) สำรวจข้อมูลเบื้องต้น iris.head() iris.info() iris.describe() ลองทำ Data Visualization เบื้องต้น ด้วย pairplot แยกตามสีของ species sns.pairplot(iris, hue=’species’) หรือ จะดูเป็น scatterplot plt.scatter(iris[‘sepal_length’], iris[‘sepal_width’], marker=’.’, color=’r’) plt.xlabel(‘Sepal Length’) plt.ylabel(‘Sepal Width’) ต่อไป เป็นขั้นตอนการแบ่งข้อมูลออกเป็น 2 ส่วน สำหรับ Train และ Test from sklearn.model_selection import train_test_split X = iris.drop([‘species’], axis=1) Y = iris[‘species’] X_train, X_test, y_train, y_test = train_test_split(X,Y, test_size=0.3) จากนั้น Train Model from sklearn.linear_model import LogisticRegression model = LogisticRegression() model.fit(X_train, y_train) แล้วก็ ตรวจสอบความแม่นยำ Model Evaluation prediction = model.predict(X_test) from sklearn.metrics import confusion_matrix, classification_report, accuracy_score ขั้นตอนไม่ยากครับ ส่วนว่าเราจะเลือกใช้ Model ไหน ทำอะไร อันนี้ต้องมาดูรายละเอียดกันต่อครับ