Kaggle – วิธีการใช้ Logistic Regression บนข้อมูล Iris

ข้อมูล Iris Dataset มักจะใช้ในการเริ่มต้นศึกษาการใช้งาน เครื่องมือทาง Data Science โดยเฉพาะ Classification เพราะไม่ซับซ้อน มี 4 ฟิลด์ ที่ใช้เป็น Features และมี 1 ฟิลด์ ที่จะเป็น Class (มี 3 Categories)

  1. เริ่มจาก New Kernel
  2. ในที่นี้ เลือก Notebook
  3. จากนั้น เลือก Add Dataset จากที่เค้ามีให้ หรือ จะ Upload ขึ้นไปก็ได้
  4. จากนั้น ข้อมูลของเราจะมาอยู่ที่  ../input/ ในกรณีเรามีไฟล์ ../input/iris.data
    จาก Code ที่ให้มาในเบื้องต้น ให้กดปุ่ม Shift+Enter หรือ กดเครื่องหมาย Run ด้าน ซ้ายมือ ก็จะได้ผลดังนี้
  5. จากนั้น มาเขียน Code กัน เริ่มจาก Import Package ที่ต้องใช้
    import pandas as pd
    import numpy as np
    import seaborn as sns
    import matplotlib.pyplot as plt
    %matplotlib inline
  6. สร้างตัวแปร iris อ่านข้อมูลจากไฟล์
    iris = pd.read_csv('../input/iris.data')
  7. สำรวจข้อมูลเบื้องต้น
    iris.head()
    iris.info()
    iris.describe()
  8. ลองทำ Data Visualization เบื้องต้น ด้วย pairplot แยกตามสีของ species
    sns.pairplot(iris, hue='species')

    หรือ จะดูเป็น scatterplot

    plt.scatter(iris['sepal_length'], iris['sepal_width'], marker='.', color='r')
    plt.xlabel('Sepal Length')
    plt.ylabel('Sepal Width')

  9. ต่อไป เป็นขั้นตอนการแบ่งข้อมูลออกเป็น 2 ส่วน สำหรับ Train และ Test
    from sklearn.model_selection import train_test_split
    X = iris.drop(['species'], axis=1)
    Y = iris['species']
    X_train, X_test, y_train, y_test = train_test_split(X,Y, test_size=0.3)
  10. จากนั้น Train Model
    from sklearn.linear_model import LogisticRegression
    model = LogisticRegression()
    model.fit(X_train, y_train)

  11. แล้วก็ ตรวจสอบความแม่นยำ Model Evaluation
    prediction = model.predict(X_test)
    from sklearn.metrics import confusion_matrix, classification_report, accuracy_score


ขั้นตอนไม่ยากครับ ส่วนว่าเราจะเลือกใช้ Model ไหน ทำอะไร อันนี้ต้องมาดูรายละเอียดกันต่อครับ