import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sb
컬럼 정보 :
Preg=no. of pregnancy
Plas=Plasma
Pres=blood pressure
skin=skin thickness
test=insulin test
mass=body mass
pedi=diabetes pedigree function
age=age
class=target(diabetes of not, 1:diabetic, 0:not diabetic)
데이터의 평균값이 describe함수와 달라 당황했다.
0데이터를 nan값으로 바꾸어 평균이 바꼈다는 것을 생각하지 못했다.
그러므로 지금 나온 평균값이 일반적인 평균이다.
데이터끼리의 상관관계를 확인하여 학습에 넣을 데이터를 추려본다.
상관관계의 값이 0.1이 다 넘어가므로 관계가 없다고 생각할 수 없어 모든데이터를 학습에 넣는다.
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X=sc.fit_transform(X)
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix,accuracy_score
classifier = LogisticRegression(random_state =0)
classifier.fit(X_train, y_train)
y_pred=classifier.predict(X_test)
y_test= y_test.values
0.81로 정확도가 측정되었다.
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix,accuracy_score
classifier = KNeighborsClassifier(n_neighbors= 15,metric='minkowski')
classifier.fit(X_train, y_train)
y_pred=classifier.predict(X_test)
y_test= y_test.values
KNN의 K의 숫자를 바꿀 때마다 수치가 달라졌고, 15을 넣었을 때 정확도가 가장 높았다.
Teachable Machine Learning Site (0) | 2021.07.26 |
---|---|
[머신러닝]SVM(Support Vector Machine) (0) | 2021.06.07 |
[머신러닝]KNN 구매여부 확인 (0) | 2021.05.19 |
[머신러닝]KNN(K-Nearest Neighbor) (0) | 2021.05.19 |
[머신러닝]Logistic Regression 구매여부 확인 (0) | 2021.05.17 |