NAN/머신 러닝
KNN 간단 예제_2
onddd
2021. 7. 11. 18:10
728x90
올바른 훈련 데이터 사용법
# 데이터 준비
fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0,
31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0,
35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8,
10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
fish_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0,
500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0,
700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0, 6.7,
7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]
# 리스트 내포 훈련 데이터 2차원 배열로 만들기
# 정답 데이터 준비
fish_data = [[l,w] for l,w in zip(fish_length, fish_weight)]
fish_target = [1] * 35 + [0] * 14
# 지도 학습을 위해 KNeighborsClassifier 로드
from sklearn.neighbors import KNeighborsClassifier
kn = KNeighborsClassifier()
# 올바른 결괏값을 위해 훈련,테스트 데이터/정답 나누기
train_input = fish_data[:35]
train_target = fish_target[:35]
test_input = fish_data[35:]
test_target = fish_target[35:]
# 훈련 후 결과 도출
kn = kn.fit(train_input, train_target)
kn.score(test_input, test_target)
0.0
올바른 결괏값을 도출하기 위해 전과는 다르게 전체 데이터를 훈련, 테스트 데이터로 나누었고,
fit( )과, score( )를 통해 훈련 데이터를 잘 다루었다고 생각했지만
결괏값은 0.0으로 우리가 원했던 값 1과는 상반된 답을 얻었다. 이는 데이터를 훈련 데이터와 테스트 데이터로 나눈 다는
좋은 생각만으로 그쳤을 뿐 전체 데이터를 섞어주지 않았기 때문에 발생한 현상이다.
이런 문제를 쉽게 해결하기 위해 사용하는 게 바로 numpy 라이브러리이고 이를 통해 2차원 배열도 손쉽게 만들 수 있다.
# numpy 로드
import numpy as np
# 기존 데이터 nparray로 변환
input_arr = np.array(fish_data)
target_arr = np.array(fish_target)
print(input_arr)
[[ 25.4 242. ]
[ 26.3 290. ]
[ 26.5 340. ]
[ 29. 363. ]
[ 29. 430. ]
[ 29.7 450. ]
[ 29.7 500. ]
[ 30. 390. ]
[ 30. 450. ]
[ 30.7 500. ]
[ 31. 475. ]
[ 31. 500. ]
[ 31.5 500. ]
[ 32. 340. ]
[ 32. 600. ]
[ 32. 600. ]
..............
..............
..............
전체 데이터를 섞을때 주의해야 할 점으로 input_arr과 target_arr이 섞일 때 그 값이 함께 이동하여 섞여야 한다는 점이다.
이런 문제를 쉽게 해결하기 위해 인덱스를 섞어서 분류하는 방법이다.
# 항상 같은 랜덤값을 받기위해 np.random.seed(42)지정
np.random.seed(42)
# 0부터 48까지 총 49개의 index 생성
index = np.arange(49)
# 임의로 섞기
np.random.shuffle(index)
print(index)
[13 45 47 44 17 27 26 25 31 19 12 4 34 8 3 6 40 41 46 15 9 16 24 33
30 0 43 32 5 29 11 36 1 21 2 37 35 23 39 10 22 18 48 20 7 42 14 28
38]
# 인덱스 번호로 하나 이상의 데이터를 불러 올 수 있다.
print(input_arr[[1,3]])
[[ 26.3 290. ]
[ 29. 363. ]]
# 훈련 데이터 나누기 (배열 슬라이싱)
train_input = input_arr[index[:35]]
# 정답 데이터 나누기 (배열 슬라이싱)
train_target = target_arr[index[:35]]
print(input_arr[13], train_input[0])
[ 32. 340.] [ 32. 340.]
# 테스트 데이터 나누기 (배열 슬라이싱)
test_input = input_arr[index[35:]]
# 테스트 정답 데이터 나누기 (배열 슬라이싱)
test_target = target_arr[index[35:]]
# 시각화
import matplotlib.pyplot as plt
# x 축(전체 행, 특정 열(길이)), y축(전체 행,특정 열(무게))
plt.scatter(train_input[:,0], train_input[:,1])
plt.scatter(test_input[:,0], test_input[:,1])
plt.xlabel('length')
plt.ylabel('weight')
plt.show()
# 최종. 훈련 데이터 훈련하기
kn = kn.fit(train_input, train_target)
# 테스트 데이터로 결과 확인
kn.score(test_input,test_target)
1.0
# 재확인
# predict == 새로운 데이터 예측 np.array이는 리스트로 감쌀 필요 없다.
kn.predict(test_input)
array([0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0])
# 정확하게 일치
test_target
array([0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0])