02-1 훈련 세트와 테스트 세트

4 분 소요

02-1 훈련 세트와 테스트 세트

지도 학습과 비지도 학습의 차이를 배우고, 훈련 세트와 테스트 세트로 데이터를 나눠서 학습

💡용어 정리💡

❓ 지도 학습 ➡️ 훈련하기 위한 데이터와 정답이 필요한 알고리즘

❓ 입력/타깃 ➡️ 지도 학습 알고리즘에서의 데이터와 정답

❓ 훈련 데이터 ➡️ 데이터와 정답을 합친 말

❓ 테스트 세트 ➡️ 평가에 사용하는 데이터

❓ 훈련 세트 ➡️ 훈련에 사용되는 데이터

1) 생선 데이터 입력 후, 2차원 리스트 생성 및 객체 생성

# 생선 데이터 입력
fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 
                31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 
                35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8, 
                10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
fish_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 
                500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 
                700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0, 6.7, 
                7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

# 사이킷런 패키지 사용을 위한 2차원 리스트 생성
fish_data = [[l, w] for l, w in zip(fish_length, fish_weight)]
fish_target = [1] * 35 + [0] * 14 # 처음 35개를 훈련 세트로, 나머지는 테스트 세트

from sklearn.neighbors import KNeighborsClassifier
kn = KNeighborsClassifier()

2) 생선 데이터를 훈련 세트와 테스트 세트에 맞게 슬라이싱

# 훈련 세트로 입력값 및 타깃값 중 0~34번째 인덱스까지 사용
train_input = fish_data[:35] # 슬라이싱에서 마지막 인덱스의 원소는 포함되지 않음!
train_target = fish_target[:35]

# 테스트 세트로 입력값 및 타깃값 중 35번째부터 마지막 인덱스까지 사용
test_input = fish_data[35:]
test_target = fish_target[35:]

3) 훈련세트로 fit()를 이용해 모델을 훈련, 테스트 세트로 score()를 이용해 평가 진행

–> 도미와 빙어가 차례로 입력되어 있어서,

테스트 값이 0이 나옴! (도미와 빙어 데이터 셔플의 필요성 존재)

kn = kn.fit(train_input, train_target)
kn.score(test_input, test_target)

실행결과)

0.0

4) 넘파이 라이브러리를 이용하여 배열 생성

- numpy –> 파이썬의 대표적인 배열 라이브러리이며, 고차원의 배열을 쉽게 만들고, 조작할 수 있는 도구 제공

- array() –> 파이썬 리스트를 넘파이 배열로 변환

- shape –> 넘파이 배열의 크기를 알려주는 속성

import numpy as np

# 파이썬 리스트를 넘파이 배열로 변환 --> array() 사용!
input_arr = np.array(fish_data)
target_arr = np.array(fish_target)

print(input_arr)
# 배열의 크기를 알려주는 넘파이의 속성
print(input_arr.shape) # (샘플 수, 특성 수) 출력

실행결과)

[[  25.4  242. ]
 [  26.3  290. ]
 [  26.5  340. ]
 [  29.   363. ]
 [  29.   430. ]
 [  29.7  450. ]
 [  29.7  500. ]
 [  30.   390. ]
 [  30.   450. ]
 [  30.7  500. ]
 [  31.   475. ]
 [  31.   500. ]
 [  31.5  500. ]
 [  32.   340. ]
 [  32.   600. ]
 [  32.   600. ]
 [  33.   700. ]
 [  33.   700. ]
 [  33.5  610. ]
 [  33.5  650. ]
 [  34.   575. ]
 [  34.   685. ]
 [  34.5  620. ]
 [  35.   680. ]
 [  35.   700. ]
 [  35.   725. ]
 [  35.   720. ]
 [  36.   714. ]
 [  36.   850. ]
 [  37.  1000. ]
 [  38.5  920. ]
 [  38.5  955. ]
 [  39.5  925. ]
 [  41.   975. ]
 [  41.   950. ]
 [   9.8    6.7]
 [  10.5    7.5]
 [  10.6    7. ]
 [  11.     9.7]
 [  11.2    9.8]
 [  11.3    8.7]
 [  11.8   10. ]
 [  11.8    9.9]
 [  12.     9.8]
 [  12.2   12.2]
 [  12.4   13.4]
 [  13.    12.2]
 [  14.3   19.7]
 [  15.    19.9]]
(49, 2)

5) 배열을 만든 후 셔플!

arange() –> 0에서부터 (n)-1 까지 1씩 증가하는 배열 생성
현재 샘플의 특성(길이, 무게)과 타깃이 짝을 이뤄서 다른 리스트에 담겨있음

만약, 랜덤한 데이터를 위해 리스트 자체를 셔플한다면? 특성과 타깃의 매칭 불가능!

따라서, 인덱싱을 위한 배열을 만들고(index) 셔플을 통해 랜덤한 인덱스를 뽑아서 각 리스트로부터 랜덤한 인덱스로 데이터 추출

np.random.seed(42)

# 인덱싱을 위한 배열 생성
index = np.arange(49)
np.random.shuffle(index) # 배열 셔플

print(index)

# 배열 인덱싱 --> 여러 개의 인덱스로 한 번에 여러 개의 원소 선택 가능! (인덱스가 1, 3번인 원소 선택)
print(input_arr[[1,3]])

실행결과)

[13 45 47 44 17 27 26 25 31 19 12  4 34  8  3  6 40 41 46 15  9 16 24 33
 30  0 43 32  5 29 11 36  1 21  2 37 35 23 39 10 22 18 48 20  7 42 14 28
 38]
[[ 26.3 290. ]
 [ 29.  363. ]]

6) 셔플한 배열을 특성, 타깃 배열에 전달하여 훈련 및 테스트 세트 생성

# 배열에 리스트 대신 셔플한 배열 전달 --> train_input[0]과 input_arr[13]의 값이 같아짐!
# 시드를 이용하여 셔플하였으므로 현재 input_arr의 0번째 인덱스의 값을 아는 상태
train_input = input_arr[index[:35]]
train_target = target_arr[index[:35]]

# 따라서 같은 값 출력
print(input_arr[13], train_input[0])

test_input = input_arr[index[35:]]
test_target = target_arr[index[35:]]

실행결과)

[ 32. 340.] [ 32. 340.]

7) 훈련 및 테스트 세트 산점도 생성

trian_input 은 현재 2차원 배열!

(따라서, (행, 열)로 표기하며, [:, 0]의 경우 모든 행의 첫번째 열의 값만 가져옴)

–> 훈련 데이터의 생선의 길이 데이터

import matplotlib.pyplot as plt

# 슬라이싱 연산자로 처음부터 마지막 원소까지 모두 선택하는 경우 시작 및 종료 인덱스 생략
plt.scatter(train_input[:, 0], train_input[:, 1]) # 파란색 점
plt.scatter(test_input[:, 0], test_input[:, 1]) # 주황색 점

plt.xlabel('length')
plt.ylabel('weight')

plt.show()

실행결과)

8) 모델을 훈련시키고, 테스트 진행

fit()을 실행할 때마다 KNeighborsClassifier 클래스의 객체는 이전 학습을 잃음

–> 따라서, 이전 모델을 그대로 두고 싶다면 클래스 객체를 새로 만들어야함!

# 모델 훈련
kn = kn.fit(train_input, train_target)

# 모델 테스트
kn.score(test_input, test_target)

실행결과)

1.0

코랩은 셀의 마지막 코드의 결과를 자동으로 출력!

# test_input 의 타깃(정답)을 예측하는 predict()
kn.predict(test_input) # 넘파이 배열 반환

실행결과)

array([0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0])

test_target

실행결과)

array([0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0])

–> 위 두 개의 값이 값음!

(테스트 데이터의 값을 predict()한 결과와 테스트 데이터의 타깃값이 같음)

Twitter Facebook LinkedIn

Chae Yeon Jang

02-1 훈련 세트와 테스트 세트

02-1 훈련 세트와 테스트 세트

지도 학습과 비지도 학습의 차이를 배우고, 훈련 세트와 테스트 세트로 데이터를 나눠서 학습

공유하기

댓글남기기

참고

< NFT 기반 디지털 자산 거래를 위한 블록체인 합의 연구 > 논문 분석

GitBlog) Utterance 댓글 설정

GitBlog) Favicon(파비콘) 설정

05-1 결정 트리