머신러닝6 [python] 정확도, 정밀도, 재현율을 이용한 실제 모델 평가 연습(feat.피나 인디언 당뇨병 예측) 1. 개요 오늘의 포스팅은 저번에 2개의 포스팅에 걸쳐 소개드린 분류 모델 평가 지표를 이용해 실제 데이터를 가지고 모델 구축 및 평가 연습입니다. 2. 코드 실습 Pregnancies: 임신 횟수 Glucose: 포도당 부하 검사 수치 BloodPressure: 혈압(mm Hg) SkinThickness: 팔 삼두근 뒤쪽의 피하지방 측정값(mm) Insulin: 혈청 인슐린(mu U/ml) BMI: 체질량지수(체중(kg)/(키(m))^2) DiabetesPedigreeFunction: 당뇨 내력 가중치 값 Age: 나이 Outcome: 클래스 결정 값(0또는 1) 일단 필요한 라이브러리들을 먼저 import해줍니다. import pandas as pd from sklearn.model_selection.. 2023. 3. 28. [python] 분류 모델 평가 지표인 F1-score와 ROC AUC 구체적으로 살펴보기 1. 개요 지난 포스팅에서 분류 모델의 성능을 평가할 수 있는 지표들을 크게 6가지를 살펴보았습니다. 이중 F1-score와 ROC AUC는 구체적인 설명이 필요해 따로 포스팅을 올리도록 하겠습니다. 이전 포스팅을 확인하신 후 다시 보시면 훨씬 이해가 잘 될 거 같습니다! 2023.03.17 - [머신러닝/모델평가] - [python] 분류 모델 성능 평가 지표의 종류와 의미 파헤치기 [python] 분류 모델 성능 평가 지표의 종류와 의미 파헤치기 1. 개요 머신러닝의 프로세스는 데이터 가공 및 변환 -> 모델 학습 및 예측 -> 모델 평가로 이루어집니다. 오늘은 이 세 과정 중 "모델 평가"의 의미와 종류를 자세히 그리고 코드가 돌아갔을 때 어 vomain.tistory.com 2. 이론 설명 ① F.. 2023. 3. 17. [python] 분류 모델 성능 평가 지표의 종류와 의미 파헤치기 1. 개요 머신러닝의 프로세스는 데이터 가공 및 변환 -> 모델 학습 및 예측 -> 모델 평가로 이루어집니다. 오늘은 이 세 과정 중 "모델 평가"의 의미와 종류를 자세히 그리고 코드가 돌아갔을 때 어떤 식으로 이해하면 될 지 살펴보려고 합니다. 2. 본론 데이터를 예측하는 방법은 회귀와 분류 이 두 가지로 크게 나뉘는 것을 알 수 있습니다. 회귀 모형의 성능 평가 지표는 오차와 관련된 내용으로 식이나 이론은 나중에 설명하도록 하겠습니다. 오늘 알아볼 내용은 분류 모형의 성능 평가 지표입니다. 분류 성능 평가 지표의 종류 ① 정확도(Accuracy) ② 오차행렬(Confusion Matrix) ③ 정밀도(Precision) ④ 재현율(Recall) ⑤ F1 score ⑥ ROC AUC 위의 지표들을 하나.. 2023. 3. 17. [python] sklearn의 GridSearchCV()를 이용한 간단한 모델 구축 1. 개요 오늘 포스팅은 이전 포스팅 글들의 train set, test set의 분리 과정중 과적합을 줄이기 위한 교차검증의 종류를 이어서 소개해드리려고 합니다. 이전 글의 메인 주제는 K-Fold 교차검증 프로세스를 한 번에 수행해주는 cross_val_score() API였는데요. 오늘은 K-Fold 교차검증과 하이퍼 파라미터 튜닝을 한 번에 수행해주는 API인 GridSearchCV() 입니다. 2. 코드실습 GridSearchCV()를 이용한 모델구축은 이전에 배웠던 데이터의 분리와 K-Fold 교차검증의 이론이 모두 들어가 있으므로 코드를 수행하면서 바로 설명을 드리도록 하겠습니다! from sklearn.datasets import load_iris from sklearn.tree impor.. 2023. 2. 25. [python] sklearn의 K-Fold 교차검증 cross_val_score()을 이용한 모델 구축 1. 개요 오늘 포스팅할 글은 앞서 말씀드린 데이터의 분리(train set, test set)의 한 걸음 나아간 이론이라고 말씀드릴 수 있습니다. 오늘 배워볼 교차검증은 그저 훈련용과 테스트용으로 데이터를 분리했을 때 나타나는 과적합(overfitting)을 줄여주는 과정입니다. 교차검증 위와 같이 학습데이터셋을 학습용과 검증용으로 분리해 다양한 학습을 할 수 있도록 합니다. 2. 교차검증의 종류 ⑴ K-Fold 교차검증 = cross_val_score() K-Fold 교차검증은 가장 많이 사용되는 교차검증 중 하나로 k의 값에 따른 폴드 세트에 k번의 학습과 검증을 반복적으로 수행하는 방법입니다. (1-1) 일반 K-Fold 교차검증: 위와 같은 경우 (1-2) Stratified K-Fold 교차검.. 2023. 2. 24. [python] sklearn의 train_test_split()을 이용한 간단한 모델 구축 1. 개요 사이킷런은 파이썬 기반의 머신러닝을 위한 라이브러리를 효과적으로 사용할 수 있는 모듈입니다. 사이킷런을 이용한 모델을 만들기 위해서는 데이터 전처리가 충분히 이루어져야 합니다. 오늘의 주제에 맞는 학습을 위해 전처리는 되었다고 가정하고 코드학습을 진행해 보려고 합니다. 사이킷런 모듈에 내장되어있는 데이터를 이용해 간단한 첫 번째 머신러닝 모델을 만들어 보려고 합니다. 2. 실습 및 코드 설명 코드를 진행하기 위한 라이브러리를 import 해줍니다. 첫번째 머신러닝 모델은 의사결정트리를 이용하여 모델을 생성하려고 합니다. from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklear.. 2023. 2. 21. 이전 1 다음