1. 데이터 : 보험료 예측

1-1. 보험료 예측

- age:int, 나이
- sex:str, 성별
- bmi:float, BMI지수
- children:int, 자녀 수
- smoker:str, 흡연여부
- region:str, 사는 지역
**- charges:float, 보험료**

2. 데이터 전처리 (Data Preprocessing)

1. 결측치 제거

1-1. 결측 데이터 종류

  1. 완전 무작위 결측 (MCAR : Missing Completely At Random) : 어던 변수 상에서 결측 데이터가 관측된 혹은 관측되지 않은 변수와 아무런 연관이 없는 경우

  2. 무작위 결측 (MAR: Missing At Random) : 변수상의 결측데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관되지 않은 경우

  3. 비무작위결측 (NMAR: Not Missing At Random) : 어떤 변수의 결측데이터가 MCAR, MAR이 아닌 결측데이터로 정의하는 즉, 결측변수값이 결측여부와 관련이 있는 경우

1-2. 결측치 유형의 분석 및 대치

  1. 단순대치법

(1) 완전분석 : 불완전자료는 완전하게 무시하고 분석을 수행

(2) 평균대치: 관측 또는 실험으로 얻어진 데이터의 평균으로 결측치를 대치

(3) 회귀대치 : 회귀분석에 의한 예측치로 결측치 대치

(4) 최근접 대치 : 전체 표본을 몇개의 대체군으로 분류하여 각 층에서의 응답자료를 순서대로 정리한 후 결측값 바로 이전의 응답을 결측치로 대신함.

  1. 다중대치법
# 결측치 확인 
data.isnull().sum()

# 결측치 제거
data.dropna()

# 특정 컬럼의 결측치 제거 
data.dropna(subset = ['컬럼명'])

# 결측치 대체 
data.fillna('a')

2. 이상치 탐지

2-1. 이상치 확인

2-2. 이상치 제거