1. 데이터

부정 보험금 청구 여부 분류 / 보험금 청구 여부 분류 / 피싱 탐지 분류

1-1. 부정 보험금 청구 여부 분류

- months_as_customer : int 보험금 납입 기간(누적, 개월)
- age	: int 연령
- policy_number :  int 보험 가입번호
- policy_bind_date : str 보험 계약일
- policy_state : str 보험 계약자 주
- policy_csl : str 보험한도 
							(사고 발생 시 1인당 보험금 한도액 / 전체 보험금 한도액 (단위 :  천달러)) 
- policy_deductable :  int 보험의 자기부담금
- policy_annual_premium	: float 연간보험료
- umbrella_limit	: int 보험금 한도
- insured_zip : int피보험자 우편번호
- insured_sex  : str피보험자  성별
- insured_education_level	:str   피보험자  교육수준
- insured_occupation	insured_hobbies :str  피보험자의 취미
- insured_relationship :str 피보험자 와 보험계약자의 관계
- capital-gains : int 자본이득
- capital-loss :  int 자본손실
- incident_date	: str 보험 사고 일자
- incident_type	: str 보험 사고의 종류
- collision_type	: str 충돌 유형
- incident_severity : str 손상정도
- authorities_contacted :  str 보험사고 발생 당시 연락기관(경찰서, 소방서 등)
- incident_state :  str 사고 발생 지역
- incident_city : 	str 사고 발생 도시
- incident_location : 	str 사고 발생 위치
- incident_hour_of_the_day : int  사고 발생 시각 (예: 20시 경)
- number_of_vehicles_involved	: int  총 사고 발생 차량 수
- property_damage : str  재산 피해 여부
- bodily_injuries	: int  신체 피해 정도( 0 : 없음, 1: 경상 2: 중상)
- witnesses	: int  사고 목격자 수
- police_report_available : str  	경찰 보고서 확인 가능 여부
- total_claim_amount : int  총 보험금 청구금액
- injury_claim : int  상해 청구금액
- property_claim :int  재산 피해 청구 금액
- vehicle_claim :int  차량 피해 청구금액
- auto_make :str  자동차 제조사
- auto_model :str  자동차 모델
- auto_year :int  자동차 연식
- **fraud_reported :str  허위 청구여부 (허위청구 :  Y / 정상청구 : N)**

1-2. 보험금청구여부(Claim) 분류

- Agency:str, 보험 판매점
- Agency Type:str, 판매점 형태
- Distribution Channel:str, 판매 채널
- Product Name :str,  판매 상품 종류
- Duration:str, 보험기간
- Destination:str,  여행국가
- Net Sales:int, 순마진
- Commision (in value):float, 수수료
- Gender:str, 성별
- Age:int, 나이
**- Claim:str, 보험금 청구여부**

1-3. 피싱 탐지 분류

- SFH	: int Server Form Handler(서버 폼 핸들러)의 이상여부
- popUpWidnow : int 윈도우 팝업 여부
- SSLfinal_State	:int   https의 이상 여부
- Request_URL	:int 요청 url의 이상여부
- URL_of_Anchor :int  테그의 이상여부
- web_traffic :int  웹사이트 트래픽의 이상여부
- URL_Length :int	의심스러운 부분을 숨기기 위한 긴 url 여부
- age_of_domain :int  도메인의 수명 이상여부
- having_IP_Address :int ip 주소의 사용여부
**- Result :int  피싱사이트 여부 
					( 1:Legitimate / 0 : Suspicious / -1 : Phishy)**

2. 데이터 전처리 (Data Preprocessing)

1. 결측치 제거

1-1. 결측 데이터 종류

  1. 완전 무작위 결측 (MCAR : Missing Completely At Random) : 어던 변수 상에서 결측 데이터가 관측된 혹은 관측되지 않은 변수와 아무런 연관이 없는 경우

  2. 무작위 결측 (MAR: Missing At Random) : 변수상의 결측데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관되지 않은 경우

  3. 비무작위결측 (NMAR: Not Missing At Random) : 어떤 변수의 결측데이터가 MCAR, MAR이 아닌 결측데이터로 정의하는 즉, 결측변수값이 결측여부와 관련이 있는 경우

1-2. 결측치 유형의 분석 및 대치