머신러닝- 비지도학습, 데이터 전처리 part.1

데이터의 비지도 학습에는 비지도 변환, 군집 두가지 종류가 있다.

비지도 변환: 데이터를 재가공, 새롭게 표현해서 타 알고리즘이 raw dataset 보다 쉽게 활용할 수 있도록 만드는 알고리즘

    활용 분야:  특징, 특성이 많은 고차원 데이터의 특성 숫자를 줄이면서 꼭 필요한 부분만 포함한 데이터로 표현하는 차원 축소 

    ex: 시각화 dataset을 2차원으로 변경하는 경우


군집: 데이터의 특성을 추출해서 비슷한 것끼리 그룹으로 묶는 알고리즘 


한계 : 비지도 학습은 레이블이 없는 데이터에 적용하기 때문에 출력의 옳고 그름 판단이 안된다. 따라서 (지도학습과 다르게) 데이터 분석을 위한 탐색적 분석 단계에서 주로 사용됨.

이런 데이터 분석, 군집, 변환으로 재가공, 전처리한 datase을 사용한 지도학습은 기존의 학습보다 정확도가 좋다


                                -스케일 조정은 지도학습 적용전에 사용


i)데이터 전처리, 스케일 조정 (scikit-learn)

- StandardScaler는 각 특성의 평균을 0, 분산을 1로 변경해서 특성을 나타낸다.

이 방법은 특성의 최대값, 최소값을 제한하지는 않는다

- RobustScaler는 StandardScaler 와 비슷하게 특성들을 같은 스케일로 두고, 평균과 분산 대신에 중간 값과 사분위 값을 사용해서 이상 데이터를 표현한다.

-MinMaxScaler는 모든 특성이 0~1사이에 위치하게 데이터를 변경

-Nomalizer는 특성 벡터의 유클리디안 길이가 1이 되도록 데이터 포인트 조정-->특성 벡터의 길이는 상관없이 데이터 방향과 각도가 중요할 때 사용



-QuantileTransformersms 1000개의 분위를 사용해 데이터를 균등하게 분포시킨다. RobustScale과 비슷하게 이상치에 민감하지 않고 전체 dataset을 0~1 사이로 만든다.



-PowerTransformer 메소드 매개변수에 yeo-johnson과 box-cox 알고리즘을 지정해서 데이터의 특성별로 정규분포 형태에 가깝도록 변환해준다





ii) 데이터 변환 적용하는 법

데이터 셋을 훈련 세트와 테스트 세트로 나눔 -> 객체 생성 -> fit 메서드에 훈련 데이터 적용, 이때 지도학습과 다르게 훈련 데이터 (X_train) 만 넘겨준다. -> 스케일 객체의 transform 메서드를 사용해서 fit 메서드로 학습한 변환 적용


댓글

이 블로그의 인기 게시물

시험에 나오는 전기공사 산업기사정리 전기기기-직류기의 구조

익리덤 없는사람은 불쌍해,,후기, 단점, 도색 (MGEX 스트라이크 프리덤)

주식의 기술적 분석- 이큐볼륨차트(EQui volume chart)