머신러닝- 비지도학습, 데이터 전처리 part.1
데이터의 비지도 학습에는 비지도 변환, 군집 두가지 종류가 있다. 비지도 변환: 데이터를 재가공, 새롭게 표현해서 타 알고리즘이 raw dataset 보다 쉽게 활용할 수 있도록 만드는 알고리즘 활용 분야: 특징, 특성이 많은 고차원 데이터의 특성 숫자를 줄이면서 꼭 필요한 부분만 포함한 데이터로 표현하는 차원 축소 ex: 시각화 dataset을 2차원으로 변경하는 경우 군집: 데이터의 특성을 추출해서 비슷한 것끼리 그룹으로 묶는 알고리즘 한계 : 비지도 학습은 레이블이 없는 데이터에 적용하기 때문에 출력의 옳고 그름 판단이 안된다. 따라서 (지도학습과 다르게) 데이터 분석을 위한 탐색적 분석 단계에서 주로 사용됨. 이런 데이터 분석, 군집, 변환으로 재가공, 전처리한 datase을 사용한 지도학습은 기존의 학습보다 정확도가 좋다 -스케일 조정은 지도학습 적용전에 사용 i)데이터 전처리, 스케일 조정 (scikit-learn) - StandardScaler는 각 특성의 평균을 0, 분산을 1로 변경해서 특성을 나타낸다. 이 방법은 특성의 최대값, 최소값을 제한하지는 않는다 - RobustScaler는 StandardScaler 와 비슷하게 특성들을 같은 스케일로 두고, 평균과 분산 대신에 중간 값과 사분위 값을 사용해서 이상 데이터를 표현한다. -MinMaxScaler는 모든 특성이 0~1사이에 위치하게 데이터를 변경 -Nomalizer는 특성 벡터의 유클리디안 길이가 1이 되도록 데이터 포인트 조정-->특성 벡터의 길이는 상관없이 데이터 방향과 각도가 중요할 때 사용 -QuantileTransformersms 1000개의 ...