7월, 2021의 게시물 표시

머신러닝- 비지도학습, 데이터 전처리 part.1

이미지
데이터의 비지도 학습에는 비지도 변환, 군집 두가지 종류가 있다. 비지도 변환: 데이터를 재가공, 새롭게 표현해서 타 알고리즘이 raw dataset 보다 쉽게 활용할 수 있도록 만드는 알고리즘     활용 분야:   특징, 특성이 많은 고차원 데이터의 특성 숫자를 줄이면서 꼭 필요한 부분만 포함한 데이터로 표현하는 차원 축소      ex: 시각화 dataset을 2차원으로 변경하는 경우 군집: 데이터의 특성을 추출해서 비슷한 것끼리 그룹으로 묶는 알고리즘  한계 : 비지도 학습은 레이블이 없는 데이터에 적용하기 때문에 출력의 옳고 그름 판단이 안된다. 따라서 (지도학습과 다르게) 데이터 분석을 위한 탐색적 분석 단계에서 주로 사용됨. 이런 데이터 분석, 군집, 변환으로 재가공, 전처리한 datase을 사용한 지도학습은 기존의 학습보다 정확도가 좋다                                      -스케일 조정은 지도학습 적용전에 사용 i)데이터 전처리, 스케일 조정 (scikit-learn) - StandardScaler는 각 특성의 평균을 0, 분산을 1로 변경해서 특성을 나타낸다. 이 방법은 특성의 최대값, 최소값을 제한하지는 않는다 - RobustScaler는 StandardScaler 와 비슷하게 특성들을 같은 스케일로 두고, 평균과 분산 대신에 중간 값과 사분위 값을 사용해서 이상 데이터를 표현한다. -MinMaxScaler는 모든 특성이 0~1사이에 위치하게 데이터를 변경 -Nomalizer는 특성 벡터의 유클리디안 길이가 1이 되도록 데이터 포인트 조정-->특성 벡터의 길이는 상관없이 데이터 방향과 각도가 중요할 때 사용 -QuantileTransformersms 1000개의 ...

머신러닝 지도학습의 모든 알고리즘별 요약

 1) K-nearest neighbor - 최근접 이웃 알고리즘 작은 데이터셋일 경우 기본적으로 설명하기 쉬운 모델임, training dataset 을 그냥 저장하고, 새로운 데이터 포인트 예측 시 training dataset에서 가장 가까운 포인트 찾는 알고리즘     code: mglearn.plots.plot_knn_classification(n_neighbors=1)      n_neighbors는 가장 가까운 이웃 개수 설정가능, 1개가 아니고 k 개 이웃의 수를 늘릴수록 kneighborclassifier분석 시 결정 경계가 부드러워짐 -> 더 단순한 모델을 의미 -> 복잡도 낮아짐 -> 훈련 데이터의 정확도 감소  최근접 이웃 알고리즘에서 주요 매개변수 : 데이터 포인트 사이의 거리재는 방법, 이웃의 수  장점: 쉽고 파라미터 조정이 많이 필요하지 않음 단점: 훈련 데이터셋이 크면 예측이 느려지고 전처리과정이 복잡, 특성값대부분이 희소한 (0이 많은) 데이터셋은 잘 작동하지 않음 따라서 예측 속도가 느리고 분류 능력이 부족해서 학습용으로만 쓰이고 실무에서는 많이 쓰이지 않음. 2) Linear mode - 선형 모델 알고리즘 대용량 데이터셋, 고차원 데이터셋에 대한 지도학습 가능 특성이 하나일 땐 직선, 두개일 땐 평면 --> 더 특성이 많은 높은 차원에서는 hyperplane(I초평면) 이 되는 회귀모델의 특징을 가지고 있음     2-1) Linear regression (OLS, ordinarty least squares)      예측과 훈련셋에 있는 평균제곱오차(mean squared error)을 최소화하는 파라미터 w,b           찾고, 예측값과 목표값 차이를 제곱해서 더한 후 샘플 수로 나눔     2-2) Ridg...

파일코인이 암호화폐, 블록체인의 미래인 이유, 사용 방법

이미지
일전에 IPFS 가 dapp 개발의 메인이라고 했는데  i)ipfs 하는 이유  IPFS(행성 간 파일 시스템). IPFS를 사용하면 내부 블록체인 기술 덕분에 데이터 스토리지의 안정성을 높일 수 있습니다.  Filecoin은 IPFS 노드에 대한 스토리지 인센티브를 제공하는 새로운 시스템입니다. 이더리움 블록체인에 직접 저장한다면 트랜젝션 자체가 모든 노드에 공유되기 때문에 대규모 데이터세트에 경우 매우 비효율적,  따라서 일부 노드만 데이터를 저장해서 파일을 노드의 하위 집합에 할당하는게 낫습니다 ii)ipfs 원리  핵심 원리는 DHT (분산 해시 테이블)를 사용하여 노드에 파일을 배포합니다. 이 방법은 DOS에 강하면서도 노드 간의 모든 파일에 대해 짧은 경로를 통해 파일을 다소 랜덤하게 배포하는 방법입니다. 이더리움 DHT 는 Kademilia DHT 방법을 사용하는데 아래와 같은 4가지 프로토콜이 있습니다. ---------------------------------------------------------------------------------------------- PING — 상대 노드가 여전히 살아있는지 확인 STORE — 노드에 (키,값) 쌍을 저장 FIND_NODE — 자신의 버킷에 있는 k개의 노드들 (요청된 노드에 가장 가까운)들을 리턴 한다.  FIND_VALUE — FIND_NODE 와 동작방식이 같으나, 해당 키가 노드ID가 아니라 저장소에 있다면, 해당되는 값을 리턴 해준다.  ---------------------------------------------------------------------------------------------- IPFS는 k-dht 이외의 여러 가지 서비스를 기반으로 구축됩니다.또한 IPNS 명명 시스템, 파일당 고유한 해시, 파일 권한 및 비트토렌트와 같은 기능을 사용할 수 있습니다. iii) IPFS 구현 // SPDX-Lic...

엑시인피니티 전망 (Is Axie Infinity better than CryptoKitties?)

이미지
 전체적으로 비트코인을 비롯한 암호화폐 장세가 하락세인데도 불구하고 엑시인피니티(Axie Infinity)는 연속적으로 강력한 모습을 보여주었다. 이번 포스팅은 Axie Infinity 가 과연 스캠일지, 이번 펌핑 후에 아예 죽어버리는 종목인지 파악하기 위해 원조 nft dapp 대표 종목인 크립토키티(cryptokitties)와 비교하는 글이다. 크립토키티와 엑시인피니티는 둘 다 이더리움 기반의 NFT dapp 으로써  대표적인 선발주자와 후발주자로 비교하며 추후 나오는 암호화폐, 블록체인에 관한 개념을 잡도록 하는게 글의 목적이다                                                  이더리움의 스마트 컨트랙트 양식인 ERC 20예시, 둘 다 ERC20, 721 등 같은 양식을 사용한다 i) 기본적으로 암호화폐 투자하는 사람들과 비관하는 사람들이 드는 공통적인 궁금증이 있다 '과연 블록체인, 암호화폐가 실생활에 사용될 수 있는지? 사용된다면 지금 얼마만큼의 user case가 있는지'  이러한 부분에서 크립토키티는 '대표적인 NFT Dapp, 한장에 10억짜리, 수집욕' 등의 키워드로 표현된다. 뭔가 대단한 느낌의 크립토키티의 기술적, 근본적 가치를 확인하기 전에 시장 참여자로써 확인할 수 있는 크립토키티의 게임을 확인한다면 다음과 같다 개인적인 감상으로는 못생기고, IP로서 매력적이지 않고, 2D 이미지로써 모으고, 교배하고 breed 말고 기능이 없는 단지 solidity 2000줄짜리 프로그램이라고 생각한다. 좀 더 와닿는 비유를 하자면 움직이지 않는 1세대 디지몬 게임기같은 느낌이다. 블록체인, 이더리움을 이용하여 만들...