목록ML (17)
개발하고 싶어요
LDA(Linear Discriminant Analysis)¶ 지도 학습의 분류에서 사용하기 쉽도록 개별 클래스를 분별할 수 있는 기준을 최대한 유지하면서 차원을 축소한다 특정 공간상에서 클래스 분리를 최대화하는 축을 찾기 위해 클래스 간 분산과 클래스 내부 분산의 비율을 최대화하는 방식으로 차원을 축소 붓꽃 데이터 세트에 LDA 적용하기¶ In [2]: # 붓꽃 데이터 세트를 로드하고 표준 정규 분포로 스케일링 from sklearn.discriminant_analysis import LinearDiscriminantAnalysis from sklearn.preprocessing import StandardScaler from sklearn.datasets import load_iris iris = l..
차원 축소¶ 일반적으로 차원 축소는 피처 선택, 피처 추출로 나눌 수 있다 피처 선택 : 특성 선택은 말 그대로 특정 피처에 종속성이 강한 불필요한 피처는 아예 제거하고, 데이터의 특징을 잘 나타내는 주요 피처만 선택 피처 추출 : 기존 피처를 저차원의 중요 피처로 압축해서 추출, 기존 피처를 단순 압축이 아닌 피처를 함축적으로 더 잘 설명할 수 있는 또 다른 공간으로 매핑해 추출 PCA¶ PCA는 가장 대표적인 차원 축소 기법이다 여러 변수 간에 존재하는 상관관계를 이용해 이를 대표하는 주성분을 추출해 차원을 축소하는 기법 PCA는 다음과 같은 스텝으로 수행 입력 데이터 세트의 공분산 행렬을 생성 공분산 행렬의 고유벡터와 고유값을 계산 고유값이 가장 큰 순으로 K개만큼 고유벡터를 추출 고유값이 가장 큰..
회귀 트리¶ 사이킷런의 랜덤 포레스트 회귀 트리인 RandomForestRegressor를 이용해 앞의 선형 회귀에서 다룬 보스턴 주택 가격 예측 수행 In [16]: from sklearn.model_selection import cross_val_score from sklearn.ensemble import RandomForestRegressor import pandas as pd import numpy as np import matplotlib.pyplot as plt import warnings warnings.filterwarnings('ignore') # 보스턴 데이터 세트 로드 boston_df = pd.read_csv('./data/BostonHousing.csv') boston_df = ..
로지스틱 회귀¶ 회귀 문제를 약간 비틀어 분류 문제에 적용 가령 종양의 크기에 따라 악성 종양인지(1), 아닌지(0)를 회귀를 이용해 1, 0의 값으로 예측하기 로지스틱 회귀 : 선형 회귀 방식을 기반으로 하되 시그모이드 함수를 이용해 분류를 수행하는 회귀 위스콘시 유방암 데이터 세트 기반에서 로지스틱 회귀로 암 여부를 판단 In [24]: import pandas as pd import matplotlib.pyplot as plt from sklearn.datasets import load_breast_cancer from sklearn.linear_model import LogisticRegression import warnings warnings.filterwarnings('ignore') canc..