'머신러닝' 카테고리의 글 목록

머신러닝 알고리즘의 속도와 정확도를 높이는 범
이 이론들을 사이킷 런과 판다스 라이브러리에 적용하는 법

1.데이터 전처리

: 데이터를 그대로 사용하지 않고, 가공해서 모델을 학습시키는데 좀 더 좋은 형식으로 만들어 주는 것

Feature Scaling

머신러닝 모델에 사용할 입력 변수들의 크기를 조정해서 일정 범위 내에 떨어지도록 바꾸는 것

--> 경사 하강법을 좀 더 빨리할 수 있게 도와 준다!

-(min-max) normalization

최솟값 최댓값을 이용해서 데이터의 크기를 0과 1 사이로 바꿔준다

경사하강법 (복습)

선형회귀: 데이터가 가장 잘 맞는 선 또는 가설 함수

손실함수: 가설함수를 평가하기 위한 함수, 손실이 크면 가설 함수가 안 좋다는 뜻이고 손실이 작으면 가설 함수가 좋다는 뜻이다.

선형회귀의 평균 제곱 오차가 크면 가설 함수가 안 좋고, 평균 제곱 오차가 작으면 가설 함수가 좋다

경사하강법: 어떤 지점에서 경사가 가장 가파른 방향으로 한 걸음 씩 내려가는 것. 그렇게 해서 최소점에 도달하는 것 .

등고선

3차원 그래프를 2차원으로 표현하는 방법

--> 특정 지점에서 경사가 가장 가파른 방향은 등고선과 수직이 되는 방향을 뜻함

Feature Scaling & 경사 하강법

선형회귀에서는 데이터에 가장 적합한 선을 찾는 것이 목표이고 세타제로와 세타원을 찾아야 한다

세타원은 큰 영향을 주지 않지만 세타 원은 큰 변수와 곱해지기 때문에 조금만 바뀌어도 영향이 커진다

정규화

위 두 그래프를 경사하강시킴.

그래프는 경사하강을 통해서 지그재그모양으로 내려오게됨.

Standardiation

평균과 표준편차

표준화 (standardiation)

사이킷런으로 표준화하기

from sklearn import preprocessing
import pandas as pd
import numpy as np
    
NBA_FILE_PATH = '../datasets/NBA_player_of_the_week.csv'
# 소수점 5번째 자리까지만 출력되도록 설정
pd.set_option('display.float_format', lambda x: '%.5f' % x)
    
nba_player_of_the_week_df = pd.read_csv(NBA_FILE_PATH)
    
# 데이터를 standardize 함
scaler = preprocessing.StandardScaler()
standardized_data = scaler.fit_transform(height_weight_age_df)
    
standardized_df = pd.DataFrame(standardized_data, columns=['Height', 'Weight', 'Age'])

minmaxscaler->standardscalar

머시러닝 데이터 종류

-수치형

-범주형

머신러닝 알고리즘은 수치형데이터여야 한다.

그렇다면 범주형을 수치형으로 어떻게 바꿔야 하는가?

'one-hot encoding'

02. 편향과 분산

편향

모델이 너무 간단해서 데이터의 관계를 잘 학습하지 못하는 경우 : 편향 (bias)가 높다

편향이 높은 모델은 선과 트레이닝 데이터의 관계가 명확하게 맞춰져 있다

하지만 편향이 낮다고 무조건 좋은 것은 아님

분산

데이터 셋 별로 모델이 얼마나 일관된 성능을 보여주는 지(variance)

데이터 셋 간에 성능 차이가 많이 나면 '분산이 높다'

직선 모델의 경우 분산이 작다

용어 정리

과소적합(underfit): 편향이 높고 분산이 낮은 모델

과적합(overfit): 편향이 낮고 분산이 높은 모델

편향-분산 트레이드 오프(bias-variance tradeoff)

일반적으로 편향과 분산 둘중 하나가 줄어들면 하나가 늘어나는 관계가 있다

그러므로 딱 적당한 곡선을 찾아야 한다.

머신러닝에서 정규화는 정규화항을 더해서 세타값들이 커지는 것을 방지하는 기법이다

.

K-겹 교차 겁증(k-fold cross validation)

: 머신러닝 성능을 좀 더 정확하게 평가 할 수 있는 방법

데이터를 training과 test로 나누어 서능파악

but 딱 test set에서만 성능이 좋은 거 일 수도 있고 , 안좋게 나올 수도 있다

K-겹 교차 검증

먼저 전체 데이터를 k개의 같은 사이즈로 나눈다.

이데이터셋들을 이용해서 모델의 성능을 여러번 검증

가장위에와 앞에 있는 데이터 셋을 테스트 셋 나머지를 트레이닝 셋으로 사용

K고르기

K는 데이터가 몇개 있느냐에 따라 다르지만 가장 일반적으로 사용하는 숫자는 5

그리고 데이터가 많을 수록 우연히 test set에서만 다르게 나올 확률이 적기 때문에 작은 k를 사용해도 됨

하이퍼 파라미터(hyperparameter)

많은 머신러닝 알고리즘에서 학습을 하기 전에 미리 정해 주어야 하는 변수 또는 파라미터들

그리드 서치(grid search)

굉장히 직관적 , 정해줘야 하는 각 하이퍼 파라미터에 넣어보고 싶은 후보 몇개씩 정하낟. 그리고 모든 후보 값의 조합으로 모델을 학습시켰을 때 성능이 가장 좋았던 하이퍼 파라미터 조합을 고르면 됨.

'머신러닝' 카테고리의 다른 글

03. 머신러닝 (0)	2022.11.02
02. 머신러닝 (0)	2022.10.12
01.머신러닝 (0)	2022.10.12

머신러닝: 기계학습을 통해 발전하는 것

일반프로그램과 머신러닝 프로그램의 차이

-일반프로그램은 그 작동만 수행하는 반면 머신러닝 프로그래밍은 작동하면 작동할 수록 학습을 통해 더 잘하게 됨

ex) 스팸메일분류

프로그램이 스스로 규칙을 찾아 냄

어떻게 가능한가?

-데이터

머신러닝: 기계가 학습한다는 건, 프로그램이 특정 작업(T)을 하는 데 있어서 경험(E)을 통해 작업의 성능 (P)을 향상시키는 것

-톰 미첼(Tom Mitchell)

머신러닝이 핫해진 이유

1. 사용할 수 있는 데이터가 많아졌다.

경험: 데이터

옛날에는 데이터가 충분하지 않았고 아날로그로 저장했고 굳이 저장도 안했음.

2. 컴퓨터 성능이 좋아졌다!

빠르게 연산할 수 있는 컴퓨터가 필요함

3.활용성이 증명되었다!

머신러닝-빅데이터-딥러닝-인공지능

빅데이터: 엄청나게 많은 양의 데이터를 다루는 분야

인공지능: 컴퓨터 프로그램이 인간처럼 생각 행동하게 하는 학문

머신러닝: 인공지능의 달성하기 위한 방법

딥러닝: 머신러닝의 한 분야

지도학습 : supervised learning, 답이 있고 이 답을 맞추는게 학습의 목적

ex)스팸 메일 분류 프로그램 , 아파트 가격 예측 프로그램

-분류(classification)-->스팸메일

-회귀(regresseion)-->집값

비지도학습 :unsupervised learning, 답이 없고 이 답을 맞추는게 학습의 목적

ex) 알아서 분류하셈!

강화학습:

K-NN알고리즘 (k-nearest neighbor)

타이타닉

머신러닝

컴퓨터과학+수학(선형대수,미분,통계,확률)

-----------------

선형대수학 : 일차식이나 일차 함수를 공부하는 학문

일차식: 가장 높은 차수가 1인 다항식

다항식: 항이 여러개인 식

일차함수

행렬곽 벡터

행렬: 수를 직사각형 형태로 나열한 것

행은 가로 열은 세로

벡터: 행또는 열이 하나밖에 없는 행렬 (행벡터, 열벡터)

벡터의 경우는 원소의 갯루를 통해서 나타나낸다.

import numpy as np

행렬 연산

덧셈은 그냥 더하면 됨

행렬을 더하기 위해서는 두 행렬의 차원이 같아야함

곱셈

scala 곱하기 행렬은 모든 값에 스칼라값을 곱해주면 됨

행렬곱하기 행렬

내적분 =a1행과 b1열을 곱해서 다 더함 그러면 결과행렬 1행1열에 위치하게됨

나머지도 이런식

mxn 행렬과 nxp행렬이 곱했을 때 mxp행렬이 나오게 됨

행렬AB와 행렬 BA 는 다름

특수 행렬들

전치행렬

A -->At 행과 열을 바꾸는 것

단위행렬

I 기호를 사용하며 대각선만 1이고 나머지는 0으로 구성되어 있음

목적: 어떤 행렬이든지 간에 기존행렬이 그대로 유지 될 수 있게 하는 행렬

역행렬

A라는 행렬이 있을 때 곱하여 단위행렬 I가 나올 수 있게 하는 행렬

'머신러닝' 카테고리의 다른 글

05.머신러닝 (0)	2022.11.16
02. 머신러닝 (0)	2022.10.12
01.머신러닝 (0)	2022.10.12

1. Dataframe 인덱싱1

인덱싱: 데이터를 선택하는 것

데이터를 편하게 다루기 위해서 인덱싱을 자유자재로 다룰 수 있어야 함

iphone_df.loc['iphone8','메모리']

-->2GB

iphone_df.loc['iphone8','가격']

-->에러 (가격이라는 칼럼이 없기 때문)

iphone_df.loc['iphoneX',:]

-->모든데이터 출력

iphone_df.loc['iphoneX']

--> "

type(iphone_df.loc['iphoneX'])

--> series

iphone_df[:,'출시일']

---

iphone_df['출시일']

----

2. DataFrame 인덱싱2

여러줄을 한꺼번에 받아오기

iphone_df.loc['iphoneX']

iphone_df.loc[['iphoneX','iphone8']]

type(iphone_df.loc[['iphoneX','iphone8']])

-->pandas.core.framd.DataFrame

iphone_df['Face ID']

iphone_df[['Face ID','출시일','메모리']]

iphone_df['iphone8':iphoneX]

iphone_df['메모리':'Face ID']

-->정상적인 값이 나오지 않음

iphone_df.loc[:,'메모리':'Face ID']

-->모든 로우에 대해서 메모리 부터 Face ID를 출력

3. 데이터 프레임 조건으로 인덱싱

'머신러닝' 카테고리의 다른 글

05.머신러닝 (0)	2022.11.16
03. 머신러닝 (0)	2022.11.02
01.머신러닝 (0)	2022.10.12

'머신러닝' 카테고리의 다른 글

05.머신러닝 (0)	2022.11.16
03. 머신러닝 (0)	2022.11.02
02. 머신러닝 (0)	2022.10.12

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

DJ pupm this party

머신러닝

05.머신러닝

'머신러닝' 카테고리의 다른 글

03. 머신러닝

'머신러닝' 카테고리의 다른 글

02. 머신러닝

'머신러닝' 카테고리의 다른 글

01.머신러닝

'머신러닝' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역