분류 전체보기 49

[파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습] chapter5 토큰화

🚨해당 게시글에 포함된 이미지 중 출처가 쓰여있지 않은 이미지는 모두 직접 그렸습니다.5.0. 서론자연어(Natural Language) : 인공적으로 만들어진 프로그래밍 언어와 다르게 사람들이 쓰는 언어 활동을 위해 만들어진 언어자연어 처리(Natural Language Processing, NLP) : 컴퓨터가 인간의 언어를 이해하고 해석 및 생성하기 위한 기술인간 언어의 구조, 의미, 맥락을 분석하고 이해할 수 있는 알고리즘과 모델을 개발하기 위해 해결할 문제모호성(Ambiguity) : 인간의 언어는 단어와 구와 사용되는 맥락에 따라 여러 의미를 갖게 되어 모호한 경우가 많음가변성(Variability) : 다양한 사투리, 강세, 신조어, 작문 스타일로 인해 매우 가변적구조(Structure) ..

ML,DL 2026.03.14

[파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습] chapter4 파이토치 심화

4.1. 과대적합과 과소적합과대적합(Overfitting) : 모델이 훈련 데이터 에서는 우수하게 예측하지만, 새로운 데이터에서는 제대로 예측하지 못해 오차가 크게 발생하는 것(모델의 일반화 능력 저하) → 모델이 훈련 데이터에만 적합하게 학습되어 새로운 데이터에 대해서는 성능이 저하되는 경우과소적합(Underfitting) : 모델이 훈련 데이터에서도 성능이 좋지 않고 새로운 데이터에서도 성능이 좋지 않은 것과대적합과 과소적합은 다음과 같은 공통점이 있다.성능 저하모델 선택 실패 → 모델을 변경하거나 모델 구조를 개선해야한다.편향-분산 트레이드오프 → 모델의 성능을 높이기 위해 편향과 분산의 균형을 맞춰야 한다.4.1.1. 과대적합과 과소적합 문제 해결데이터 수집 : 학습 데이터 수 늘리기피처 엔지니어..

ML,DL 2026.03.12

[파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습] chapter3 파이토치 기초

3.2. 가설가설(Hypothesis)이란 어떤 사실을 설명하거나 증명하기 위한 가정으로 두 개 이상의 변수의 관계를 검증 가능한 형태로 기술하여 변수 간의 관계를 예측하는 것을 의미한다.연구가설(Research Hypothesis) : 연구자가 검증하려는 가설로 귀무가설을 부정하는 것으로 설정한 가설귀무가설(Null Hypothesis) : 처음부터 버릴 것을 예상하는 가설대립가설(Alternative Hypothesis) : 귀무가설과 반대되는 가설3.2.1. 머신러닝에서의 가설머신러닝에서의 가설은 독립 변수(X)와 종속 변수(Y) 간의 관계를 가장 잘 근사(Approximation)시키기 위해 사용된다.단일가설(Single Hypothesis) - h : 입력을 출력에 매핑하고 평가하고 예측하는 데..

ML,DL 2026.03.12

RNN, LSTM 이해하기 (PyTorch로 구현한 코드 포함)

🚨해당 게시글에 포함된 이미지 중 출처가 쓰여있지 않은 이미지는 모두 직접 그렸습니다. CNN과 같은 다른 신경망들은 은닉층에서 활성화 함수를 지나 출력층 방향으로 향하는 feed forward network이다.따라서 시계열 데이터같은 sequential 한 데이터를 처리하기 위해서는 전체 시퀀스를 하나의 벡터로 넣어줘야한다는 문제가 발생한다.이를 해결하기 위해서 RNN이라는 시퀀스 모델이 등장했다.1. RNN(Recurrent Neural Network) : 데이터의 순서(Sequence)를 기억하고 처리하는 딥러닝 모델RNN의 핵심 아이디어를 수식으로 나타내면 다음과 같다.그림으로 나타내면 아래의 그림과 같다.위와 같이 RNN은 은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 출력층 방향으로도..

ML,DL 2026.03.11

[바닥부터 배우는 강화학습] Chapter 7 Deep RL 첫 걸음

7.1. 함수를 활용한 근사이번 챕터부터는 상태의 개수가 무수히 많은 커다란 MDP를 푸는 방법에 대한 내용을 다룬다.먼저, 상태의 개수가 많은 경우가 테이블 기반 방법론을 사용하기 어렵게 만드는 이유를 생각해보자.체스나 바둑을 생각해보면 고유한 상태의 수를 어림하여 생각해보아도 $10^{47},10^{170}$와 같이 무수히 많다. → 그럼 상태의 개수만큼 테이블이 커져야한다.만약 자동차를 운전하는 인공지능 에이전트를 강화학습으로 만든다고 할 때에 상태를 생각해본다면? 현재 속도 정보를 사용한다고 했을 때 속도는 이산적인 값이 아니라 연속적인 값을 가진다. 이런 상황을 **연속적인 상태 공간(continuous state space)**라고 한다. → 상태 공간이 연속적이라면 테이블을 만드는 것은 불가..

ML,DL 2026.03.11

[바닥부터 배우는 강화학습] Chapter 6 MDP를 모를 때 최고의 정책 찾기

6.1. 몬테카를로 컨트롤챕터 4에서 MDP를 알 때에 최적의 정책 함수를 구하는 방법론을 몇 가지 배웠다. 그 중 정책 이터레이션은 [임의의 정책에서 시작→정책 평가→밸류 계산→계산한 밸류에 대해 그리디 정책 만듦] 과정을 계속해서 반복하는 방법이었다. 모델-프리에서는 정책 이터레이션을 그대로 사용할 수 없을까?6.1.1. 정책 이터레이션을 그대로 사용할 수 없는 이유위와 같이 평가 단계에서는 반복적 정책 평가를, 개선 단계에서는 그리디 정책 생성을 이용했다. 이 방법을 모델 프리 상황에서 그대로 사용하기에는 문제가 있다.1. 평가 단계에서 반복적 정책 평가를 사용할 수 없다.반복적 정책 평가의 핵심이 되었던 벨만 기대 방정식 2단계를 생각해보자. 여기에는 MDP를 알아야만 채울 수 있는 값이 있다. ..

ML,DL 2026.03.10

[바닥부터 배우는 강화학습] Chapter 5 MDP를 모를 때 밸류 평가하기

모델(model) : 강화 학습에서 환경의 모델의 줄임말. 에이전트의 액션에 대해 환경이 어떻게 응답할지 예측하기 위해 사용하는 모든 것을 가리킨다.모델 프리(model-free) : MDP를 모르는 상태(”모델을 모른다” = ”MDP를 모른다” = “모델 프리다”)모델 기반(Model-based) 혹은 플래닝(planning) : MDP를 아는 상태챕터 4에서는 MDP를 아는 상황(보상 함수, 전이확률을 알고 있는 상태)에서 밸류를 평가하였다. 챕터 5에서는 MDP를 모르는 상황에서 밸류를 평가해보자.모델 프리 상황에서의 prediction, 즉 π가 주어졌을 때 가치를 평가하는 2가지 방법에 대해 배우자. 여전히 작은 MDP를 다루기 때문에 테이블 룩업(table look-up) 방법론으로 진행한다...

ML,DL 2026.03.10

[바닥부터 배우는 강화학습] Chapter 4 MDP를 알 때의 플래닝

가장 간단한 상황인 *MDP를 알 때 *작은 문제를 푸는 방법에 대해 생각해보자.*MDP를 안다 : 보상 함수와 전이 확률 행렬을 안다.*작은 문제 : MDP에서 상태 집합 S나 액션의 집합 A의 크기가 작은 경우4.1. 밸류 평가하기 - 반복적 정책 평가위의 그림과 같이 4방향 랜덤이라는 정책 함수 π가 주어졌고 이때 각 상태 s에 대한 가치함수 v(s)를 구하는 전형적인 prediction 문제를 풀어보자.이 문제는 반복적 정책 평가(iterative policy evaluation)이라는 방법론을 통해 해결할 수 있다. 반복적 정책 평가란? 테이블의 값들을 초기화한 후, 벨만 기대 방정식을 반복적으로 사용하여 테이블에 적어 놓은 값을 조금씩 업데이트 해나가는 방법론위 그림에서 우리는 보상 함수와 전..

ML,DL 2026.03.09

[바닥부터 배우는 강화학습] Chapter 3 벨만 방정식

🚨해당 게시글에 포함된 이미지 중 출처가 쓰여있지 않은 이미지는 모두 직접 그렸습니다.3.0. 재귀 함수벨만 방정식은 기본적으로 재귀적 관계에 대한 식이다.재귀라는 개념을 먼저 이해하기 위해 다음과 같은 수열을 생각해보자. $0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, …$이 수열은 앞의 두 항을 더해서 그 다음 항이 만들어진다. $0+1=1, 1+1=2, 2+3=5, …$일반적인 함수를 이용하여 수열을 표현하면 (1)과 같지만 주어진 수열만 보고 (1)을 떠올리기는 쉽지않다.이런 상황에서는 (2)와 같은 재귀함수를 이용하면 위의 수열을 쉽게 표현할 수 있다.이처럼 재귀 함수는 자기 자신과의 관계를 이용해 자기 자신을 표현한다. n에서의 함수 값이 n-1과 n-2에서의 함수..

ML,DL 2026.02.21

[바닥부터 배우는 강화학습] Chapter 2 마르코프 결정 프로세스(Markov Decision Process)

🚨해당 게시글에 포함된 이미지 중 출처가 쓰여있지 않은 이미지는 모두 직접 그렸습니다.2.1. 마르코프 프로세스(Markov Process)위의 그림은 아이가 잠이 들 때 벌어지는 상황을 마르코프 프로세스로 모델링한 그림이다. 아이가 취할 수 있는 상태의 종류는 총 5가지로, 아이가 하나의 상태로 진입하게 되면 해당 상태에서 1분씩 머물게 된다. 1분이 지나면 다음 상태로 전이한다. 아이가 잠에 드는 과정은 항상 자리에 눕는 것으로 부터 시작하기 때문에 마르코프 프로세스의 첫 상태는 s0이다. 아이가 잠이 들어 s4 상태에 도달하는 순간 마르코프 프로세스는 끝이 난다.상태의 집합 S가능한 상태들을 모두 모아놓은 집합이다. 아이가 잠드는 마르코프 프로세스에서는 집합의 원소가 $s_0, s_1, s_2, ..

ML,DL 2026.02.20