『밑바닥부터 시작하는 딥러닝 4』는 강화 학습에 대한 깊이 있는 이해를 원하는 독자에게 적합한 도서입니다. 저자 사이토 고키는 이 책을 통해 강화 학습의 기초부터 심화 개념까지 체계적으로 설명하고 있습니다. 이 책의 가장 큰 특징은 외부 라이브러리에 의존하지 않고, 알고리즘을 처음부터 구현하면서 학습할 수 있도록 구성되어 있다는 점입니다. 이를 통해 독자들은 이론을 이해하는 데 그치지 않고, 직접 코드를 작성해보며 실습할 수 있는 기회를 가집니다.
책은 다양한 주제를 다루며, 밴디트 문제, 마르코프 결정 과정, 벨만 방정식, 그리고 동적 프로그래밍 등의 핵심 개념을 체계적으로 설명합니다. 각 장에서는 수학적 원리와 함께 예제 코드를 제공하여 독자가 쉽게 이해할 수 있도록 돕습니다. 특히, 강화 학습의 복잡한 수식과 알고리즘을 그림과 예시를 통해 명확하게 설명하고 있어, 초보자도 부담 없이 접근할 수 있습니다.
또한, 이 책은 심층 강화 학습에 대한 내용도 포함하고 있어, 최신 알고리즘에 대한 이해를 높이는 데에도 큰 도움이 됩니다. 저자는 파이썬과 기본적인 수학 지식만 있으면 이 책을 충분히 활용할 수 있도록 친절하게 설명하고 있으며, 독자들이 실제 문제에 적용할 수 있는 능력을 기를 수 있도록 구성하였습니다.
이 책은 강화 학습에 대한 기초를 다지고자 하는 개발자, 데이터 과학 입문자, 그리고 딥러닝을 깊이 있게 이해하고 싶은 분들에게 추천할 만한 필독서입니다. 수학을 두려워하지 않고, 이론과 실제를 연결지어 학습할 수 있는 기회를 제공하는 『밑바닥부터 시작하는 딥러닝 4』를 통해 강화 학습의 매력을 느껴보시기 바랍니다.
목차
CHAPTER 1 밴디트 문제
_1.1 머신러닝 분류와 강화 학습
_1.2 밴디트 문제
_1.3 밴디트 알고리즘
_1.4 밴디트 알고리즘 구현
_1.5 비정상 문제
_1.6 정리
CHAPTER 2 마르코프 결정 과정
_2.1 마르코프 결정 과정(MDP)이란?
_2.2 환경과 에이전트를 수식으로
_2.3 MDP의 목표
_2.4 MDP 예제
_2.5 정리
CHAPTER 3 벨만 방정식
_3.1 벨만 방정식 도출
_3.2 벨만 방정식의 예
_3.3 행동 가치 함수(Q 함수)와 벨만 방정식
_3.4 벨만 최적 방정식
_3.5 벨만 최적 방정식의 예
_3.6 정리
CHAPTER 4 동적 프로그래밍
_4.1 동적 프로그래밍과 정책 평가
_4.2 더 큰 문제를 향해
_4.3 정책 반복법
_4.4 정책 반복법 구현
_4.5 가치 반복법
_4.6 정리
CHAPTER 5 몬테카를로법
_5.1 몬테카를로법 기초
_5.2 몬테카를로법으로 정책 평가하기
_5.3 몬테카를로법 구현
_5.4 몬테카를로법으로 정책 제어하기
_5.5 오프-정책과 중요도 샘플링
_5.6 정리
CHAPTER 6 TD법
_6.1 TD법으로 정책 평가하기
_6.2 SARSA
_6.3 오프-정책 SARSA
_6.4 Q 러닝
_6.5 분포 모델과 샘플 모델
_6.6 정리
CHAPTER 7 신경망과 Q 러닝
_7.1 DeZero 기초
_7.2 선형 회귀
_7.3 신경망
_7.4 Q 러닝과 신경망
_7.5 정리
CHAPTER 8 DQN
_8.1 OpenAI Gym
_8.2 DQN의 핵심 기술
_8.3 DQN과 아타리
_8.4 DQN 확장
_8.5 정리
CHAPTER 9 정책 경사법
_9.1 가장 간단한 정책 경사법
_9.2 REINFORCE
_9.3 베이스라인
_9.4 행위자-비평자
_9.5 정책 기반 기법의 장점
_9.6 정리
CHAPTER 10 한 걸음 더
_10.1 심층 강화 학습 알고리즘 분류
_10.2 정책 경사법 계열의 고급 알고리즘
_10.3 DQN 계열의 고급 알고리즘
_10.4 사례 연구
_10.5 심층 강화 학습이 풀어야 할 숙제와 가능성
_10.6 정리
APPENDIX A 오프-정책 몬테카를로법
A.1 오프-정책 몬테카를로법 이론
A.2 오프-정책 몬테카를로법 구현
APPENDIX B n단계 TD법
APPENDIX C Double DQN 이해하기
C.1 DQN에서의 과대적합이란?
C.2 과대적합 해결 방법
APPENDIX D 정책 경사법 증명
D.1 정책 경사법 도출
D.2 베이스라인 도출
- 교보문고: https://bitl.bz/ypNYzV
- 쿠팡: https://bitl.bz/7XewMv
- Yes24: https://bitl.bz/a9R2Kw
'데이터 과학 > 통계학, 머신러닝' 카테고리의 다른 글
정윤식, 베이지안 통계학의 이론·계산 및 응용 - 2판, 자유아카데미 (0) | 2025.03.21 |
---|---|
사이토 고키, 밑바닥부터 시작하는 딥러닝 5 - 10단계로 익히는 이미지 생성 모델의 원리, 한빛미디어 (0) | 2025.03.19 |
사이토 고키, 밑바닥부터 시작하는 딥러닝 3 - 파이썬으로 직접 구현하며 배우는 딥러닝 프레임워크, 한빛미디어 (1) | 2025.03.17 |
사이토 고키, 밑바닥부터 시작하는 딥러닝 2 - 파이썬으로 직접 구현하며 배우는 순환 신경망과 자연어 처리, 한빛미디어 (0) | 2025.03.16 |
사이토 고키, 밑바닥부터 시작하는 딥러닝 1(리마스터판) - 파이썬으로 익히는 딥러닝 이론과 구현, 한빛미디어 (0) | 2025.03.15 |