"메이저리그 야구 통계학"은 야구를 통해 데이터 분석과 통계학을 배우고자 하는 독자들에게 최적화된 도서입니다. 김재민 저자는 메이저리그의 방대한 데이터를 활용하여 데이터 분석의 다양한 기법을 설명하고, 이를 통해 독자들이 데이터과학의 세계에 쉽게 입문할 수 있도록 안내합니다.
이 책은 데이터 분석의 기초부터 고급 기법까지 폭넓게 다루며, 특히 오픈소스 통계 프로그램 R을 활용한 실습을 통해 실질적인 분석 능력을 키울 수 있도록 구성되어 있습니다. 1장에서는 데이터의 구조와 변수에 대해 설명하며, 2장에서는 메이저리그 데이터를 활용한 데이터 마이닝 기법을 소개합니다. 3장에서는 선수의 능력을 측정하는 다양한 지표와 그 신뢰성에 대해 다루고, 4장에서는 상관관계와 인과관계의 차이를 분석합니다.
또한, 5장에서는 머신러닝 기법을 소개하며, 6장에서는 복잡한 현실을 수학적 모델로 전환하는 모델링 과정을 설명합니다. 마지막으로 7장에서는 머신러닝을 이용한 자연어 처리 기법을 다루며, 비구조화된 데이터의 분석 가능성을 제시합니다.
이 책은 특히 R에 관심이 있지만 시작하기 어려웠던 초보자, 데이터 분석을 필요로 하는 직장인, 그리고 야구를 통해 데이터과학에 관심을 가지고 있는 스포츠 팬들에게 유용한 참고서가 될 것입니다. 메이저리그 데이터를 통해 현실의 데이터를 모델링하고 예측하는 과정을 배우며, 데이터과학의 매력을 느껴보세요.
목차
1장. 변수를 알면 분석모델을 디자인할 수 있다
__데이터과학에서 왜 야구인가?
__분석 공부 중도에 포기하지 않는 방법: 나만의 데이터 만들기
__변수를 알아야 분석이 보인다
____연속 변수
____이산 변수
____명목 변수
____서열 변수
__데이터 구조를 파악하다
__여러분이 가지고 있는 변수의 특징
____데이터 중심화 경향
____데이터의 분포범위
__데이터는 조작되지 않아야 한다
__데이터 분석의 완성: 데이터 가치 사슬
__R 스튜디오와 친구들
____R 스크립트
____R 노트북
____R 마크다운
____샤이니웹앱
__패키지 없는 R은 앱 없는 스마트폰
__정리하며
2장. 메이저리그 데이터 마이닝
__마이닝의 개념
__간단한 데이터 내 손으로 직접 만들기
__데이터를 R로 불러올 때 알아두면 좋은 정보
__인터넷에서 만난 팬그래프닷컴 데이터를 R로 불러오기
__빅데이터에서 필요한 데이터 분리하기
__작업했던 코딩과 데이터 정보 저장하기
__순서가 같은 테이블 합치기: cbind( ) 그리고 rbind( )
__순서가 다른 테이블 합치기: merge( )
__양적 변수를 명목 변수로 바꾸기
__괄호 사용법
____소괄호 ( )
____중괄호 { }
____대괄호 [ ]
__결측값 제거하기
__조건문 사용하기
__계속 사용할 테이블 고정하기
__추가로 공유하고 싶은 마이닝 기법들
__정리하며
3장. 선수의 능력은 어떻게 측정할 것인가?
__과학적 측정
__측정의 신뢰도
__영화 〈머니볼〉에서 보는 신뢰도가 높은 지표의 활용 케이스
__측정의 타당도
__능력과 운의 결과물: 시즌 성적
__공격지표들을 이용한 상관관계
__데이터에서 룰을 찾다: 연관성 분석
__선수와 감독의 인적 상관성: 네트워크 분석
__기술통계와 추정통계의 매개: 히스토그램은 막대그래프가 아니다
__정리하며
4장. 상관관계는 인과관계가 아니다
__인과관계의 필수조건
__확률로 따지면 말이야
__오류는 모델링의 꽃
____진실이 존재하는 신의 영역
____예측모델과 데이터가 있는 현실계
__확률과 우도
__출루의 조건: 최대우도추정법
__정규분포: 얼마나 칠 것인가?
____중심극한정리란?
____회귀분석에서는 왜 정규분포를 사용하지 않고 스튜던트 t 분포를 사용하는가?
__좋은 예측모델 구별법: 표준오차
__팀타율 1푼의 가치는 2천 4백만 달러?
__팀득점 예측을 위해 만든 추정모델 해석하기
____조절된 설명력
____모델 전체의 의미: F 통곗값
____계수의 p 값: 긍정오류의 가능성 유의확률
__게임당 팀득점 신뢰성 있게 예측하기
____신뢰구간
____예측구간
__정리하며
5장. 비교와 구분
__다른가?
__시각적 비교
__모델에 영향을 주는 이상치를 찾아라
__메이저리그 140년 역사의 원동력: 표준편차의 힘
____시즌타율 3할의 효과 40년간의 관찰: 패키지 plyr
____시즌타율 표준편차가 적을수록 야구장에 관중들이 더 모인다?
__실험군은 아메리칸리그, 대조군은 내셔널리그
__그룹 간 비교 시각화 방법: 패널차트구글 트렌드와 분산분석(ANOVA) 연계
__데이터를 분리해 필요한 부분만 취하다: 스트링 변수
__비모수 시대의 그룹 간 비교
__긍정오류와 부정오류
__긍정오류, 부정오류, 그리고 판별분석
__내셔널리그, 아메리칸리그, 그리고 판별분석
__지구에서 우승할 가능성, 우승하지 못할 가능성: 로지스틱 회귀분석
__지구에서 우승할 팀, 우승하지 못할 팀, 그리고 딥러닝
__자율학습을 활용한 군집분석
__정리하며
6장. 모델링
__복잡한 현실을 수학으로 모형화하고 통계로 증명하다
__2차함수 사고하기
__고차함수 사고하기
__논리와 데이터를 연결하다: 모델 선택
____단순선형회귀분석모델(simple linear regression)에 기반한 주장
____다중선형회귀분석모델(multiple regression)에 기반한 주장
____고정효과모델(fixed effects model)에 기반한 주장
____다수준혼합모델(multilevel mixed effects model)에 기반한 주장
____시차 변수를 보유하는 다수준혼합모델에 기반한 주장
____시차 변수와 자기상관을 보유하는 다수준혼합모델에 기반한 주장
__조건이 포함되는 모델링: 조절 변수
__리그별 홈런의 관중 동원 효과: 리그의 조절효과
__다수준혼합모델로 메이저리그 팀승수 추정하기
__실험실 없이 실험환경 통제하기: 통제 변수
__눈에 보이지 않는 교란요인들 잡아내기
__단순선형모델, 임의효과모델, 고정효과모델의 비교
____단순선형모델
____임의효과모델
____고정효과모델
__정리하며
7장. 머신러닝
__머신러닝: 기계에 답을 주고 인간은 로직을 얻는다
__최적의 타순 정하기
____케이스 스터디
____기계가 학습을 하려면 몇 가지 사전 작업이 필요하다
____베이즈 룰
____머신러닝: 데이터, 정답지, 그리고 베이즈 방식
__머신러닝의 종류
__자연어 처리와 머신러닝
__지도학습으로 문서 분류하기
____지도학습으로 분류모델 개발하기
____분류결과
__기계는 글의 의미를 이해하는가
__글과 머신러닝의 역사
__주변에 흔한 일반 문서는 어떻게 처리할까
맺음말
__데이터과학을 대하는 자세.
__R을 대하면서 확장되는 생각의 범위
__라만 데이터 적용 부분
- 교보문고: https://bitl.bz/qivOzm
- Yes24: https://bitl.bz/nYMGHy
'데이터 과학 > 교양' 카테고리의 다른 글
네이트 실버, 신호와 소음 - 불확실성 시대, 미래를 포착하는 예측의 비밀 (개정판), 더퀘스트 (2) | 2025.01.29 |
---|---|
스티븐 스티글러, 통계학을 떠받치는 일곱기둥 이야기 - 통계는 어떻게 과학이 되었는가?, 프리렉 (1) | 2025.01.27 |
조재근, 통계학, 빅데이터를 잡다, 한국문학사 (1) | 2025.01.18 |
피에르 라플라스, 확률에 대한 철학적 시론, 지식을만드는지식 (1) | 2025.01.17 |
이언 해킹, 우연을 길들이다 - 통계는 어떻게 우연을 과학으로 만들었는가, 바다출판사 (0) | 2025.01.16 |