데이터 과학/데이터 엔지니어링

제임스 댄스모어, 데이터 파이프라인 핵심 가이드 - 성공적인 데이터 분석을 위한 인프라 설계와 구축, 위키북스

booksworld 2025. 4. 17. 01:00

 

#광고 - 링크로 구매 시 글쓴이에게 소정의 수수료가 제공됩니다.

 

 

제임스 댄스모어의 "데이터 파이프라인 핵심 가이드"는 데이터 분석의 기초부터 심화까지 체계적으로 다루고 있는 책입니다. 데이터 파이프라인은 데이터 분석의 성공을 위해 필수적인 요소로, 다양한 데이터 소스에서 데이터를 이동하고 변환하는 과정을 통해 가치를 창출하는 데 큰 역할을 합니다. 이 책은 데이터 파이프라인의 정의와 작동 방식을 명확히 설명하며, 최신 데이터 스택에서의 활용 방법을 안내합니다.

책의 주요 내용은 데이터 파이프라인 구축에 필요한 기본 개념과 고려사항을 포함합니다. 일괄 처리와 스트리밍 데이터 수집, 데이터 엔지니어가 사용하는 공통 도구와 제품, 그리고 파이프라인이 분석 및 보고 요구사항을 어떻게 지원하는지를 심도 있게 다루고 있습니다. 또한, 클라우드 플랫폼을 포함한 최신 데이터 인프라에서 데이터를 어떻게 이동하고 처리하는지를 설명하여, 데이터 전문가들이 실무에서 직면할 수 있는 다양한 상황에 대비할 수 있도록 돕습니다.

특히, 데이터 수집, 변환, 오케스트레이션, 검증 및 유지 관리와 같은 단계별 접근법을 통해 독자는 데이터 파이프라인의 전반적인 과정을 이해하고, 이를 통해 실질적인 데이터 분석 능력을 향상시킬 수 있습니다. 데이터 파이프라인의 성능 측정 및 모니터링에 대한 내용 또한 포함되어 있어, 데이터 품질을 유지하고 향상시키는 데 필요한 지식도 제공합니다.

이 책은 데이터베이스와 빅데이터 분야에 관심이 있는 모든 이들에게 유익한 자료가 될 것입니다. 데이터 파이프라인의 기초부터 고급 개념까지 폭넓게 다루고 있어, 데이터 엔지니어링을 시작하는 초보자부터, 이미 경험이 있는 전문가까지 모두에게 필요한 내용을 담고 있습니다. 데이터 분석의 성공을 위해 필수적인 이 책을 통해 데이터 파이프라인의 세계를 깊이 있게 탐구해 보시기 바랍니다.

 

 

목차


▣ 01장: 데이터 파이프라인 소개
데이터 파이프라인이란?
누가 파이프라인을 구축할까?
___SQL과 데이터 웨어하우징 기초
___파이썬 그리고/또는 자바
___분산 컴퓨팅
___기본 시스템 관리
___목표 지향적 사고방식
왜 데이터 파이프라인을 구축할까?
어떻게 데이터 파이프라인을 구축할까?

▣ 02장: 최신 데이터 인프라
데이터 소스의 다양성
___소스 시스템 소유권
___수집 인터페이스 및 데이터 구조
___데이터 사이즈
___데이터 클렌징 작업과 유효성 검사
___소스 시스템의 지연 시간 및 대역폭
클라우드 데이터 웨어하우스 및 데이터 레이크
데이터 수집 도구
데이터 변환 및 모델링 도구
워크플로 오케스트레이션 플랫폼
___방향성 비순환 그래프
데이터 인프라 커스터마이징

▣ 03장: 일반적인 데이터 파이프라인 패턴
ETL과 ELT
ETL을 넘어선 ELT의 등장
EtLT 하위 패턴
데이터 분석을 위한 ELT
데이터 과학을 위한 ELT
데이터 제품 및 머신러닝을 위한 ELT
___머신러닝 파이프라인의 단계
___파이프라인에 피드백 통합
___ML 파이프라인에 대한 추가 자료

▣ 04장: 데이터 수집: 데이터 추출
파이썬 환경 설정
클라우드 파일 스토리지 설정
MySQL 데이터베이스에서 데이터 추출
___전체 또는 증분 MySQL 테이블 추출
___MySQL 데이터의 이진 로그 복제
PostgreSQL 데이터베이스에서 데이터 추출
___전체 또는 증분 Postgres 테이블 추출
___Write-Ahead 로그를 사용한 데이터 복제
MongoDB에서 데이터 추출
REST API에서 데이터 추출
카프카 및 Debezium을 통한 스트리밍 데이터 수집

▣ 05장: 데이터 수집: 데이터 로드
Amazon Redshift 웨어하우스를 대상으로 구성
Redshift 웨어하우스에 데이터 로드
___증분 및 전체 로드
___CDC 로그에서 추출한 데이터 로드
Snowflake 웨어하우스를 대상으로 구성3
Snowflake 데이터 웨어하우스에 데이터 로드
파일 스토리지를 데이터 레이크로 사용
오픈 소스 프레임워크
상업적 대안

▣ 06장: 데이터 변환하기
비문맥적 변환
___테이블에서 레코드 중복 제거
___URL 파싱
언제 변환할 것인가, 수집 중 혹은 수집 후?
데이터 모델링 기초
___주요 데이터 모델링 용어
___완전히 새로 고침 된 데이터 모델링
___완전히 새로 고침 된 데이터의 차원을 천천히 변경
___증분 수집된 데이터 모델링
___추가 전용(Append-only) 데이터 모델링
___변경 캡처 데이터 모델링

▣ 07장: 파이프라인 오케스트레이션
___방향성 비순환 그래프
아파치 에어플로우 설정 및 개요
___설치 및 구성
___에어플로우 데이터베이스
___웹 서버 및 UI
___스케줄러
___실행기(Executors)
___연산자(Operators)
에어플로우 DAG 구축
___간단한 DAG
___ELT 파이프라인 DAG
추가 파이프라인 작업
___경고 및 알림
___데이터 유효성 검사
고급 오케스트레이션 구성
___결합된 파이프라인 작업 대 결합되지 않은 파이프라인 작업
___DAG를 분할해야 하는 경우
___센서로 여러 DAG 조정
관리형 에어플로우 옵션
기타 오케스트레이션 프레임워크
일찍 그리고 자주 검증할 것

▣ 08장: 파이프라인의 데이터 검증
___소스 시스템 데이터 품질
___데이터 수집 위험
___데이터 분석가 검증 활성화
간단한 검증 프레임워크
___유효성 검사기 프레임워크 코드
___검증 테스트의 구조
___검증 테스트 실행
___에어플로우 DAG에서의 사용
___파이프라인을 중단해야 할 때와 경고하고 계속해야 할 때
___프레임워크의 확장
검증 테스트 예제
___수집 후 중복된 레코드
___수집 후의 예기치 않은 행 개수
___지표 값 변동
상용 및 오픈 소스 데이터 검증 프레임워크
소스 시스템의 변경 사항 처리

▣ 09장: 파이프라인 유지 관리 모범 사례
___추상화 도입
___데이터 계약 유지 관리
___Schema-on-Read의 고려사항
확장 복잡성
___데이터 수집 표준화
___데이터 모델링 로직의 재사용
___종속성 무결성 보장
중요 파이프라인 지표

▣ 10장: 파이프라인 성능 측정 및 모니터링
데이터 웨어하우스 준비
___데이터 인프라 스키마
성능 데이터 로깅 및 수집
___에어플로우에서 DAG 실행 기록 수집
___데이터 유효성 검사기에 로깅 추가
성능 데이터 변환
___DAG 성공률
___시간 경과에 따른 DAG 런타임 변경
___검증 테스트 볼륨 및 성공률
성능 파이프라인 조정
___DAG의 성능
성능 투명성

 

 

 

- 교보문고: https://bitl.bz/3efGwk

- Yes24: https://bitl.bz/7Rz2jv