컴퓨터 과학 및 엔지니어링/데이터베이스

마크 니드햄, 마이클 헝거, 마이클 시몬스, DuckDB 인 액션 - SQL만 알면 되는 로컬 데이터 분석, DuckDB로 가볍게 시작한다, 인사이트

booksworld 2025. 5. 27. 01:00

 

"DuckDB 인 액션"은 데이터 분석의 새로운 패러다임을 제시하는 책으로, 데이터 엔지니어와 데이터 과학자들에게 필수적인 도구인 DuckDB의 활용법을 깊이 있게 다룹니다. DuckDB는 복잡한 클라우드 인프라 없이도 데이터 분석을 가능하게 하는 경량화된 데이터베이스로, 다양한 데이터 포맷(CSV, JSON, Parquet 등)을 지원하여 사용자가 손쉽게 데이터를 처리할 수 있도록 돕습니다.

이 책은 DuckDB의 기본 개념부터 시작해, SQL 쿼리를 통해 데이터를 효과적으로 분석하는 방법을 설명합니다. 특히, 기존에 알고 있는 SQL 문법을 그대로 활용할 수 있어, 새로운 데이터베이스를 배우는 부담을 덜어줍니다. 또한, DuckDB는 Jupyter 노트북과 통합되어 있어, 데이터 분석 작업을 직관적으로 수행할 수 있는 환경을 제공합니다.

책의 주요 내용은 데이터의 고급 집계 및 분석, DuckDB와 파이썬의 통합, 클라우드 환경에서의 데이터 파이프라인 구축 등 실무에서 유용한 다양한 사례를 포함하고 있습니다. 이를 통해 독자들은 DuckDB의 강력한 기능을 최대한 활용할 수 있는 방법을 배울 수 있습니다.

"DuckDB 인 액션"은 데이터 분석을 더욱 간편하고 효율적으로 만들어주는 책으로, 데이터 분석의 복잡함을 줄이고자 하는 모든 이들에게 강력히 추천합니다. 데이터 분석의 새로운 세계를 경험하고 싶은 분들에게 이 책은 훌륭한 길잡이가 될 것입니다. 데이터 분석의 기초부터 고급 기술까지, DuckDB를 통해 더 빠르고 쉽게 데이터에 접근해보세요.

 

 

 

목차


1장 DuckDB 소개
__1.1 DuckDB란 무엇인가요?
__1.2 왜 DuckDB에 주목해야 할까요?
__1.3 언제 DuckDB를 사용하는 게 좋을까요?
__1.4 언제 DuckDB를 사용하지 말아야 할까요?
__1.5 사용 사례
__1.6 DuckDB는 어디에 적합할까요?
__1.7 데이터 처리 흐름 단계
__요약

2장 DuckDB 시작하기
__2.1 지원되는 환경
__2.2 DuckDB CLI 설치하기
__2.3 DuckDB CLI를 사용하는 방법
__2.4 DuckDB의 확장 시스템
__2.5 CSV 파일을 DuckDB CLI로 분석하기
__요약

3장 SQL 쿼리 실행하기
__3.1 간단한 SQL 복습
__3.2 에너지 생산 분석하기
__3.3 데이터 정의 언어 쿼리
__3.4 데이터 조작 언어 쿼리
__3.5 DuckDB 전용 SQL 확장
__요약

4장 데이터의 고급 집계와 분석
__4.1 데이터 수집 중에 사전 집계하기
__4.2 데이터 요약하기
__4.3 서브쿼리
__4.4 그룹화 집합
__4.5 윈도 함수들
__4.6 WHERE 절 외부에서 조건과 필터링 처리하기
__4.7 PIVOT 문
__4.8 ASOF JOIN 사용하기
__4.9 테이블 함수 사용하기
__4.10 LATERAL 조인 사용하기
__요약

5장 지속성 없이 데이터 탐색하기
__5.1 왜 데이터를 따로 보존하지 않고 데이터베이스를 사용할까요?
__5.2 파일 유형과 스키마 추론하기
__5.3 중첩된 JSON 쪼개기
__5.4 CSV를 Parquet로 변환하기
__5.5 Parquet 파일 분석하고 쿼리하기
__5.6 SQLite와 다른 데이터베이스 쿼리하기
__5.7 엑셀 파일로 작업하기
__요약

6장 파이썬 생태계와 통합하기
__6.1 시작하기
__6.2 관계형 API 사용하기
__6.3 pandas 데이터프레임 쿼리하기
__6.4 사용자 정의 함수
__6.5 Apache Arrow 및 Polars와의 상호운용성
__요약

7장 DuckDB를 클라우드에서 MotherDuck과 함께 사용하기
__7.1 MotherDuck 소개
__7.2 MotherDuck으로 시작하기
__7.3 MotherDuck 최대한 활용하기
__요약

8장 DuckDB로 데이터 파이프라인 구축하기
__8.1 데이터 파이프라인과 DuckDB의 역할
__8.2 dlt를 사용한 데이터 수집
__8.3 dbt를 사용한 데이터 구조 변환과 모델링
__8.4 Dagster로 데이터 파이프라인을 오케스트레이션하기
__요약

9장 데이터 앱 구축 및 배포
__9.1 Streamlit으로 맞춤형 데이터 앱 구축하기
__9.2 Apache Superset으로 BI 대시보드 구축하기
__요약

10장 대규모 데이터세트에 대한 성능 고려사항
__10.1 스택 오버플로 전체 데이터베이스 불러오기와 쿼리하기
__10.2 쿼리 계획 및 실행
__10.3 스택 오버플로 데이터를 Parquet로 내보내기
__10.4 Parquet 파일에서 뉴욕시 택시 데이터세트 탐색하기
__요약

11장 결론
__11.1 이 책에서 배운 내용
__11.2 DuckDB의 향후 안정 버전들
__11.3 다루지 못한 내용
__11.4 더 배울 수 있는 곳은?
__11.5 DuckDB와 함께하는 데이터 엔지니어링의 미래는 어떨까요?

부록 A DuckDB를 위한 클라이언트 API
__A.1 공식 지원 언어
__A.2 동시성에 관한 간략한 설명
__A.3 사용 사례
__A.4 대용량 데이터 가져오기
__A.5 JDBC 드라이버를 통해 자바에서 DuckDB 사용하기
__A.6 추가 연결 옵션들
__요약

부록 B DuckDB UI
__B.1 DuckDB UI 소개
__B.2 이 책의 예제를 DuckDB UI로 실행하기
__요약

 

 

 

- 교보문고: https://bitl.bz/RrCzkD

- Yes24: https://bitl.bz/QQ5hxS

- 쿠팡: https://link.coupang.com/a/cuf1C5