파이프라인 3

마크 니드햄, 마이클 헝거, 마이클 시몬스, DuckDB 인 액션 - SQL만 알면 되는 로컬 데이터 분석, DuckDB로 가볍게 시작한다, 인사이트

"DuckDB 인 액션"은 데이터 분석의 새로운 패러다임을 제시하는 책으로, 데이터 엔지니어와 데이터 과학자들에게 필수적인 도구인 DuckDB의 활용법을 깊이 있게 다룹니다. DuckDB는 복잡한 클라우드 인프라 없이도 데이터 분석을 가능하게 하는 경량화된 데이터베이스로, 다양한 데이터 포맷(CSV, JSON, Parquet 등)을 지원하여 사용자가 손쉽게 데이터를 처리할 수 있도록 돕습니다. 이 책은 DuckDB의 기본 개념부터 시작해, SQL 쿼리를 통해 데이터를 효과적으로 분석하는 방법을 설명합니다. 특히, 기존에 알고 있는 SQL 문법을 그대로 활용할 수 있어, 새로운 데이터베이스를 배우는 부담을 덜어줍니다. 또한, DuckDB는 Jupyter 노트북과 통합되어 있어, 데이터 분석 작업을 직관적으..

제임스 댄스모어, 데이터 파이프라인 핵심 가이드 - 성공적인 데이터 분석을 위한 인프라 설계와 구축, 위키북스

#광고 - 링크로 구매 시 글쓴이에게 소정의 수수료가 제공됩니다.  제임스 댄스모어의 "데이터 파이프라인 핵심 가이드"는 데이터 분석의 기초부터 심화까지 체계적으로 다루고 있는 책입니다. 데이터 파이프라인은 데이터 분석의 성공을 위해 필수적인 요소로, 다양한 데이터 소스에서 데이터를 이동하고 변환하는 과정을 통해 가치를 창출하는 데 큰 역할을 합니다. 이 책은 데이터 파이프라인의 정의와 작동 방식을 명확히 설명하며, 최신 데이터 스택에서의 활용 방법을 안내합니다. 책의 주요 내용은 데이터 파이프라인 구축에 필요한 기본 개념과 고려사항을 포함합니다. 일괄 처리와 스트리밍 데이터 수집, 데이터 엔지니어가 사용하는 공통 도구와 제품, 그리고 파이프라인이 분석 및 보고 요구사항을 어떻게 지원하는지를 심도 있게 ..

바스 하렌슬락 , 율리안 더라위터르, Apache Airflow 기반의 데이터 파이프라인, 제이펍

#광고 - 링크로 구매 시 글쓴이에게 소정의 수수료가 제공됩니다.  Apache Airflow 기반의 데이터 파이프라인은 데이터 엔지니어링, 머신러닝, 그리고 시스템 관리 분야에서 필수적인 도구로 자리 잡고 있습니다. 바스 하렌슬락의 저서 "Apache Airflow 기반의 데이터 파이프라인"은 이 분야에 대한 깊이 있는 통찰을 제공하며, 데이터 파이프라인 구축에 대한 체계적이고 실용적인 접근 방식을 제시합니다. 이 책은 Airflow의 설치부터 시작하여 파이프라인 작성, 테스트, 분석, 백필, 배포 및 관리까지 모든 과정을 포괄적으로 다룹니다. 특히, 데이터 이동 및 변환 자동화 방법에 대한 상세한 설명은 데이터 엔지니어와 데브옵스 엔지니어들에게 큰 도움이 될 것입니다. 또한, 다양한 운영 환경에서의 ..