스파크, 현장 밀착 입문서는 따로 있다!
스파크를 사용하고 활용하는 데 필요한 중요 주제를 두루 다룬다.
이 책이 다루는 주제는 스파크의 런타임 옵션을 설정하는 방법부터 독립형 작업이나 대화형 작업을 실행하는 방법, 일괄 처리, 스트리밍, 머신 러닝 애플리케이션의 구현 방법에 이른다. 또한, 스파크를 설치, 설정, 실행하는 방법 등 운영적인 측면까지 모두 담았다.
스파크의 개념을 잘 보여주고 이해하기 쉬운 예제와 데이터셋!
예제 데이터셋은 개인용 컴퓨터에서 실행할 수 있을 정도로 가볍다. 예제를 통해 스파크를 사용하고 실행하는 방법을 이해하여, 자신의 운영 환경에 적용할 스파크 애플리케이션을 작성해보자.
가상 머신으로 스파크의 실습 환경을 손쉽게 구축하고, 예제를 실행하자!
가상 머신을 사용해 책의 모든 예제를 실행할 수 있다. 각기 다른 버전의 자바, 스파크 및 운영 체제로 고민할 필요 없이, 가상 머신으로 예제를 손쉽게 실행해보자.
[이 책에서 배우는 것들]
1부 스파크와 스파크의 풍부한 API 소개
스파크의 주요 기능과 가상 머신 소개 | 스파크 셸, RDD, 스파크 클러스터, 스파크 코어 API | 데이터 파티셔닝, 셔플링, 누적변수, 공유변수
2부 스파크를 구성하는 스파크 SQL, 스파크 스트리밍, 스파크 MLlib, 스파크 GraphX 컴포넌트 학습
DataFrame을 생성하고 사용하는 방법 | SQL을 사용해 DataFrame에 질의하는 방법 | 외부 소스에서 데이터를 로드하고 저장하는 방법 | 스파크 스트리밍과 카프카를 연결하는 방법 | 스트리밍 잡의 성능을 개선하는 방법 | 선형 회귀, 로지스틱 회귀, 의사 결정 트리, 랜덤 포레스트, k-평균 군집화 소개 | 그래프 변환, 조인 연산과 그래프 알고리즘을 사용하는 방법, A* 검색 | 알고리즘 구현 방법
3부 스파크 자체 클러스터, 하둡의 YARN 클러스터 및 메소스 클러스터에서 애플리케이션 실행
스파크를 설정하고, 스파크 웹 UI를 사용하는 방법 | 아마존 EC2에서 스파크 자체 클러스터를 구성하는 방법 | YARN 클러스터 및 메소스 클러스터를 구축, 설정, 사용하는 방법
4부 상위 레벨에서 스파크 활용
접속 로그 분석 결과를 실시간 대시보드에 표시하는 스파크 스트리밍 애플리케이션 구현 방법 | H2O와 스파클링 워터 소개
[지은이 서문]
아파치 스파크는 범용 데이터 처리 프레임워크다. 다시 말해 모든 종류의 연산 작업에 스파크를 사용할 수 있다. 누구든 아파치 스파크를 소개한 책을 집필하려면 매우 다양한 주제를 다룰 수밖에 없다. 우리는 스파크 활용을 모든 측면에서 설명하려고 노력했다. 책과 예제로 스파크를 사용하고 실행하는 방법을 이해하고, 운영 환경에 적용할 스파크 애플리케이션을 작성하는 데 도움을 얻길 바란다.
- 지은이 서문 중에서
[옮긴이 서문]
스파크는 대량의 데이터에서 거시적 통찰을 찾는 데이터 분석가, 대규모 데이터로 예측 모델을 훈련시키는 데이터 과학자, 대규모 실시간 데이터에 직면한 데이터 엔지니어, 모든 이미지와 텍스트로 인공 지능을 창조하려는 AI 개발자 모두를 만족시킬 수 있다.
책은 스파크와 빅데이터를 처음 접하는 사람도 쉽게 시작할 수 있을 만큼 친절하며, 스파크의 방대한 내용을 깊게 다룬다. 책을 완독하면 스파크라는 고속열차의 끝에서 중간쯤은 다다른 것이다.
- 옮긴이 서문 중에서