맵리듀스: Difference between revisions
From CS Wiki
m (문자열 찾아 바꾸기 - "분류:데이터 분석" 문자열을 "분류:데이터/통계학" 문자열로) |
m (문자열 찾아 바꾸기 - "분류:데이터/통계학" 문자열을 "분류:데이터 과학" 문자열로) |
||
Line 1: | Line 1: | ||
[[분류:데이터베이스]][[분류:데이터 | [[분류:데이터베이스]][[분류:데이터 과학]] | ||
;MapReduce | ;MapReduce | ||
;다수의 머신들로 구성한 분산 데이터베이스를 병렬로 처리하기 위한 프로그래밍 모델 | ;다수의 머신들로 구성한 분산 데이터베이스를 병렬로 처리하기 위한 프로그래밍 모델 |
Revision as of 09:45, 6 May 2020
- MapReduce
- 다수의 머신들로 구성한 분산 데이터베이스를 병렬로 처리하기 위한 프로그래밍 모델
- 구글에서 처음으로 개념 소개
- 하둡 프레임워크에서 활용
구성/절차
- 맵(Map) 작업과 리듀스(Reduce) 작업으로 구성
맵
- 분산된 데이터를 Key-Value로 모은다
셔플
- 중간 결과를 리듀스로 전달한다.
리듀스
- 리스트에서 원하는 데이터를 찾아서 집계
활용
- 셔플과 소트는 하둡 등 엔진이 담당한다.
- 개발자는 맵 함수와 리듀스 함수를 개발한다.
- 맵, 리듀스 함수는 대상 데이터에 맞추어 설계해야 한다/
- 기존 RDBMS의 개념을 도입하여 맵리듀스 작업을 수월하게 도와주는 도구가 하이브