Anonymous
Not logged in
Talk
Contributions
Create account
Log in
CS Wiki
Search
스파크
From CS Wiki
Namespaces
Page
Discussion
More
More
Page actions
Read
Edit
Edit source
History
Revision as of 08:35, 2 January 2020 by
김형교
(
talk
|
contribs
)
(새 문서:
분류:데이터 분석
;Spark * UC 버클리의 AMP 랩에서 개발하였으며, 현재 아파치 재단에서 관리 * 인-메모리 방식의 분산 처리 시스템 == 등...)
(diff) ← Older revision |
Latest revision
(
diff
) |
Newer revision →
(
diff
)
Spark
UC 버클리의 AMP 랩에서 개발하였으며, 현재 아파치 재단에서 관리
인-메모리 방식의 분산 처리 시스템
등장 배경
기존 디스크 입출력에 대한 지연 시간 개선
반복적인 작업이나 실시간 처리를 위해 빠른 처리 필요
구조 및 구성 요소
SQL: 정형화된 SQL 지원
Streaming: 데이터 스트림을 세그먼트로 나눈 후 각각을 스파크 엔진으로 처리
MLlib:
회귀
,
SVM
,
의사 결정 나무
,
랜덤 포레스트
등
머신러닝
라이브러리 제공
GraphX: 페이지 랭크, 레이블 전파, 삼각 계수 등 그래프 알고리즘 지원
Core: 분산 처리, 스케줄링, API 인터페이스 지원
작업 처리 레이어: 스파크만으로 처리할 수도 있고, 하둡 Yarn, Mesos 등과 연계 가능
Category
:
데이터 분석
Navigation
Navigation
Main page
Recent changes
Advertisements
Wiki tools
Wiki tools
Special pages
Cite this page
Page tools
Page tools
User page tools
More
What links here
Related changes
Printable version
Permanent link
Page information
Page logs
Categories
Categories
데이터 분석