스파크 RDD

From CS Wiki
Revision as of 00:09, 15 December 2020 by 빅터기사 (talk | contribs) (새 문서: ;(Spark) Resilient Distribute Dataset 스파크의 기본 데이터 추상화 객체 == 특징 == **불변성(immutable): 읽기 전용 **복원성(resilient): 장애 내성 **분산...)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
(Spark) Resilient Distribute Dataset

스파크의 기본 데이터 추상화 객체

특징

    • 불변성(immutable): 읽기 전용
    • 복원성(resilient): 장애 내성
    • 분산성(distributed): 노드 한 개 이상에 저장된 데이터셋

데이터프레임과의 차이

  • RDD는 반정형 데이터 또한 처리 가능
    • 엄격한 Schema를 요구하지 않음
    • select, where 등 SQL-like 문법 사용 불가
  • RDD가 Dataframe, Dataset의 기반이 되는 객체
    • RDD를 이용해 Dataframe, Dataset을 만들 수 있음
    • RDD를 직접 사용할 경우 Catalyst Optimizer 사용 불가