스파크 DataFrame
From CS Wiki
Spark DataFrame
스파크에서 정형 데이터처리를 위해 사용되는 데이터셋 객체
- R, 파이썬 Pandas 등 유사한 개념을 제공하는 기존 언어들에 영향을 받아 스파크 버전 1.3부터 지원
- RDD를 기반으로 동작하며 Spark SQL 사용에 최적화 됨
생성 방법[edit | edit source]
- 기존 RDD를 DataFrame으로 변환
- 외부 데이터에서 로드하여 DataFrame 생성
- SQL 쿼리 실행결과로 DataFrame 생성