빅데이터: Difference between revisions

Revision as of 07:23, 26 November 2020

Big Data
기존 데이터베이스 관리도구의 능력을 넘어서는 대량 데이터 또는 비정형의 데이터를 분석하고 가치를 창출하는 기술

빅데이터의 특징(3V+α)

가트너에서 제시한 3가지 특징

특징	설명
규모(Volume)	처리하는 데이터의 양이 기존의 데이터베이스에 비해 거대
속도(Velocity)	데이터 입출력 속도가 기존 데이터베이스에 비해 초고속
다양성(Variety)	비정형 데이터까지 다루면서 처리하는 데이터량 대폭 증가

IBM 등에서 제시한 개념이 추가됨

특징	설명
신뢰성(Veracity)	대용량의 데이터를 빠르게 처리하는 과정에서 품질 유지
가치(Value)	대량의 데이터를 모으고 빠르게 처리하여 새로운 가치 창출
타당성(Validity)	기존에 다룰 수 없었던 대용량 데이터로부터의 정확한 분석·예측
휘발성(Volatility)	데이터 처리 결과가 유효한 의미를 가질 수 있는 기간 내 처리

그 외 가변성(Variability), 시각화(Visualization), 정확성(Veracity) 등이 사용되기도 함

빅데이터 처리 기술

분석 기술

병렬 데이터베이스
- Divide and Conquer 방식을 이용하여 대량 데이터를 분산 및 병렬 처리
- 기법/도구: 하둡, 스파크, 하이브
데이터 마이닝
- 텍스트 마이닝, 군집분석, 연관분석 등 대량의 데이터에서 가치를 찾는 정보 도출
- 기법/도구: 머신러닝, 의사결정나무

표현 기술

NoSQL
- 대량의 반정형 데이터에 대한 유연한 조회, 갱신 처리 지원
- 기법/도구: 몽고DB, 카우치베이스
R
- 분석된 빅데이터를 대상으로 데이터의 의미를 시각화해주는 프로그래밍 언어

같이 보기

데이터베이스

@@ Line 1: / Line 1: @@
-[[분류:데이터 과학]][[분류:데이터베이스]]
+[[분류:데이터 과학]]
+[[분류:데이터베이스]]
 ;Big Data
 ;기존 데이터베이스 관리도구의 능력을 넘어서는 대량 데이터 또는 비정형의 데이터를 분석하고 가치를 창출하는 기술
-== 빅데이터의 특징(3V+α) ==
+==빅데이터의 특징(3V+α)==
-* 가트너에서 제시한 3가지 특징
+*가트너에서 제시한 3가지 특징
 {| class="wikitable"
 |-
-! 특징 !! 설명
+!특징!!설명
 |-
-| 양(Volume) || 처리하는 데이터의 양이 기존의 데이터베이스에 비해 거대
+|규모(Volume)||처리하는 데이터의 양이 기존의 데이터베이스에 비해 거대
 |-
-| 속도(Velocity) || 데이터 입출력 속도가 기존 데이터베이스에 비해 초고속
+|속도(Velocity)||데이터 입출력 속도가 기존 데이터베이스에 비해 초고속
 |-
-| 다양성(Variety) || 비정형 데이터까지 다루면서 처리하는 데이터량 대폭 증가
+|다양성(Variety)||비정형 데이터까지 다루면서 처리하는 데이터량 대폭 증가
 |}
-* IBM 등에서 제시한 개념이 추가됨
+*IBM 등에서 제시한 개념이 추가됨
 {| class="wikitable"
 |-
-! 특징 !! 설명
+!특징!!설명
 |-
-| 정확성(Veracity) || 처리하는 데이터의 양이 기존의 데이터베이스에 비해 거대
+|신뢰성(Veracity)||대용량의 데이터를 빠르게 처리하는 과정에서 품질 유지
 |-
-| 가변성(Variability) || 데이터 입출력 속도가 기존 데이터베이스에 비해 초고속
+|가치(Value)||대량의 데이터를 모으고 빠르게 처리하여 새로운 가치 창출
 |-
-| 시각화(Visualization) || 비정형 데이터까지 다루면서 처리하는 데이터량 대폭 증가
+|타당성(Validity)
+|기존에 다룰 수 없었던 대용량 데이터로부터의 정확한 분석·예측
+|-
+|휘발성(Volatility)
+|데이터 처리 결과가 유효한 의미를 가질 수 있는 기간 내 처리
 |}
-== 빅데이터 처리 기술 ==
+* 그 외 가변성(Variability), 시각화(Visualization), 정확성(Veracity) 등이 사용되기도 함
-=== 분석 기술 ===
-* 병렬 데이터베이스
+==빅데이터 처리 기술==
-** Divide and Conquer 방식을 이용하여 대량 데이터를 분산 및 병렬 처리
+===분석 기술===
-** 기법/도구: [[하둡]], [[스파크]], [[하이브]]
-* [[데이터 마이닝]]
+*병렬 데이터베이스
-** [[텍스트 마이닝]], [[군집분석]], [[연관분석]] 등 대량의 데이터에서 가치를 찾는 정보 도출
+**Divide and Conquer 방식을 이용하여 대량 데이터를 분산 및 병렬 처리
-** 기법/도구: [[머신러닝]], [[의사결정나무]]
+**기법/도구: [[하둡]], [[스파크]], [[하이브]]
-=== 표현 기술 ===
+*[[데이터 마이닝]]
-* [[NoSQL]]
+**[[텍스트 마이닝]], [[군집분석]], [[연관분석]] 등 대량의 데이터에서 가치를 찾는 정보 도출
-** 대량의 반정형 데이터에 대한 유연한 조회, 갱신 처리 지원
+**기법/도구: [[머신러닝]], [[의사결정나무]]
-** 기법/도구: [[몽고DB]], [[카우치베이스]]
-* [[R]]
+===표현 기술===
-** 분석된 빅데이터를 대상으로 데이터의 의미를 시각화해주는 프로그래밍 언어
+*[[NoSQL]]
+**대량의 반정형 데이터에 대한 유연한 조회, 갱신 처리 지원
+**기법/도구: [[몽고DB]], [[카우치베이스]]
+*[[R]]
+**분석된 빅데이터를 대상으로 데이터의 의미를 시각화해주는 프로그래밍 언어
+==같이 보기==
-== 같이 보기 ==
+*[[데이터베이스]]
-* [[데이터베이스]]