빅데이터: Difference between revisions
From CS Wiki
m (문자열 찾아 바꾸기 - "분류:데이터/통계학" 문자열을 "분류:데이터 과학" 문자열로) |
No edit summary |
||
Line 1: | Line 1: | ||
[[분류:데이터 과학]][[분류:데이터베이스]] | [[분류:데이터 과학]] | ||
[[분류:데이터베이스]] | |||
;Big Data | ;Big Data | ||
;기존 데이터베이스 관리도구의 능력을 넘어서는 대량 데이터 또는 비정형의 데이터를 분석하고 가치를 창출하는 기술 | ;기존 데이터베이스 관리도구의 능력을 넘어서는 대량 데이터 또는 비정형의 데이터를 분석하고 가치를 창출하는 기술 | ||
== 빅데이터의 특징(3V+α) == | ==빅데이터의 특징(3V+α)== | ||
* 가트너에서 제시한 3가지 특징 | |||
*가트너에서 제시한 3가지 특징 | |||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
! 특징 !! 설명 | !특징!!설명 | ||
|- | |- | ||
| | |규모(Volume)||처리하는 데이터의 양이 기존의 데이터베이스에 비해 거대 | ||
|- | |- | ||
| 속도(Velocity) || 데이터 입출력 속도가 기존 데이터베이스에 비해 초고속 | |속도(Velocity)||데이터 입출력 속도가 기존 데이터베이스에 비해 초고속 | ||
|- | |- | ||
| 다양성(Variety) || 비정형 데이터까지 다루면서 처리하는 데이터량 대폭 증가 | |다양성(Variety)||비정형 데이터까지 다루면서 처리하는 데이터량 대폭 증가 | ||
|} | |} | ||
* IBM 등에서 제시한 개념이 추가됨 | |||
*IBM 등에서 제시한 개념이 추가됨 | |||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
! 특징 !! 설명 | !특징!!설명 | ||
|- | |- | ||
| | |신뢰성(Veracity)||대용량의 데이터를 빠르게 처리하는 과정에서 품질 유지 | ||
|- | |- | ||
| | |가치(Value)||대량의 데이터를 모으고 빠르게 처리하여 새로운 가치 창출 | ||
|- | |- | ||
| | |타당성(Validity) | ||
|기존에 다룰 수 없었던 대용량 데이터로부터의 정확한 분석·예측 | |||
|- | |||
|휘발성(Volatility) | |||
|데이터 처리 결과가 유효한 의미를 가질 수 있는 기간 내 처리 | |||
|} | |} | ||
== 빅데이터 처리 기술 == | * 그 외 가변성(Variability), 시각화(Visualization), 정확성(Veracity) 등이 사용되기도 함 | ||
=== 분석 기술 === | |||
* 병렬 데이터베이스 | ==빅데이터 처리 기술== | ||
** Divide and Conquer 방식을 이용하여 대량 데이터를 분산 및 병렬 처리 | ===분석 기술=== | ||
** 기법/도구: [[하둡]], [[스파크]], [[하이브]] | |||
* [[데이터 마이닝]] | *병렬 데이터베이스 | ||
** [[텍스트 마이닝]], [[군집분석]], [[연관분석]] 등 대량의 데이터에서 가치를 찾는 정보 도출 | **Divide and Conquer 방식을 이용하여 대량 데이터를 분산 및 병렬 처리 | ||
** 기법/도구: [[머신러닝]], [[의사결정나무]] | **기법/도구: [[하둡]], [[스파크]], [[하이브]] | ||
=== 표현 기술 === | *[[데이터 마이닝]] | ||
* [[NoSQL]] | **[[텍스트 마이닝]], [[군집분석]], [[연관분석]] 등 대량의 데이터에서 가치를 찾는 정보 도출 | ||
** 대량의 반정형 데이터에 대한 유연한 조회, 갱신 처리 지원 | **기법/도구: [[머신러닝]], [[의사결정나무]] | ||
** 기법/도구: [[몽고DB]], [[카우치베이스]] | |||
* [[R]] | ===표현 기술=== | ||
** 분석된 빅데이터를 대상으로 데이터의 의미를 시각화해주는 프로그래밍 언어 | |||
*[[NoSQL]] | |||
**대량의 반정형 데이터에 대한 유연한 조회, 갱신 처리 지원 | |||
**기법/도구: [[몽고DB]], [[카우치베이스]] | |||
*[[R]] | |||
**분석된 빅데이터를 대상으로 데이터의 의미를 시각화해주는 프로그래밍 언어 | |||
==같이 보기== | |||
*[[데이터베이스]] | |||
* [[데이터베이스]] |
Revision as of 07:23, 26 November 2020
- Big Data
- 기존 데이터베이스 관리도구의 능력을 넘어서는 대량 데이터 또는 비정형의 데이터를 분석하고 가치를 창출하는 기술
빅데이터의 특징(3V+α)
- 가트너에서 제시한 3가지 특징
특징 | 설명 |
---|---|
규모(Volume) | 처리하는 데이터의 양이 기존의 데이터베이스에 비해 거대 |
속도(Velocity) | 데이터 입출력 속도가 기존 데이터베이스에 비해 초고속 |
다양성(Variety) | 비정형 데이터까지 다루면서 처리하는 데이터량 대폭 증가 |
- IBM 등에서 제시한 개념이 추가됨
특징 | 설명 |
---|---|
신뢰성(Veracity) | 대용량의 데이터를 빠르게 처리하는 과정에서 품질 유지 |
가치(Value) | 대량의 데이터를 모으고 빠르게 처리하여 새로운 가치 창출 |
타당성(Validity) | 기존에 다룰 수 없었던 대용량 데이터로부터의 정확한 분석·예측 |
휘발성(Volatility) | 데이터 처리 결과가 유효한 의미를 가질 수 있는 기간 내 처리 |
- 그 외 가변성(Variability), 시각화(Visualization), 정확성(Veracity) 등이 사용되기도 함
빅데이터 처리 기술
분석 기술
- 병렬 데이터베이스
- 데이터 마이닝