빅데이터: Difference between revisions

From CS Wiki
m (문자열 찾아 바꾸기 - "분류:데이터/통계학" 문자열을 "분류:데이터 과학" 문자열로)
No edit summary
Line 1: Line 1:
[[분류:데이터 과학]][[분류:데이터베이스]]
[[분류:데이터 과학]]
[[분류:데이터베이스]]
 
;Big Data
;Big Data
;기존 데이터베이스 관리도구의 능력을 넘어서는 대량 데이터 또는 비정형의 데이터를 분석하고 가치를 창출하는 기술
;기존 데이터베이스 관리도구의 능력을 넘어서는 대량 데이터 또는 비정형의 데이터를 분석하고 가치를 창출하는 기술


== 빅데이터의 특징(3V+α) ==
==빅데이터의 특징(3V+α)==
* 가트너에서 제시한 3가지 특징
 
*가트너에서 제시한 3가지 특징
 
{| class="wikitable"
{| class="wikitable"
|-
|-
! 특징 !! 설명
!특징!!설명
|-
|-
| (Volume) || 처리하는 데이터의 양이 기존의 데이터베이스에 비해 거대
|규모(Volume)||처리하는 데이터의 양이 기존의 데이터베이스에 비해 거대
|-
|-
| 속도(Velocity) || 데이터 입출력 속도가 기존 데이터베이스에 비해 초고속
|속도(Velocity)||데이터 입출력 속도가 기존 데이터베이스에 비해 초고속
|-
|-
| 다양성(Variety) || 비정형 데이터까지 다루면서 처리하는 데이터량 대폭 증가
|다양성(Variety)||비정형 데이터까지 다루면서 처리하는 데이터량 대폭 증가
|}
|}
* IBM 등에서 제시한 개념이 추가됨
 
*IBM 등에서 제시한 개념이 추가됨
 
{| class="wikitable"
{| class="wikitable"
|-
|-
! 특징 !! 설명
!특징!!설명
|-
|-
| 정확성(Veracity) || 처리하는 데이터의 양이 기존의 데이터베이스에 비해 거대
|신뢰성(Veracity)||대용량의 데이터를 빠르게 처리하는 과정에서 품질 유지
|-
|-
| 가변성(Variability) || 데이터 입출력 속도가 기존 데이터베이스에 비해 초고속
|가치(Value)||대량의 데이터를 모으고 빠르게 처리하여 새로운 가치 창출
|-
|-
| 시각화(Visualization) || 비정형 데이터까지 다루면서 처리하는 데이터량 대폭 증가
|타당성(Validity)
|기존에 다룰 수 없었던 대용량 데이터로부터의 정확한 분석·예측
|-
|휘발성(Volatility)
|데이터 처리 결과가 유효한 의미를 가질 수 있는 기간 내 처리
|}
|}


== 빅데이터 처리 기술 ==
* 그 외 가변성(Variability), 시각화(Visualization), 정확성(Veracity) 등이 사용되기도 함
=== 분석 기술 ===
 
* 병렬 데이터베이스
==빅데이터 처리 기술==
** Divide and Conquer 방식을 이용하여 대량 데이터를 분산 및 병렬 처리
===분석 기술===
** 기법/도구: [[하둡]], [[스파크]], [[하이브]]
 
* [[데이터 마이닝]]
*병렬 데이터베이스
** [[텍스트 마이닝]], [[군집분석]], [[연관분석]] 등 대량의 데이터에서 가치를 찾는 정보 도출
**Divide and Conquer 방식을 이용하여 대량 데이터를 분산 및 병렬 처리
** 기법/도구: [[머신러닝]], [[의사결정나무]]
**기법/도구: [[하둡]], [[스파크]], [[하이브]]
=== 표현 기술 ===
*[[데이터 마이닝]]
* [[NoSQL]]
**[[텍스트 마이닝]], [[군집분석]], [[연관분석]] 등 대량의 데이터에서 가치를 찾는 정보 도출
** 대량의 반정형 데이터에 대한 유연한 조회, 갱신 처리 지원
**기법/도구: [[머신러닝]], [[의사결정나무]]
** 기법/도구: [[몽고DB]], [[카우치베이스]]
 
* [[R]]
===표현 기술===
** 분석된 빅데이터를 대상으로 데이터의 의미를 시각화해주는 프로그래밍 언어
 
*[[NoSQL]]
**대량의 반정형 데이터에 대한 유연한 조회, 갱신 처리 지원
**기법/도구: [[몽고DB]], [[카우치베이스]]
*[[R]]
**분석된 빅데이터를 대상으로 데이터의 의미를 시각화해주는 프로그래밍 언어
 
==같이 보기==


== 같이 보기 ==
*[[데이터베이스]]
* [[데이터베이스]]

Revision as of 07:23, 26 November 2020


Big Data
기존 데이터베이스 관리도구의 능력을 넘어서는 대량 데이터 또는 비정형의 데이터를 분석하고 가치를 창출하는 기술

빅데이터의 특징(3V+α)

  • 가트너에서 제시한 3가지 특징
특징 설명
규모(Volume) 처리하는 데이터의 양이 기존의 데이터베이스에 비해 거대
속도(Velocity) 데이터 입출력 속도가 기존 데이터베이스에 비해 초고속
다양성(Variety) 비정형 데이터까지 다루면서 처리하는 데이터량 대폭 증가
  • IBM 등에서 제시한 개념이 추가됨
특징 설명
신뢰성(Veracity) 대용량의 데이터를 빠르게 처리하는 과정에서 품질 유지
가치(Value) 대량의 데이터를 모으고 빠르게 처리하여 새로운 가치 창출
타당성(Validity) 기존에 다룰 수 없었던 대용량 데이터로부터의 정확한 분석·예측
휘발성(Volatility) 데이터 처리 결과가 유효한 의미를 가질 수 있는 기간 내 처리
  • 그 외 가변성(Variability), 시각화(Visualization), 정확성(Veracity) 등이 사용되기도 함

빅데이터 처리 기술

분석 기술

표현 기술

  • NoSQL
  • R
    • 분석된 빅데이터를 대상으로 데이터의 의미를 시각화해주는 프로그래밍 언어

같이 보기