HBase

From CS Wiki

에이치베이스(HBase)는 하둡(Hadoop) 플랫폼을 위한 비관계형 분산 데이터베이스 관리 시스템(DBMS)이다. 빅데이터 처리를 위한 노에스큐엘(NoSQL)의 일종이다. 구글빅테이블을 참고하여 자바로 개발했으며, 무료 오픈소스로 제공되고 있다. 정식 명칭은 아파치 에이치베이스(Apache HBase)이고, 아파치재단에서 관리하고 있다.

개요[edit | edit source]

에이치베이스는 분산되고 확장 가능한 대용량 데이터 저장소 인 Hadoop 데이터베이스이다. 빅 데이터에 대한 임의의 실시간 읽기 / 쓰기 액세스가 필요한 경우 에이치베이스를 사용할 수 있다. 이 프로젝트의 목표는 범용 하드웨어의 클러스터 위에 수십억 개의 열 x 수백만 개의 매우 큰 테이블을 호스팅하는 것이다. 에이치베이스는 Google의 Bigtable을 기반으로하는 오픈 소스, 분산, 버전 관리 된 비 관계형 데이터베이스 이다. Chang 외 다수의 구조화 된 데이터 를 위한 분산 저장 시스템 . Bigtable이 Google File System에서 제공하는 분산 데이터 스토리지를 활용하는 것처럼 에이치베이스는 Hadoop 및 HDFS위에 Bigtable과 유사한 기능을 제공한다. [1]

등장배경[edit | edit source]

에이치베이스는 자연어 검색을 위해 방대한 양의 데이터를 처리해야하는 필요성에서 Powerset이 시작한 프로젝트로 시작되었다 . 이제는 최상위 Apache 프로젝트이다. Facebook 은 2010 년 11 월에 에이치베이스를 사용하여 새로운 메시징 플랫폼을 구현하기로 선택했으나 2018 년 에이치베이스에서 이전했다 . 2017 년 2 월 현재 , 1.2.x 계열은 현재 안정적인 릴리스 라인이다. [2]

역사[edit | edit source]

엄청난 양의 데이터를 처리 할 수있는 확장 성이 뛰어난 데이터베이스 시스템 인 에이치베이스가 출시되면서 Big Data 환경의 큰 변화가 통합되었다. 관계형 데이터베이스 관리 시스템 (RDBMS)은 이미 1970 년대부터 이미 존재 해왔다. 이것은 주어진 문제에 대해 데이터 중심 솔루션을 구현하는 너무 많은 기업과 조직에 도움을 줬다. 이러한 관계형 데이터베이스는 오늘날 다양한 환경 및 유스 케이스에서 동등하게 도움이 된다. 유스 케이스의 배열에 대해 관계형 모델은 완벽한 지원을 제공하지만이 모델로는 해결할 수없는 문제의 배열도 있다. 에이치베이스는 지금까지이 데이터 모델의 가장 진보 된게 아키 타입이었다. Google은 거의 10 년 전에 Big Table에 대한 논문을 발표했으며 2006 년에 에이치베이스 개발이 시작되었다. 에이치베이스의 초기 프로토 타입은 Hadoop의 기여한 데이터 모델로 만들어졌다. 그것이 2007 년 초반이었고 같은 해 말에 처음으로 사용 가능한 에이치베이스가 출시되었다. 2008 년 하둡 (Hadoop)은 최상위 Apache 프로젝트로 초점을 맞추었고 에이치베이스는 하위 프로젝트가 되었다. 후속 HBase 버전 0.18과 0.19가 2008 년 10 월에 릴리스되었다. 2010 년에는 Apache의 최상위 프로젝트가되었고 2011 년 에이치베이스 0.92가 릴리스되었다. 현재 사용중인 최신 버전은 에이치베이스 0.96이다.[3]

특징[edit | edit source]

  • 선형 및 모듈 식 확장성
  • 엄격하게 일관성있는 읽기 및 쓰기
  • 테이블의 자동 및 구성 가능한 샤딩
  • RegionServers 간의 자동 장애 복구 지원
  • Apache HBase 테이블을 사용하여 Hadoop MapReduce 작업을 지원하기위한 편리한 기본 클래스
  • 클라이언트 액세스를 위해 Java API를 사용하기 쉽습니다.
  • 실시간 쿼리를위한 캐시 및 블룸 필터 차단
  • 서버 쪽 필터를 통해 쿼리 조건자를 푸시 다운
  • Thrift 게이트웨이 및 XML, Protobuf 및 이진 데이터 인코딩 옵션을 지원하는 REST-ful 웹 서비스
  • 확장 가능한 jruby 기반 (JIRB) 셸
  • Hadoop 메트릭 하위 시스템 또는 JMX를 통해 파일 또는 Ganglia로 메트릭을 내보낼 수 있다.

활용[edit | edit source]

HBase를 사용 중이거나 사용중인 기업 목록이다.

  • 23andMe
  • 어도비
  • Airbnb 는 AirStream 실시간 스트림 계산 프레임 워크의 일부로 HBase를 사용한다.
  • 알리바바 그룹
  • Amadeus IT Group , 주요 장기 저장 DB
  • Bloomberg , 시계열 데이터 저장 용
  • 페이스 북 은 2010 년과 2018 년 사이에 메시징 플랫폼으로 HBase를 사용한다.
  • Imgur 는 알림 시스템에 전원을 공급하기 위해 HBase를 사용한다.
  • 카카오
  • 넷플릭스
  • Pinterest
  • 신속 대출
  • Richrelevance
  • 로켓 연료
  • Salesforce.com
  • 시어스
  • 소포스 , 일부 백엔드 시스템 용
  • Spotify 는 HBase를 Hadoop 및 기계 학습 작업의 기반으로 사용한다.
  • Tuenti 는 메시징 플랫폼으로 HBase를 사용한다.
  • 야후!
  • 메 쇼

평가 및 전망[edit | edit source]

에이치베이스 의 특별한 점은 다양한 개발자와 사용자 커뮤니티이다. 전 세계 여러 회사의 엔지니어들로 구성되 있다. 에이치베이스의 가장 큰 제작 클러스터 인 Facebook, Yahoo!, SalesForce, FlipKart 및 Xiaomi를 호스팅하는 회사에서 많은 기여를 한다. 에이치베이스는 하루에 수십억 명의 사람들에게 서비스를 제공하는 백엔드 서비스에 사용되는 수만 개의 노드에 설치된다. HBaseCon 2016 (샌프란시스코에서 5 월 24 일) 의 일정 에서 볼 수 있듯이이 목록에는 AirBnB, Alibaba, Visa 및 Apple과 같은 대기업이 포함됩니다. 에이치베이스와 그 커뮤니티에 대한 또 다른 중요한 점은 엔터프라이즈 사용자에게 에이치베이스지원을 제공하는 여러 상용 공급 업체가 있다는 것이다. Cloudera의 나의 유리한 점에서, 에이치베이스의 인기는 계속해서 증가하고 있다. 오늘날 Cloudera 고객의 Hadoop 클러스터 중 절반 이상이 에이치베이스를 실행하고 있다. 금융 서비스, 광고 기술, 건강 관리 및 통신 사업 분야에서 많은 사례가 있다. 에이치베이스는 종종 다른 NoSQL 데이터베이스, 현장 및 판매와 비교되는 반면, 이들 시스템 간의 경쟁은 일반적으로 각각 다른 틈새 시장을 차지하기 때문에 드물게 발생한다. Cloudera의 정기적인 지원 검토에서 에이치베이스는 배포 된 클러스터 당 티켓 수를 지속적으로 줄 였음을 알 수 있다.지원 사건의 비례 증가없이 에이치베이스배치 횟수를 크게 늘려가고 있다. [4]

참고자료[edit | edit source]

같이 보기[edit | edit source]

각주[edit | edit source]

  1. h base, 〈개요〉,《에이치베이스》
  2. 에이치베이스〉,《위키피디아》
  3. 빅데이터, 〈에이치베이스의 역사〉,《데브매뉴얼》, 2016-05-03
  4. Apache HBase는 어디 에나 있습니다.〉,《cloudera》