Recent Posts
Recent Comments
Link
06-30 12:53
Today
Total
관리 메뉴

삶 가운데 남긴 기록 AACII.TISTORY.COM

빅데이터 플랫폼 기반 기술 본문

DEV&OPS/Snippets

빅데이터 플랫폼 기반 기술

ALEPH.GEM 2022. 12. 12. 09:18

1.운영

Apache Hadoop

대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크입니다.

구글 분산 파일 시스템 논문이 공개된 후 그 구조에 대응하는 시스템으로 개발되었습니다.

구성 모듈: Hadoop Common, 하둡 분산 파일 시스템, 하둡 YARN, 하둡 맵리듀스

 

Apache Ambari

웹 UI를 통해 Hadoop 클러스트 구성, 모니터링, 관리합니다. 

REST API를 통해 다른 애플리케이션과 통합합니다.

 

Apache ZooKeeper

공개 분산형 구성 서비스, 동기 서비스, 분산 시스템을 위한 네이밍 레지스트리를 제공합니다.

빅테이터 플랫폼에 동물 로고가 많기 때문에 동물원 사육사의 이름이 붙었습니다.

분산처리 환경 코디네이터로 네트워크 전송 실패 등 부분 실패를 안전하게 처리하기 위한 처리도구를 제공합니다.

 

Apache Oozie

Hadoop job 워크플로우 스케줄링 시스템입니다.

하둡 맵리듀스, 하둡 분산 파일 시스템 조작, 피그, SSH, 이메일을 포함한 각기 다른 종류의 액션 지원을 제공합니다.

추가적인 유형의 액션을 지원하도록 확장할 수도 있습니다.

 

 

2.보안 / 인증 관리

Apache Ranger

하둡 클러스터 인증, 보안 관리, 운영을 할 수 있도록 중앙화된 프레임워크를 제공합니다.

 

 

Apache Kerberos

신뢰할 수 있는 타사 상호인증 서비스를 기반으로 SSO(Single Sign On)을 제공하는 네트워크 인증 프로토콜입니다.

비밀번호는 유선으로 전송되지 않고 제한된 시간동안 서버와 협상되는 티켓을 사용합니다.

SSO 시스템으로 유효 기간이 만료될 때까지 모든 서비스에서 단일 티켓을 사용할 수 있습니다.

사용자 및 서비스의 모든 키가 Kerberos 서버에서 관리되어 신뢰할 수 있는 제 3자 역할을 합니다.

 

 

 

3.수집

Apache Flume

대량의 로그 데이터 수집, 취합, 이동을 위한 분산형 소프트웨어입니다.

스트리밍 데이터 플로 기반의 단순하지만 유연한 아키텍처를 갖추었으며 수많은 대체작동 및 복구 매커니즘을 갖추고 있어서 고장 방지 기능이 제공됩니다.

 

 

Apache Sqoop

RDBMS와 하둡간 대용량 데이터 수집 통합 변환해주는 Command line 애플리케이션입니다.

RDBMS에서 하둡으로 데이터를 가져와서 맵리듀스로 변환하고 그 데이터를 다시 RDBMS로 보낼 수 있습니다.

 

Logstash

서버의 데이터 처리 실시간 파이프라인 기능을 가진 로그 데이터 수집, 파싱 후 저장소로 전달 합니다.

 

 

4.저장

Apache Hive

하둡에서 동작하는 데이터 웨어하우스 인프라 구조로서 데이터 요약, 질의 및 분석 기능을 제공합니다.

HDFS이나 HBase같은 대용량 데이터 집합들을 분석 합니다.

쿼리를 빠르게하기 위해 비트맵 인덱스 등 인덱스 기능을 제공합니다.

기본적으로 메타데이터를 내장한 아피치 더비 데이터 베이스안에 저장되지만 MYSQL등 다른 데이터베이스를 사용할 수도 있습니다.

 

Apache HBase

하둡 플랫폼을 위한 비관계형 대용량 NoSQL 데이터베이스입니다.

HBase에 있는 테이블들은 하둡에서 동작하는 맵리듀스 작업을 위한 입출력을 제공하며 자바 API나 REST, Avro, Thrift 게이트웨이를 통해 접근할 수 있습니다.

SQL 데이터베이스를 대체하지는 않지만 페이스북 메시징 플랫폼 같은 데이터를 많이 사용하는 웹사이트에서 사용됩니다.

 

 

5.데이터 처리 및 분석

Apache MapReduce

배치 프로세싱

 

Apache Spark

대용량 데이터 분석 처리 엔진으로 SQL, streaming, machine learnig, graph 처리를 위한 기본 제공 모듈이 있는 대규모 데이터 처리용 통합 분석 엔진입니다.

 

Apache Beeline

SQL Line 기반의 하이브서버2 내 쿼리 실행 도구입니다. JDBC를 사용하여 접속합니다.

 

R

데이터 분석, 통계 계산과 그래픽을 위한 프로그래밍 언어입니다.

 

Apache TEZ

MapReduce를 대체하여 인메모리 처리 통해 처리 성능을 높이는 엔진입니다. 

MapReduce와 동일하게 YARM 기반으로 실행되며 Map단계 처리 결과를 메모리에 저장하고 Reduce 단계로 바로 전달해서 오버헤드를 줄일 수 있습니다.

 

ElasticSearch

루씬기반 검색 엔진으로 준실시간 대용량데이터 검색 및 분석을 지원합니다.

Logstash의 데이터 수집 및 로그 파싱 엔진과 Kibana라는 시각화 플랫폼과 함께 개발되었습니다.

ElasticSearch + Logstash+ Kibana를 합쳐서 ELK 스택이라고 부릅니다.

 

 

6.시각화

Kibana

ElasticSearch 데이터에 대한 시각화 도구입니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90