Big Data

Apache Flink

특징

Apache Flink(이하 플링크)는 스트리밍 데이터 처리를 위한 분산처리 엔진이자 프레임워크입니다. 플링크는 일반 환경뿐만 아니라 빅데이터 환경에서도 메모리 기반으로 빠른 처리를 할 수 있도록 만들어졌습니다.

Process Unbounded and Bounded Data
Deploy Applications Anywhere
Run Applications at any Scale
Leverage In-Memory Performance

Process Unbounded and Bounded Data

신용카드 거래내역, 센서측정정보, 웹이나 모바일에서 사용자 수행 정보등 어떤 종류의 데이터도 스트림형태로 생성된다. 플링크는 Bounded Data와 Unbounded Data 처리에 탁월한 성능을 보인다.

Deploy Applications Anywhere

플링크는 분산 시스템이며 응용 프로그램을 실행하기위해서는 컴퓨팅 리소스가 필요하다. 이에 따라 플링크는 Hadoop YARN, Apache Mesos 및 Kubernetes와 같은 모든 일반적인 클러스터 리소스 관리자와 통합해서 운영되지만, 독립적인 형태의 클러스터로 실행되도록 설정할 수도 있다.

Run Applications at any Scale

플링크는 어떤 규모에서든지 상태를 유지하는 스트리밍 애플리케이션을 실행하도록 설계되었다. 응용 프로그램은 클러스터에서 분산되고 동시에 실행되는 수천 개의 작업으로 병렬화 된다. 따라서 애플리케이션은 사실상 무제한의 CPU, 주 메모리, 디스크 및 네트워크 IO를 활용할 수 있다. 또한 플링크는 매우 큰 애플리케이션 상태를 쉽게 유지한다.

Leverage In-Memory Performance

상태를 유지하는 애플리케이션은 로컬 상태 액세스에 최적화되어 있다. 작업 상태는 항상 메모리에 유지되거나 상태 크기가 사용 가능한 메모리를 초과하는 경우 액세스 효율적인 온 디스크 데이터 구조로 유지 된다. 따라서 작업은 로컬 (종종 메모리 내) 상태에 액세스하여 모든 계산을 수행하여 매우 낮은 처리 대기 시간을 생성 한다. 플링크는 로컬 상태를 내구성있는 스토리지에 주기적으로 비동기 적으로 체크 포인트하여 장애 발생시에도 일관성 상태를 보장