개발/데이터 엔지니어링

    데이터 파이프라인 용어 정리

    데이터 파이프라인 용어 정리

    데이터 파이프라인이란, 데이터를 수집하는 근원지 부터 데이터 저장소까지 데이터를 이전하는 구조이다. 이러한 데이터 파이프라인은 수집해야하는 데이터가 많아 짐에 따라 이를 보다 효과적으로 관리하고 저장하기 위한 목적으로 개발 및 발전이 되어왔다. 이번 글에서는 데이터 파이프라인을 구성하는 요소들에 대한 간단한 설명을 해보려고 한다. 먼저 기본적인 데이터 파이프라인의 구조를 보자.데이터 소스 업무 시스템을 위한 RDB나 로그등을 저장하는 파일 서버를 데이터 소스라고 한다. 이러한 데이터 소스에 저장되어있는 데이터를 흔히들 로우 데이터라고 한다. 물론 여기서 데이터 소스를 파일 서버라고 하는 경우는 배치 처리에서 쉽게 떠올릴 수 있고 스트림으로 데이터를 받아오는 상황에서는 메세지 브로커들이 데이터 웨어하우스 ..

    Hadoop 1.0

    Hadoop 1.0

    하둡은 왜 필요할까? 우리가 RDB에 데이터를 저장할 때는 데이터를 행을 기준으로 저장하는데 이를 우리는 행 지향 데이터베이스라고 한다. RDB는 기본적으로 동시 접속에 좋은 성능을 보이고 낮은 지연시간을 가진다. 하지만 메모리의 부족에는 급격한 성능하락을 보이는 특징을 가진다. 이 때문에 DBMS의 성능을 측정할 때 메모리를 바꿔가면서 성능을 측정하게 되는 것이다. 여기서 우리가 데이터 처리의 관점에서 생각을 해보면 데이터 처리의 경우 열지향이라는 것을 생각할 수 있다. 우리가 판다스를 사용하기 편한이유는 column base로 데이터 추출이 용이하기 때문인것처럼 말이다. 이러한 열지향 데이터 베이스의 경우 다음 2가지 관점에서 수억건 이상 데이터를 저장하는 데이터 레이크에서 선호된다. 1) 특정 컬럼..