분산처리
Hadoop 1.0
하둡은 왜 필요할까? 우리가 RDB에 데이터를 저장할 때는 데이터를 행을 기준으로 저장하는데 이를 우리는 행 지향 데이터베이스라고 한다. RDB는 기본적으로 동시 접속에 좋은 성능을 보이고 낮은 지연시간을 가진다. 하지만 메모리의 부족에는 급격한 성능하락을 보이는 특징을 가진다. 이 때문에 DBMS의 성능을 측정할 때 메모리를 바꿔가면서 성능을 측정하게 되는 것이다. 여기서 우리가 데이터 처리의 관점에서 생각을 해보면 데이터 처리의 경우 열지향이라는 것을 생각할 수 있다. 우리가 판다스를 사용하기 편한이유는 column base로 데이터 추출이 용이하기 때문인것처럼 말이다. 이러한 열지향 데이터 베이스의 경우 다음 2가지 관점에서 수억건 이상 데이터를 저장하는 데이터 레이크에서 선호된다. 1) 특정 컬럼..