분산처리

Hadoop 1.0

2023.06.26

하둡은 왜 필요할까? 우리가 RDB에 데이터를 저장할 때는 데이터를 행을 기준으로 저장하는데 이를 우리는 행 지향 데이터베이스라고 한다. RDB는 기본적으로 동시 접속에 좋은 성능을 보이고 낮은 지연시간을 가진다. 하지만 메모리의 부족에는 급격한 성능하락을 보이는 특징을 가진다. 이 때문에 DBMS의 성능을 측정할 때 메모리를 바꿔가면서 성능을 측정하게 되는 것이다. 여기서 우리가 데이터 처리의 관점에서 생각을 해보면 데이터 처리의 경우 열지향이라는 것을 생각할 수 있다. 우리가 판다스를 사용하기 편한이유는 column base로 데이터 추출이 용이하기 때문인것처럼 말이다. 이러한 열지향 데이터 베이스의 경우 다음 2가지 관점에서 수억건 이상 데이터를 저장하는 데이터 레이크에서 선호된다. 1) 특정 컬럼..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

분산처리

Hadoop 1.0

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역