HDFS(Apache Hadoop Distributed File System)Apache Hadoop은 분산 파일 시스템과 MapReduce 패러다임을 이용한 대용량 데이터를 분산 처리할 수 있는 오픈소스 프레임워크이다.원래 너치(루씬을 기반으로 하여만든 오픈 소스 검색 엔진)의 분산처리를 지원하기 위해 개발된 것으로, 아파치 루씬의 하부 프로젝트이다. 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 파일 시스템과 맵리듀스를 구현한 것이다. HDFS 특징1. 데이터 Recoverability- 시스템의 컴포넌트가 fail 하더라도 시스템을 통해 작업을 지속적으로 수행되어야 한다. failure로 인해 어떠한 데이터의 손실도 발생해서는 안된다.2. 컴포넌트 Recovery- 시스템의 컴포넌트가 ..
빅데이터 프로젝트를 하게되면 항상 마주하게 되는 하둡(Hadoop)에 대한 이야기이다.빅데이터를 새롭게 구축 하는 일을 마주하게 되면 제일 먼저 큰 데이터를 저장 할 저장소와 저장한 데이터를 처리할 CPU 의 자원이 필요하다. 우리는 Apache Hadoop을 왜 쓰게 되었을까?큰 데이터를 처리하기에 기존 방식은 너무 비싸다.애플리케이션/트랜잭션 로그 정보는 매우 크다. ▶ 대용량 파일을 저장할 수 있는 분산 파일 시스템을 제공한다.I/O 집중적이면서 CPU도 많이 사용한다.▶ 멀티 노드로 부하를 분산시켜 처리한다.데이터베이스는 하드웨어 추가 시 성능 향상이 선형적이지 않다.▶ 장비를 증가시킬수록 성능이 선형적으로 향상된다. 데이터베이스는 소프트웨어와 하드웨어가 비싸다.▶ Apache Hadoop은 무료..
정의빅데이터는 큰 사이즈의 데이터로부터 유의미한 지표를 분석해내는 것으로 정의할 수 있다.다양한 형태의 데이터를 수집, 처리, 저장하여 목적에 맞게 분석함으로써 필요 지식을 추출하고, 의사결정에 사용하거나, 비즈니스 모델, 또는 서비스 모델의 개발 및 개선, 수행에 이용하는 제반 행위를 포괄적으로 일컫는다.데이터를 추출해서 저장하고 분석해서 활용하는 일련의 과정 전체를 빅데이터라고 정의하는 것이 가능 적합하다. 빅데이터 출현 배경소셜 네트워크 서비스(SNS)의 급격한 확산과 비정형 데이터멀티미디어 콘텐츠 사용 정보 증가각종 센서로부터 데이터 수집, 저장 - IOT기업의 고객 데이터 트래킹/수집 행위 증가데이터 저장매체 가격 하락 이런 여러 가지 출현 배경으로 인하여 정보의 바다에서 정보의 홍수로 변화하게..
- spring
- 프로그래머스
- 제주도 여행
- 성능분석
- 자바
- 리눅스 명령어
- SQL
- Eclipse
- 자바스크립트
- Collection
- 리액트
- 리액트 16
- 회고
- 프로그래머
- 오라클 내장 함수
- Java
- Linux 명령어
- React
- 경력관리
- 정렬 알고리즘
- Tomcat
- sort algorithm
- 소프트웨어공학
- Maven
- javascript
- 개발환경
- 오라클
- 제주도 3박4일 일정
- effective java
- 이직
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |