티스토리 뷰

    정의


    빅데이터는 큰 사이즈의 데이터로부터 유의미한 지표를 분석해내는 것으로 정의할 수 있다.

    다양한 형태의 데이터를 수집, 처리, 저장하여 목적에 맞게 분석함으로써 필요 지식을 추출하고, 의사결정에 사용하거나, 비즈니스 모델, 또는 서비스 모델의 개발 및 개선, 수행에 이용하는 제반 행위를 포괄적으로 일컫는다.

    데이터를 추출해서 저장하고 분석해서 활용하는 일련의 과정 전체를 빅데이터라고 정의하는 것이 가능 적합하다.


    빅데이터 출현 배경


    • 소셜 네트워크 서비스(SNS)의 급격한 확산과 비정형 데이터
    • 멀티미디어 콘텐츠 사용 정보 증가
    • 각종 센서로부터 데이터 수집, 저장 - IOT
    • 기업의 고객 데이터 트래킹/수집 행위 증가데이터 저장매체 가격 하락


    이런 여러 가지 출현 배경으로 인하여 정보의 바다에서 정보의 홍수로 변화하게 된다.


    빅데이터 특성


    빅데이터의 특성은 3V로 요약할 수 있다. 3V에 두가지를 추가해서 5V로 부르기도 한다.


    1. Volumn(크기) - 물리적인 크기뿐만 아니라 개념적인 범위까지 대규모인 데이터를 의미하는 것으로 과거의 데이터 크기에 비하여 상대적으로 처리가 어려울 정도의 양을 의미한다.
    2. Variety(다양성) - 과거의 정형화된 데이터에 비하여 비정형화된 데이터까지 포함한 데이터의 형식 및 데이터를 수집하는 공간에 내부뿐만 아니라 외부의 데이터까지를 의미한다.
    3. Velocity(속도) - 데이터가 생성되는 속도 및 데이터를 처리하는 속도를 의미한다.
    4. Veracity(정확성) - 빅데이터 분석을 통해 얻은 정보를 비즈니스 의사 결정이나 활동의 배경을 고려하여 이용됨으로써 노이즈를 제거하고 시그널을 확보함으로써 데이터의 신뢰성이 제고됨을 의미한다.
    5. Value(가치) - 빅데이터의 가치는 데이터의 정확성과 시간성과 관련이 있음을 의미한다.


    빅데이터 분석 과정


    빅데이터는 데이터 자체가 목적이라기 보다는 데이터를 수집하고 저장하고, 분석하여 활용하는 것이 목표이다.

    빅데이터는 다음과 같은 분석 과정을 거치게 된다.


    1) 데이터 인식

    데이터가 어디 있는가 데이터 소스를 인식을 의미하며 분석을 전제로 가용한 데이터를 확인한다.

    내부 데이터 - 자체적으로 보요한 각종 데이터

    예) 현재 및 과거의 매출정보, 고객 정보, 제품 정보 등

    외부 데이터 - 인터넷 등으로 연결되어 외부에 존재하는 각종 비정형 데이터

    예) 소셜 미디어 데이터 등


    2) 데이터의 수집

    데이터를 모으는 것을 의미하며 내외부의 여러 데이터 소스로부터, 필요한 데이터를 검색하여 수집한다.

    데이터웨어하우스

    ETL(Extraction Transformation Loading)

    웹 크롤링(Web Crawling)


    3) 데이터 저장

    데이터를 저장하는 것을 의미하며 대용량의 정형, 비정형 데이터를 저장, 관리하여 데이터 분석 및 활용을 지원한다.

    빅데이터를 위한 데이터 베이스

    예) Hadoop, NoSQL 등 비정형 데이터 베이스


    4) 데이터 처리

    분석 가능한 상태로 처리 것을 의미하며 엄청난 데이터양과 데이터 생성 속도, 다양한 형태의 데이터를 통합적으로 처리한다.

    일괄처리 - 쌓인 데이터를 여러 서버로 분산처리

    실시간처리 - 데이터가 들어오는 대로 일련의 처리 업무를 수행


    5) 데이터 분석

    데이터 안의 정보 및 지식 추출 것을 의미하며 빅데이터는 저장이 아닌 분석에 목적이 있다.

    대용량 데이터로부터 사실, 추세, 관계, 패턴 등 알려지지 않은 정보, 또는 지식을 찾아내는 과정

    통계 분석(Statistical Analysis), 데이터 마이닝(Data Mining), 텍스트 마이닝(Text Mining), 소셜 네트워크 분석(Social Network Analysis) 등


    6) 데이터 표현

    분석 결과를 활용하여 의사결정 혹은 다양한 여러 분야에 활용을 의미한다.

    데이터 분석 결과를 쉽게 이해할 수 있도록 시각적인 수단으로 정보를 전달하는 과정

    예) 시간 시각화, 분포 시각화, 관계 시각화, 인포그래픽 등



댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함