본문 바로가기

CERTIFICATION/ADsP

[D-7/핵심포인트 정리] 1과목 데이터 이해

1-1. 데이터와 정보

01. 데이터의 유형

  • 정성적 데이터 : 비정형 데이터 형태로 저장, 검색, 분석에 많은 시간과 비용이 필요
                             언어, 문자 등 형태와 형식이 정해져 있지 않음
                              숫자나 금액으로 환산할 수 없는 것
                              ex) 회사 매출이 증가함, 설문조사 주관식 응답, 페이스북
✔ 주관식 설문조사가 정성적 데이터는 옳은 보기
✔ 설문조사는 비정형 데이터라고 한다면 틀린 보기
✔ 객관식 설문문항은 수치로 처리 가능하면 정량적 데이터도 가능

 

  • 정량적 데이터 : 정형화된 데이터로 수치, 도형, 기호 등의 형태를 가진 데이터
                              데이터양이 증가하더라도 저장, 분석 용이
                              숫자나 금액으로 환산 가능한 것
                              ex) 온도, 풍속, 강수량, 나이, 몸무게, 주가 등
✔ 정성적 vs 정량적 데이터의 특징 구분

 

데이터유형 특징 데이터 예
정형
데이터
• RDBMS의 고정된 필드에 저장
• 데이터 스키마 지원
• RDB
• CSV
• 엑셀
반정형
데이터
• 데이터속성인 메타데이터를 가지며 일반적으로 스토리지에
  저장되는 데이터 파일
• HTML/XML
• JSON
• 웹로그
• 센서 데이터
비정형
데이터
• 형태나 구조가 복합된 이미지, 동영상 같은 멀티미디어 데이터 • 소셜데이터
• 문서 이미지
• 비디오, 오디오, 댓글 등
📌 메타데이터
    - 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내 이용하기 위해 규칙에 따라 콘텐츠에 대하여
      부여되는 데이터
    - 콘텐츠의 위치&내용, 작성자에 관한 정보, 권리조건, 이용조건, 이용내력 등 기록
✔ 데이터의 유형 특징 구분, 종류 출제

 

02. 지식경영의 핵심 이슈

공통화 → 표출화 → 연결화 → 내면화

 

03. DIKW 피라미드

  • 데이터의 당위적 특성인 근거의 기능에 주목하여 데이터와 정보의 관계를 살펴볼 때 DIKW 정의 필요
  • 데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정
✔ DIKW 개념 구분과 사례 등 출제

 


1-2. 데이터베이스 정의와 특징

01. 데이터베이스 정의

EU 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는
독립된 저작물, 데이터 또는 기타 소재의 수집물
국내 저작권법 소재를 체계적으로 배열 또는 구성한 편집물로 개별적으로 그 소재에 접근하거나
그 소재를 검색할 수 있도록 한 것
국내 컴퓨터용어사전 동시 복수 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고
저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합

 

02. 데이터베이스 특징

     (1) 데이터베이스(DB) 특징

통합된 데이터
(Integrated Data)
동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미
데이터 중복은 관리상의 복잡한 부작용을 초래
저장된 데이터
(Stored Data)
자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미
데이터베이스는 기본적으로 컴퓨터 기술을 바탕으로 한 것
공용 데이터
(Shared Data)
여러 사용자가 서로 다른 목적으로 데이터를 공용으로 이용한다는 것을 의미
대용량화되고 구조가 복잡한 것이 보통
변화되는 데이터
(Changeable Data)
데이터베이스에 저장된 내용은 곧 데이터베이스의 현 시점에서의 상태를 나타냄
새로운 데이터의 삽입, 기존 데이터의 삭제, 갱싱으로 항상 변화하면서도 정확한 데이터 유지 필요
✔ 데이터웨어하우스 특징과 데이터베이스 특징 구분 문제 출제

     (2) 데이터웨어하우스(Data Warehouse, DW) 특징

  • 데이터의 주체지향성
  • 데이터의 통합성
  • 데이터의 시계열성
  • 데이터의 비휘발성

     (3) 데이터마트 (Data Mart, DM)

  • 데이터 웨어하우스 환경에서 정의된 접근 계층(부분집합)
  • DW에서 데이터를 꺼내 사용자에게 제공하는 역할
  • 특정한 조직 혹은 팀에서 사용하는 것을 목적으로 함
✔ 데이터 마트와 데이터웨어하우스의 개념 구분 출제

 

03. DBMS 발전 과정

  • 1세대 : 네트워크 DBMS, 계층 DBMS
    - 복잡하고 변경이 어려움
  • 2세대 : 관계(Relation) DBMS
    - 데이터베이스 테이블 형태 구성
    - ex) 오라클(유료), 액세스, MySQL(무료)
  • 3세대 : 객체지향(Objected) DBMS
    - 멀티미디어 데이터 확산으로 관계형 모델 표현 어려움
    - 같은 행위를 갖는 객체는 한 클래스에 속하며, 연산을 나타내기 위해 메소드 함수로 정의
    - 객체란 속성(attribute)과 행위(behavior)
    - 학생 객체는 이름, 학번, 성적 등의 속성을 가질 수 있음
      학생은 과제를 제출하는 등의 행위를 할 수 있음
      이러한 객체들을 데이터라 함
  • 4세대 : NoSQL DBMS
    - 데이터구조를 미리 정해두지 않기 때문에 비정형 데이터를 저장하고 처리
    - MongoDB, Cassandra, Redis
구분 SQL NoSQL
데이터 모델 관계형 모델은 데이터를 행과 열로 구성된 테이블로 정규화 키-값, 문서 그래프 등 성능과 규모 확장에 최적화된 다양한 데이터 모델을 제공
최적의 워크로드 관계형 데이터베이스는 일관성이 뛰어난 온라인 트랜잭션 프로세싱(OLTP) 애플리케이션을 위해 설계되어 온라인 분석 프로세싱(OLAP)에 적합 • 낮은 지연시간의 애플리케이션을 포함한 수많은 데이터 액세스 패턴에 맞도록 설계됨
• NoSQL 검색 데이터베이스는 반정형 또는 비정형 데이터에서 분석을 위해 설계됨
✔ 데이터 정의 언어(Data Definition Language, DDL) : Create(테이블 생성), Rename(테이블 이름 변경), Alter(테이블 수정), DROP(테이블 삭제)

 

     (1) SQL 분류

  • SQL(Structure Auery Language) : 관계 데이터베이스를 위한 표준 질의어
  • 기능에 따라 데이터 정의어(DDL), 데이터 조작어(DML), 데이터 제어어(DCL)로 나눔
  • 데이터 정의어(DDL)
    - 스키마, 데이터, 뷰 등을 정의하거나 변겨으 삭제할 때 사용하는 언어
    - 데이터베이스 관리자 혹은 설계자가 사용
    - 유형(CAD) : CREATE / ALTER / DROP
  • 데이터 조작어(DML)
    - 데이터베이스 사용자가 저장된 데이터를 처리할 때 사용하는 언어
    - 데이터베이스 사용자가 관리 시스템 간의 인터페이스를 제공할 때 사용
    - 유형 : SELECT / INSERT / DELETE / UPDATE

 

     (2) ETL(Extraction, Transformation and Load)

  • Extraction(추출)
    - 하나 또는 그 이상의 데이터 원천들로부터 데이터 획득
  • Transformation(변환)
    - 데이터 클렌징, 형식 변환, 표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스룰 적용
  • Load(적재)
    - 위 변형 단계 처리가 완료된 데이터를 특정 목표 시스템에 적재
✔ ETL의 정의 및 기능 출제

 

 

04. OLTP vs OLAP

  • OLTP(On-Line Transaction Processing)
    - 네트워크상의 여러 이용자가 실시간으로 데이터베이스의 데이터를 갱신하거나 조회하는 등의 단위 작업을
      처리하는 방식
    - ex) 은행에서 수많은 입출금 등이 일어날 때

  • OLAP(On-Line Analytic Processing)
    - 정보 위주의 처리 분석
    - 의사결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술
    - ex) 판매 추이, 구매성향파악, 재무회계 분석 등을 프로세싱
✔ 두 개념 차이가 출제          T = 갱신    A = 분석

 

 

05. ERP & BI

  • ERP 
    - 제조업을 포함한 다양한 비즈니스 분야에서 생산, 구매, 공급자와의 거래, 고객서비스 제공 등 주요
      프로세스 관리에 대한 여러 모듈로 구성된 통합 솔루션
  • BI(Business Intelligence)
    - 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
  • BA(Business Analytics)
    - 통계적이고 수학적인 분석에 초점을 둔 기법
✔ ERP 정의, BI와 BA 개념 구분

 

 

06. 기타 기업내부 데이터베이스 솔루션

  • EAI(Enterprise Architecture Integration)
    - 기업 애플리케이션 통합
    - 기업 내의 ERP(전사적자원관리), CRM(고객 관계관리), SCM(공급망계획) 등의 시스템 간에 상호 연동이
      가능하도록 통합하는 솔루션

  • EDW(Enterprise Data Warehouse)
    - 기존 DW를 전사적으로 확장한 모델
    - BPR, CRM, BSC 같은 다양한 애플리케이션들을 위한 원천
    - EDW 구축 = 정보를 빠르게 전달하는 대형 시스템을 도입한다는 의미
    - 리소스의 유기적 통합, 다원화된 관리체계 정비, 데이터의 중복 방지 등을 위해 시스템을 재설계 하는 것

  • KMS(Knowledge Management System)
    - 지식관리시스템
    - 기업경쟁을 지식이라는 관점에서 새롭게 조명하는 접근방식

 

07. 실시간 기업(Real-Time Enterprise, RTE)

  • 최신 정보를 사용해 자사의 핵심 비즈니스 프로세스들의 고나리와 실행과정에서 생기는 지연사태를 지속해서
    제거함으로써 경쟁하는 기업

 


 

2-1. 빅데이터의 이해

01. 빅데이터의 정의

     (1) 관점에 따른 정의

Mckinsey(2011) IDC(2011) 가트너 그룹(Gartner Group)
더그 래니(Doug Laney)의 3V
일반적인 데이터베이스 소프트웨어로
저장, 관리, 분석할 수 있는 범위를
초과하는 규모의 데이터
다양한 종류의 대규모 데이터로부터
저렴한 비용으로 가치를 추출하고
데이터의 초고속 수집, 발굴, 분석을
지원하도록 고안된 차세대 기술, 아키텍처
• Volume : 데이터의 규모 측면

• Variety : 데이터의 유형과 소스 측면

• Velocity : 데이터의 수집과 처리 측면
데이터 규모에 초점 분석 비용 및 기술에 초점

 

     (2) 빅데이터 정의의 범주 및 효과

기존 방식으로는 얻을 수 없는 통찰 및 가치 창출 → 사업방식, 시장, 사회, 정부 등에서도 변화와 혁신 주도

 

02. 출현 배경과 변화

  • 산업계의 출현배경 : 고객 데이터 축적, 보유를 통해 데이터에 숨어있는 가치 발굴
  • 학계의 출현배경 : 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계 도구 발전
  • 기술발전관련 출현배경 : 관련기술(저장 기술, 인터넷 보급, 클라우드 컴퓨팅, 모바일 혁명)의 발달
  • 빅데이터 현상은 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서
    일어나는 '변화'를 의미함
✔ 클라우드 컴퓨팅과 분산처리 기술이 빅데이터가 등장하게 된 결과
✔ 빅데이터 출현 배경에 관한 문제 출제

 

03. 빅데이터에 거는 기대의 비유적 표현

  • 산업혁명의 석탄과 철 
  • 21세기의 원유 
  • 렌즈 
  • 플랫폼 : 공동 활용 목적으로 구축된 유무형의 구조물

 

04. 빅데이터가 만들어내는 본질적인 변화

  • 사전처리 → 사후처리
  • 표본조사 → 전수조사
  • 질 → 양 (ex) 구글의 자동번역
  • 인과관계 → 상관관계
✔ 빅데이터가 만든 본질적인 변화 출제

 


2-2. 빅데이터의 가치와 영향

01. 빅데이터 가치 산정이 어려운 이유

  • 데이터 활용방식
    - 데이터의 재사용, 재조합(mashup), 다목적용 데이터 개발 등이 일반화
      → 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없음
    - 재사용 사례 : 구글 검색결과를 저장 후 재사용
    - 다목적용 사례 : 전기자동차의 배터리 충전시간, CCTV(절도범&구매정보)
    - 재조합 사례 : 휴대전화 전자파와 뇌종양 관계
  • 새로운 가치 창출
    - ex) 아마존 킨들 전자책 읽기 관련 데이터 분석을 통해 독서 패턴을 알 수 있음
            (페이스북 소셜커머스 그래프)
  • 분석기술 발달이 데이터 가치에 영향을 줌
    - 기존에는 가치가 없는 데이터도 새로운 분석기법으로 가치가 생김
    - ex) SNS 비정형 데이터 이용한 텍스트마이닝 활용
✔ 빅데이터가 가치 산정이 어려운 이유아 사례 출제

 

02. 빅데이터의 영향


2-3. 비즈니스 모델

01. 빅데이터 활용 사례

     (1) 관점에 따른 정의

  • 구글 : 사용자의 로그 데이터를 활용한 검색엔진 개발, 기존 페이지랭크 알고리즘 혁신
  • 월마트 : 고객의 구매패턴을 분석해 상품 진열에 활용

     (2) 정부

  • 실시간 교통정보 수집, 기후 정보, 소방 서비스 등을 위해 실시간 모니터링 실시 → 국가 안전 확보에 활용

     (3) 개인

  • 정치인 : 선거 승리를 위해 사회관계망 분석을 활용해 유세 지역 선거
  • 가수 : 팬들의 음악 청취 기록을 분석해 공연시 노래 순서 선정

 

02. 빅데이터 활용 기본 테크닉

  • 연관 규칙 학습(Association rule learning)
    - 어떤 변수 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
    - ex) 마트에서 상관관계가 높은 상품을 함께 진열 → 우유 & 기저귀
  • 유형(군집)분석(Classification tree analysis)
    - '사용자가 어떤 특성을 가진 집단에 속하는가?'와 같은 문제를 해결하고자 할 때 사용
    - ex) 온라인 수강생들의 특성에 따라 분류
  • 유전 알고리즘(Genetic algorithms)
    - '최대의 시청률을 얻으려면 프로그램을 어떤 시간대에 방송해야 하는가?'와 같은 문제를 해결하기 위해
       최적화의 메커니즘을 찾아가는 방법
    - ex) 연료 효율적인 차를 개발하기 위해 어떻게 원자재와 엔지니어링을 결합해야 하는가?
            응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?
  • 기계학습
    - 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방벙
    - ex) 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고싶어할까?
  • 회귀분석
    - 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인간의 인과관계를 파악
    - 구매자(독립변수-원인)의 나이가 구매차량의 타입(종속변수-결과)에 어떤 영향을 미치는가?
  • 감정분석(Sentiment Analysis)
    - '새로운 환불 정책에 대한 고객의 평가는 어떤가?' 를 알고 싶을 때 활용
    - ex) 소셜미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼 때 사용
  • 소셜네트워크분석(=사회관계망분석)(Social network analysis)
    - 영향력 있는 사람을 찾아낼 수 있으면, 고객들간 소셜커머스 관계 파악 가능
✔ 분석기법 정의와 사례들 출제

 


2-4. 위기 요인과 통제 방안

01.  위기 요인에 따른 통제 방안

  • 사생활 침해      →  동의에서 책임으로 + 익명화 기술 발전 필요
  • 책임 원칙 훼손  → 결과기반 책임 원칙 고수
  • 데이터 오용      →  알고리즘 접근 허용 + 알고리즈미스트 역할 요구
✔ 위기요인과 통제방안을 연계한 문제 출제

 

02. 데이터 3법

  • 데이터 이용을 활성화하는 3가지 법률
    - 개인정보보호법
    - 정보통신망 이용촉진 및 정보보호 등에 관한 법률(정보통신망법)
    - 신용정보의 이용 및 보호에 관한 법률(신용정보법)

 

03. 개인정보 비식별화

  • 개인정보 식별요소 제거방법 및 예시
비식별기술 제거방법 예시
가명처리 식별요소를 다른 값으로 대체 홍길동, 35세, 서울 거주, 한국대 재학
→ 임꺽정, 30대, 서울 거주, 국제대 재학
총계처리 or
평균값 대체
데이터를 총합으로 표시하여
개별 데이터값을 보이지 않도록 함
임꺽정 180cm, 홍길동 170cm
→ 1-5반 학생키 합 350cm, 평균키 175cm
데이터값 삭제 개인 식별을 인식할 수 있는 값 삭제 홍길동, 35세, 서울 거주, 한국대 재학
→ 35세, 서울 거주
범주화 범주의 값으로 변환 홍길동, 35세 → 홍씨, 30~40세
데이터마스킹 개인 식별자가 보이지 않도록 처리 홍길동, 한국대 재학 → 홍**, **대학 재학
✔ 비식별기술 개념과 예시 출제

2-5. 미래의 빅데이터

01. 빅데이터 활용의 3요소

  • 데이터 : 모든 것의 데이터화(Datafication)
  • 기술 : 진화하는 알고리즘, 인공지능
  • 인력 : 데이터 사이언티스트, 알고리즈미스트

3-1. 빅데이터 분석과 전략 인사이트

01. 빅데이터 열풍과 회의론

  • 빅데이터 분석은 데이터에서 가치, 즉 통찰을 끌어내 성과를 창출하는 것이 관건
    → 복잡하고 다양한 데이터를 최적화하는 능력이 반드시 최고의 가치를 창출하는 것은 아니고
         가치에 적합한 분석을 하는 것이 중요 포인트
  • 데이터는 크기의 이슈가 아니라, 거기에서 어떤 시각과 통찰을 얻을 수 있느냐의 문제
    빅데이터와 관련된 걸림돌은 비용 아니라 분석적 방법과 성과에 대한 이해부족
  • 대부분 성과가 높은 기업일수록 데이터 기반에 의한 의사결정을 하지만 성과가 우수한 기업들도 가치 분석력 통찰력을 갖췄다고 대답한 비율이 낮음
    → 기업의 핵심가치와 관련한 전략적 통찰력을 가져다주는 데이터분석이 쉬운 일이 아님

  • 부정적 학습효과 → 과거의 고객관계관리(CRM) : 공포 마케팅, 투자대비 효과 미흡
  • 부적절한 성공사례 → 빅데이터가 필요 없는 분석사례, 기존 CRM의 분석 성과를 빅데이터 분석 성과로 과대포장
    💬 단순히 빅데이터에 포커스를 두지 말고, 분석을 통해 가치를 만드는 것에 집중
✔ 빅데이터 성과와 관련한 객관형 보기 출제

 

02. 일차원적인 분석 vs 전략 도출을 위한 가치 기반 분석

     (1) 산업별 분석 애플리케이션

산업 일차원적 분석 애플리케이션
금융 서비스 신용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성 분석
병원 가격 책정, 고객 로열티, 수익 관리
에너지 트레이딩, 공급, 수요 예측
정부 사기 탐지, 사례관리, 범죄 방지, 수익 최적화

 

     (2) 전략 도출 가치 기반 분석

  • 일차적인 분석을 통해서도 해당 부서, 업무영역 효과를 얻을 수 있지만,
    일차적인 분석은 태생적으로 업계 내부의 문제에만 초점을 두고 있음
    → 전략적 인사이트 가치 기반을 위해서 인구통학적 변화, 경제사회 트랜드, 고객 니즈의 변화 고려
    → 업게 상황에 한정해서 바라보지 말고 더 넓은 시야에서 차별화 고려
  • 데이터 분석은 대상을 모델범위 외 요인들을 판단하게 되면 분석 모델의 정확성에 위험을 동반할 수 있음을 유의

  • 전략적 통찰력의 창출에 포커스 → 해당 사업에 중요한 기회를 발굴, 주요 경영진의 지원 얻게 됨
  • 분석의 활용 범위를 더 넓고 전략적으로 변화 & 전략적 인사이트를 주는 가치 기반의 분석 단계로 나가가야 함
✔ 일차적인 분석의 한계점 등이 오답 보기 문제로 출제

3-2. 전략 인사이트 도출을 위한 필요 역량

01. 데이터 사이언스 vs 데이터 마이닝 vs 통계학 차이

  • 데이터 사이언스는 데이터로부터 의미 있는 정보를 추출하는 학문
  • 통계학이 정형화된 실험 데이터를 분석 대상으로 하는 것에 비해, 데이터 사이언스는 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 총체적 접근법 사용(통계학과의 차이)
  • 데이터 마이닝은 주로 분석에 초점을 두나, 데이터사이언스는 분석뿐만아니라 이를 효과적으로 구현하고 전달하는 과정까지 모두 포괄하는 개념(데이터 마이닝과의 차이)
  • 즉, 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문
✔ 데이터 사이언스 정의와 데이터 마이닝과 통계학 구분 출제

 

02. 데이터 사이언스의 구성요소

     (1) 데이터 사이언스의 영역

 

     (2) 데이터 사이언티스트의 요구 역량

각 항목 추가설명 기재

  • Hard Skill
    - 관련 기법에 대한 이해와 방법론 습득
    - 최적의 분석 설계 및 노하우 축적
  • Soft Skill
    - 창의적 사고, 호기심, 논리적 비판
    - 스토리텔링, Visualization
    - Communication
✔ 하드 스킬과 소프트 스킬 개념 및 구분 출제

 

 

     (3) 데이터 사이언티스트 6가지 핵심 질문

  과거 현재 미래
정보 무슨 일이 일어났는가?
ex) 리포팅(보고서)
무슨 일이 일어나고 있는가?
ex) 경고
무슨 일이 일어날 것인가?
ex) 추출
통찰 어떻게, 왜 일어났는가?
ex) 모델링, 실험설계
차선 행동은 무엇인가?
ex) 권고
최악, 최선의 상황은?
ex) 예측, 최적화
✔ 정보와 통찰 예 출제

 

03. 데이터 사이언스 : 과학과 인문의 교차로

  • 분석 기술 < 소프트 스킬
  • 전략적 통찰 : 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 대화능력 등 인문학적 요소 필요

 

04. 전략적 통찰력과 인문학의 부활

외부 환경적 측면에서 본 인문학 열풍의 이유
외부환경의 변화 내용 예시
컨버전스 → 디버전스 단순 세계화 → 복잡한 세계화 규모의 경제, 세계화, 표준화, 이성화
→ 복잡한 세계, 다양성, 관계, 연결성, 창조성
생산 → 서비스 (비즈니스 중심 변화)
제품 생산 → 서비스
고장나지 않는 제품의 생산
→ 뛰어난 서비스로 응대
생산 → 시장창조 공급자 중심의 기술 경쟁
→ 무형자산의 경쟁
생산에 관련된 기술 중심, 기술 중심의 대규모 투자
→ 현재 패러다임에 근거한 시장 창조
     현지 사회와 문화에 관한 지식

3-3. 빅데이터 그리고 데이터 사이언스의 미래

01. 빅데이터의 시대

  • 빅데이터 분석은 선거결과에 결정적인 영향을 미칠수도 있고, 기업들에게 비용절감, 시간 절약, 매출 증대, 고객서비스 향상, 신규 비즈니스 창출, 내부 의사결정 지원 등에 있어 상당한 가치를 발휘함

 

02. 빅데이터 회의론을 넘어 가치 패러다임의 변화

 

03. 데이터 사이언스의 한계와 인문학

     (1) 데이터 사이언스의 한계

  • 분석과정에서는 가정 등 인간의 해석이 개입되는 단계를 반드시 거침
  • 분석결과가 의미하는 바는 사람에 따라 전혀 다른 해석과 결론을 내릴 수 있음
  • 아무리 정량적인 분석이라도 모든 분석은 가정에 근거함

 

     (2) 데이터 사이언스와 인문학

  • 인문학을 이용하여 빅데이터와 데이터 사이언스가 데이터에 묻혀 있는 잠재력을 풀어냄
  • 새로운 기회를 찾고, 누구도 보지 못한 창조의 밑그림을 그릴 수 있는 힘을 발휘하게 될 것

 

4. 자주 출제되는 기타 용어 정리

01. 데이터 레이크(Data Lake)

  • 기업이 다양한 유형과 형식의 대규모 데이터를 수집하고 저장하는 중앙 집중식 저장소
  • 원시(raw) 형태로 저장되며 나중에 필요에 따라 분석이나 처리를 위해 사용

 

02. 서비타이제이션(Servitization)

  • 제품과 서비스의 결합, 서비스의 상품과 기존 서비스와 신규 서비스의 결합 협상을 포괄하는 개념

 

03. 딥러닝(Deep Learning)

  • 여러 층을 가진 인공신경망을 사용하고 머신러닝학습을 수행하는 것(= 심층학습 기법)
  • 대표적 분석방법 : LSTM, Autoencoder, RNN 등

 

04. 마이데이터

  • 개인이 각종 기업, 기관에 흩어져 있는 자신의 신용 정보를 마이데이터 사업자에게 활용하도록 하고, 이들 업체로부터 자신에게 유용한 맞춤형 서비스를 받는 것