Achievement/경영정보시각화능력평가

(BI Specialist) 데이터 해석 및 활용 - 데이터 이해 및 해석

Socialmi 2024. 11. 24. 23:02
반응형

데이터의 이해

데이터의 개념

 

1. 데이터 : 사실 그 자체

 

2. 정보 : 데이터로 인해 산출된 산출물

 

3. 지식 : 정보를 바탕으로 의사결정에 활용, 고유의 지식으로 내재화

 

4. 통찰 : 지식의 축척과 아이디어가 결합

 

빅데이터의 개념

 

1. 3V : 규모, 속도, 다양성

 

2. 빅데이터의 역사 : 60-70년대 부터 시작, SNS로 인해 대용량 데이터에 대한 인식 확산, 하둡과 NoSQL의 확산

 

3. 빅데이터의 사용 사례 : 제품 개발, 유지 보수, 효율적 운영, 머신러닝

 

4. 빅데이터 작동 원리

- 통합 : 서로다른 종류의 소스로 부터 조합, 추출-변환-로드(ETL)은 적합하지 않음

- 관리 : 스토리지 사용

- 분석

 

데이터의 종류

 

1. 정형 데이터 : 구조화된 데이터, 스프레드시트, 관계 데이터베이스 테이블 등

 

2. 반정형 데이터 : 데이터 내용 안에 설명이 함께 존재함, HTML, XML, JSON, 웹 로그 등

 

3. 비정형 데이터 : SNS텍스트, 이미지, 영상, PDF 등

 

4. 범주형 데이터 : 구분되는 값

- 명목형 : 서열이 없는 값

- 순서형 : 서열이 있는 값

 

5. 수치형 데이터 : 숫자 데이터

- 이산형 : 셀 수 있음

- 연속형 : 연속적으로 이어진 숫자


데이터의 해석

데이터 해석 관점

 

1. 데이터 해석 : 어떠한 관점에서 바라보는지에 따라 의사결정 결과가 달라질 수 있음

 

2. 데이터 해석 오류

- 거짓 인과관계 : 우연히 나타난 현상에만 주목함

- 생존 편향 : 실제로 영향을 미치는데 간과하는 것

- 심슨의 역설 : 부분 추세에 비해 전체 추세는 반대로 나타나는 것

- 체리피킹 : 전체를 숨기고 유리한 데이터만 부각시키는 것

 

확률과 확률분포

 

1. 확률분포 : 특정한 값을 가질 확률

 

2. 이산확률분포 : 가질 수 있는 값의 개수를 셀 수 있음

- 베르누이분포 : 결과가 두가지 중 하나로만 나옴

- 이항분포 : 독립시행 중 성공할 확률

- 기하분포 : 독립시행 중 성공할때 까지의 횟수

- 음이항분포 : 독립시행 중 n번 성공할때 까지의 횟수

- 초기하분포 : 비복원추출 n번 했을 때 원하는 것이 k개 포함될 확률

- 포아송 분포 : 단위 시간 내 사건 발생 횟수

 

3. 연속확률분포 : 가질 수 있는 값의 개수를 셀 수 없음

- 정규분포 : 종모양 분포

- 감마분포 : a번째 사건이 일어날 때 까지 걸리는 시간에 대해서

- 지수분포 : 사건이 서로 독립적일 때 사건과 사건 간 경과시간에 대한 분포

- 카이제곱 분포 : k개의 독립적인 표준정규확률변수의 제곱을 합한 값

- 베타분포 : [0,1] 구간에서 정의되는 분포

- 균등분포 : 1자 네모칸

 

데이터마이닝

 

1. 데이터마이닝 : 데이터로부터 유용한 정보를 발견하는 일련의 작업

 

2. 데이터마이닝의 특징 : 일단 많이 수집해보는거임

 

3. 데이터마이닝의 분석 기술

- 연관분석 : 규칙찾기

- 군집분석 : 비슷한것끼리 묶기

- 분류분석 : 갈라치기

- 회귀분석 : 점화식 찾기

728x90