데이터의 이해
데이터의 개념
1. 데이터 : 사실 그 자체
2. 정보 : 데이터로 인해 산출된 산출물
3. 지식 : 정보를 바탕으로 의사결정에 활용, 고유의 지식으로 내재화
4. 통찰 : 지식의 축척과 아이디어가 결합
빅데이터의 개념
1. 3V : 규모, 속도, 다양성
2. 빅데이터의 역사 : 60-70년대 부터 시작, SNS로 인해 대용량 데이터에 대한 인식 확산, 하둡과 NoSQL의 확산
3. 빅데이터의 사용 사례 : 제품 개발, 유지 보수, 효율적 운영, 머신러닝
4. 빅데이터 작동 원리
- 통합 : 서로다른 종류의 소스로 부터 조합, 추출-변환-로드(ETL)은 적합하지 않음
- 관리 : 스토리지 사용
- 분석
데이터의 종류
1. 정형 데이터 : 구조화된 데이터, 스프레드시트, 관계 데이터베이스 테이블 등
2. 반정형 데이터 : 데이터 내용 안에 설명이 함께 존재함, HTML, XML, JSON, 웹 로그 등
3. 비정형 데이터 : SNS텍스트, 이미지, 영상, PDF 등
4. 범주형 데이터 : 구분되는 값
- 명목형 : 서열이 없는 값
- 순서형 : 서열이 있는 값
5. 수치형 데이터 : 숫자 데이터
- 이산형 : 셀 수 있음
- 연속형 : 연속적으로 이어진 숫자
데이터의 해석
데이터 해석 관점
1. 데이터 해석 : 어떠한 관점에서 바라보는지에 따라 의사결정 결과가 달라질 수 있음
2. 데이터 해석 오류
- 거짓 인과관계 : 우연히 나타난 현상에만 주목함
- 생존 편향 : 실제로 영향을 미치는데 간과하는 것
- 심슨의 역설 : 부분 추세에 비해 전체 추세는 반대로 나타나는 것
- 체리피킹 : 전체를 숨기고 유리한 데이터만 부각시키는 것
확률과 확률분포
1. 확률분포 : 특정한 값을 가질 확률
2. 이산확률분포 : 가질 수 있는 값의 개수를 셀 수 있음
- 베르누이분포 : 결과가 두가지 중 하나로만 나옴
- 이항분포 : 독립시행 중 성공할 확률
- 기하분포 : 독립시행 중 성공할때 까지의 횟수
- 음이항분포 : 독립시행 중 n번 성공할때 까지의 횟수
- 초기하분포 : 비복원추출 n번 했을 때 원하는 것이 k개 포함될 확률
- 포아송 분포 : 단위 시간 내 사건 발생 횟수
3. 연속확률분포 : 가질 수 있는 값의 개수를 셀 수 없음
- 정규분포 : 종모양 분포
- 감마분포 : a번째 사건이 일어날 때 까지 걸리는 시간에 대해서
- 지수분포 : 사건이 서로 독립적일 때 사건과 사건 간 경과시간에 대한 분포
- 카이제곱 분포 : k개의 독립적인 표준정규확률변수의 제곱을 합한 값
- 베타분포 : [0,1] 구간에서 정의되는 분포
- 균등분포 : 1자 네모칸
데이터마이닝
1. 데이터마이닝 : 데이터로부터 유용한 정보를 발견하는 일련의 작업
2. 데이터마이닝의 특징 : 일단 많이 수집해보는거임
3. 데이터마이닝의 분석 기술
- 연관분석 : 규칙찾기
- 군집분석 : 비슷한것끼리 묶기
- 분류분석 : 갈라치기
- 회귀분석 : 점화식 찾기
'Achievement > 경영정보시각화능력평가' 카테고리의 다른 글
(BI Specialist) 경영정보시각화 디자인 - 시각화요소 디자인 (0) | 2024.11.29 |
---|---|
(BI Specialist) 경영정보시각화 디자인 - 시각화 도구 활용 (1) | 2024.11.29 |
(BI Specialist) 경영정보시각화 디자인 - 시각화디자인 기본원리 이해 (2) | 2024.11.29 |
(BI Specialist) 데이터 해석 및 활용 - 데이터 활용 (1) | 2024.11.29 |
(BI Specialist) 데이터 해석 및 활용 - 데이터 파일 시스템 (2) | 2024.11.26 |