Achievement/ADsP

(ADsP) 3과목 데이터 분석 - 1. R 기초와 데이터 마트

Socialmi 2024. 11. 1. 16:23
반응형

R 기초

R은 해당 인용으로 마무리, 상세 코드에 대한 내용은 시험에 나오지 않으며, 나오더라도 비중이 적음

- 오픈소스인 데이터분석 도구이다
- Rstudio 라는 GUI를 가지고 있다
- Python, Java등을 학습했다면 코드를 대강 이해할 수 있다
- 1차원 : 벡터(vector), 2차원 : 행렬(matrix), 3차원 : 배열(array), 데이터프레임(Dataframe) : 2차원 데이터 구조

 


데이터 마트

데이터마트의 기본 개념과, R프로그래밍에서 쓰이는 데이터 마트 형식을 알아두면 한문제 맞출수도 있다.

- 데이터 마트의 특성

 


1. 데이터 마트 : 데이터를 주제별로 추출해낸 작은 규모의 DW

 

2. 데이터 전처리 : 데이터 전처리와 분석 변수 처리 과정

- 전처리 : 변수 선택, 차원 축소, 파생변수 생성

- 요약변수 : 기본적인 통계 자료

- 파생변수 : 목적을 갖고 조건을 만족하는 변수

 

3. R패키지 활용

- reshape(변수 기준 나누고 재결합), sqldf(sql문 활용), plyr(apply함수)

- d = 데이터프레임, l = 리스트, a = 배열 (dlply = 데이터프레임 입력, 리스트 출력)

 


데이터 탐색

단순히 데이터를 보는 관점에서 어떻게 읽어야하는지를 설명, 넒은의미로는 관계를 찾아내기 위해 통곗값과 분포 등을 시각화 하고 분석하는 것

- 결측값 처리 방법은 알고 있어야 함
- 사분위수 범위 계산방법을 알고 있어야 함

 

1. 탐색적 데이터 분석 : 데이터 통곗값과 분포 시각화 및 분석, 이를 통해 분석 모델 구축

 

2. 결측값 처리 : 결측값은 경우에 따라 의미를 갖는 경우도 있음

- 단순 대치법 : 결측값이 존재하는 데이터를 삭제

- 평균 대치법 : 평균 혹은 중앙값으로 결측값을 대치함

- 단순 확률 대치법 : KNN

- 다중 대치법 : 유사한 임의 자료 생성, 대치-분석-결합 단계로 구성

 

3. 이상값 : 극단적으로 크거나 작은 값, 경우에 따라 의미를 갖는 경우도 있음

- ESD : 표준편차 3 만큰 떨어진 값을 이상값으로 인식 = 0.3%의 데이터

- 사분위수 : 25%, 50%, 75%

- 이상범위 : Q1,Q3 * 1.5 * IQR(상한값, 하한값)

728x90