반응형
R 기초
R은 해당 인용으로 마무리, 상세 코드에 대한 내용은 시험에 나오지 않으며, 나오더라도 비중이 적음
- 오픈소스인 데이터분석 도구이다
- Rstudio 라는 GUI를 가지고 있다
- Python, Java등을 학습했다면 코드를 대강 이해할 수 있다
- 1차원 : 벡터(vector), 2차원 : 행렬(matrix), 3차원 : 배열(array), 데이터프레임(Dataframe) : 2차원 데이터 구조
데이터 마트
데이터마트의 기본 개념과, R프로그래밍에서 쓰이는 데이터 마트 형식을 알아두면 한문제 맞출수도 있다.
- 데이터 마트의 특성
1. 데이터 마트 : 데이터를 주제별로 추출해낸 작은 규모의 DW
2. 데이터 전처리 : 데이터 전처리와 분석 변수 처리 과정
- 전처리 : 변수 선택, 차원 축소, 파생변수 생성
- 요약변수 : 기본적인 통계 자료
- 파생변수 : 목적을 갖고 조건을 만족하는 변수
3. R패키지 활용
- reshape(변수 기준 나누고 재결합), sqldf(sql문 활용), plyr(apply함수)
- d = 데이터프레임, l = 리스트, a = 배열 (dlply = 데이터프레임 입력, 리스트 출력)
데이터 탐색
단순히 데이터를 보는 관점에서 어떻게 읽어야하는지를 설명, 넒은의미로는 관계를 찾아내기 위해 통곗값과 분포 등을 시각화 하고 분석하는 것
- 결측값 처리 방법은 알고 있어야 함
- 사분위수 범위 계산방법을 알고 있어야 함
1. 탐색적 데이터 분석 : 데이터 통곗값과 분포 시각화 및 분석, 이를 통해 분석 모델 구축
2. 결측값 처리 : 결측값은 경우에 따라 의미를 갖는 경우도 있음
- 단순 대치법 : 결측값이 존재하는 데이터를 삭제
- 평균 대치법 : 평균 혹은 중앙값으로 결측값을 대치함
- 단순 확률 대치법 : KNN
- 다중 대치법 : 유사한 임의 자료 생성, 대치-분석-결합 단계로 구성
3. 이상값 : 극단적으로 크거나 작은 값, 경우에 따라 의미를 갖는 경우도 있음
- ESD : 표준편차 3 만큰 떨어진 값을 이상값으로 인식 = 0.3%의 데이터
- 사분위수 : 25%, 50%, 75%
- 이상범위 : Q1,Q3 * 1.5 * IQR(상한값, 하한값)
728x90
'Achievement > ADsP' 카테고리의 다른 글
(ADsP) 3과목 데이터 분석 - 3. 정형 데이터 마이닝 (0) | 2024.11.02 |
---|---|
(ADsP) 3과목 데이터 분석 - 2. 통계 분석 (0) | 2024.11.01 |
(ADsP) 2과목 데이터의 이해 - 2. 분석 마스터플랜 (1) | 2024.10.31 |
(ADsP) 2과목 데이터의 이해 - 1. 데이터 분석 기획의 이해 (5) | 2024.10.31 |
(ADsP) 1과목 데이터의 이해 - 2. 데이터 가치와 미래 (0) | 2024.10.31 |