「데이터 취준공부/「모빌리티 특화 전Z전능 데이터 분석가 양성과정

SQL, EDA, 시각화

kyleDA 2023. 11. 22. 17:25

도입


오늘은 EDA에 대한 간단한 수업과 더불어

SQL로 데이터에 대해 가설을 세우고 인사이트를 도출하는 과정을 한다.

 

EDA


☑️ EDA의 분석 대상

1. 일변량 분석

- 단일 변수의 데이터 분포를 이해하는 데 중점.

- 이를 통해 변수의 중심 경향, 분산, 왜도, 첨도 등을 분석 가능.

  • 중심 경향성: 평균, 중앙값, 최빈값 등을 통해 데이터의 중심이 어디에 위치하는지 파악합니다.
  • 변동성: 표준편차, 분산, 범위, 사분위수 범위(Q1, Q3)를 사용하여 데이터의 퍼짐 정도를 분석합니다.
  • 왜도(Skewness): 데이터가 얼마나 비대칭인지 측정합니다. 왜도가 0에 가까울수록 대칭을 이룹니다.
  • 첨도(Kurtosis): 데이터가 얼마나 뾰족한가를 나타내며, 정규 분포의 첨도를 기준으로 비교합니다.

 

2. 다변량 분석

- 다변량 분석은 두 개 이상의 변수 간의 관계를 탐색.

- 이는 변수 간의 상관관계, 패턴, 경향성을 파악하는 데 도움.

  • 상관 분석(Correlation Analysis): 변수들 간의 상관 관계의 정도를 측정합니다. 피어슨, 스피어만, 켄달 방법 등 다양한 상관 계수가 사용될 수 있습니다.
  • 산점도(Scatter Plot): 두 변수 간의 관계를 시각적으로 표현합니다. 비선형 관계, 클러스터링 경향 등도 포착할 수 있습니다.
  • 주성분 분석(PCA): 다변량 데이터의 주요 특성을 추출하여 차원을 축소하는 기법입니다. 이를 통해 데이터 구조를 더 쉽게 이해할 수 있습니다.
  • 팩터 분석(Factor Analysis): 관측된 변수들이 하나 이상의 비관측된 변수(팩터)에 의해 설명될 수 있는지 분석합니다.

 

☑️ EDA의 분석 종류

1. 시각화 분석

- 차트, 그림 등을 이용해 확인 -> 데이터를 한 눈에, 대략적으로 확인 가능

 

2. 비시각화분석

- 그래픽적 요소 사용X

- 주로 '요약통계량'으로 확인 -> 정확한 값 파악 가능