「데이터 취준공부/「모빌리티 특화 전Z전능 데이터 분석가 양성과정

엑셀 데이터 분석 feat. 그로스쿨 대표님 (3일차)

kyleDA 2023. 11. 1. 23:39

도입


그로스쿨 '최기영' 대표님의 데이터 분석가 말말말!

- 큰 조직(대기업)으로 갈수록 데이터 분석가 업무가 specialist의 영역으로 간다.

- 데이터 확인 > 가설 세우고 > 가설 세우기 위한 데이터 확보 > 시각화 > 인사이트 도출 > 전략 제시

- specialist일수록 교체 되기 쉽다. 즉, 어느 조직이던 들어가기 쉽지만, 들어가기 쉽다는건 그만큼 교체도 많이 된다.

- 반면, generalist는 잡다하게 일을 많이해서 불안하다. 하지만, 대체 가능성이 적어진다.

- 데이터 분석가들이 요즘 generalist가 되어가는 추세이다.

- 데이터를 많이 다뤄본 역량을 어필해야한다!

- 데이터 분석가로서의 역량이 지금 부족해도 일단, 자기소개서에 역량이 있다고 작성해라 -> 하면 당연히 생긴다!

- 분석가는 '인과'를 찾는 사람이다!

 

엑셀 데이터 분석


☑️ DB

: 데이터들의 모음, 묶음, 집합

- 열(=필드, 컬럼) -> 필드명 = 컬럼명

- 행(= 레코드)

=> 데이터는 (필드명 있는 부분)에서 아래로 쌓는다.

 

☑️ 엑셀에서 DB 만들때 Tip

- 가급적 하나의 시트에 몰기

- 첫 행은 반드시 '필드명'

- 데이터는 아래 방향으로 작성

- 빈 행, 열은 없어야 함.

- 같은 값이라고 해도 셀 병합 함부로 하지 x -> 피보팅 할 때 에러남

 


 

☑️ 실습 수행 내용

데이터: 날짜별 각종 기사가 페이스북 피드에 노출되고 수집된 각종 지표(좋아요, 조회수, 댓글수 등)

 

· 가설 1: 요일별로 페이지뷰수, 좋아요, 공유, 댓글의 유의미한 차이가 있을 것이다. 주중(화 ~ 목)에는 사람들이 잘 놀러가지 않으니 이 지표들의 값이 높을 것이고, 금요일은 많이 놀러가니 낮을 것이다.

막대그래프와 선그래프를 혼합하여 시각화한 자료를 생성 후 확인한 결과 가설이 옳았음이 드러났다.

 

· 가설 2: 가설 1과 마찬가지로 '도달 수' 대비 '페이지뷰수'도 주중(화 ~ 목)에는 사람들이 잘 놀러가지 않으니 값이 높을 것이고, 금요일은 많이 놀러가니 낮을 것이다.

히스토그램으로 시각화하여 확인한 결과 가설이 옳은 것이 확인되었다. 이 그래프를 생성하기 위해서 '페이지뷰수/도달수 * 100' 계산을 통해 파생변수를 새로 생성하였다.

 

+ 추가적으로 '공유, 댓글, 좋아요' 등의 지표들에 대해서 상관관계를 확인해 보았다.

1. 가장 상관관계가 높았던 건 '좋아요-댓글'이었다.

상관계수가 0.67로 약간의 선형성이 보였다.

 

2. 가장 상관관계가 낮았던 건 '공유-댓글'이었다.

상관계수가 0.29로 선형성이 거의 보이지 않았다.

 


위와 같은 데이터에 대한 시각화 자료를 통해 여러 가설검증과 인사이트 도출이 가능하였다.

앞으로는 이 경험을 바탕으로 조금 더 고도화된 데이터를 분석 가능할 것이라는 자신감이 생겼다!