전체 글 37

1. 데이터 보간

데이터 보간(Interpolation)이란?데이터 보간은 주어진 데이터 사이에 값이 비어있거나 측정되지 않은 경우, 기존 데이터를 바탕으로 해당 위치의 값을 추정하는 방법입니다. 보간은 특히 연속형 데이터에서 많이 사용되며, 시간, 공간 또는 다른 변수 축에서 데이터가 불연속적인 경우 데이터를 완성하는 데 유용합니다. 주요 보간 방법선형 보간 (Linear Interpolation)두 점 사이의 직선을 기준으로 중간값을 추정하는 방법.간단하고 빠르며, 데이터가 선형에 가까운 경우 적절한 결과를 제공.다항식 보간 (Polynomial Interpolation)주어진 점들을 통과하는 고차원 다항식을 사용해 값을 추정하는 방법.복잡하지만 데이터가 곡선 형태일 때 적합.그러나 고차 다항식은 과적합(overfit..

태블로 특강 - 1일차

태블로 특강 ☑️ 데이터 시각화로 설득하는 법 1. 지표 자체만 전달 2. 지표에 대한 비교 시각화 3. 지표에 액션을 유도하는 의미 부 => 전달하고자 하는 메시지에서 출발해 시각화 통한 비교와 평가로 액션을 유도하는 방향으로 설득 ☑️ 시각화의 시작은 '목적' 일단 그래프를 그려보고 나서 인사이트 도출 X 비교가 쉬워짐 : 범주 간 지표 scale이 차이나면 좋고 나쁨을 평가하기 어려움 - '전체'와 비교, '비슷한 카테고리'와 비교해 어떤지 평가 5. WHEN: 데이터 집계 기준이 되는 날짜 단위 : 의미 있는 인사이트 얻기 위한 단위로 구분 ☑️액셔너블한 데이터 시각화 1. high level 지표뿐만 아니라, input 지표를 파고들 수 있어야한다! - high level 지표란 수익과 직접적으..

데이터 분석가 특강

데이터 분석가 특강 ☑️ 데이터 활용 분야 - 예측 분석 - 마케팅 분석 - 고객 인사이트 - 비즈니스 성과분석 - 인공지능 - 빅데이터 ☑️ 데이터 분석가 - 데이터 시각화 역량 - 분석 위한 통계 지식 - sql 지식 - 리포팅(프레젠테이션) 능력 - 비즈니스/도메인 지식 ☑️ 데이터 분석가 업무 1. 데이터 전처리 및 수집 계획, A/B 테스트 설계 및 결과 분석 2. 분석 위한 적합한 모델 선택 및 사용 등등 데이터 분석가에게 코딩 능력도 중요하지만 도메인 knowledge가 제일 중요하다! ☑️ 데이터 분석 5단계 문제 정의 -> 데이터 수집 -> 전처리 -> 모델링 -> 시각화&탐색 ☑️ 데이터 수집 참고 사이트 - 데이터 안심구역 - 한국복지패널 - kosis - 구글 트렌드 - 네이버 데이..

귀무가설(H0), 대립가설(H1)

귀무가설(H0) vs 대립가설(H1) ☑️ 귀무가설(H0) : 차이가 없다, 의미가 없다 등 처음부터 버릴 것을 예상한 가설. ☑️ 대립가설(H1) : 연구자가 설정하여 증명하려는 가설. (예제) ⊙ 가설: 남학생들의 평균성적이 여학생들보다 높을 것이다. ​ 귀무가설(H0):남학생 평균성적이 여학생과 같거나 낮다. 대립가설(H1): 남학생 평균성적이 여학생보다 높다

통계 검정 및 분석 (검정통계량, p-value, t검정 등)

통계분석 통계 분석은 2가지로 나뉜다. ☑️ 기술 통계 분석 : 데이터를 요약해 설명 ☑️ 추론 통계 분석 : 단순 숫자 요약을 넘어 어떤 값이 발생할 확률을 계산 ☑️ 통계적 가설 검정 : 유의확률(p-value)를 이용해 가설 검정. - 대체로 0.05 (5%)를 판단 기준으로 삼는다. - 5% 초과: 집단간 차이가 통계적 유의 x - 5% 미만: 통계적으로 유의하다.(우연이 아니다) ☑️ t-test (t 검정) : 두 집단 평균 비교 : 두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계분석 기법 ☑️ 상황 및 데이터 종류별 검정 방법 t-검정 (t-test) 독립 표본 t-검정 (Independent samples t-test): 두 독립적인 집단 간의 평균 차이를 비교 ..

Python 실습_day3 (seaborn)

seaborn ☑️ 산점도 (scatterplot) import seaborn as sns # 산점도_기본 sns.scatterplot(data = mpg, x = 'displ', y = 'hwy') sns.scatterplot(data = 사용할 데이터, x = 'x축 컬럼', y = 'y축 컬럼') # x축, y축 범위 설정 sns.scatterplot(data = mpg, x = 'displ', y = 'hwy').set(xlim = [3, 6], ylim = [10, 30]) sns.scatterplot(data = mpg, x = 'displ', y = 'hwy').set(xlim = [시작점, 끝점]) # '시작점 ~ 끝점' 범위 내에서 등분으로 범위 정해짐 # hue sns.scatterpl..

태블로 공부 5일차 - 도넛차

도입 오늘은 인기 많은 '도넛 차트'에 대해 배웠다. [태블로 기초] 3. '도넛 차트' 그리 ☑️ ctrl + 드래그 'ctrl + 드래그' 앤 드랍 안하면 [색상/크기/레이블/세부정보/도구설명/각도] 안에 못넣는다. ☑️ 머리글 제거 왼쪽 세로축 우클릭 - '머리글 표시'해제 -> 머리글 제거 되어 더 넓게 화면 쓸 수 있다. ☑️ 최종 완성된 도넛 차트 '각도'에도 '매출'과 같은 항목을 넣어줘야 도넛차트 내 구분이 잘 산다!

Python 실습_day2

도입 오늘은 python을 배우는 첫날이다.나는 이전까지 6개월 간 python을 배웠고, 최근 빅분기 실기를 준비하느라공부를 했어서 어느정도 알긴 하지만그래도 처음부터 배운다는 마음으로 내가 놓치고 있는 부분까지 완벽하게 배워서 숙달하려고 한다.실습 환경은 jupyter notebook으로 진행했다! python ☑️ 반올림, 소수점 n자리까지 출력, 띄어쓰기 ☑️ 딕셔너리 get 함수 - 딕셔너리명.get('key') -> value 출력 ☑️ 딕셔너리에 새로운 key:value 추가 딕셔너리명['key'] = value ☑️ 리스트 컴프리헨션

Python 실습_day1

도입 오늘은 python을 배우는 첫날이다.나는 이전까지 6개월 간 python을 배웠고, 최근 빅분기 실기를 준비하느라공부를 했어서 어느정도 알긴 하지만그래도 처음부터 배운다는 마음으로 내가 놓치고 있는 부분까지 완벽하게 배워서 숙달하려고 한다.실습 환경은 jupyter notebook으로 진행했다! python ☑️ 파이썬이란? - SW 개발- GUI/웹/DB 프로그래밍- 데이터/수치 분석 ☑️ 파이썬 연산 1. 제곱연산 a**b => a^b 2. 사칙연산 a=3b=4a+b -> 결과: 7 3. 조건문 (홀짝 판별) a = 13 b = a % 2 if b == 1: print('홀수') else: print('짝수') 결과: 홀수 3. 문자열 3-1. format 함수 이용한 포매팅 3-2. 기본 문..