본문 바로가기
BDA

2. 엑셀과 기초 통계(2)

by userim 2023. 9. 1.

2주차가 마무리되가고 있다.. 

이번주에는 엑셀과 기초 통계를 중심으로 진행되었다

 

[함수를 활용한 데이터_텍스트 전처리]

  • IF() 함수
  • VLOOKUP(찾을 기준 데이터, 불러올 데이터의 범위(공통 기준열 포함), 불러올 데이터의 열 번호, 0(FALSE, 정확히 일치) 또는 1(TRUE, 근사치))
  • MATCH(찾고 싶은 값, 찾고 싶은 값이 포함된 단일 열 또는 행, 1(보다 작음) 또는 1(정확히 일치) 또는 -1(보다 큼))
  • INDEX(데이터의 전체 범위, 찾고 싶은 데이터의 범위 내 행 번호, 찾고 싶은 데이터의 범위 내 열 번호)
  • COUNT(범위): 범위에서 숫자 데이터가 들어가 있는 셀의 개수
  • COUNTA(범위): 범위에서 데이터가 들어가 있는 셀(비어 있지 않은 셀)의 개수
  • COUNTBLANK(범위): 범위에서 비어 있는 셀의 개수
  • COUNTIF(범위, 조건) 또는 여러 조건일 경우 COUNTIFS(범위, 조건1, 범위2, 조건2)
  • FIND(찾을 텍스트, 텍스트, 찾기 시작할 위치)
  • RIGHT(텍스트, 불러올 문자열 수), LEFT(텍스트, 불러올 문자열 수)
  • MID(텍스트, 불러올 문자열의 시작 위치, 불러올 문자열 수)

 

[기능을 활용한 데이터 전처리]

텍스트 나누기

  • [데이터]탭 -> [택스트 나누기]

중복된 항목 제거하기

  • [데이터]탭 -> [중복된 항목 제거]

FILTER

[데이터]탭 -> 필터

 

고급 필터

[데이터]탭 -> 고급필터

 

데이터 유효성 검사

셀이나 범위 선택 -> [데이터]탭 -> [데이터 유효성 검사] 

 

 

 

[데이터 분석, 모델링]

 

통계학

관심 또는 연구의 대상이 되는 모집단(population)으로부터 자료를 수집, 정리, 요약을 하고 표본(sample) 정보로부터 자료를 추출했던 대상 전체인 모집단에 대한 최적의 의사 결정을 내릴 수 있도록 정확한 정보를 제공하는 방법론을 연구하는 학문

 

기술통계학

요약 통계량, 그래프 표 등을 이용해 데이터를 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법

 

추론 통계학

데이터가 모집단으로부터 나왔다는 가정하에 모집단으로부터 추출된 표본을 사용하여 모집단의 특성을 파악하는 방법

 

가설 검정

통계적 추론의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정

 

귀무가설

기본적으로 참으로 추정되며 처음부터 버릴 것으로 예상하는 가설(차이가 없거나 의미 있는 차이가 없는 경우)

 

대립가설

귀무가설에 대립하는 명제, 보통 독립 변수와 종속 변수 사이에 어떤 특정한 관련이 있다는 결과가 도출

 

p-value(유의 확률)

귀무가설이 맞다는 전제 하에 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률

 

t-test

  • 두 집단(또는 한 집단의 전/후)의 평균에 통계적으로 유의미한 차이가 있는지를 검정
  • 변수(집단) 선택 -> F-검정 -> t-test -> 결과 해석
  • 귀무가설: 두 집단의 평균에 유의미한 차이가 업다. (pvalue > 유의 수준)
  • 대립가설: 두 집단의 평균에 유의미한 차이가 있다. (pvalue < 유의 수준)

 

F-검정

  • 두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정
  • 귀무가설: 두 집단의 분산에 유의미한 차이가 없다. (pvalue > 유의 수준)
  • 대립가설: 두 집단의 분산에 유의미한 차이가 있다. (pvalue < 유의 수준)
  • 두 집단 분산 차이를 검정해 각 상황에 맞는 t-test 방법을 선정하기 위해 사용

 

 

시계열 데이터

  • 시간의 흐름에 따라 정리한 데이터
  • 정상성을 가지고 있는 정상 시계열 데이터와 정상성을 가지고 있지 않은 비정상 시계열 데이터로 구분
  • 정상성: 추세나 계절성을 가지고 있지 않으며 관측된 시간에 무관한 성질
  • 대부분 시계열 데이터는 비정상 시계열 데이터인데 비정상 시계열 데이터인 상태로는 분석이 어렵기 때문에 차분이나 다른 방법을 활용해 비정상 시계열 데이터를 정상 시계열 데이터로 변환해 분석하기도 함
  • 지수 평활법: 현재 시점에 가까운 시계열 자료에 큰 가중치를 주고 과거 시계열 데이터일수록 작은 가중치를 주어 미래 시계열 데이터를 예측하는 기법

 

[데이터 시각화]

 

차트를 효과적으로 디자인할 수 있는 4단계 원칙

  • 중요한 데이터를 어떻게 강조할 것인가에 초점을 맞춰야 함
  1. 차트의 모든 데이터를 단색으로 변경(회색추천)
  2. 차트에서 가장 중요한(강조해야 하는) 데이터 선정
  3. 차트의 메인 컬러(1개) 선택
  4. 2의 중요 데이터에만 3의 메인 컬러 적용 +데이터 레이블 추가, +차트의 윤곽선 제거

 

콤보형 차트

  • 2개 이상의 정보를 표현하는 콤보형 차트
  • 데이터 범위 선택 -> [막대형 차트] 삽입 -> 그래프의 막대 선택 -> 마우스 오른쪽 클릭 -> [계열 차트 종류 변경]

 

거품형 차트

숫자의 크기나 비율을 거품으로 나타내는 차트

 

폭포형 차트

데이터의 증가, 감소분만큼을 막대그래프로 표현

 

조건부 서식

특정한 조건 규칙을 만족하는 데이터에만 자동으로 서식이 적용되도록 하는 기능

 

 

엑셀은 끝났고 이제 파이썬 시작이다!

'BDA' 카테고리의 다른 글

태블로 1주차~~  (0) 2023.11.02
💡프로젝트 회고  (0) 2023.10.28
SQL 2주차  (0) 2023.10.12
SQL 1주차  (1) 2023.10.05
1. 엑셀을 활용한 데이터 분석(1)  (0) 2023.08.23