업무에 파이썬 활용할 줄 알기

데이터 분석 종합반 2주차 본문

Python/[스파르타] 데이터 분석 종합반

데이터 분석 종합반 2주차

SEO 데이터분석가 2023. 11. 28. 16:31

2-1. 2주차 오늘 배울 것

2-2. colab 시작하기

2-3. 데이터 분석에 꼭 필요한 파이썬 문법

2-4. Pandas를 이용하여 데이터 분석하기

2-5. matplotlib를 이용하여 분석 결과 시각화하기

2-6. [한 걸음 더] - 타이타닉 생존자의 나이에 숨겨진 비밀 파헤치기!

2-7. 2주차 끝 & 숙제 설명

2주차 숙제

 

2-1. 2주차 오늘 배울 것

2-2. colab 시작하기

 

2-3. 데이터 분석에 꼭 필요한 파이썬 문법

변수

 

리스트

 

딕셔너리

여러가지 값을 한번에 저장하고 싶은데, 순서가 아니라 각각의 이름표를 붙여 저장하겠다

리스트는 100개의 값이 있으면 1~100번으로 구분함. 딕셔너리는 100가지의 이름표를 할당하여 구분함.

 

딕셔너리는 어떨 때 유용한가

아래와 같이 데이터를 잘 정리해서 저장할 수 있다

 

 

 

2-4. Pandas를 이용하여 데이터 분석하기

1) 문제 정의 및 가설 설정하기

2) 데이터 분석 기본 세팅하기

3) 데이터 분석하기

4) 분석 결과 시각화하기

5) 최종 결론 내리기

 

데이터 클렌징과 데이터 분석하는 것을 판다스 라이브러리로 한 번에 끝낼 수 있다

 

csv 파일 불러오기

 

데이터 불러오기

 

데이터 클렌징하기

 

데이터 분석 - 상관계수 구하기

 

 

코드가 왜 저렇게 작성되었는지에 대한 설명은 안해주시나?

상관계수 표는 왜 저렇게 그려지는지 . 등등 이해가 안가는군

2-5. matplotlib를 이용하여 분석 결과 시각화하기

그래프 그리기

 

그래프로 사용할 부분만 남기기

그래프로 나타낼 열 지정하기 (Survived에 대한 데이터만 남기기)

 

필요없는 행 삭제하기 (필요없는 passengerid 부분 삭제하기)

 

 

 

라이브러리 불러오는 방법 다시 확인하기.

2-6. [한 걸음 더] - 타이타닉 생존자의 나이에 숨겨진 비밀 파헤치기!

평균은 29살이고 표준편차는 14살, 이 말인즉슨 굉장히 어린 사람들도 타이타닉에 타고 있었다는 말

타이타닉에서 나이에 숨겨진 비밀이라는 것은.. 굉장히 어린사람들의 경우에는 생존율이 높았을 수도 있을 것이다

반대로 나이가 많아질 수록 생존율이 낮아지지 않았을까?

근데 이게 점점 합쳐지니까 결국에는 생존율이 좀 낮은 상태로 되어있지 않았을까. 라는 가설을 세워볼 수 있다 

 

나이를 세부적으로 뜯어볼 수 있다. 

나이대별로 다 똑같이 Survived와 같은 상관계수를 가질까? 그걸 살펴보자.

 

 

승객의 나이에 대한 분포도 그래프로 나타내보기

평균은 낮지만 양극단은 Survived의 값이 굉장히 상이할 것으로 예측이 된다

나이를 쪼개어 Survived와의 상관계수를 살펴보자

2-7. 2주차 끝 & 숙제 설명

#Outcome 상관관계 계수가 1인 요소 제외하고 출력하기

corr[corr.Outcome !=1]

 

더 이해하고 싶은 것

상관계수 코드가 왜 저렇게 작성되었는지에 대한 설명은 안해주시나?

상관계수 표는 왜 저렇게 그려지는지 . 등등 이해가 안가는군

라이브러리 불러오는 방법 다시 확인하기.

 

<상관 분석>

 

 

 

※ 참고 출처:

https://m.blog.naver.com/sub_om/221828230101

 

<라이브러리 불러오기 방법>

방식1. import ...

import math

math.log(2)

 

방식2. from ... import ... 

from math import log, sin, pi

log(2)

sin(90)

 

방식3. import ... as ...

import math as m

m.sqrt(4.0)

 

※ 라이브러리 불러오기 방법 구글링 출처

https://codingalzi.github.io/pybook/modules.html

 

16. 모듈 — 파이썬 프로그래밍 기초

16. 모듈 한 번 구현한 파이썬 코드를 다른 파이썬 파일의 코드에서 공유해서 사용할 수 있도록 하기 위해 모듈module을 활용한다. 파이썬 모듈은 간단하게 말하면 하나의 파이썬 소스코드 파일이

codingalzi.github.io

https://dojang.io/mod/page/view.php?id=2441

 

파이썬 코딩 도장: 44.1 import로 모듈 가져오기

Unit 44. 모듈과 패키지 사용하기 지금까지 파이썬 코드를 작성하면서 input, print 등의 내장 함수(built-in function)를 주로 사용했는데, 내장 함수만으로는 할 수 있는게 별로 없습니다. 그래서 좀 더

dojang.io