업무에 파이썬 활용할 줄 알기
데이터 분석 종합반 2주차 본문
2-1. 2주차 오늘 배울 것
2-2. colab 시작하기
2-3. 데이터 분석에 꼭 필요한 파이썬 문법
2-4. Pandas를 이용하여 데이터 분석하기
2-5. matplotlib를 이용하여 분석 결과 시각화하기
2-6. [한 걸음 더] - 타이타닉 생존자의 나이에 숨겨진 비밀 파헤치기!
2-7. 2주차 끝 & 숙제 설명
2주차 숙제
2-1. 2주차 오늘 배울 것
2-2. colab 시작하기
2-3. 데이터 분석에 꼭 필요한 파이썬 문법
변수
리스트
딕셔너리
여러가지 값을 한번에 저장하고 싶은데, 순서가 아니라 각각의 이름표를 붙여 저장하겠다
리스트는 100개의 값이 있으면 1~100번으로 구분함. 딕셔너리는 100가지의 이름표를 할당하여 구분함.
딕셔너리는 어떨 때 유용한가
아래와 같이 데이터를 잘 정리해서 저장할 수 있다
2-4. Pandas를 이용하여 데이터 분석하기
1) 문제 정의 및 가설 설정하기
2) 데이터 분석 기본 세팅하기
3) 데이터 분석하기
4) 분석 결과 시각화하기
5) 최종 결론 내리기
데이터 클렌징과 데이터 분석하는 것을 판다스 라이브러리로 한 번에 끝낼 수 있다
csv 파일 불러오기
데이터 불러오기
데이터 클렌징하기
데이터 분석 - 상관계수 구하기
코드가 왜 저렇게 작성되었는지에 대한 설명은 안해주시나?
상관계수 표는 왜 저렇게 그려지는지 . 등등 이해가 안가는군
2-5. matplotlib를 이용하여 분석 결과 시각화하기
그래프 그리기
그래프로 사용할 부분만 남기기
그래프로 나타낼 열 지정하기 (Survived에 대한 데이터만 남기기)
필요없는 행 삭제하기 (필요없는 passengerid 부분 삭제하기)
라이브러리 불러오는 방법 다시 확인하기.
2-6. [한 걸음 더] - 타이타닉 생존자의 나이에 숨겨진 비밀 파헤치기!
평균은 29살이고 표준편차는 14살, 이 말인즉슨 굉장히 어린 사람들도 타이타닉에 타고 있었다는 말
타이타닉에서 나이에 숨겨진 비밀이라는 것은.. 굉장히 어린사람들의 경우에는 생존율이 높았을 수도 있을 것이다
반대로 나이가 많아질 수록 생존율이 낮아지지 않았을까?
근데 이게 점점 합쳐지니까 결국에는 생존율이 좀 낮은 상태로 되어있지 않았을까. 라는 가설을 세워볼 수 있다
나이를 세부적으로 뜯어볼 수 있다.
나이대별로 다 똑같이 Survived와 같은 상관계수를 가질까? 그걸 살펴보자.
승객의 나이에 대한 분포도 그래프로 나타내보기
평균은 낮지만 양극단은 Survived의 값이 굉장히 상이할 것으로 예측이 된다
나이를 쪼개어 Survived와의 상관계수를 살펴보자
2-7. 2주차 끝 & 숙제 설명
#Outcome 상관관계 계수가 1인 요소 제외하고 출력하기
corr[corr.Outcome !=1]
더 이해하고 싶은 것
상관계수 코드가 왜 저렇게 작성되었는지에 대한 설명은 안해주시나?
상관계수 표는 왜 저렇게 그려지는지 . 등등 이해가 안가는군
라이브러리 불러오는 방법 다시 확인하기.
<상관 분석>
※ 참고 출처:
https://m.blog.naver.com/sub_om/221828230101
<라이브러리 불러오기 방법>
방식1. import ...
import math
math.log(2)
방식2. from ... import ...
from math import log, sin, pi
log(2)
sin(90)
방식3. import ... as ...
import math as m
m.sqrt(4.0)
※ 라이브러리 불러오기 방법 구글링 출처
https://codingalzi.github.io/pybook/modules.html
16. 모듈 — 파이썬 프로그래밍 기초
16. 모듈 한 번 구현한 파이썬 코드를 다른 파이썬 파일의 코드에서 공유해서 사용할 수 있도록 하기 위해 모듈module을 활용한다. 파이썬 모듈은 간단하게 말하면 하나의 파이썬 소스코드 파일이
codingalzi.github.io
https://dojang.io/mod/page/view.php?id=2441
파이썬 코딩 도장: 44.1 import로 모듈 가져오기
Unit 44. 모듈과 패키지 사용하기 지금까지 파이썬 코드를 작성하면서 input, print 등의 내장 함수(built-in function)를 주로 사용했는데, 내장 함수만으로는 할 수 있는게 별로 없습니다. 그래서 좀 더
dojang.io
'Python > [스파르타] 데이터 분석 종합반' 카테고리의 다른 글
데이터 분석 종합반 5주차 복습 (2) | 2023.12.04 |
---|---|
데이터 분석 종합반 4주차 복습 (0) | 2023.12.01 |
데이터 분석 종합반 3주차 복습 (0) | 2023.11.29 |
데이터 분석 종합반 1주차 복습 (0) | 2023.11.21 |