업무에 파이썬 활용할 줄 알기

데이터 분석 종합반 1주차 복습 본문

Python/[스파르타] 데이터 분석 종합반

데이터 분석 종합반 1주차 복습

SEO 데이터분석가 2023. 11. 21. 14:30

1-2 타이타닉 생존자의 비밀 파헤치기

타이타닉 생존분석

 

부자들이 많이 살아남을 것이다 라는 가설이 있는 것이고 

가설이 실제로 유효한지 검증을 해야함

그것이 아니라면 무엇이 생존자와 연관이 있는지 유의미한 데이터를 찾아내야한다

 

무슨 데이터를 봐야하지?

돈이 많을 수록 돈을 많이냈겠지

돈이 많을수록 숫자가 낮은 클래스에 탑승했을 것이다

 

데이터 탐색

빈 데이터를 처리

 

 

1-3 타이타닉 데이터 분석하기

 

이제 분석에 들어갈 것

상관관계 분석

 

 

1-4 분석결과 시각화 하기 그리고 최종 결론 내기

 

원래의 가설은 요금과 좌석등급이 상관관계가 가장 클것이라 가설을 세웠지만

실제로는 성별이 가장 컸고, 여성일 수록 생존율이 높았다는 결과가 나왔다

좌석등급(Pclass)과 요금(Fare)가 높을 수록 생존확률이 높아지는 것은 맞다

그러나 그 정도가 요금의 경우 성별보다는 반값

좌석등급도 낮으면 낮을수록 즉, 1등급일 수록 생존율이 높지만 그 정도는 성별과 요금보다는 낮다

 

 

요금을 많이 낸 사람이 좌석등급이 더 높을까?

요금을 많이 낼 수록 좌석등급이 높았다. 결론 확인 가능

어떤 결과가 어떤 요인에 의해 움직이는지 이것을 분석할 수 있는게 상관관계 분석이다.

 

1-5 파이썬 기초지식 엿보기

다른사람들이 만들어놓은 코드 모음집: 라이브러리

pandas

범용성이 큰 엑셀이다

 

matplotlib

파이썬으로 작성된 시각화툴

 

1-6 1주차 끝 & 숙제 설명

가설: 글루코스가 당뇨를 가장 많이 유발할 것이다