업무에 파이썬 활용할 줄 알기

07/08. 판다스 데이터프레임 인덱싱과 슬라이싱 / 값과 영역 접근 본문

Python/[유튜브] Pandas & NumPy

07/08. 판다스 데이터프레임 인덱싱과 슬라이싱 / 값과 영역 접근

SEO 데이터분석가 2023. 11. 8. 16:03

데이터프레임

컬럼선택

멀티 컬럼 선택

로우 선택

멀티 로우 선택

로우 슬라이싱

특정 값 가져오기

 

'컬럼선택은 그냥이고, 로우선택은 iloc, loc를 쓴다'

 

데이터프레임

2차원 데이터를 효과적으로 표현한 판다스 자료구조

컬럼선택

df['종가']

 

컬럼을 표현하는 시리즈 타입의 객체 (index, value로 구성)

데이터 프레임에서 하나하나의 컬럼은 시리즈 형태로 저장이 된다고 이해하면 됨

 


멀티 컬럼 선택

df[['컬럼명1', '컬럼명2']]

 

컬럼을 리스트로 구성한 후 인덱싱 기호[ ]에 리스트를 전달

 

여러개 컬럼이기 때문에 시리즈가 아니라 데이터프레임 형태로 가져옴

주의사항: 튜플로 넘겨주면 정상적으로 인덱싱 되지 않음

튜플은 다른 의미로 쓰임

인덱스가 여러개이거나 컬럼이 여러개일 때를 나타냄

로우 선택

df.iloc[행번호]

df.loc['인덱스']

 

인덱싱 기호는 컬럼단위의 선택임

2차원 데이터에서 로 단위로 선택하려면 loc, iloc 속성을 사용하면 됨

멀티 로우 선택

df.iloc[[0,1]]

df.loc[['인덱스1', '인덱스2']]

 

리스트로 행번호 또는 인덱스를 표현하고 이를 iloc, loc 속성에 사용

로우 슬라이싱

df.iloc[0:2]

 

0~1행만을 가져온다

여기서 0:2의 숫자는 행번호를 나타내는 것이 아님, 행과 행사이를 나타냄

 

df.loc["NAVER", "삼성전자"] 

반대로 loc에서의 "인덱스1", "인덱스2"는 행과 행사이를 의미하는 것이 아니고 정확히 인덱스명이 가리키는 행을 의미함

특정 값 가져오기

df.iloc[행번호, 열번호]

df.loc[인덱스, 컬럼명]