안녕하세요. 보랏입니다.
오늘은 어제에 이어서 pandas데이터 분석, 결측치 처리 방법을 배웠으며
오늘부터 목요일까지 팀 프로젝트를 진행하게되었습니다.
그래서 오늘 오후부터 목요일까지 팀 프로젝트를 진행하느라 DB복습은 잠깐 쉴 것 같습니다.
금요일에 발표 후 저희 팀에서 진행하였던 데이터 분석 자료를 올려서 복습하도록 하겠습니다.
그럼 복습 시작하겠습니다.
1. 결측값 처리
- 기본 사용법 : df.dropna(axis=0, how = 'any', thresh = None, subset = None, inplace = False)
- axis : 기준 설정 0 - row / 1 - columns
- how : any - 존재하면 제거 / all - 모두 결측치면 제거
- thresh : 결측값이 아닌 값이 몇 개 미만일 경우에만 적용시키는 인수 / 예) thresh 값이 3이라면 결측값이 아닌 값이 3개 미만일 경우에만 dropna메서드를 수행
- subset : dropna 메서드를 수행할 레이블 지정
- inplace : 원본 변경 여부
### 결측값 있는 행 제거
df.dropna(axis=0)
### 결측값 있는 컬럼 제거
df.dropna(axis=1)
2. 중복값 제거
df_dup = pd.DataFrame({'c1' : ['a', 'a', 'b', 'a', 'b'],
'c2' : [1,1,1,2,2],
'c3' : [1,1,2,2,2]})
### 중복값 추출
df_dup[df_dup.duplicated()]
### 중복값이 아닌 로우 추출 (~붙이기)
df_dup[~df_dup.duplicated()]
### c2, c3컬럼값이 같은(중복) 행 제거
df_dup.drop_duplicates(subset = ['c2', 'c3'])
'DB 공부하기' 카테고리의 다른 글
230323_DB복습 (0) | 2023.03.23 |
---|---|
230322_DB복습 (0) | 2023.03.22 |
230313_DB복습 (0) | 2023.03.13 |
230309_DB복습 (0) | 2023.03.09 |
230308_DB복습 (0) | 2023.03.08 |