1. 정형 데이터
- structured, tabular data
- 엑셀 파일 형식이나 RDB 테이블에 담을 수 있는 데이터로, 행과 열로 표현 가능한 데이터
- 하나의 행은 데이터 인스턴스
- 각 열은 데이터의 피처(속성)을 나타냄
비정형 데이터
- 이미지, 비디오, 음성 자연어 등 정제되지 않고 테이블 형태로 표현될 수 없는 데이터
정형 데이터의 중요성
- 최근 딥러닝 시대가 오면서 떠오르는 비정형 데이터
- 그럼에도 정형 데이터가 필요함
- 비즈니스 전 분야에 걸친 범용적인 데이터이기 때문!
- 가장 기본적인 데이터
- 분야를 막론하고 많은 데이터가 정형 데이터로 존재
- 정형 데이터의 분석 능력
- 데이터에 대한 상상력, 통찰력
- 다양한 경험을 통해 데이터에 국한되지 않고 범용적으로 쓰일 수 있는 능력
2. EDA
- 탐색적 데이터 분석
- 데이터를 탐색하고 가설을 세우고 증명하는 과정
- 데이터의 특징과 내재하는 구조적 관계를 알아내기 위해 시각화나 통계적 방법을 통해 데이터를 관찰하고 이해하는 과정
- 정형, 비정형 모든 데이터는 분석에 앞서 EDA 과정 수반
- EDA 과정은 일반화가 어려우며 정해진 답은 없음
- 데이터에 대한 가설, 의문
- 시각화 또는 통계량, 모델링을 통한 가설 검정
- 위의 결론을 통해 다시 새로운 가설 혹은 문제 해결
EDA 예시
shape, head
- shape: (행, 열) 수
- head(): 첫 5개 데이터 출력
info
isna().sum()
describe
- 수치 데이터 기본 통계량 출력 (count, mean, std, min, max, 사분위수)
include=all
옵션 추가하면 범주형 데이터 통계량도 출력 (count, unique, top, freq, first, last)
데이터 분포 플롯