1. 정형 데이터

  • structured, tabular data
  • 엑셀 파일 형식이나 RDB 테이블에 담을 수 있는 데이터로, 행과 열로 표현 가능한 데이터
  • 하나의 행은 데이터 인스턴스
  • 각 열은 데이터의 피처(속성)을 나타냄


비정형 데이터

  • 이미지, 비디오, 음성 자연어 등 정제되지 않고 테이블 형태로 표현될 수 없는 데이터


정형 데이터의 중요성

  • 최근 딥러닝 시대가 오면서 떠오르는 비정형 데이터
    • 자율주행, 음성 검색, 번역, 챗봇 등
  • 그럼에도 정형 데이터가 필요함
  • 비즈니스 전 분야에 걸친 범용적인 데이터이기 때문!
    • 가장 기본적인 데이터
    • 분야를 막론하고 많은 데이터가 정형 데이터로 존재
  • 정형 데이터의 분석 능력
    • 데이터에 대한 상상력, 통찰력
    • 다양한 경험을 통해 데이터에 국한되지 않고 범용적으로 쓰일 수 있는 능력


2. EDA

  • 탐색적 데이터 분석
  • 데이터를 탐색하고 가설을 세우고 증명하는 과정
  • 데이터의 특징과 내재하는 구조적 관계를 알아내기 위해 시각화나 통계적 방법을 통해 데이터를 관찰하고 이해하는 과정
  • 정형, 비정형 모든 데이터는 분석에 앞서 EDA 과정 수반
  • EDA 과정은 일반화가 어려우며 정해진 답은 없음


  • 데이터에 대한 가설, 의문
  • 시각화 또는 통계량, 모델링을 통한 가설 검정
  • 위의 결론을 통해 다시 새로운 가설 혹은 문제 해결


EDA 예시

shape, head

  • shape: (행, 열) 수
  • head(): 첫 5개 데이터 출력
df.shape
df.head()

info

  • 데이터 타입 및 null 체크
df.info()

스크린샷 2023-05-07 오후 8 52 38

isna().sum()

  • 컬럼 별 null 데이터 개수 출력
df.isna().sum()

스크린샷 2023-05-07 오후 8 53 57

describe

  • 수치 데이터 기본 통계량 출력 (count, mean, std, min, max, 사분위수)
  • include=all 옵션 추가하면 범주형 데이터 통계량도 출력 (count, unique, top, freq, first, last)

스크린샷 2023-05-07 오후 8 55 22

데이터 분포 플롯

sns.countplot(col)