[DEV] A/B 테스트

1. A/B Test

스크린샷 2024-01-04 오후 2 21 18

실제 프로덕션 환경에서 2개 혹은 그 이상의 버전을 비ㅣ교
- 베이스라인 버전 (‘control’) vs. 하나 혹은 그 이상의 테스트 버전 (‘test’)
- 보통 서비스 내의 다른 영역을 테스트하는 A/B Test들은 독립적이라 생각하고 다수의 A/B Test를 동시에 실행하는 것이 일반적
  - 하지만 상호작용이 있을 수 있음

data가 없는 경우
버그 수정의 임팩트를 측정하는 경우
- 그냥 빨리 고치는 것이 좋음
아직 구체적이지 않은 아이디어 테스트
- A/B Test의 비용은 저렴하지 않음, 또한 실제 트래픽에 영향을 주기 때문에 신중해야 함
- offline testing이나 user servey 등으로 아이디어의 의미를 테스트해볼 수 있음 -> 구체화
- Fake door testing
가설없이 굉장히 랜덤한 아이디어 테스트
비교대상없이 굉장히 새로운 기능 테스트

일주일에 한 번씩 A/B Test 미팅 (Proposal & Approval)
- 새로운 A/B Test 제안
  - 간단하게
  - 어떤 부분을 바꾸고 싶은지, 바꾸고 싶은 이유, 기대 효과(어느 지표로), 얼마나 자신있는지, 어떻게 하면 될 지, 어떤 이슈들이 있을지
- 지금 실행중인 A/B Test review
Implementation & QA
Rollout
Iterations
Periodic Review

스크린샷 2024-01-04 오후 3 00 50

Experiment data와 Funnel data join (Transform -> ELT)
- 사용자의 메타 정보를 추가하면 다양한 분석이 가능
보통 시니어 데이터 분석가가 분석을 하게 됨

스크린샷 2024-01-04 오후 3 02 14

스크린샷 2024-01-04 오후 3 03 41

어떤 결정은 데이터로 판단할 수 없음 -> Data Informed Decision
- 어떠한 결정은 직관에 따라 결정해야 할 때도 있음
가격은 A/B Test로 결정할 수 없음!
가설없이 혹은 대충 쓴 가설로 A/B Test를 하는 경우
분석에 필요한 데이터 품질이 낮은 경우
- A/B Test에 버그가 있거나 Funnel에 퀄리티 이슈가 있는 경우
- A와 B가 50:50이 아닌 경우
- 샘플이 충분히 큰지 확인
결과를 선입견없이 객관적으로 분석하지 못하는 경우
- 악용될 경우 개인의 이익과 팀의 이익을 위해 충돌이 생길 수 있음 (정치적)
- 항상 group setting
Interactions (상호작용) 문제
- 여러 A/B Test를 동시에 진행하는 경우 그 간의 의존도가 생길 수 있음
- 이상한 상호작용 -> 사용자의 행동을 바꿔버릴 수 있음
데이터 인프라 비용
비교 대상이 하나가 아닌 경우
- 기본적으로 하나만 바꿔서 비교
- 어떤 변화가 영향을 미친 것인지 알기 어렵기 때문
얼마나 지켜보고 결정을 내릴 것인지

미리 모든 사용자를 A/B로 나누기
- 로그인한 사용자를 대상으로 하는 경우 가능
- 다양한 각도에서 bias 제거 가능
- 비로그인 사용자, A/B Test 중에 신규등록된 사용자에게 적용 불가능
- 넷플릭스
사용자를 동적으로 A/B Test 진행 중에 나누기
- 일반적으로 사용됨
- 로그인하지 않아도 적용 가능
- 앞의 방법보다는 bias가 생길 가능성이 있음
  - 특히 interacion의 가능성이 있음

스크린샷 2024-01-04 오후 3 48 34