[DEV] 11주차. Docker & K8s (2)
1. 웹서비스를 도커로 구동 hangman_web이라는 repo의 main에 코드가 머지될 때마다 다음을 수행 테스트 수행 Docker Image 빌드 Docekr Image를 Docker Hub로 푸시 위 과정을 Github repo에 Github Actions로 구현 2. H...
1. 웹서비스를 도커로 구동 hangman_web이라는 repo의 main에 코드가 머지될 때마다 다음을 수행 테스트 수행 Docker Image 빌드 Docekr Image를 Docker Hub로 푸시 위 과정을 Github repo에 Github Actions로 구현 2. H...
1. Airflow 운영 상의 어려움 관리해야 하는 DAG의 수가 100개를 넘어간다면 데이터 품질이나 데이터 리니지 이슈 외에도 다양한 이슈들이 발생 라이브러리 충돌 Worker의 부족 Worker 서버들의 관리와 활용도 이슈 노드들이 많아질 때, 모든 노드...
1. 사용자 행동 분석 = 제품 분석 = 디지털 분석 이를 가능하게 해주는 툴을 제품 분석 플랫포밍라고 부름 제품/서비스에 대한 사용자 행동을 분석하고 이해하는 데 도움이 되는 툴 데이터 기반의 의사 결정을 내리고 제품 성능을 개선할 수 있는 인사이트 제공 사용자가 하는 모든 일들을 기록하고 수집 (데이터 ...
1. MySQL -> Redshift AWS 관련 권한 설정 Airflow DAG에서 S3 접근 (쓰기 권한) IAM User를 만들고 S3 버킷에 대한 읽기/쓰기 권한 설정하고 access key와 secret key 사용 Redshift S3 접근 (읽기 권한) Reds...
1. dags 폴더에서 코드 작성시 주의할 점 Airflow는 dags 폴더를 주기적으로 스캔함 dags_folder 키가 가리키는 위치 dag_dir_list_interval 주기 만큼 이 때 DAG 모듈이 들어있는 모든 파일들의 메인 함수가 실행이 됨 이 경우 본의 아니게 ...
1. PythonOperator from airflow.operators.python import PythonOperator 실행해야 하는 파이썬 함수 : python_callable=func 함수의 인자: params = { } (dict) 자유도가 높은 태스크를 구현할 때 사용! from air...
1. Airflow - Docker 사용 airflow-sertup Github repo 클론 git clone https://github.com/keeyong/airflow-setup.git airflow-setup 폴더로 이동 후 2.5.1 이미지 관련 yml 파일 다운로드 curl ...
1. 데이터 파이프라인 데이터 흐름 서비스나 써드파티를 통해 생기는 데이터 데이터 인프라 데이터 분석 (지표 정의, 시각화) 데이터 과학 적용 (사용자 경험 개선) 더 데이터 웨어하우스 구성 예 ETL Extract, Transform, Load Air...
기술을 왜 써야하는지 논리를 갖고 사용해야 함! 1. Container container code dependencies runtime 그냥 EC2에 올려서 써도 되는데, 왜 컨테이너를 써야하는가 여러 모듈, 환경들을 내 로컬에 설치해서 개발을 하게 될 것 내가 ...
1. 시각화 툴 대시보드 혹은 BI (Business Intelligence) 툴이라고 부르기도 함 KPI (Key Performance Indicator), 지표, 중요한 데이터 포인트들을 데이터 기반으로 계산/분석/표시해주는 툴 테이블 형태로 알아보기 쉽게 요약해주는 것도 시각화 결정권자들로 하여금 ...