[DEV] 11주차. Docker & K8s (5)
1. Docker 정리 Docker를 실제 production 환경에서 사용할 때 유념할 점 Docker Volumes Host volume은 보통 개발 시 소스코드를 바로 container 안으로 마운트하기 위해 사용 Production에서는 named volumes를 사용해야 함 Docker...
1. Docker 정리 Docker를 실제 production 환경에서 사용할 때 유념할 점 Docker Volumes Host volume은 보통 개발 시 소스코드를 바로 container 안으로 마운트하기 위해 사용 Production에서는 named volumes를 사용해야 함 Docker...
1. Docker-compose 다수의 Container로 소프트웨어가 구성되는 경우 사용할 수 있는 툴 + 환경 설정 파일 여기서 다양한 테스트 등도 수행 가능 다양한 버전을 만드는 것도 일반적 (dev, test, prod 등) 개별 컨테이너를 따로 관리하는 것보다 훨씬 생산성이 높음 ...
1. 하는 업무 Ad-hoc Data 추출 반복되는 추출 요청들도 많이 있음 주요 지표들은 미리 적재해두면 추출 건을 70% 정도 줄일 수 있을 것으로 예상 주요 지표들이 미리 적재되어 있는 데이터 웨어하우스를 만들자 데이터 거버넌스 구축 반복되는 것을 당연시 하지 말자!! 간단한...
1. Docker Volume 필요성 Docker Container가 실행되었다면 중단되면 데이터들은 어떻게 될까? 특정 소프트웨어가 컨테이너를 통해 일회성으로 동작하는 것이 아니라 계속해서 동작해야 한다면 데이터가 영구적으로 보관되어야 함 ex) 데이터베이스가 컨테이너 안에서 동작한다면? 이를 보장하...
1. 웹서비스를 도커로 구동 hangman_web이라는 repo의 main에 코드가 머지될 때마다 다음을 수행 테스트 수행 Docker Image 빌드 Docekr Image를 Docker Hub로 푸시 위 과정을 Github repo에 Github Actions로 구현 2. H...
1. Airflow 운영 상의 어려움 관리해야 하는 DAG의 수가 100개를 넘어간다면 데이터 품질이나 데이터 리니지 이슈 외에도 다양한 이슈들이 발생 라이브러리 충돌 Worker의 부족 Worker 서버들의 관리와 활용도 이슈 노드들이 많아질 때, 모든 노드...
1. 사용자 행동 분석 = 제품 분석 = 디지털 분석 이를 가능하게 해주는 툴을 제품 분석 플랫포밍라고 부름 제품/서비스에 대한 사용자 행동을 분석하고 이해하는 데 도움이 되는 툴 데이터 기반의 의사 결정을 내리고 제품 성능을 개선할 수 있는 인사이트 제공 사용자가 하는 모든 일들을 기록하고 수집 (데이터 ...
1. MySQL -> Redshift AWS 관련 권한 설정 Airflow DAG에서 S3 접근 (쓰기 권한) IAM User를 만들고 S3 버킷에 대한 읽기/쓰기 권한 설정하고 access key와 secret key 사용 Redshift S3 접근 (읽기 권한) Reds...
1. dags 폴더에서 코드 작성시 주의할 점 Airflow는 dags 폴더를 주기적으로 스캔함 dags_folder 키가 가리키는 위치 dag_dir_list_interval 주기 만큼 이 때 DAG 모듈이 들어있는 모든 파일들의 메인 함수가 실행이 됨 이 경우 본의 아니게 ...
1. PythonOperator from airflow.operators.python import PythonOperator 실행해야 하는 파이썬 함수 : python_callable=func 함수의 인자: params = { } (dict) 자유도가 높은 태스크를 구현할 때 사용! from air...