[DEV] 10주차. 데이터 파이프라인과 Airflow(2)
1. Airflow - Docker 사용 airflow-sertup Github repo 클론 git clone https://github.com/keeyong/airflow-setup.git airflow-setup 폴더로 이동 후 2.5.1 이미지 관련 yml 파일 다운로드 curl ...
1. Airflow - Docker 사용 airflow-sertup Github repo 클론 git clone https://github.com/keeyong/airflow-setup.git airflow-setup 폴더로 이동 후 2.5.1 이미지 관련 yml 파일 다운로드 curl ...
1. 데이터 파이프라인 데이터 흐름 서비스나 써드파티를 통해 생기는 데이터 데이터 인프라 데이터 분석 (지표 정의, 시각화) 데이터 과학 적용 (사용자 경험 개선) 더 데이터 웨어하우스 구성 예 ETL Extract, Transform, Load Air...
기술을 왜 써야하는지 논리를 갖고 사용해야 함! 1. Container container code dependencies runtime 그냥 EC2에 올려서 써도 되는데, 왜 컨테이너를 써야하는가 여러 모듈, 환경들을 내 로컬에 설치해서 개발을 하게 될 것 내가 ...
1. 시각화 툴 대시보드 혹은 BI (Business Intelligence) 툴이라고 부르기도 함 KPI (Key Performance Indicator), 지표, 중요한 데이터 포인트들을 데이터 기반으로 계산/분석/표시해주는 툴 테이블 형태로 알아보기 쉽게 요약해주는 것도 시각화 결정권자들로 하여금 ...
1. Snowflake 2014년 클라우드 기반 데이터 웨어하우스로 시작됨 지금은 데이터 클라우드라고 부를 수 있을 정도로 발전 글로벌 클라우드 위에서 모두 동작 (AWS, GCP, Azure) - 멀티클라우드 데이터 판매를 통한 매출을 가능하게 해주는 Data sharing / Marketplace 제공 데이터 ...
1. Redshift 권한과 보안 사용자별 테이블 권한 설정 일반적으로 사용자별 테이블별 권한 설정은 하지 않음: 너무 복잡! 역할 혹은 그룹별로 스키마별 접근 권한을 주는 것이 일반적 RBAC (Role Based Access Control)가 새로운 트렌드: 그룹보다 편리 여러 역할에 속한 사용자의 경우 ...
1. Redshift 특징 AWS에서 지원하는 데이터 웨어하우스 서비스 최소 160GB ~ 2PB 데이터까지 처리 가능 고정 비용으로 사용할 때! SSD 옵션 -> 상대적으로 처리속도가 빠름 Still OLAP (OnLine Analytical Processing Engine) ...
1.2013-2018 유데미 특징 모든 직원들이 데이터 문해력 교육 (SQL) 데이터 웨어하우스 (RedShift) 도입 BI 툴 도입 (ChartIO & Tableau) ML 프로덕션 도입 (A/B 프로세스 & MLOps) 데이터 디스커버리 툴 개발과 활용 누가 대시보드를 만들었는지 알 수 있음...
1. 데이터 웨어하우스 기본적으로 클라우드가 대세 데이터가 커져도 문제없는 확장가능성(scalable)과 적절한 비용이 중요 포인트 크게 고정비용 옵션과 가변비용 옵션이 존재하며, 후자가 조금 더 확장 가능한 옵션 AWS Redshift, 구글 BigQuery, Snowflake Redshift는 고정비용, Big...
Docker - Microsoft 실습 https://learn.microsoft.com/ko-kr/visualstudio/docker/tutorials/docker-tutorial 실습입니다. 이미지 pull & 컨테이너 실행 docker run -d -p 8080:80 docker/getting-started -d : 백그라운...