[DEV] 14주차. Hadoop과 Spark (2)
1. Spark 데이터 처리 Spark 데이터 시스템 아키텍처 자체 파일 시스템을 갖고 있지 않음 기존의 분산 파일 시스템 사용 HDFS, AWS S3, Azure Blob, CGP Cloud Storage … : 내부 데이터 외부 데이터: RDBMS, NoSQL 등 ...
1. Spark 데이터 처리 Spark 데이터 시스템 아키텍처 자체 파일 시스템을 갖고 있지 않음 기존의 분산 파일 시스템 사용 HDFS, AWS S3, Azure Blob, CGP Cloud Storage … : 내부 데이터 외부 데이터: RDBMS, NoSQL 등 ...
1. 빅데이터의 정의와 예 빅데이터 서버 한 대로 처리할 수 없는 규모의 데이터 Amazon의 data scientist 존 라우저가 내린 정의 분산 환경이 필요하느냐에 초점 ex) pandas로 처리해야 할 데이터가 너무 커서 처리가 불가능하다면 ? -> spark! 기존의 ...
1. A/B Test Split Test / Bucket Test 라고도 부름 Randomized Controlled Trial의 온라인 버전 다수의 Variant로 구성됨 하나의 컨트롤 (기존 버전)과 하나 혹은 그 이상의 테스트 보통 귀무가설 사용 처음에는 한...
1. Dag Dependencies DAG를 실행하는 방법 주기적 실행: schedule로 지정 crontab 형태로 지정 다른 DAG에 의해 트리거 (의존관계가 있는 경우) Explicit Trigger: DAG A가 분명하게 DAG B를 트리거 (TriggerDagOperator) ...
1. 구글 시트 -> Redshift 구현 절차 시트 API 활성화, 구글 서비스 어카운트 생성 -> 그 내용을 JSON 파일로 다운로드 어카운트에서 생성해준 이메일을 조작하고 싶은 시트에 공유 Airflow DAG 쪽에서 해당 JSON 파일로 인증하고 시트를 조작 구글 서비스 어카운트 생성 구글 클라우드 로그인 ...
1. Airflow 환경 설정 docker-compose.yaml 수정 airflow-common 의 environment AIRFLOW_VAR_DATA_DIR: /opt/airflow/data 임시 데이터를 저장할 폴더 위치 AIRFLOW_VAR_ 뒤의 이름이 환경변수 ...
1. Docker 정리 Docker를 실제 production 환경에서 사용할 때 유념할 점 Docker Volumes Host volume은 보통 개발 시 소스코드를 바로 container 안으로 마운트하기 위해 사용 Production에서는 named volumes를 사용해야 함 Docker...
1. Docker-compose 다수의 Container로 소프트웨어가 구성되는 경우 사용할 수 있는 툴 + 환경 설정 파일 여기서 다양한 테스트 등도 수행 가능 다양한 버전을 만드는 것도 일반적 (dev, test, prod 등) 개별 컨테이너를 따로 관리하는 것보다 훨씬 생산성이 높음 ...
1. 하는 업무 Ad-hoc Data 추출 반복되는 추출 요청들도 많이 있음 주요 지표들은 미리 적재해두면 추출 건을 70% 정도 줄일 수 있을 것으로 예상 주요 지표들이 미리 적재되어 있는 데이터 웨어하우스를 만들자 데이터 거버넌스 구축 반복되는 것을 당연시 하지 말자!! 간단한...
1. Docker Volume 필요성 Docker Container가 실행되었다면 중단되면 데이터들은 어떻게 될까? 특정 소프트웨어가 컨테이너를 통해 일회성으로 동작하는 것이 아니라 계속해서 동작해야 한다면 데이터가 영구적으로 보관되어야 함 ex) 데이터베이스가 컨테이너 안에서 동작한다면? 이를 보장하...