[DEV] 15주차. Kafka와 Spark Streaming 기반 스트리밍 처리 (2)
1. Kafka 소개 Kafka 실시간 데이터를 처리하기 위해 설계된 오픈소스 분산 스트리밍 플랫폼 데이터 재생이 가능한 분산 커밋 로그 (Distributed Commit Log) Scalability와 Fault Tolerance를 제공하는 Publish-Subscription 메시징 시스템 ...
1. Kafka 소개 Kafka 실시간 데이터를 처리하기 위해 설계된 오픈소스 분산 스트리밍 플랫폼 데이터 재생이 가능한 분산 커밋 로그 (Distributed Commit Log) Scalability와 Fault Tolerance를 제공하는 Publish-Subscription 메시징 시스템 ...
1. 구글이 데이터 분야에 끼친 영향 구글의 탄생 1) 구글 검색 엔진의 등장 그 전까지의 검색 엔진은 기본적으로 웹 페이지 상의 텍스트를 보고 랭킹을 결정 알타비스타, 야후, .. 검색 결과 페이지에 온갖 종류의 스팸 웹 페이지들이 넘쳐나기 시작 구글은 웹 페이지들 간의 링크를 기반으로 중요...
1. Spark 파일 포맷 데이터는 디스크에 파일로 저장됨 일에 맞게 최적화 필요! Unstructured Semi-structured Structured Text JSON</br>XML</br...
1. Spark SQL 구조화된 데이터 처리를 위한 Spark 모듈 데이터프레임 작업을 SQL로 처리 가능 데이터프레임에 테이블 이름 지정 후 sql 함수 사용 가능 Pandas에도 pandasql 모듈의 spldf 함수를 이용하는 동일한 패턴 존재 ...
1. Spark 데이터 처리 Spark 데이터 시스템 아키텍처 자체 파일 시스템을 갖고 있지 않음 기존의 분산 파일 시스템 사용 HDFS, AWS S3, Azure Blob, CGP Cloud Storage … : 내부 데이터 외부 데이터: RDBMS, NoSQL 등 ...
1. 빅데이터의 정의와 예 빅데이터 서버 한 대로 처리할 수 없는 규모의 데이터 Amazon의 data scientist 존 라우저가 내린 정의 분산 환경이 필요하느냐에 초점 ex) pandas로 처리해야 할 데이터가 너무 커서 처리가 불가능하다면 ? -> spark! 기존의 ...
1. A/B Test Split Test / Bucket Test 라고도 부름 Randomized Controlled Trial의 온라인 버전 다수의 Variant로 구성됨 하나의 컨트롤 (기존 버전)과 하나 혹은 그 이상의 테스트 보통 귀무가설 사용 처음에는 한...
1. Dag Dependencies DAG를 실행하는 방법 주기적 실행: schedule로 지정 crontab 형태로 지정 다른 DAG에 의해 트리거 (의존관계가 있는 경우) Explicit Trigger: DAG A가 분명하게 DAG B를 트리거 (TriggerDagOperator) ...
1. 구글 시트 -> Redshift 구현 절차 시트 API 활성화, 구글 서비스 어카운트 생성 -> 그 내용을 JSON 파일로 다운로드 어카운트에서 생성해준 이메일을 조작하고 싶은 시트에 공유 Airflow DAG 쪽에서 해당 JSON 파일로 인증하고 시트를 조작 구글 서비스 어카운트 생성 구글 클라우드 로그인 ...
1. Airflow 환경 설정 docker-compose.yaml 수정 airflow-common 의 environment AIRFLOW_VAR_DATA_DIR: /opt/airflow/data 임시 데이터를 저장할 폴더 위치 AIRFLOW_VAR_ 뒤의 이름이 환경변수 ...