[DEV] 7주차. AWS 클라우드(1)
1. 클라우드 컴퓨팅 IT 리소스를 인터넷을 통해 온디맨드로 제공하고 사용한 만큼만 비용을 지불하는 방식 물리적 데이터 센터와 서버를 구입하여 유지 관리하는 대신, AWS와 같은 클라우드 공급자로부터 필요에 따라 컴퓨팅 파워, 스토리지, 데이터베이스와 같은 기술 서비스에 액세스함 이점 민첩성 ...
1. 클라우드 컴퓨팅 IT 리소스를 인터넷을 통해 온디맨드로 제공하고 사용한 만큼만 비용을 지불하는 방식 물리적 데이터 센터와 서버를 구입하여 유지 관리하는 대신, AWS와 같은 클라우드 공급자로부터 필요에 따라 컴퓨팅 파워, 스토리지, 데이터베이스와 같은 기술 서비스에 액세스함 이점 민첩성 ...
1. 사용자별로 처음 채널과 마지막 채널 알아내기 ROW_NUMBER 이용 CTE를 빌딩블록으로 WITH first AS ( SELECT userid, ts, channel, ROW_NUMBER() OVER(PARTITION BY userid ORDER BY ts) seq FROM raw_data.user_session_ch...
1. JOIN 2개 이상의 테이블들을 공통 필드를 가지고 머지하는 데 사용됨 star schema로 구성된 테이블들로 분산되어 있던 정보를 통합 JOIN 방식에 따라 어떤 레코드들이 선택되는지, 어떤 필드들이 채워지는지가 달라짐 고려해야 할 점 중복 레코드가 없고, Primary key의 uniqueness가 보장...
1. GROUP BY & Aggregate 함수 테이블의 레코드들을 그룹핑하여 그룹별로 다양한 정보 계산 단계 먼저 그룹핑을 할 필드 결정 (하나 이상의 필드가 될 수 있음) 다음 그룹별로 계산할 내용 결정 여기서 Aggregate 함수 사용 COUNT...
1. Redshift 론치 데모 aws에서 AWS Redshift 클러스터 생성 실습용이기 때문에 가장 저렴한 dc2.large 선택 노드는 1개 샘플 데이터 X 추가 구성 기본값 사용 해제 네트워크 및 보안에서 퍼블릭 액세스 가능 선택! -> colab에서 액세스 가능 Error...
1. 데이터 분야에서 SQL 큰 데이터를 processing하여 작은 데이터로 변환 주어진 문제를 답하기 위해서 데이터 분석을 하기 위한 관점에서 사용 서버에서의 DB와는 목적이 조금 다름 사용자들에 대한 정보, 상품에 대한 정보, 사용자의 행동에 대한 정보 등을 빠르게 저장하고 읽어서 서비스를 운영하기 위한 목적 ...
크롤링 가능 여부 확인 [사이트의 root url]/robots.txt 에서 확인! 카카오의 경우 User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://tech.kakao.com/wp-sitemap.xml Disallow: /wp-conte...
QuerySet DB에서 전달받은 객체들의 모음 (list) Python으로 작성한 코드가 SQL로 mapping되어 QuerySet 자료형으로 넘어옴 Django에서는 속성이 column, 속성에 부여된 값이 row 임 -> dictionary 형태 .objects.all() QuerySet 타입 테이블에 있는 모든...
1. 배경 18개의 기업 별 테그 블로그를 크롤링해서 태그 별 빈도수 시각화 & 글 모아 보여주기 ERD 2. 전체 태그 빈도수 시각화 views.py from .models import * from django.http import JsonResponse import plotly.express as px import pa...
1. 효과적인 학습 방법 긍정적인 감정 이입하기 잘 모르는 용어나 개념도 반복해서 듣고 사용하다 보면 익숙해짐 계속해서 새로운 개념들이 나오는 분야이기 때문에 모르는 용어, 주제도 긍정적으로 바라보는 자세를 가져야 함! 긴 호흡으로 바라보기 공부해야 할 내용이 굉장히 많다보니 ...