[pyspark] 기본 문법
SparkSession from pyspark.sql import SparkSession spark = SparkSession.builder.appName('Test').getOrCreate() spark.conf.sest('spark.sql.execution.arrow.pyspark.enabled', 'true') # 메모리 관련 re...
SparkSession from pyspark.sql import SparkSession spark = SparkSession.builder.appName('Test').getOrCreate() spark.conf.sest('spark.sql.execution.arrow.pyspark.enabled', 'true') # 메모리 관련 re...
https://www.acmicpc.net/problem/1236 문제 영식이는 직사각형 모양의 성을 가지고 있다. 성의 1층은 몇 명의 경비원에 의해서 보호되고 있다. 영식이는 모든 행과 모든 열에 한 명 이상의 경비원이 있으면 좋겠다고 생각했다. 성의 크기와 경비원이 어디있는지 주어졌을 때, 몇 명의 경비원을 최소로 추가해야 영식이를 만족...
다중 선형 회귀 1. 기존 단순회귀모형의 문제점 종속변수를 설명하는 독립변수가 2개일 때 단순회귀모형을 사용하면 모형 설정이 부정확하고, 종속변수에 대한 중요한 설명변수가 누락될 수 있음 즉, 계수추정량에 대해 bias가 발생 2. 편향(Bias) & 분산(Variance) 편향-분산 트레이드 오프 ...
1. 회귀 분석 독립변수 x에 대응하는 종속변수 y와 가장 유사한 값을 갖는 함수 f(x)를 찾는 과정 → f(x)를 통해 미래 사건 예측 ^y = f(x) ≈ y 회귀 분석을 통해 구한 함수 f(x)가 선형 함수일 때 f(x) = 회귀 직선 선형 회귀 분석 특성과 타겟 사이의 관계를 잘 나타내는 ...
특성 공학 (Feature Engineering) 1. 정의 모델 정확도를 높이기 위해 주어진 데이터를 예측 모델의 문제를 잘 표현할 수 있는 features로 변형시키는 과정 머신러닝 알고리즘을 작동하기 위해 데이터의 도메인 지식을 활용해 feature를 만드는 과정 features -> more flexibility, simpl...
https://www.acmicpc.net/problem/1157 문제 알파벳 대소문자로 된 단어가 주어지면, 이 단어에서 가장 많이 사용된 알파벳이 무엇인지 알아내는 프로그램을 작성하시오. 단, 대문자와 소문자를 구분하지 않는다. 입력 알파벳 대소문자로 된 단어가 주어지면, 이 단어에서 가장 많이 사용된 알파벳이 무엇인지 알아내는 프로...
1. 데이터 전처리 특정 분석에 적합하게 데이터를 가공하는 작업 완결성 필수로 기입되어 있어야 하는 데이터는 모두 입력되어야 한다. 유일성 동일한 데이터가 불필요하게 중복되어 있으면 안된다. 통일성 데이터가 모두 동일한 형식으로 입력되어야 한다. 2. 주의해야 하는 점 잡음 Noise 측정 과정에서 무작위...
1. K-NN 주변의 가장 가까운 K개의 데이터 를 보고 새로운 데이터를 판단하는 알고리즘 N개의 특성을 가진 데이터는 n차원의 공간에 점으로 표현됨 유사한 특성의 데이터는 거리가 가깝고, 다양한 거리 함수를 통해 데이터 간 거리를 구할 수 있음 KNN 분류 종속변수 Y : 범주형 데이터 ->...
🥥 트리거 개념 프로시저와 함수는 그 실행이 외부적인 실행 명령에 의해 이루어지는데 반해, 트리거의 실행은 트리거링 사건(Triggering Event)에 의해 내부적으로 이루어짐 트리거를 일으키는 사건 (event) 데이터베이스 테이블에 DML문이 발생할 때 DDL문도 가능 INSERT, U...
🍯 프로시저 개요 매개 변수를 받을 수 있고, 반복해서 사용할 수 있는 이름이 있는 PL/SQL 블록 return 값이 없음 연속 실행 또는 구현이 복잡한 트랜잭션을 수행하는 PL/SQL 블록을 DB에 저장하기 위해 생성 형식 CREATE OR REPLACE 구문을 이용하여 생성 IS로 PL/SQL 블록 시작 LOCA...