230323_DB복습

안녕하세요. 보랏입니다.

오늘은 docker가 메모리가 많이 소비되어 이를 해결할 수 있는 방법과

통계 이론에 대한 강의를 진행하였습니다.

바로 복습 시작하겠습니다.

1. docker 재설치

microsoft store에서 제공하는 ubuntu를 다운 받아 해당 운영체제에서 주피터서버와 DB를 재설치 및 세팅하였습니다.

이제 도커설치에 필요한 패키지를 설치하도록 하겠습니다.

### docker설치에 필요한 패키지 설치
curl -sSL get.docker.com | sh

### docker demon 시작
sudo /etc/init.d/docker start

### sudo service docker start
sudo service docker status
-> docker is running으로 표시

이렇게 docker실행에 필요한 사전 준비를 마친 뒤 jupyter와 DB를 설치하면 됩니다.
그 전에 sudo명령어를 쓰지 않기 위한 명령어를 미리 쓰고서 DB와 jupyter를 설치하도록 하겠습니다.

sudo usermod -aG docker $USER
docker start [컨테이너 이름]

### DB설치
docker run -d -p 4000:3306 -e MYSQL_ROOT_PASSWORD=password --name encore_mysql -v /mnt/c/workspace/mysql/data:/var/lib/mysql mysql --character-set-server=utf8mb4 --collation-server=utf8mb4_unicode_ci

### 주피터 설치
docker run -d -p 10000:8888 -v /mnt/c/workspace/docker_jupyter:/home/jovyan/work --link encore_mysql:mysql --name encore_sci5 jupyter/datascience-notebook

2. 분산 분석(ANOVA)

종속변수의 분산과 독립변수 분산간의 관계를 사용하여 선형회귀분석의 성능을 평가하고자 하는 방법
분산 분석은 서로 다른 두 개의 선형회귀분석의 성능 비교에 응용할 수 있으며 독립변수가 카테고리 변수인 경우 각 카테고리 값에 따른 영향을 정량적으로 분석 가능
TTS(total sum of squares) : 종속변수값의 움직임을 표현
ESS(explained sum of squares) : 회귀분석에 의해 예측한 값 y^(예측값)의 분석을 나타냄
RSS(residual sum of squares) : 잔차e의 분산을 나타냄 (=잔차의 움직임의 범위, 즉 오차의 크기를 의미)

3. 회귀분석

결정계수(R²) : 희귀모형 내에서 설명변수 x로 설명할 수 있는 반응변수 y의 변동 비율
- R² = 0 : x와 y는 어떠한 선형 상관관계도 x
- R² = 1 : x와 y는 완벽한 선형 상관관계
R² 은 0에서부터 1사이의 값을 가지며 0에 가까울수록 설명변수 X와 반응변수 Y는 선형 상관관계의 정도가 없다고 하고, 1에 가까울수록 선형 상관관계의 정도가 크다고 할 수 있음
단순선형회귀의 회귀식
- 입력 변수가 X, 출력 변수가 Y일 때, 단순선형회귀의 회귀식은 검은선으로 나타낼 수 있음
- B0는 절편, B1은 기울기이며 합쳐서 회귀계수라고 부름

검은 점 : 모집단의 모든 데이터
빨간 점 : 학습집합의 데이터
실제 B0와 B1은 구할 수 없는 계수로 데이터(학습집합)를 통해 이 둘을 추정해서 사용

4. 잔차(residual)

회귀계수에 추정에 대해 알아보기 전에 잔차의 의미 파악
잔차는 실제 출력 변수와 예측한 출력 변수의 차를 나타냄

5. 상관관계

데이터 집합의 특징들 사이에 어떤 관계가 존재
상관관계의 정도를 측정하는 통계량은 데이터 집합의 특징들이 어떤 식으로 연관되는지를 파악하는데 유용

6. 피어슨 상관계수

두 특징의 사이의 선형 상관관계의 세기(강도)를 뜻하는 [-1~+1] 사이의 수치로, r로 표현
- 선형이란 두 특징의 상관관계가 얼마나 강한지를 하나의 직선으로 서술할 수 있다는 의미
- 상관계수가 +1 이면 비례, 상관계수가 -1이면 반비례, 0이면 두 특징이 연관이 없다는 의미
- numpy의 corrcoef()를 사용하면 상관계수를 쉽게 얻을 수 있음

7. 스피어먼 상관계수

특징 값들 자체가 아니라 특징 값들의 순위에 기초한 계수로 [-1,+1]구간의 수치로, p로 표현
x의 순위를 구할 때는 x의 값을 정렬했을때 그 값이 차지할 자리의 색인으로 대체
- 예) x = [86,62,28,43,3,92,38,87, 74,11] --> [7,5,2,4,0,9,3,8,]

오늘은 이론을 중점으로 수업을 진행하여 이렇게 마무리하겠습니다.

감사합니다.

'DB 공부하기' 카테고리의 다른 글

230329_DB복습 (0)	2023.03.29
230327_DB복습 (0)	2023.03.27
230322_DB복습 (0)	2023.03.22
230314_DB복습 (0)	2023.03.14
230313_DB복습 (0)	2023.03.13

보랏의 DB스토리

230323_DB복습

'DB 공부하기' 카테고리의 다른 글

티스토리툴바

230323_DB복습

'DB 공부하기' 카테고리의 다른 글

관련글

티스토리툴바