본문 바로가기
DB 공부하기

230323_DB복습

by 보랏 2023. 3. 23.

안녕하세요. 보랏입니다. 

 

오늘은 docker가 메모리가 많이 소비되어 이를 해결할 수 있는 방법과 

통계 이론에 대한 강의를 진행하였습니다.

 

바로 복습 시작하겠습니다.

 

1. docker 재설치

  • microsoft store에서 제공하는 ubuntu를 다운 받아 해당 운영체제에서 주피터서버와 DB를 재설치 및 세팅하였습니다.

 

  • 이제 도커설치에 필요한 패키지를 설치하도록 하겠습니다. 
### docker설치에 필요한 패키지 설치
curl -sSL get.docker.com | sh

### docker demon 시작
sudo /etc/init.d/docker start

### sudo service docker start
sudo service docker status
-> docker is running으로 표시
  • 이렇게 docker실행에 필요한 사전 준비를 마친 뒤 jupyter와 DB를 설치하면 됩니다. 
  • 그 전에 sudo명령어를 쓰지 않기 위한 명령어를 미리 쓰고서 DB와 jupyter를 설치하도록 하겠습니다. 
sudo usermod -aG docker $USER
docker start [컨테이너 이름]
### DB설치
docker run -d -p 4000:3306 -e MYSQL_ROOT_PASSWORD=password --name encore_mysql -v /mnt/c/workspace/mysql/data:/var/lib/mysql mysql --character-set-server=utf8mb4 --collation-server=utf8mb4_unicode_ci

### 주피터 설치
docker run -d -p 10000:8888 -v /mnt/c/workspace/docker_jupyter:/home/jovyan/work --link encore_mysql:mysql --name encore_sci5 jupyter/datascience-notebook

 

2. 분산 분석(ANOVA)

  • 종속변수의 분산과 독립변수 분산간의 관계를 사용하여 선형회귀분석의 성능을 평가하고자 하는 방법
  • 분산 분석은 서로 다른 두 개의 선형회귀분석의 성능 비교에 응용할 수 있으며 독립변수가 카테고리 변수인 경우 각 카테고리 값에 따른 영향을 정량적으로 분석 가능
  • TTS(total sum of squares) : 종속변수값의 움직임을 표현
  • ESS(explained sum of squares) : 회귀분석에 의해 예측한 값 y^(예측값)의 분석을 나타냄
  • RSS(residual sum of squares) :  잔차e의 분산을 나타냄 (=잔차의 움직임의 범위, 즉 오차의 크기를 의미)

 

3. 회귀분석

  • 결정계수(R²) : 희귀모형 내에서 설명변수 x로 설명할 수 있는 반응변수 y의 변동 비율
    • R² = 0 : x와 y는 어떠한 선형 상관관계도 x
    • R² = 1 : x와 y는 완벽한 선형 상관관계 
  • R² 은 0에서부터 1사이의 값을 가지며 0에 가까울수록 설명변수 X와 반응변수 Y는 선형 상관관계의 정도가 없다고 하고, 1에 가까울수록 선형 상관관계의 정도가 크다고 할 수 있음
  • 단순선형회귀의 회귀식
    • 입력 변수가 X, 출력 변수가 Y일 때, 단순선형회귀의 회귀식은 검은선으로 나타낼 수 있음
    • B0는 절편, B1은 기울기이며 합쳐서 회귀계수라고 부름

  • 검은 점 : 모집단의 모든 데이터
  • 빨간 점 : 학습집합의 데이터
  • 실제 B0와 B1은 구할 수 없는 계수로 데이터(학습집합)를 통해 이 둘을 추정해서 사용

 

4. 잔차(residual)

  • 회귀계수에 추정에 대해 알아보기 전에 잔차의 의미 파악
  • 잔차는 실제 출력 변수와 예측한 출력 변수의 차를 나타냄

 

 

5. 상관관계 

  • 데이터 집합의 특징들 사이에 어떤 관계가 존재
  • 상관관계의 정도를 측정하는 통계량은 데이터 집합의 특징들이 어떤 식으로 연관되는지를 파악하는데 유용

 

6. 피어슨 상관계수 

  • 두 특징의 사이의 선형 상관관계의 세기(강도)를 뜻하는 [-1~+1] 사이의 수치로, r로 표현
    • 선형이란 두 특징의 상관관계가 얼마나 강한지를 하나의 직선으로 서술할 수 있다는 의미
    • 상관계수가 +1 이면 비례, 상관계수가 -1이면 반비례, 0이면 두 특징이 연관이 없다는 의미
    • numpy의 corrcoef()를 사용하면 상관계수를 쉽게 얻을 수 있음

 

7. 스피어먼 상관계수

  • 특징 값들 자체가 아니라 특징 값들의 순위에 기초한 계수로 [-1,+1]구간의 수치로, p로 표현
  • x의 순위를 구할 때는 x의 값을 정렬했을때 그 값이 차지할 자리의 색인으로 대체
    • 예) x = [86,62,28,43,3,92,38,87, 74,11]  --> [7,5,2,4,0,9,3,8,]

 

 

오늘은 이론을 중점으로 수업을 진행하여 이렇게 마무리하겠습니다.

 

감사합니다. 

'DB 공부하기' 카테고리의 다른 글

230329_DB복습  (0) 2023.03.29
230327_DB복습  (0) 2023.03.27
230322_DB복습  (0) 2023.03.22
230314_DB복습  (0) 2023.03.14
230313_DB복습  (0) 2023.03.13