안녕하세요. 보랏입니다.
오늘은 docker가 메모리가 많이 소비되어 이를 해결할 수 있는 방법과
통계 이론에 대한 강의를 진행하였습니다.
바로 복습 시작하겠습니다.
1. docker 재설치
- microsoft store에서 제공하는 ubuntu를 다운 받아 해당 운영체제에서 주피터서버와 DB를 재설치 및 세팅하였습니다.
- 이제 도커설치에 필요한 패키지를 설치하도록 하겠습니다.
### docker설치에 필요한 패키지 설치
curl -sSL get.docker.com | sh
### docker demon 시작
sudo /etc/init.d/docker start
### sudo service docker start
sudo service docker status
-> docker is running으로 표시
- 이렇게 docker실행에 필요한 사전 준비를 마친 뒤 jupyter와 DB를 설치하면 됩니다.
- 그 전에 sudo명령어를 쓰지 않기 위한 명령어를 미리 쓰고서 DB와 jupyter를 설치하도록 하겠습니다.
sudo usermod -aG docker $USER
docker start [컨테이너 이름]
### DB설치
docker run -d -p 4000:3306 -e MYSQL_ROOT_PASSWORD=password --name encore_mysql -v /mnt/c/workspace/mysql/data:/var/lib/mysql mysql --character-set-server=utf8mb4 --collation-server=utf8mb4_unicode_ci
### 주피터 설치
docker run -d -p 10000:8888 -v /mnt/c/workspace/docker_jupyter:/home/jovyan/work --link encore_mysql:mysql --name encore_sci5 jupyter/datascience-notebook
2. 분산 분석(ANOVA)
- 종속변수의 분산과 독립변수 분산간의 관계를 사용하여 선형회귀분석의 성능을 평가하고자 하는 방법
- 분산 분석은 서로 다른 두 개의 선형회귀분석의 성능 비교에 응용할 수 있으며 독립변수가 카테고리 변수인 경우 각 카테고리 값에 따른 영향을 정량적으로 분석 가능
- TTS(total sum of squares) : 종속변수값의 움직임을 표현
- ESS(explained sum of squares) : 회귀분석에 의해 예측한 값 y^(예측값)의 분석을 나타냄
- RSS(residual sum of squares) : 잔차e의 분산을 나타냄 (=잔차의 움직임의 범위, 즉 오차의 크기를 의미)
3. 회귀분석
- 결정계수(R²) : 희귀모형 내에서 설명변수 x로 설명할 수 있는 반응변수 y의 변동 비율
- R² = 0 : x와 y는 어떠한 선형 상관관계도 x
- R² = 1 : x와 y는 완벽한 선형 상관관계
- R² 은 0에서부터 1사이의 값을 가지며 0에 가까울수록 설명변수 X와 반응변수 Y는 선형 상관관계의 정도가 없다고 하고, 1에 가까울수록 선형 상관관계의 정도가 크다고 할 수 있음
- 단순선형회귀의 회귀식
- 입력 변수가 X, 출력 변수가 Y일 때, 단순선형회귀의 회귀식은 검은선으로 나타낼 수 있음
- B0는 절편, B1은 기울기이며 합쳐서 회귀계수라고 부름
- 검은 점 : 모집단의 모든 데이터
- 빨간 점 : 학습집합의 데이터
- 실제 B0와 B1은 구할 수 없는 계수로 데이터(학습집합)를 통해 이 둘을 추정해서 사용
4. 잔차(residual)
- 회귀계수에 추정에 대해 알아보기 전에 잔차의 의미 파악
- 잔차는 실제 출력 변수와 예측한 출력 변수의 차를 나타냄
5. 상관관계
- 데이터 집합의 특징들 사이에 어떤 관계가 존재
- 상관관계의 정도를 측정하는 통계량은 데이터 집합의 특징들이 어떤 식으로 연관되는지를 파악하는데 유용
6. 피어슨 상관계수
- 두 특징의 사이의 선형 상관관계의 세기(강도)를 뜻하는 [-1~+1] 사이의 수치로, r로 표현
- 선형이란 두 특징의 상관관계가 얼마나 강한지를 하나의 직선으로 서술할 수 있다는 의미
- 상관계수가 +1 이면 비례, 상관계수가 -1이면 반비례, 0이면 두 특징이 연관이 없다는 의미
- numpy의 corrcoef()를 사용하면 상관계수를 쉽게 얻을 수 있음
7. 스피어먼 상관계수
- 특징 값들 자체가 아니라 특징 값들의 순위에 기초한 계수로 [-1,+1]구간의 수치로, p로 표현
- x의 순위를 구할 때는 x의 값을 정렬했을때 그 값이 차지할 자리의 색인으로 대체
- 예) x = [86,62,28,43,3,92,38,87, 74,11] --> [7,5,2,4,0,9,3,8,]
오늘은 이론을 중점으로 수업을 진행하여 이렇게 마무리하겠습니다.
감사합니다.
'DB 공부하기' 카테고리의 다른 글
230329_DB복습 (0) | 2023.03.29 |
---|---|
230327_DB복습 (0) | 2023.03.27 |
230322_DB복습 (0) | 2023.03.22 |
230314_DB복습 (0) | 2023.03.14 |
230313_DB복습 (0) | 2023.03.13 |