[New!! 2026] (3과목) ADsP 완벽 요약강의 | 요약강의 | 데이터분석 | 최단시간 최대효율👍 | 핵심 요약노트

상과목 시작해 보도록 하겠습니다. 데이터들이 있으면요.이 데이터들을

기업 내 창고에 저장을 합니다. 이것을 데이터 웨어하우스라고

일과목에서 얘기를 했고요.이 이 저장된 데이터 웨어하우스 창고에서

마트로 뭐 인사 마트, 제조 마트, 비행

마트 다양한 마트로 보냅니다. 특정 주제에 맞게 데이터를 모아 놓은

소규모 데이터 웨어하우스로 보내요. 이것을 데이터 마트라고 부르고요.이

데이터 마트에 저장되는 데이터들은 요약 변수와 파생 변수의 형태로

저장이 됩니다. 구분할 줄 알아야 되고요. 요약 변수는요.

종합한 변수로서요. 재활용성이 높습니다. 뭐 1개월간의 수입의

평균이라든지 이런 식으로 종합을 시켜요. 이게 요약한 변수, 요약

변수가 되고요. 파생 변수는요. 의미를 부여합니다.

자, 고객 구매 등급 같은 경우에는이 등급을 어떻게 산정하는지에 대한

논리적인 타당성이 필요합니다. 그래서 다시 정리하면요. 요약 변수는 정보를

종합한 변수입니다. 요약을 해서 평균을 낸다든지 이런 식으로

통계적으로 요약을 할 수가 있고요. 파생 변수는 논리적 타당성을 주고

의미를 부여합니다. 그를 구분하실 줄 알아야 돼요.

자, 그리고 데이터 분석을 하기 전에 데이터가 어떻게 생겼는지이 데이터에

대해 탐색을 해야 됩니다. 이것을 탐색적 자료 분석, 탐색적 데이터

분석이라고 부르고요. 통계적인 정보 평균이나 표준 편차 이런 것들 보거나

아니면 그래프를 통해 시각화를 통해 파악이 가능합니다.

A는네 가지 주제를 가지고 있어요. 저 재현 외워 두시고요.

자, 수집한 데이터에 존재하지 않는 데이터들은 처리를 해야 됩니다.

이것을 결측값이라고 불러요. 실제 응답자가 응답을 하지 않았을

수도 있고요. 아니면 내가 컴퓨터에 입력하는 과정에서 누락이 됐을 수도

있고 시스템상 오류가 발생할 수도 있고 다양하게 데이터가 존재하지 않을

수 있습니다. 이런 존재하지 않는 데이터는 분석에 처리를 해 줘야

돼요. 그래서이 데이터는요. 널이나 NA라고 표시가 됩니다.

첫 번째는요. 결측값을 가지는 데이터는 그냥 삭제를 해 버리는

거예요. 이게 완전 분석법입니다. 완전히 삭제를 해 버려요. 혹은요.

평균으로 대치를 합니다. 자, 나머지 데이터들의 평균으로 그 비어 있는

값을 채워 놓어요. 이것이 비조금부 평균 대치법이고요. 혹은요. 조금 더

상세하게 분석을 해서 각 데이터의 특징을 가지고 분석을 해서

채워넣습니다. 이것을 조건부 평균 대치법 회기 분석을 많이 사용합니다.

회기 분석은 뒤에서 배울 거고요. 혹은요. 확률적으로 선택해서 대치를

합니다. 현재 데이터셋에서 비슷한 성향인 핫대그로 대치를 하거나요.

유사한 외부 추에서 가져와서 대체하는 콜드 때 혹은요. 가장 가까운

데이터들 즉 이웃에 있는 데이터들이 나랑 비슷한 데이터들일 거다라고

생각을 해서 이웃으로 대치를 합니다. 이것이 니어리스트 네이버 방법이

있어요. 혹은요. 여러 번 대치를 해요. 대치하고 분석하고 결합하는

여러 번 대치를 하는 다중 대치법도 활용이 가능합니다.

자, 그다음 이상값. 에 대해서 얘기를 해 보겠습니다.

내가 수집한 데이터들 중에 극단적으로 크거나 작은 값이 있어요. 이것을

이상값이라고 부릅니다. 그런데 의미 있는 데이터일 수도 있어요. 키

230cm 이런 데이터 어때요? 뭐 채용만이라든지 이런 사람들이 들어

있을 수도 있겠죠. 그러니까 이상값은요. 결측함과 다르게 항상

제거하거나 뭐 변환을 하거나 이래야 되는 것은 아닙니다.

자 그럼 이상값을 어떻게 판단을 할 거냐? 첫 번째 방법은 ESD

방법이라고 있어요. 자, 이러한 그래프를 우리가 정규분포라고 보통

부르죠. 확창 시절에 아마 여러분들이 다 봤을

텐데 세상에 있는 많은 현상들은 정규 분포를 따릅니다. 즉 평균 근처에

사람이 제일 많고요. 평균으로 멀어질수록 점점 사람들의 수가

줄어들어요. 그렇기 때문에이 평균으로부터 표준 편차가 세배

넘어가는 이런 부분을 우리가 이상값으로 보자라는게 ESD

방법이고요. 자, 그다음 정말 많이 쓰는 방법이고

시험 문제 정말 많이 나올 겁니다. 4분수 방법이라고 해서

자 25% 지점 그다음에 75% 지점 Q3값 그리고

50% 지점을 두고 데이터의 박스를 그립니다.이 박스를 그려서이 박스의

길이 Q3와 Q1의 길이 이것을 IQR이라고 부르고요. 자, Q1 -

1.5 IQR 떨어진이 부분을 한 Q3 + 1.5 아Q에 떨어진이

부분을 상한이라고 부릅니다. 그리고이 하한과 상한 안에 범인에 관측된

최소값을 그리고 범인의 관측값 최댓값까지

수염으로 그려 주면은 이것이 바로 박스 플롯이라고 불려는 사분이수라고

부르고요. 박스 플롯이라고도 얘기를 합니다.

상한 하안에서 벗어나 있는 값이 있으면요. 얘를

이상값으로 판단을 하는 방법이 바로 4분이수 방법 혹은 박스 플롯

방법이라고 부릅니다. 자, 이런 그래프 주고 해석하는 문제

시험 문제 정말 많이 나옵니다. 한번 볼게요. B 데이터는요. A

데이터보다 넓게 분포되어 있어요. 그러니까 B의 분산이 A분산보다

크다라고 볼 수가 있겠죠? 그리고 여기가 Q2잖아요. 50%

지점입니다.요 Q2 얘가 B가 더 높이 있습니다. 그렇기 때문에 B의

중앙값이 A보다 크고요. 자, 여기 상한을 벗어나는 데이터가

존재하죠. 그래서 A에는 이상치가 존재한다라고 판단이 가능하고 A와

B의 평균은 어떻다고 했어요? 알 수 없다라고 했습니다. 왜냐면 평균은

전체 데이터의 합을 개수로 나눠 줘야 되는데 여기서는 전체 데이터를

정확하게 알 수도 없을 뿐더러 개수도 알 수가 없습니다. 그러니까 평균 알

수가 없다라는 것까지 확인을 해 두시고요. 자, 그다음 통계에 대해서

공부를 할 겁니다. 통계는요. 자료의 척도를 두 가지로 나눕니다. 질적

척도와 양적 척도 구분을 하고요. 질적 척도에는 명목 척도와 순서 척도

아닙니다. 명목 척도는 속하는지 나타내는 자료, 대학교 성별, 그리고

순서 척도는 서열 관계가 존재합니다. 학년 순위 이런 것들 서열이

존재하고요. 양적 척도는 등간 척도와 비율 척도로 나눠집니다. 등간 척도는

구간 사이에 간격의 의미가 있고 덧셈 뺄셈만 가능해요. 자, 온도 이런 거

예를 들어 보면은 어제보다 오늘 5도 높다. 10도 낮다. 이런 식으로

표현을 하지. 어제보다 오늘 두 배 높다. 20% 높다. 이런 표현 잘

안 쓰죠. 즉 덧셈과 뺄셈만 가능합니다. 자, 근데 비율

척도는요. 사칭 연산이 가능하고요. 절대적 기준

0이 존재하고 가장 많이 수집되는 자료입니다. 자, 무게 어때요?

0 이러면 무게가 0이다 이러면은 아예 존재하지 않는 거죠. 온도가 0

이러면요. 물이 어는 점이라고 해서 온도는

존재를 합니다. 하지만 무게는 0이면은

존재하지 않는 거예요. 즉 절대적 기준 0이 존재합니다. 그래서이 척도

당연히 구분할 줄 알아야 되고 등간 척도와 비율 척도 구분 정말 중요한

거 무엇을 기준으로 해요? 절대적 기준이 있냐 없냐로 구분하면 쉽게

구분이 가능할 겁니다. 자, 기초 확률 보면요. 사건이 있고

표본 공간이 있죠. 사건은 시행된 결과로서 나타내는 거고요. 표본

공간은 모든 가능한 결과입니다. 동전 두 개를 던지면요. 앞, 앞뒤,

뒤압, 뒤가 나오는게 바로 이게 표본 공간이

되고이 앞, 각각, 앞뒤, 기압, d디 이런 것들이 사건이 되죠. 자,

그리고 확률은 통계적 현상에 확실함을 나타내는 척도고요. 수학적 확률 뭐

주사위를 던지면 1의 눈이 나올 확률은 16/ 수학적으로 명확해요.

근데 야구 선수가 안타를 칠 확률 0.3 3할 이런 건 어때요?

통계적으로 여러 번 데이터를 수집해서 나오는 겁니다. 그래서 수학적이냐

통계적 확률로 구분을 할 수가 있고요.

자, A 사건과 B 사건 두 사건 중 하나 이상이 일어날 A 합집합 B는

어떻게 돼요? PA + PB에다가 요기 교집합 두 번 더해지니까 빼

줘야겠죠? 이것이 확률의 덧셈 정리고요. 조건부 확률은 사건 B가

발생했을 때 A가 일어날 확률 PA 바 B 혹은 PA 기분 B라고 얘기를

합니다. 이것은 B가 일어났을 때 A와 B가 전체 일어날 확률 이죠.

자, 백신을 맞았을 때 감기에 걸릴 확률. 이것이 조건이 걸린 조건부

확률이 됩니다. 독립 사건은 A와 B가 서로 영향을 주지 않는

사건이에요. 네가 A에 영향을 주지 않기 때문에

A 혼자 단독으로 일어나는 것과 같죠.

그래서 PA * PB로 표현이 가능하고요. 배반 사건은 A B가

동시에 일어나지 않는 사건입니다. A와 B가 겹치는 부분이 없어요.

동전을 던졌을 때 앞면과 뒷면이 동시에 나올 확률은 없죠.

자, 그다음 기초 통계 부분에 대해서 얘기를 하면요. 이산 확률 분포라는

것은 0 1 2 3처럼 셀 수 있는 확률 변수의 확률이 대응된다. 자,

그래서 주사의 눈에 대한 확률 분포 보면요. x라는 확률 변수들 1 2

3 4 5 6에다가 확률들이 다 16/이죠.

대응되는 것을 볼 수가 있죠. 이게 바로 이산 확률 분포가 됩니다. 자,

여기에 기대값을 구하면요. 평균값 확률분포의 무게 중심이 계산이 되고

분산은 얼마나 멀리 떨어져 있는지를 구할 수가 있습니다. 그리고 대표적인

분포 중에 가장 손쉽게 만날 수 있는 분포 세 가지가 있어요. 이양 분포

그다음에 연속 확률 분포의 대표적인 정규 분포 그리고 정규 분포를

표준화한 표준 정규 분포가 있는데요. 이행 분포는요. n번의 독립적

시행에서 각 시행의 확률 p를 가질 때 이산 확률 분포입니다.

자, 주사이를 60번 던져서

1이 나올 확률은 1/이에요. 그리고 60번 던졌을 때 몇 번 나올

거냐라고 평균을 구하면요. n *잖아요. 평균은 60 * 16/

해서 열번. 즉 주사이 60번 덩지면요. 1은 보통 번이 나올

거야라고 얘기를 하는 겁니다. 그리고 분산은요.

NP * 1 - p예요. 60 * 1 * 5 5를 하면 이게 분산이 되죠.

자, 고등학교 때 다 한 겁니다. 여러분들 다 한 거지만 까먹으실 수도

있고 아니면 고등학교 때 수학을 소리 하셨을 수도 있으니 다시 한번 설명을

드립니다. 그다음에 정규 분포는요. 자연

현상이나 통계 데이터에서 자주 나타난다. 앞에서 정규 분포

설명했습니다. 자, 이렇게 생긴게 정규 분포죠.

평균 근처에 가장 많이 몰려 있습니다. 얘는

평균을 알고요. 분산을 알면 어느 정도 퍼져 있는지를

알면은 그림을 그릴 수가 있어요. 그래서 우리가 이렇게 보통 표현을

합니다. 자, 얘 수학적인 수식은 엄청 복잡해요. 수학적인 수식은 엄청

복잡하지만 우리는 그 수학적인 수식에는 관심이

없습니다. 평균하고 분산만 알면 돼요. 그래서 자, n은 노멀

디스트리션의 n이고요. 평균과 분산을 적어 주면 얘가 어떤 정규 분포인지

우리가 파악을 할 수가 있습니다. 자, A학교에서

90점 만든 사람과이 학교에서

100점 맞은 사람 중에 누가 잘했어요라고 물어보면은 애매합니다.

왜냐면 A학교의 시험 성적에 대한 평균과 분산이 다를 거고요.

B학교에서의 평균과 분산이 다를 거예요. 시험 문제를 더 어렵게 냈을

수도 있죠. A학교에서 그러니까 누가 잘했다라고 알 수가 없으니까 어떻게

하냐면요. 둘을 비교하기 위해서 표준화를 보통시킵니다.

평균이 0이고요. 표준 편차가 1로요. 바꿔 줘요.

어떻게? 이런 식으로 어떤 값에다가 평균을 빼고 이것을

표준 편차로 나눠 주면요. 평균이 0이고 표준 편차가 1. 표준 편차가

1이면 분산도 1이죠. 이러한 특별한 분포로 만들어 주는게 바로 표준 정규

분포가 됩니다. 0 1이죠. 자, 이런 표준 정규

분포까지 알아두시면 될 거 같아요. 자, 이제 통계적인 분석을 해 보도록

하겠습니다. 기초 통계량들에 대해서 볼게요. 중심 경향성 측면요. 평균,

중앙값, 채빈값 이런 것들이 있고요. 읽어 보시면 되고 분산 정도 얼마나

퍼져 있는지 보면요. 범위 최대값을 뺍니다. 근데 이상치가 있으면은

최댓값이나 최소값이 될 거기 때문에 뺐을 때 민감하게 반응하겠죠. 자,

그러기 때문에 분상과 표준 편차를 활용해서 이상체에 민감하지 않게

평균가 얼마나 떨어져 있는지를 확인을 합니다. 분산에 제곱권을 취하면 표준

폐차가 되고요. 혹은 앞에서 배운 박스 플롯의 사보니스를 활용해서도

분산 정도를 측정할 수 있고 변동 계수를 통해 변동 계수는요 표준

편차에서 평균으로 나눠 줍니다. 그래서 다른 변수가 상대적 비교에

유용하도록 하는 것도 있어요. 그리고 관계 측면에서 보면요. 공분산 붙어

보도록 하겠습니다. 공분산은 두 변수들이 얼마나 상관이 있는지를 보는

거예요. 자, 1과목에서 전후 양상 기억나세요? 전후 양상

여기서 상이 뭐예요? 상관계였죠? 상관계.

변수들 간의 상관 관계가 중요합니다. 그래서 변수들 간의 상관 관계를 볼

건데 공문산이 0이면요. 전혀 상관이 없어요. 근데 공분산이 0보다 크면

양의 상관 관계. 공분산이 0보다 작으면 음의 상관 관계다라는 것까지는

볼 수가 있는데 자 공분산의 특징이 뭐냐면요. 마이너스 무한대에서 플러스

무한대까지 최대 최소값이 없어요. 그래서

400이란 값이 나왔어요. 공부상값을 계산해서 400이라는 값이 나왔는데

야이 400이 정말 상관각기가 엄청 높은 거야라고 하기가

강력 판단 불가하다라는 거예요. 애매하다라는 거예요. 그래서

상관계수라는 것을 통해서 표준화해서 -1에서

1값으로 표현을 합니다. 그 상관계수가 1이면요. 완전 양의 상관

관계고요. 상관계수가 -1이면 완전 음의 상관 관계구나라는 것까지

우리가 확인을 할 수가 있는 겁니다. 자, 그리고 정말 중요한 건데요. 두

변수가 독립이면요. 공분산은 0이에요. 하지만 공분산이 0이라고

해서 두 변수가 독립이라고 할 수는 없습니다.

공문산이나 상관계수는요. 선형 관계만 보는 거예요. 선형 관계. 선형

관계만 봅니다. 그래서

두 변수가 이렇게 2차 형태를 그려요. 만약에 관계를

2차 형태를 그리면은 얘는 독립이라고 할 순 없죠. 왜? 2차 함수의

관계를 가지고 있어요. 하지만 얘는 공분산을 계산하며 혹은 상관계수를

계산하면 0이 나옵니다.

그러니까 공분산이 0이라고 독립이라고 할 수는 없어요. 하지만 두 변수가

독립이면 공분산은 0입니다. 자, 이런 관계들 그리고 기초 통계량에

대한 내용들 시험 문제에 정말 많이 나오고요. 시험 문제가 좀

어려워지면은 공분산이나 상관계수 계산하는 문제 출제됩니다. 계산하는

문제들, 기출 문제 다 있어요. 저희 유튜브에서도 제가 기출 문제도 올려

놓은 것 중에 있을 겁니다. 확인해 보세요.

자, 그다음 첨도와 외도에 대해서 얘기를 해 볼게요.

첨도는요. 자료가 얼마나 뾰족한지를 나타냅니다. 그 첨도가 3이면

정규분포라고 보는데 3이라는게 너무 애매을 빼서 0을 기준으로도 정규분포

형태를 판단을 해요. 그래서 얘는 문제에 따라 보시면 되고 어쨌든

첨도가 0이면 정교분포고 첨도가 0보다 크거나 첨도가 0보다

작으면은 뾰족하거나 아니면은 눌려 있거나는 정도로 판단을 하시면

됩니다. 그다음에 외도는요. 자료가 얼마나 비대칭되어 있는지를 판단을

합니다. 왼쪽으로 뚫려 있으면요. 최빈값은 가장 높은 데가 최빈값이죠.

그다음 중앙값은 가운데고 평균은 다 더해서 개수로 나누는 거기 때문에

꼬리 쪽이 이상치가 있을 확률이 높아서 이상치가 있는 꼬리 쪽을

따라갑니다. 그래서 평균값이 오른쪽에 있겠죠. 자, 왼쪽으로 쏠려

있으면요. 외도가 0보다 크다라고 얘기를

하고요. 이때는 최값, 중학값, 평균값 순으로 순서가 정해집니다.

그리고 외도가 0이면요. 정확한 대칭 형태가 되고요. 외도가 0보다

작으면은 평균값 다음, 중학 다음에 최값이

됩니다. 자,이 관계 정말 중요합니다. 정말 중요해요.

자, 시험 문제에서 정말 많이 등장하는 것 중에 하나가이 선머리

함수를 해석하는 문제가 정말 많이 출제가 됩니다.

자, 변수를 주고 선머리 함수를 딱 하고 나면요. 얘가 r를 툭

튀어나와요.이 튀어난 결과를 보고 우리가 해석을 할 줄 알면 돼요.

자, 에이즈는 민, 미미디언든 이런 값들이 존재해요. 그러니까 얘는 아,

수 변수구나라는 것을 알 수가 있어요. 그리고 자 얘가 25% 지점

얘가 75% 지점이죠. 그래서 이런 값들도 다 파악을 할 수가 있고.

자, 미디언 값보다 민값이 더 커요. 평균이 중학값보다 큽니다. 어디예요?

여기죠. 그렇죠? 평균이 중학값보다 커요. 그러니까 아, 얘는 외도가

0보다 크구나라고 해석이 가능하죠. 심마적으로는 여기까지도 해석을 할 줄

알아야 되고. 결측은 NA나 널이라고 했습니다. 그래서 결측치 개수는 아

86개나 있네라고 확인이 가능하죠. 자 그다음 범주형 변수면요. 이런

식으로 집단의 빈도수가 튀어납니다. 0인 거

몇 개? 1인 거 몇 개? 그래서 얘는 그러면 범죄 변수구나라고 확인이

가능하고 얘는 범주가 두 개죠. 지금 검주가 세 개거나네 개면은 더 많아질

거예요. 자, 위에까지는 기술 통계에 대해서

얘기를 한 거예요. 기술 통계에 대해서 얘기를 했고 이번에는 추론

통계에 대해서 얘기를 해 보도록 하겠습니다. 추론 통계라 하면요.

모집단이 있습니다. 즉 내가 파악하고 싶은 집단. 예를 들면

대한민국 전체의 남성의 키. 대한민국 전체. 근데 대한민국 전체 남성의

키를 조사하기 위해서 대한민국 전체 남성을 다 조사할 순 없어요.

그러니까 일부 표본을 뽑아요. 표본을

뽑습니다. 자,이 표본을 가지고 다시 모집단을

예측을 해야 돼요. 추정을 하거나요. 다설 검정을 해야

됩니다. 이게 바로 출론 통계예요. 자, 그럼

우리가 배워야 될 건 뭐예요? 표본을 막 추출하면 안 되겠죠? 표본을 잘

추출하는 방법에 대해서도 배워야 될 거고 추정하는 방법에 대해서도 배워야

될 겁니다. 혹은 가설 검정하는 방법에 대해서도 배워야 될 거예요.

그런데 정확하게 추정을 할 수가 없기 때문에 확률적으로 예측을 해야

됩니다. 그래서 확률 분포에 대해서도 공부를

해야 돼요. 어떤 분포를 가지고 있는지.

자,이네 가지에 대해서 출론통계에 대해서는 공부를 해야 됩니다. 자,

그래서 표본 추출 방법에 대해서 볼게요. 랜덤 추출법은요. 무작기로

표본을 추출합니다. 그리고 계통 추출법은 이렇게

순서가 있으면요. 번호를 매겨요. 번호를 매겨서

1번 뽑았잖아요. 그러면은 건느서 3번 뽑고 그다음에 5번 뽑고 7번

뽑고 이런 식으로 간격으로 추출합니다. 그다음에 집 추출과 층

추출이 있는데요.이 둘 정말 구분할 줄 알아야 돼요. 정말 중요합니다.

자, 집락 추출부터 보면요. 내가 A 아파트랑 B 아파트랑 C 아파트에

있는 사람들을 철문 조사를 해야 돼요. 근데 내가

모든 아파트 세 군데를 다 돌아서 조사하는 건 너무 힘드니까 어떻게

하냐면요. A 짐락, B락, C락 중에서 A 아파트만 갈 거예요.

자, 이것의 근거는 뭘까요? A만 조사를 해도 B 아파트,

C파트가 성향이 비슷할 거다라는 전제가 깔려 있어야 돼요. 그리고이

A 아파트 안에는 정말 다양한 사람들이 존재를 해서 나한테 많은

데이터들을 줘야 돼요. 다양한 데이터들을 줘야 됩니다. 즉 군집 내

A 아파트 안에는 이질적이어야 되고요. 다양한 사람들이 있어야 되고

군집 간에는 동질적이어야 됩니다.

그래야 한 아파트만 가서 설문 조사를 해도 설명이 가능해요. 이게 짐

추출법이에요. 자, 그럼 층 추출법은 뭐냐면요.

내가 어느 학교에 갔어요? 1학년, 2학년,

3학년. 자, 극단적으로 1학년에 100명

있고요. 2학년에 200명이 있고 3학년에 300명이 있어요.

학생들이. 근데 나는 12명을 표본을 뽑아서

조사를 하고 싶어요. 왜냐면 여기 있는 600명 다 뽑아서 내가 설문

조사를 하기 너무 힘드니까 표본은 12명만 뽑고 싶어요. 근데 운이

나쁘게도 1학년에서만 12명을 뽑았어요.

랜덤하게 뽑았더니 이러면 좋은 샘플이 아니죠. 얘는 좋은 표본이 아니에요.

그러니까 어떻게 하냐면요. 층을 싹 그어요. 층을 그어서

1학년에서만 몇 명 뽑고 2학년에서만 몇 명 뽑고

3학년에서만 몇 명 뽑아요. 이렇게 되면요. 군집 내는요 같은

학력길이죠. 여기는 동질적이에요. 그렇죠?

군집내는 동질적이에요. 그런데가 학력길이 어때요? 군집가는

이질적이죠. 즉 층내는 동질적인데 층 가는 이질적이요. 이게 층화

출출법이요. 그리고 뽑을 때 이렇게 층을 그어서 뽑는 건 좋은데 웬만하면

1대 2대 3의 비율로 뽑으면 더 좋겠죠.

이것이 비례 층화 추출법입니다. 자, 그래서 집낙 추출법과 층화

추출법이 사례를 통해 반드시 기억을 해 두셔야 돼요. 그리고 보건 추출과

비보원 추출이 있는데요. 복원 추출은 말 그대로 추출된 데이터를 다시

포함해서 표본을 추출하는 거고 비복건 축출은 추출 데이터는 제외하고 표본을

추출하는 방법입니다. 자, 그다음 확률 분포에 대해서

공부를 해 보도록 할게요. 자, 확률 분포는 확률 변수들이 가지는

분포입니다. 그래서 이산확률 분포와 연속 확률

분포로 나눌 수가 있어요. 이산확률 분포에는 이렇게 다양한 분포들이

있고요. 연속 확률 분포에는 이렇게 다양한 분포들이 있는데 각 분포들이

어떤 특징을 갖고 있구나라는 것은 여러분들이 보면서 확인을 하셔야

됩니다. 그리고 너무 세부적인 것까지는 등장하지 않기 때문에 기출로

여러분들이 확인을 하시고요. 앞에서 이항 분포에 대해서는 우리가 얘기를

했어요. n번 던져서 k번 성공한 확률의 분포 20번 던져서 앞면이

나오는 횟수는요 번 나오겠죠. 왜? 20 * 12 해서 열 번 나올

거예요. 자, 그 외에도 다양한 분포들이 있는데

일단은 베르노이 분포가 있습니다. 베르노이 분포는 결과가 두 가지 중

한 가지로 나타내요. 시험의 합격, 불합격, 동전 던지기. 이것을

여러 번하면요. 얘가 바로 이양 분포가 되는 거고요.

얘를 비복건 추출로

하게 되면 초기화 분포가 됩니다. 그리고

시행의 수를요. 무한히 시행을 하게 되면요. 얘는 포화성 분포가 돼요.

자,이 관계 정도는 정리를 해 두시는게 좋을 것 같습니다. 그래서

문제에서 뭐 초기화 분포는 보건 추출한다 이렇게 나오면요. 아니죠.

초기화 분포는 비보원 추출이구나라는 식으로 선택을 하시면 되고요. 그

외에 뭐 사례랑 매칭하고 이런 것들은 여러분들이 어쩔 수 없이 학습을 조금

더 하셔야 됩니다. 자, 그리고 기아 분포를

일반화시키면요. 음양 분포가 됩니다. 자,요

정도까지는 제가 정리를 해 드리도록 할게요. 자, 그다음 연속 확률

분포는 값을 셀 수 없는 분포입니다. 확률 밀도 함수로 표현돼요. 앞에서

얘기한 정규 분포 이런 것들은 이런 식으로 할 수 없는 분포죠.

자, 여기서 티본포라는 애가 있습니다. 티본포는요. 전규분포가

유사하긴 한데 꼬리 부분이 더 두껍고 길어요.

이게 정규 분포고요. 이게 티분포입니다.

불간의 관계를 알아두시면 되고 분포는 T검정에서 활용을 할 때 많이 사용을

해요. 그다음에 카이제곱 분포는 카이제곱 검정에서 활용을 하고요. F

분포는 F 검정에서 활용을 합니다. 시험 문제가 쉽게 나오면요. 다음 중

이산확률 분포가 아닌 것은 이렇게 물어볼 수가 있어요. 그러면

누포항하라고 외워둡니다. 누포항하라고 외워둬서 누 항 하 항 하 항 포

자이 두포 항하가 들어가지 않는 글씨면요 연속 확률 분포예요. 그래서

시험 문제가 쉬우면 이렇게 맞추시면 되고 시험 문제가 좀 어려워져서

각각의 분포에 대해서 특징을 물어볼 수 있습니다. 그때는 어쩔 수 없이

그 특징들과 사례들까지 매칭을 시켜서 공부를 해 두셔야 됩니다.

그다음 확률 분포에 대해서 기대값을 구하는 것에 대해서 얘기를 해

볼게요. 이산적 확률 변수와 연속적 확률

변수의 기대값이 좀 다릅니다. 이산적 확률 변수는 셀 수 있기 때문에

다 더해 줘요. 하지만 연속점 확률 변수는 셀 수 없기 때문에 무한히

더해 줘야 됩니다. 그래서 적분을 사용을 하고요. 자, 1번에 동전을

세 개 던지는 확률 실험을 할 때 확률 변수 x의 기대값은이라고

했습니다. 볼게요. 앞면이 하나도 안 나오는 경우

어때요? DDD 그 여덟 개 중에 하나니까 18이고요. 자, 앞면이

하나 나오면요. 앞뒤, 뒤압뒤, d디압 해서 세 개가 나오죠. 그래서

38이 됩니다. 그리고 앞면이 두 개 나오면요. 앞뒤 앞뒤 앞뒤압 앞 해서

38이 되고요. 다 앞면이 나오면요. 앞압 앞 해서

1/이 됩니다. 이것을 계산을 하면 돼요. 어떻게요?

0 * 1/ + 1 * 38 2 * 38 3 * 1/ 무게 중심을 계산을

하는 겁니다. 무게 중심을 계산을 하면 값은 뭐예요? 1.5가

나오겠죠? 자, 세 개 덩칠 때 안면 개수 기대값 뭐예요? 절반이 1.5개

나오겠죠? 그렇죠? 이것을 수학적으로 표현을 한 겁니다. 자, 그다음

1에서 12의 숫자가 표시된 원형식에서 확률 변수 x의

기대값은이라고 했습니다. 자,요 시계

자, 이렇게 해서 있는 시계 기대값은이라고 물어본 거예요.

그냥 상식적으로 생각을 해 볼까요? 어때요?

6이 되지 않을까요? 딱 가운데 값이 6이니까 6이 나올 거 같아요.

이것을 수학적으로 풀어 보는 겁니다. 자, 0부터 12까지가

있는데이 면적의 합은 1이 돼야 되죠. 왜?

전체 확률은 1이어야 되니까. 확률은 무조건 1이 돼야 돼요. 전체 확률은

그래서 12이 될 거고요. 얘를 적분을 하고서 계산을 하면은 어때요?

6이 나와요. 이것은 적분을 하실 줄 아는 분은 적분을 하면 되는 거고

적분을 모른다라고 하시면은 가장 좋은 건 사실 데이터 분석가가

되기 위해서는 적분 당연히 알아야 됩니다. 통계 당연히 알아야 되는

거고 그래서 통계를 하는 거고요. 우리가 그런데 지금 일단 ADSP

시험 합격의 목표다 하시면요. 적분 공부할 시간에는 이거 시험 문제 자주

등장하진 않거든요. 여태까지 기출해서 적분으로 푸는 문제는 한 번밖에

등장하지 않았어요. 그러니까 차라리 다른데 집중을 하시고 조금 더

직관적으로 보면요. 무게 중심이라 그랬죠. 자, 이렇게 됐을 때 어디가

가장 무게를 가운데로 만드는데요? 가운데죠. 6. 그래서 답은

6이야.라고 라고 해도 괜찮습니다. 물론 수식이 좀 더 복잡해지면은

그거는 적분을 해야겠지만요. 자, 그다음은 중심극한 정리입니다.

앞에도 어려웠는데 여기부터 슬슬 많은 분들이 포기를 하세요. 요약강이기

때문에 제가 엄청 세부적인 수학적인 내용을 다루지는 못하지만 어느

정도까지는 설명을 드려 보도록 하겠습니다. 우리가 수집한 데이터의

분포가 이런 식으로 있다라고 가정을 해

볼게요. 여기가 평균이고요. 군산이 이렇게 되어 있는 공포가

있습니다. 자, 근데이 데이터들을 가지고 내가

개인의 데이터를 뽑아요. 뽑아서 평균을 냅니다. N계 데이터에 평균을

내요. 그다음에 또 평균을 냅니다. 다시 또 N번 다시 뽑아요. 그다음에

또 N번 다시 뽑아요. 여러 번 반복해서

평균을 뽑아요. 그러면 n개의 평균이 나오겠죠?

각각의 평균은 다를 겁니다. 그런데 대충 얘의 분포를 그려 봤더니

기가 막히게 정규분포가 되더라. 무슨 정규분포? 평균이

모집단과 똑같고 분산은

n분의 시그마제곱 형태로 그려지는 정규 분포가 되더라라는 겁니다.

그래서요 n의 크기가 즉 표본의 크기가 충분히 크면 보통 30개

이상으로 얘기를 하거든요. 이렇게 되면은 모집단의 분포가 어떻게 생겼든

상관없이 표본의 평균 분포이 표본들의 평균의 분포는

정규 분포를 이루더라라는 얘기예요. 자, 그러니까 우리의 출론 통계의

목적은 뭐였어요? 모집단으로부터 표본을 뽑아서이

표본으로 모집단을 예측하는 거였죠.

근데 모집단의 분포가 어떤 분포여든 상관이 없이 중심 극한의 정리에

의하면은 여러 개를 뽑으면은 정규 분포가 된대요. 그러니까 아 우리는

정규 분포만 제대로 알고 있어도 정규분포만 제대로 알아도 모집단에

예측할 수 있겠구나라는게 바로 중심 극한 정리입니다. 정말 중요해요.

정말 중요합니다. 자, 그러면요.이 표변 평균의 분포에

대해서 한번 볼까요? 기대값은요 나오겠죠? 그렇죠? 모집단과 동일한

뮤가 나올 겁니다. 자, 얘를 뮤라고 불러요. 뮤. 뮤라고 씁니다.

그다음에 분사는 n분의 시그마제곱으로 되게 될 거고요.

자, 얘를 루트를 씌우면은 이게 표준 패차가 되죠. 그래서 루트n분의

시그마가 되고 이것을 표준차라고도 부릅니다. 얘가 사실은 가장 좋은

거는 n개를 뽑아서 평균을 냈을 때 여기도 뮤가 나오고요. 여기도 뮤가

나오고 여기도 뮤가 나오면은 가장 좋습니다. 그러면은 가장 좋은

이상적인 형태가 되지만 그러진 않겠죠. 그래도 평균 근처에

속한 값이 나오겠지만 무조건 뮤가 나오진 않을 거예요. 그 5차가 어느

정도 되냐가 바로이 분산이죠. 그래서이 분산을 표준화시킨게 바로

표준 편차가 되고 그게 바로 5차가 돼서 표준 5차가 됩니다.

그런데 앞에서 얘기한 것처럼 평균이 0이고 분산이 1인 표준화된

형태로 우리는 항상 활용을 하고 싶어요. 표준화된 형태로 활용하려면요

어떻게 돼요? 값에다가 평균을 빼주고 표준 편차로

나눠 주면 된다. 그런데 표준 편차가 지금 뭐예요? 표준 5차니까 이렇게

되면 표준화를 시킬 수 있겠구나라는 거죠.

그래서 이런 표분 평균의 표분 분포까지 확인이 가능합니다.

중심극한 정리야. 표본 분포 확인하시고요. 이해가 안 되시면

외워서라도 들어가셔야 돼요. 정말 중요한 부분입니다. 중심 극한 정리.

특히 수정에 대해서 공부를 할 거예요.

앞에서 말씀드린 것처럼 다시 보면요. 모집단을

어때요? 표본을 뽑아서 표본 집단을 구한 다음에이 표본 집단으로 보집단을

예측할 거예요. 자, 여기서 표본 집단에

평균을 구해요.이 평균을 가지고 아, 모집단의 평균은

이거야라고 알고 싶은 거죠. 얘가 추정량이 되는 거고요.

얘가 모수가 됩니다. 모집단의 평균 혹은 모집단의 분산

이런 것을 모수라고 부르고 표본 집단의 평균, 표본 집단의 분산 이런

것들을 추정량이라고 불러요. 그래서 추정량으로부터 모수를 추정을 할

건데요. 대한민국 남성의 평균 키를 구하고 싶어요. 구하고 싶지만 다

구할 순 없으니 야, 표본에서 평균 키가 172.

나왔어요. 그러니까 대한민국 평균의 키는

172.42cm야라고 얘기를 할 수가 있는 겁니다. 자,

하나의 값으로 추정을 하는 거예요. 하나의 값으로 추정을 합니다. 하나의

값. 이것이 점 추정이에요. 측정은 값으로 추정합니다. 자,이

추정량의 조건은네 가지가 있어요. 불효일충. 아, 그렇죠. 따서

외우시고요. 불류 1충 불편성 기대값이 실제 모수와 같아야 돼요.

자, 여기서 여러개 평균을 뽑고 나서이 평균을 기대값을 구했을 때

모집단과 같아야 됩니다. 이게 불편성이고요. 효율성은 분산이 작아야

돼요. 분산이 크면요. 5차가 큰 거예요. 5차가 큰 거기

때문에 분산이 작을수록 좋습니다. 그리고 표본의 크기가 증가할수록

출력량의 모수에 가까워져요. 표본의

양이 크면요. 즉이 n의 값이 크면요. 어떻게 돼요? 군사는

작아지죠. 그렇죠? 분모가 커지니까. 그 얘기는

5차가 적다하는 거예요. 즉 모집단의 정보를 많이 반영하면은 할수록

모집단의 정보를 많이 반영하는 거는 표본의 개수를 크게 하면 되겠죠.

그러면 당연히 5차가 작아질 거고 이러면 모수에 가까워집니다.

그리고 추정량이 모집단의 정보를 최대한 반영을 해야겠죠.

그래서 대표적인 추정량을 보면요. 표본의

평균을 구해요. 대한민국 전체 남성의 평균 키를 구할 수 없으니 표본을

뽑아서 그 표본의 평균을 구하면은 얘가 모집단의 평균이야라고

얘기를 할 수가 있어요. 왜냐면은이네 가지가 만족을 합니다. 자, 혹은

분산도 구해야 될 건데요. 분산을 구할 때는 n - 1로 나눠 줍니다.

자, 분산 구하는 공식은 보통 평균에서 값을 뺀 다음에 제곱하고

n으로 나눠 줘야 되는데 표본 분사는 n - 1로 나눠줘. 왜 -1로 나눠

주느냐라고 생각을 해 보면요. 아, 이런 모집단이 있어요.

여기서 일부 표본을 뽑아서 가져갑니다. 표본을 뽑아서요.

표본 집단을 두는데 표본에 있는

분산으로 표본 집단의 분산으로 보집단의 분산을 추정하고 싶은

거예요. 자, 그런데 지금 보면 어때요?

모집단의 분사는 어느 정도 퍼져 있냐인데이 정도 퍼져

있어요. 근데 표본 집단의 분사는 모집단보다

줄어들 수밖에 없습니다. 구조상 그래요. 모집단에 있는 애들 중에

일부로 뽑아 가져다 쓰기 때문에 표본 집단은 모집단보다 분산이 작을 수밖에

없어요. 그러니까 보정을 해 줘야겠죠. 그래서이를

빼줌으로써 모집단의 분상과 비슷하게 맞춰 주기

위해서 고정을 해 주는 겁니다. 즉 분모가 작아지니까 표본 분산은

커지겠죠. 그렇죠? 분모의 1을 빼서 작아지니까 표분 분산은 커질 거고

그러면 모집단의 분산과 비슷해질 겁니다. 이게 바로 표본 분산에서 n

- 1을 하는 이유예요. 조금 더 들어가면은 자유도라는 개념도 등장을

합니다. 자유도 측면에서도 설명이 가능한데 자유도는 제가 뒤에서 다시

얘기를 할 거고 지금은 아 이런 식으로 n - 1로 나눈구나라는

것으로 받아들이면 될 거 같아요. 대한민국 평균의 키는 172.4이야.

라고 표본을 가지고 얘기를 하는 것도 좋지만 더 좋은 건 뭘까요?

172.4 -5에서

172.42 + 5 정도에 대한민국 평균의 키가

있어.라고 얘기하는게 조금 더 정확할 겁니다.

왜냐하면 전체 집단을 내가 뽑지 않았기 때문에 5차가 있을 수밖에

없죠. 그래서 이런 식으로 추정하는게 조금 더 설득력이 있어요. 이것을

우리가 구간 추정이라고 하는 겁니다. 자, 점추정으로 나온 값을 가지고

5차를 줘요. -5에서 +5 사이에 5차를 줘서 추정을 합니다. 그럼

구간이 되죠. 이게 바로 구간 추정이 되는 거고요. 자, 그러면은이 -5와

+5를 어떻게 결정할 거냐라는 것을 이제 수학적으로 좀 생각을 해

봐야 되는데 내가 구한 평균 172.4이

보다 -5만큼 작아요. 혹은 +5만큼

커요.라는 식으로 설정이 가능하겠죠. 자, 그런데 내가 추정을 하는게

이만큼 추정을 하는 것보다 더 넓게 추정을 하면요. 구간이 더 넓어져요.

구간이 넓어지면은 어때요? 실내도가 올라가겠죠?

자, 예를 들어서 우리나라의 평균 키가 0에서 230cm 사이에 있어.

이러면은 100% 확률로 맞죠? 100% 확률로 맞는데 그냥 우리는

좁히면은 조금 더 있어 보이잖아요. 그래서 좁혀야 됩니다. 그래서 좁힌게

167.42cm에서 177.42cm야라고 4cm야라고

얘기를 하는 건데요. 그러니까 실내 수준이 95%

수준에서는 1.96 정도의 값을 사용을 하는 거고 99%의 실내

수준에서는 2.576의 값을 사용을 하는 겁니다. 즉 값이 클수록 당연히

실내 수준은 올라가요. 대신에 범위도 더 넓어지게 추정을 할

수가 있겠죠. 구간이 넓어지면은 실내 수준도 당연히 올라갈 겁니다. 믿을

만하죠.이 안에 있을 확률은 당연히 높을 거 아니에요. 구간이 넓으면

넓을수록. 자, 그리고이

구간을 벗어나는이 부분이

신뢰하지 못할 구간이죠. 신뢰하지 못할 구간이에요. 자, 그럼이 안에는

95%가 있어요. 혹은요 아래로 치면은 99%가 될 거 같은데.

자, 95%면요.요 바깥은 어때요? 2.5%. 그리고 이쪽도 2.5%

해야 양측 합쳐서 5%가 되겠죠? 그러니까 2로 나눠 주는 겁니다. 즉

여기 값이 -z 2분의알파가 되는 거고 여기가 +z 2분의알파가 되는

거예요. 그래서 2로 나눠 주는 거고요.

그리고 또 알 수 있는게 뭐예요? 내가 표본의 개수를 많이 뽑으면 많이

뽑을수록 당연히 구간이 줄어들 거 같아요. 그렇죠? 그리고 불확실성이

클수록 즉 표준 편차가 클수록 구간이 늘어날 것 같아요. 이런 부분까지

생각이 할 수가 있는 겁니다. 자, 그래서 다시 정리를 할게요.

모집단에서 표본을 뽑아서 표변 평균을 구했어요.

얘로 모집단을 예측을 하려고 해요. 예측을 하려고 했는데 이렇게 점으로

예측하는 것보다는 아,이 구간에 있어. 사실요

모집단의 평균은이 구간 안에 있어라고 예측하는게 좋고요. 그리고 실내

수준이 커지면 커질수록 당연히 값은 커질 겁니다.이 값은 이미 머리

똑똑하신 분들이 다 구해 놨어요. 95%에는 1.96이고 99%는

2.576이야. 그리고 구간을 예측을 하면은이

구간 바깥에이 신뢰하지 못하는이 두 군데 구간의 합이 5% 혹은 95%면

5%고요. 99%면 1%가 돼야겠죠. 그래서 양옆을 둘 다 확인을 해야

되기 때문에 2로 나눠져 있는 겁니다.

자, 그런데 모집단의 분산을 아는 경우는 이렇게 구하면 되지만 모집단의

분산을 모른다라고 생각을 해 볼게요.요 모집단의 분산을 알고

있으면은 내가 알고 있으면은 이렇게 구하면 돼요. 근데 모집단의 분산을

모르면요. 분포를 활용을 해야 됩니다. 위에서는

정규 분포를 활용을 했던 거예요. 정규 분포를 활용을 했던 건데 모르기

때문에 정보가 더 적습니다. 그래서 분포를 활용을 해서 계산을 해야

돼요. 그러면포를 활용을 하면 자유도 아까 얘기했죠. 자유도는 전체

데이터에서 하나를 빼 준다라는 형태가 됩니다. n - 1이 되고요. 실내

구간을 추정을 할 때는 집단에 분산을 모르니까이 표본에

단의 표준 편차를 구해서 계산을 해 주면 되겠죠.

자, 그다음은 가설 검정에 대해서 얘기를 해 보도록 하겠습니다.

위에서는 추정을 해서 예측을 하는 거였다면 이번에는 오집당인의 특성에

대한 주장을 가설로 세우고 가설의 채택 여부를 판정하는 가설 검정을 할

겁니다. 가설 검정은 귀가설과 대립 가설 이고요.이 귀가은 일반적으로

알려진 가설이고요. 대립 가설은 내가 알려져 있는 것을 반박하고 싶은

거예요. 증명하고자 하는게 바로 대리가설입니다. 자, 그리고 유의

수준은 일종 오류를 범할 허용 한계라고 부르고요. 유의 확률은

기무과서를 지지하는 정도를 나타내는 확률이다라고 했는데 자, 이렇게

얘기하면은 당연히 이해가 잘 안 될 테니 사례를 하나 들어 보도록

하겠습니다. 내가 너무 배가 고파서 삼겹살집에 갔어요. 삼겹살집에 갔더니

식당에서 기무가설로 얘기를 합니다. 당에서 아 우리 삼겹살은 평균적으로

매번 뭐 드릴 때마다 살짝 5차는 있겠지만 평균적으로 150g을

드려요라고 얘기를 했어요. 일반적으로 생각하는 가설입니다. 기무

가설이에요. 그래서 내가 받아서 먹어 봤어요.

먹어 봤는데 어 뭔가 이상해요. 어 삼겹살은 150g이 아닌 거 같아요.

1인분에 그래서 반박을 하고 싶고 증명을 하고

싶습니다. 이게 대립 가설이 되는 거예요.

그러면 이제 나는 가설을 검정을 해야 될 텐데 식당에 있는 모든 손님들을

다 데려다가 야 삼겹살 줘요. 그리고서 중량 다 재고 이럴 수가

없으니 특정 표본 몇 명의 고객들만 데려다가 삼겹살의 무게를 재봅니다.

그래서 계산을 해 봤어요. 계산을 해 봤더니

일단은 5%의 확률로 유의 수준을 줬어요. 설정을 한

거예요. 일반적으로 0.0으로 설정을 한 겁니다. 근데 내가 이제 계산을

해 보니까 0.03이란 03이란 값이 나왔어요.

즉이 말은 무슨 말인가 하냐면요. 어 내가 열심히 조사를 했더니 3%의

확률로 내 말하는게

뭐예요? 내가 주장하는게 삼겹살이 150g이 아니야라고 주장한

내 말이 틀린 확률이 3% 돼요. 그런데이 알파 유의 수준은 뭐냐면요.

아 5%까지 허용해 줄게라는 거예요. 자 그럼 이렇게 되는 거죠. 어,

나는 너 5%까지 틀리는 거 허용해 줄게. 근데 3%밖에 안 틀려.

그럼네 말이 맞구나. 즉 네가 얘기한 삼겹살은 150g이 아니야라는 대리

가설이 맞구나. 그러니까 그러면 기무가설 기각시켜.

야, 여기 삼겹살 1인분의 150g 아니야?라고 라고 얘기를 합니다.

이게 바로 기무가설이 기각이 되는 거예요. 혹은 제가 다시 조사를 해서

검정을 해 보니까 0.07이 나왔어요. P밸류가.

그래서 얘기를 하는 거죠. 어, 나 겹살은 150g 아니라고 생각해.

근데 내가 계산을 해 보니까 7%의 확률로 틀려. 야, 그래. 근데 나는

5%까지 허용해 주려고 그랬는데 7%나 틀리다고. 그럼네 말이

틀렸어. 식당 말이 맞아. 즉 기무 가서를 혜택을 합니다.

여기서 그럼 알파가 뭐냐? 내가 5%까지 허용을 하겠다라는 거죠.

귀무가설이 사실인데요. 귀무가설을 거짓이라고 잘못 판정할 오류. 이것을

일종오류 알파라고 부릅니다. 혹은 기무 가설이 거짓인데 기무가설이

사실이라고 판정될 확률은 이종오류 베타라고 부르고요. 알파와 베타 중에

우리는 알파에만 가서 검정되는 신경을 씁니다. 자이 표에서 내용 비어 놓고

어디가 1종 우류고 어디가 2종 우류야 이런 것도 물어보니까 반드시

확인을 해 두시고요. 그리고 지금 귀모가설 대립과의 가설 검정에 대한이

사례 얘기했습니다.이 이 사례 반드시 기억을 해 두세요. 알파와 P밸류와

간의 관계만 보면 되는 겁니다. 결국은.

자, 그리고 가끔 이렇게 위치로만 외우시는 분이 있어요. 1종류가

오른쪽 위, 2종류가 왼쪽 아래. 이렇게 외우시는 분들이 있는데 그렇게

외우시면 안 돼요. 실제 시험에서 검정 결과랑 실제랑 가로축, 세로축

반대로 출제될 수 있습니다. 위치로 배우셔서 틀리시면 안 돼요.

자, 이렇게 가설 검정에 대해서 공부를 했으니까

실제 문제를 한번 풀어 보도록 하겠습니다.

가설 검정에 대한 알과를 해석하는 문제가 시험 문제 정말 자주 출제가

됐어요. 무조건 한 문제는 출제가 된다라고 볼 수가 있고요.

자, 우선은 귀가설과 대립과 설정을 해야겠죠. 차이가 없다 혹은

동일하다. 귀무설로 설정을 해요. 삼겹살 150g이다.

즉 삼겹살 150g과 동일하다. 삼겹살 150g과 차이가 없다.

귀무가설이에요. 그리고

같지 않다는 양측 검정이고요. 값이 크다 작다는 단측 검정입니다.

이런 정규분포에서 검정을 하는 거거든요. 사실 수학적으로

들어가면은. 근데 같지 않다는요. 왼쪽과 오른쪽 즉 크다와 작다 모두를

검정해야 됩니다. 그래서 양측 검이 되는 건데

값이 크다 혹은 값이 작다는요. 작은 부분만 검정을 하면 되고요.

혹은 큰 부분만 검정을 하면 돼요. 이때를 단측 검정 한쪽만

검정하잖아요. 단측 검정이라고 얘기를 합니다.

그리고 모집단이 하나인지 혹은 두 개의 모집단인지 판단할 수가 있어요.

삼겹살 150g. 삼겹살 하나죠. 1표본이에요. 근데 두 학교의 성적을

비교해요. 두 학교의 성적. 그러면 2표번이 됩니다. 그리고 P밸류 알파

관계 아까 얘기했습니다. 자, 보통은 일반적으로 0.05가 알파 유의

수준으로 주어져요. 자, 근데 내가 주장한게 계산을 해 보니까 3%

정도로 틀려. 그래. 근데 나는 5%까지 봐 주려고 했는데 네가

3%밖에 안 틀려. 그럼네 말네 말이 뭐예요? 주장하고자 하는 거

대립과설이죠. 대립과 맞아. 그리고 식당이 얘기한 귀모 가설은 틀려.

그러니까 귀모 가설 기각시켜. 혹은 0.07이 나왔으면요.

야 5%까지 봐 주려고 그랬는데 네가 7%나 틀린다고 그러면은네 말이

틀렸어. 식당말이 맞아. 기어가설 채택을 합니다.

그리고 문제에서 티검정이 나오면요. 단일 표본, 대응 표본, 독립

표본인지 확인을 할 수가 있어요. 단일표본은 모집단에 대한 평균 검정을

합니다. 앞에서 얘기한 삼겹살 하나의 무게

1인분의 무게 하나죠. 하나에 대한 평균에 대한 검정이요. 단일

표본이고요. 동일 모집단에 대한 평균 비교. 이건 대응 표본입니다.

약 먹기 전. 약 먹기 전. 수면 시간.

그리고 양 먹은 후에 수면 시간. 어때요? 동일 집단에 대해서 비교를

하는 거죠. 이게 바로 대응 표본이 되는 거고요. 독립 표본은 서로 다른

모집단에 대한 평균 비교를 합니다. 두 학교의 성적. A 학교와 B

학교의 성적을 비교하면요. A 학교와 B 학교는 다른 학교죠. 이때가 독립

표본이 됩니다.이 부분에 대해서 머릿속에 넣어 두시고 저랑 같이 알를

해석을 해 볼게요. 모집단이 특정 분포를 따른다라고 생각하고 가설

검정을 할 거예요. 그래서 이러한 R가 시험에 주어지고 해석하라는

문제가 보통 나옵니다. 그럼 뭐부터 확인하면 되냐면요. 아 일단은 실내

수준은 95%구나. 즉 유의 수준 알파는 0.05%까지는

봐 주겠구나라는 것을 보고요. 자, 그리고 T테스트라는 거 보니까

티검정이라는 것까지 알 수가 있을 것 같아요. 자, 여기 얼터네이티브

하이포테시스라고 되어 있거든요. 한국말로 번역하면 뭐예요? 대립

가설이죠. 자, 대립과은요. difference in is not

equ 0라고 되어 있습니다. 즉 a에서 b를 뺀 값이

not 0이 아니다라고 했어요. 즉 이건 뭐예요?이가

아니다. 같지 않다. 대립가설의 값이 같지 않다예요.

그럼 작은 건가? 큰 거 둘 다 검정해야 돼요. 양측 감정이고요.

그리고 두 학교의 성적은 동일하다가 귀무가설이고요. 지금 대립과은요.

동일하지 않다가 대립과 됐죠. 그리고 A학교와 B 두 개기 때문에

2표번이 되는 거고요. 자, 이제 P밸류 이거 볼게요. P밸류 보니까

0.515예요. 자, 5%까지 허용을 할 건데

55%나 내가 틀려요. 대립가설이 뭐예요?

성적은 동일하지 않다인데 네가 주장하는 동일하지 않다라는 거에 틀린

확률이 55%나 돼. 너 왜 이렇게 많이 틀려? 그러니까네 말은 틀렸어.

그러니까 기무가서를 채택을 할 거야. 즉 두 학교의 성적은 동일해라고

얘기를 하는 겁니다. 자, A학교의 성적은 평균이 61이고이 학교의

성적은 64라서 평균의 차이가 조금 있긴 하지만

통계적으로 봤을 때는 A학교와 B학교의 성적은 동일한 수준이야라고

얘기를 할 수가 있다라는 겁니다. 그리고 서로 다른 모집단에 대한 평균

비교기 때문에 공립표본 검정이 되죠. 자, 이렇게 해석을 하실 줄 알면

됩니다. 자, 독립표본 티검정 같은

경우에는요. 두 집단의 분산이 같다는 등분산 가정이 전제가 됩니다. 그런데

등분산을 가정하지 않으면요. 웰치의 티검정을 사용을 해요. 즉 올라가서

웰치의 티검정을 한 거예요. 웰치의 티검정. 우리가 해야 될 건 뭐예요,

이제? 제가 이렇게 알려 드렸으니까 단일

표본 검정 여러분들이 기출해서 한번 풀어 봐야 될 거고 대응 표본 검정도

한번 풀어 봐야겠죠. 그리고 독립표본 검정에서 제가 웰치의 티검정에 대해서

소개를 드렸으니 등분산이 가정된 티검정도 시험 문제에 분명히 출제가

됐었을 겁니다. 그것에 대해서도 여러분들이 공부를 해 보셔야겠죠.

기출 문제 풀다 보면은 어차피 다 비슷할 겁니다. 여러분들이이 P밸류만

잘 어떻게 해석을 할 줄 알냐? 그리고 대립과 기무 가설을 잘 파악을

할 줄 아냐?라는 것으로 갈리니깐요. 기출 여러 번 풀어 보시면서

익숙해지시면 돼요. 모집단이 피분포나 정규 분포를 그린다라는 가정이

있었지만 지금은 모집단에 대한 아무런 정보가 없어서요. 특정 부포를

따른다고 가정이 불가해요. 이럴 때에는 검정을 어떻게 할 거냐? 라는

것을 볼 때 모집단에 대한 정보가 없으니까

평균이나 표준 편차 분상 같은 걸로 검정을 할 수가 없어요. 그래서

순이나 차이로 검정을 합니다. 이게 비모소 검정이에요.

다양한 비모소 검정 방법들이 있습니다. 시험 문제가 어려워지면은

사실 각각의 검정의 내용도 물어보는데 비모수 검정의 종류를 물어보면 아,요

정도 있구나. 그리고 비모소 검증은 왜 하냐라고 물어보면은 아 모집단

정보 없어서 순위나 차이로해.이 이 정도까지만 알고 계셔도 어느 정도

문제는 다 푸실 수 있습니다. 회기 분석에 대해 이야기를 해

보겠습니다. 회기 분석은 독립 변수와 종속 변수 간의 관계를 나타내는

분석을 회기 분석이라고 합니다. 우리가 흔히 얘기하는 y는 wx +

바이어스 요런 형태가 바로 세기의 분석이 되는데요. 그때 x를 독립

변수라고 하고요. 그때 y를 종속 변수라고 합니다. x라는 원인으로

인해서 y라는 결과가 나타나게 되죠. 제가 유튜브를 처음 시작하면서

궁금해졌습니다. 내 유튜브의 수익은 과연 내가

구독자가 많아지면 많아질수록 얼마나 증가할까?라고 라고 생각을 해 보는

거예요. 그래서 제가 주변 유튜버들한테 물어봤더니

대충 데이터가 이런 식으로 찍혔다라고 가정을 해 보겠습니다.

그러면 내가이

데이터들을 대표하는 직선을 하나 그 수가 있겠죠.

자, 1번 직선을 구도 있고요.

2번 직선을 구울 수도 있고 3번 직선을 구울 수도 있을 겁니다.

자,이 중에 가장 내가 가지고 있는 데이터들을 잘 설명하는 직선은 어떤

직선이에요? 누가 봐도 1번이죠. 왜 1번이 될까요?

나머지 2번과 3번은 기존 내가 가지고 있는 데이터들과

차이가 커요. 즉 계산값과 예측값의 차이가 커집니다. 이것을 우리가 잔차

혹은 5차라고 불러요. 자, 여기 있는 여러 데이터 중에 관측값 하나만

알아볼게요.이 회기 직선으로부터 멀리 떨어져 있는이

간격을 우리가 5차라고 볼 수 있을 겁니다. 근데이 5차들을 여러 개를

다 더해야겠죠? 다 더해야 될 텐데 생각해 보면선의

위에 있는 관측값은 플러스의 값이 나올 거고 계산을 하면

세기선의 아래 있는 값은 계산을 하면 마이너스 값이 나올 겁니다. 9를

더하면 상세가 되기 때문에 어떻게해요? 제곱을 해서 더합니다.

그래서 오브 스퀘어러라고 해서 더하는데 어떻게 더해요?

제곱해서 에러를 제곱해서 더한다라는 잔차의 제곱합으로

표현이 되는 거고요. 제곱이라며 제곱이면

이런 2차 함수의 느낌으로 그래프가 그려질 겁니다.이

SSE가 최소가 되면 바로 좋은 회기식이고 그게 바로이 1번의 식을

구하는 것이 될 텐데 어떻게 구하면 돼요? 최소값은

여기죠. 즉 기울기가

0인 지점을 찾으면 되고요. 이것은 곧 미분이

0인 곳을 찾게 되는 겁니다. 미분이 곧 기울기가 되고요. 기울기가 0이

되는 그때의이 해기 계수 혹은 가중치라고 불리는이

해기 계수와 절편을 구하는 방법이 바로 최소 제곱법이

됩니다. 혹은 최소 자승법이라고 부르고요.

우리 유튜버의 수익은 얼마나 될까라고 했을 때 가장 편한 방법은 모든

유튜버들의 수익의 평균을 구한 다음에 그 평균을 얘기하는게 가장 간단하게

예측하는 방법일 거예요. 그런데 우리는 어떻게 하고 싶은

거예요? 구독자수에 따라 수익이 얼마나 변하는지를 조금 더 알고 싶은

거죠. 그래서 평균보다 조금 더 설명력을 갖는 이만큼

이만큼이 평균 대비 더 설명을 하는 부분이잖아요. 이것들의 합의 합을

SSR이라고 부르고요. 아까 얘기야 설명되지 않는 변동을 잔차제곱합

SS2라고 부르고 둘을 합쳐서 sstt라고 부릅니다. 그러면

5차가 최소화되는게 좋고 설명되는이 비율이 SSR이 클수록

좋죠. 즉 전체분의 SSR 이게 바로 R스퀘어라고 부르는 회기 모형에서

평가하는 평가 기준이 됩니다. 값은 0에서 1 사이의 값이 될 거고요.

1일수록 좋겠죠? 1일수록 SSE가 0이 된다는 소리니까. 그래서

1일수록 좋은 모델이 될 거예요. 자, 근데 회기 분석은

앞에서는 이렇게 하나의 독립 변수가 종속 변수를

예측하는 모델만 얘기를 했지만 어때요? 세상에는 다양한 공립

변수들로 공속 변수들이 예측이 되겠죠. 구독자 수로만 수익이

결정되진 않을 거예요. 어떤 콘텐츠를 하는지 그리고 영상을 얼마나 올렸는지

다양한 것들이 들어갈 겁니다. 그래서 다중 회기라고 부르고요. 이것을

선형의 관계만 있는 건 아니겠죠? 이런 식으로 2차, 3차 이런 관계도

충분히 표현을 할 수가 있을 겁니다. 이것을 다항 회기라고 불러요.

그다음에이 회기식에다가 규제를 가할 수가

있습니다. 규제를 가하는 이유는 뒤에서 설명을 드릴 거고요. 지금은

아, 릿지이라는 규제가 있고 라소 획기라는 규제가 있구나. 그리고 리지

회기는 L2 규제, 라소 얘기는 에런 규제, 리지 얘기는 제곱. 라소

회기는 절댓값 규제를 가하는구나라고

보시면 됩니다. 자, 이걸 리지기, 라소기 구분하는 문제 시험에

나옵니다. 그리고 리지에기와 라소얘기를 동시에 접합한 엘라스틱

넷도 있어요. 그다음에 교황이 포함된 회기 모형도

가끔씩 등장을 합니다. 내가 신체나이를

판정하는 회기 모델을 만들고 싶어요. 그래서 여기에 유전 요인이라는 것도

넣고요. 흡변 여부 이런 것도 넣습니다.

자, 그래서 모델을 만들었더니 유전 요인은 신체 나이에 한 10열배 정도

영향을 미치고요. 흡변 여보는 신체 나이에

한 20배 정도 영향이 쳐요. 근데 내가이 유전 여구인과 흡변 여구를

동시에 상호 작용을 받는 변수를 하나

만들어서 신체 나이를 예측했더니 300배가

작용을 합니다.이 신체 나이에 얘가 y가 되는 거고 나머지들이 독립

변수들이 되는 건데 그럼 어때요?이 항 사용하는게 맞겠죠? 이것이 교호

작용이에요. 교호 작용이 포함된 폐기 오형을

활용을 하는 겁니다. 두 개 이상의 독립 변수가 상호 작용을 해서 공속

변수에 영향을 미치는 이게 바로 교호 작용이 되는 거고 이러한 항이

교호항이 되는 겁니다. 자, 그리고 회기 분석을 하기

위해서는 가정이 필요해요. 크게네 가지가 필요합니다. 선분 정독 외워

두시고요. 선형성, 등분사성, 정규성, 독립성. 동속 변수와 독립

변수는 선형 관계예요. 당연하죠. 그리고 5차의 분산이 고르게 분포해야

됩니다. 자, 내가 수집한 데이터가

이런 식으로 데이터가 분포하면요. 얘를 표현하는 직선을 그어 놓고 아,

나 선형액회기 분석했다라고 얘기하면 돼요, 안 돼요? 안 되죠. 분산이

점점 커지고 있어요. 5차의 분산이 커지고 있습니다. 그리고 5차가 정규

분포의 특성을 지여야 되고요. 5차들은 서로 독립적인 관계를 가져야

합니다.이네 가지 가정이 반드시 필요하고요.

여기서 심화적으로 보면은 어때요?이 세 개는 5차와 관련된 내용이고요.

선형성은 동속 변수와 독립 변수 간의 관계를

나타내는 내용이죠. 이런 것까지 챙겨 두시면 될 거 같아요.

폐기 분석에서 가장 중요한 문제 중에 하나가이 다중공선 문제라고 있습니다.

자,이 종속 변수를 예측하는데 x는 y에 영향을 미쳐야 되고 x2가

y의 상형 관계를 가지고 있어야 돼요. 그런데

얘가 갑자기 X1과 X2 간의 상관 관계가 있으면요. 해당 모델은

통계적으로 아주 불안정한 모델이 됩니다.

X1과 X2는 Y한고만 관련이 있어야지 서로 연관이 있으면 안

돼요. 이것을 다중공선 문제라고 합니다. 정말 중요한 문제고요.

시험에도 정말 자주 나오고 다중공성이 있는지 없는지 어떻게 진단을 할

거냐? 첫 번째는 서로 상관계수를 구해서 절댓값이

크면은 의심하는 거예요. 두 번째는 VI 값이 10 이상이면 다중공선

존재한다고 판단합니다. 정말 시험 문제 많이 나오고요. VI는 1 -

r스퀘어 1이에요. 즉 1 - 결정 계수분 1입니다.

자,이 얘기는 무슨 말인가 하냐면요. 알스퀘어 값이 커지면은 VI값도

커져요. 그런데 앞에서 알스퀘어 값은 0에서

1 사이 값을 갖는다 했고 1일수록 좋다라고 얘기를 했는데

1에 가까울수록 좋은 모델이지만 너무 모델이 완벽하면은 그것도 문제가

있다라고 보는 거예요. 아스 값이 커지면 VI 값이 커지니까 다중공사서

문제가 있다라고 볼 수 있으니 그러니까 어떻게 하냐면요.

자 독립 변수를 제거를 합니다. 서로 상관 있는 독립 변수를 없애 버려요.

혹은 차원을 축소해요.이 x1과 x2를 합쳐서 새로운

변수를 만들어 냅니다. 즉 2차원요

둘 2차원을 1차원으로 만들어 버려요. 이것을 차원 축소라고

하고요. 변수를 선택하는 기법들이 있습니다. 뭐 하나하나 추가하거나

삭제하는 방법이 있고요. 그리고 앞에서 얘기한 규제항이 포함된 L1

규제나 L2 규제를 통해서 규제라는게 뭐예요? 뭔가 제한을 거는

거죠. 제한을 걸어서 너무 완벽한 모델이 되지 않도록 만들어 주는

겁니다. 이것이 바로 규제항에 포함된 회기 모형이고요.

자, 그중에 차원 축소는 뒤에서 배울 거고요. 변수 선택 한번 봐 볼게요.

폐기 방정식을 탐색을 하는데요. 앞에서 뒤로 변수를 하나씩 추가해

가면서 폐기 반정식을 찾아냅니다. 이것을 전진 선택법이라고 하고요.

자, 뒤에서 앞으로 제거를 해 나갑니다. 이것을 후진 제거법이라고

하고 둘 다 응용한 방법이 단계별 선택법이라고 해요. 자, 이때 기준이

뭐냐? 어떤 기준으로 선택을 하거나 제거하느냐를 결정을 하느냐라고 하면은

이러한 세 가지 기준이 있다라고 보시면 됩니다.

그다음은 회기 분석의 분산 분석 표입니다. 회기 분석을 수행하

있어서이 분산 분석표는 폐기 모형의 유의성을 분석하는데

활용이 돼요. SSR, SSE 그리고 SST에 대해서는 앞에서 배웠고

자유도라는 것이 존재를 하죠. 세기 계수 수 그리고

n - p - 1 n - 1 그리고 이것을 자유도로 나누면은

msr ms가 되고요.이 둘의 비율이 fb가 되는데 시험 문제에 나오는

거는 보통은 여기서 빈칸을 하나 줍니다. 값이 쭉 주어져 있고요.

여기에 뭐 100 이렇게 주어져 있고 3 주어져 있어요. 그러면 MSR은

몇이냐? 비어 놓고 물어봅니다. 그럼 100 대답할 줄 알면 되겠죠?

자, 그리고 여기에 99라고 만약에 적혀 있습니다. 그리고 나한테

물어봐요. 야,이 회기 분석은 몇 개의 데이터로 분석을 했게라고

물어봐요. 그러면 뭐예요? n이 데이터의 개수니까

100개로 했어요.라고 대답할 줄 알면 돼요.

자, 근데 자유도라는 얘기를 앞에서부터 계속 했고 자유도를 할 때

어땠어요? 희검정을 할 때도 마찬가지였고

뭐 표본의 표준 편차를 구할 때도 n - 1로 나눴고 이런 것들이 왜 전체

데이터에서 하나를 빼 주냐라고 보면요. 자유도에 대해서 설명을

하면요. 자, 카드가네 개 있고요. 사람이네

명 있습니다. 사람이네 명 있는데 첫 번째 사람한테 카드 선택 권리를

줘요. 그러면은 자유가 있죠.네 네 개 중에 하나 선택할 수 있습니다.

두 번째 사람한테도 선택 권리 줘요. 그러면 선택과 권리 있고요. 세 번째

사람도 선택과 권리 있습니다. 마지막 사람은 어때요? 선택과 권리가 없죠.

무조건 남은 거 가져가야 돼요. 즉네 명의

데이터는 자유가 세 개밖에 없죠. 자, 이것이 통계학에서 적용되는

자유도의 가장 직관적인 사례입니다. 그래서 자유도에 1을 더하면 전체

데이터수다라고 해서 아, 자유도를 보면요. 몇 개 데이터로 검정을

했는지를 알 수가 있고요. 결정 계수는 sss분의 SSR이라고

얘기를 했습니다. 그리고 수정된 결정 계수도 구할 수 있어요.

자, 다중 회기 즉 독립 변수가 여러 개인 회기 분석에서는요.

결정 계수값이 높아져요. 즉 독립 변수 수가 많아질수록

R스퀘어 값은 구조적으로 증개를 할 수밖에 없습니다. 이런 구조거든요.

그래서 수정된 아일스퀘어를 통해 고정을 해 주기도 한다라는 것까지

챙겨 두세요. 자, 그다음 회기 모형의 검정에

대해서 이야기를 해 보겠습니다. 우선 종속 변수와 독립 변수들을

설정을 해요. 어떤게 x고 어떤게 y인지. 그다음에

얘 폐기 계수를 추정을 합니다. W와 W2 그리고 바이어스까지 추정을

해요. 그러고 나서이 모형 자체가 유의한지 검정을 합니다. 이것을 F

검정을 수행을 해요. 이때 가설은요. 모든 회기 계수는

0이다 해요. 자, 모든게 회기 계수가 0이면은 모델은 유임이하지

않죠. 그렇죠? 여기가 다 0이라는 소린데 여기가 다 0이라는 소린데

그럼 모델을 유의하지 않아요. 그래서 우리의 목적은 뭐예요? 기각시키는게

목적이에요. 기무과서를 기각을 시킵니다.

기무가서를 기각을 시키려면요. P밸류가

알파보다 작아야 돼요.

자, 그러고 난 다음에이 개별 폐기 계수들이 유임한지를 검정을 합니다.

이때는 t 검정을 해요. 이때 귀모 가설은요. 회기 계수는

0이다. 당연히 얘도 기각이 목적이니까 P밸류가 알파보다 작았으면

좋겠어요. 그리고 모형의 설명력이 갖는지는 결정

계수값으로 확인을 해 볼 수가 있습니다.

자, 이렇게 보고 나서 뒤에서 r를 해석하는 걸 한번 같이 해 보도록

할게요. 헤이트라는

공속 변수를 에이지와 노시빌링스라는 독립 변수로

선형 회기 분석이라고 하면은 선형 회기 분석이거든요.

분석을 수행을 할 겁니다. 자, 그래서 종속 변수는 헤이트고요. 독립

변수는 지와 노시빌링스예요. 첫 번째는요. F분포를 볼 거예요.

자, 여기 P밸류 보이시죠? f라는 거 대충

찾아가시면은 p밸류 보여요. 여기 2 - 09라고 되어 있는데 얘는 10의

-9승입니다. 이거는 컴퓨터의 부동 소수점 표기에

의한 건데 그런 것까지 알 필요 없고이 - 공9 나오면요. 엄청 작은

술구나라고 하시면 돼요. 자, 어때요? P밸류가

0.05보다 영어보다 많이 작아요. 그러니까 아 모형이 유의하구나라는

것을 알 수가 있고 에이즈와 노시빌링스의

밸류 한번 봐 볼까요? 자, AG는 2 -10이에요. 2는

-10승입니다. 엄청 작아요. AG는 0.05보다 작음으로 회기

계수가 유의하고요. 노시빌릭스는 0.851이에요. 0.05보다 크죠.

그러니까 제외하고 회기 분석 재수행을 권장을

하는 겁니다. 노실빌링스 변수는 유의하지 않기 때문에 제거하고 검정을

다시 수행하는 것을 권장하지만 데이터 분석가가 봤을 때 모형은

의미가 있네. F 검정을 해 보니까. 그러니까 그냥 가져다 쓰자라고 할

수도 있고 아니면 제거하고 다시 검정을 수행할 수도 있습니다. 어쨌든

위 모형은 어때요? 독립 변수가 여러 개니까 다중 회기 모형이고요.

아이스케어 값 보니까 0.988

즉 98% 이상을 설명을 하죠. 수정된 아이스퀘어값도 0.9863으로

9863으로 높습니다. 자, 그다음 자유도를 볼 건데요.

자유도는요 DF라는 곳을 보면 돼요. 디그리 오브 프리덤 세개의 자유도가

2고 잔차의 자유도가 9예요. 그래서 총 자유도는 2 + 9 해서 11인데

데이터 개수는 + 1 해야 된다고 했죠. 그래서 12개의 데이터를

활용해서 분석했구나라는 것을 알 수 있고 회기식은요.

여기가 회기 계수입니다. 그래서

0.63516 - 0.0137 0137

그다음에 6.95872이는 9587이는 인터셉트 이게

절편이에요. 여기에 폐기의 자유도가 2가 되는

거고요. 잔차의 자유도가 9가 되는 거고 더해서 11이 되니까 전체

데이터 개수는 12야라고 알 수가 있게 되는 겁니다. 이게 저 밑에

R로 그대로 표시가 되는 거예요. 자, 이렇게 해서 일반적인 회기

모형에 대한 R 해석 문제를 풀어 봤습니다.이 이 R 해석 정말 시험

문제 자주 나와요. 가설 검정에서 R 해석을 했듯이 여기서도 당연히 시험

문제 많이 나오고 지금은 요약강이 때문에 간단한 알과 해석 문제 하나만

봤지만 정말 다양한 알과 해석 문제가 있습니다. 자, 지금은 수치형 변수

두 개가 들어가 있는데요. 독립 변수에 범주형 변수가 들어갈 수도

있어요. 공립변수에 이러면 덤미 변수로 바꿔 줘야

됩니다. 즉 0 1 2 이런 식으로

뭐 사과 포도 딸기 이런 식으로 더미 변수로 바꿔 줘야 돼요. 그리고 더

나아가서 교황이 포함된 폐기 문제도 알로 충분히 나올 수가

있습니다. 그러면 교호 작용을 해석할 줄 알아야 돼요. 다 기출 보시면은

나오는 애들이에요. 기출을 보면서 여러분들이 추가로 학습을 하시면

되고. 자, 이게 베이스가 돼서 이런 것들도 여러분들이 풀 수가 있게 되는

겁니다. 그다음 다별량 분석에 대해서 얘기를 해 볼게요. 앞에서

독립변수들간에 상관계가 있으면 어떻게 된다라고

했어요? 상관 관계가 있으면 다중공선 문제가

있다라고 했습니다. 그러면이 변수들간에 상관 관계가

있는지 확인하는 방법이 필요해요. 그 방법 중에 대표적인게 피어쓴 상관

분석과 스피어만 상관 분석이 있습니다. 피어쓴 상관 분석은 양적도

연속평 변수 이런 선형 관계의 크기를 측정할 수가 있는데요. 스피어만 상관

분석은 서열 척도 순서형 변수이 선형적 관계에도 설명을 할 수가

있어요. 즉 스피어만 상관 문서는 순서만 가릴 수 있으면은 상관계를

분석할 수가 있다라는 겁니다. 상관계수는 -1에서 1 사이 값에

갖는다라고 앞에 초계에서 얘기를 했고요.

예를 들어서가 나 다라 같은 사례가 있는데 가는 누가 봐도 선형적으로

완벽한 양의 상관 관계죠. 그래서 피어선 상관계수가 + 1이 나오고요.

스피어만 상관계수도 + 1이 나옵니다. 나는 증가하는 느낌은

있지만 선형은 아니에요. 그래서 피어스 상관 계수가 완전히 플러스

1은 나오지 않습니다. 플러스 0.8 정도 나오는데요. 스피어만 상관

계수는 증가하는 형태는 무조건 같기 때문에 순서가 있기 때문에 + 1이

나올 수가 있습니다. 자, 음의 경우도 마찬가지고요. 즉 스한

상관계수는요. xy가 현형 관계가 아니더라도 +1 혹은 -1이 될 수가

있습니다. 이것을 통해서 각각의 변수들이

상관 관계가 있는지 확인이 가능하고요.

두 번째는 둘을 묶어서 새로운 변수를 만들어 낼 수 있다라고 했죠. 즉

2차원을 1차원으로 차원을 축소시킬 수가

있습니다.이 차원을 축소시키는 대표적인 방법 중에

하나가 주성분 분석이에요. PCA라고 부르고요.

상관속 높은 변수들의 선형 결합으로 차원을 축소해서 새로운 변수를

생성합니다. 자, 예를 들어서 내가 수집한

데이터들의 x1과 x2가 있어요.이 이

데이터들의 분포가 이렇게 그려져 있습니다. 즉 이렇게 그려졌다는 것은

둘이 선형적인 상관 관계가 높다라는 거죠.이 두 변수를 가져다 쓰면은

다중 공선성 문제가 있어요. 그러니까 하나의 축으로 내리는 겁니다. 자,

이렇게 두 개의 축이 있다라고 가정을 해 볼게요. 1번 축, 2번 축.이

이 1번 축에 데이터를 내릴 수도 있고요. 데이터들을 다 여기다 내리는

거예요. 데이터들을 여기 1번 축에다가 쭉 내립니다.

혹은 2번 축에다가도 내릴 수가 있어요. 이렇게 2번 축에다가도

데이터들을 다 내릴 수가 있어요. 자, 1번 축과 2번 축 중에 어디가

그나마 정보를 덜 손실하면서 차원을 축소할

수 있을까요? 1번이죠. 즉 분산이 가장 큰 축으로

데이터를 축소시키는게 바로이 구성분석입니다.

그것을 선형 대수학적 이름으로는 고유값이라고 부르는데요. 그냥

분산이다 생각하시면 편하고요. 지금 같은 경우에는 두 개의 변수가 하나의

축으로 즉 x-라는 하나의 축으로 2차원에서 1차원으로 축소가 되는

거지만 뭐 10차원, 100차원 이런 것들도 축소를 할 수가 있겠죠.

그때는 주성분을 여러 개 선택을 해야 될 겁니다. 그때의 주성분은요. 두

번째 주성분을 첫 번째 주성분과 직교를 하게 돼요. 직교를 한다는

것은 수학적으로 독립적이라는 의미가 됩니다.

자, 이런 R가 있는데요.이 R를 해석하는 문제도 당연히 시험 문제

나오겠죠? 자, 우선은

내가 가지고 있는 데이터를 주성분석을 했더니 첫 번째 주성분 그리고 두

번째 주성분, 세 번째 주성분 쭉쭉 해서 일곱 개의 주성분이

만들어졌습니다. 이때

여기가 표준 편차고요. 스탠더드 데비에이션 표준 편차고요. 이거는

분산의 비율이에요. 전체 주성분 일곱 개를 다 썼을 때

대비 몇 퍼센트를 설명하고 있냐를 보는 거고요. 얘는 누적입니다. 자,

첫 번째 주성분을 사용하면요. 0.6372

즉 63.7%의 설명력을 가져요. 원래 데이터가

일곱 개의 독립 변수로 구성이 돼 있었어요. 즉 7차원이었는데

얘를 구성부 하나 만 고르면요. 63%

원래는 100%였죠. 그중에 63.7%를 7%를 설명한다라는

거예요. 그다음에 두 번째 주성분을 선택을 하면요. 얘는 17.06%를

따르고 그럼 PC1과 PC2 두 개를 선택했으니까

80%를 설명할 수 있구나. 즉 7차원에서

2차원으로 축소를 하면은 어때요? 80%를 설명할 수 있구나. 물론

3차원을 선택할 수도 있고 4차원 선택할 수도 있고 차원은 다양합니다.

그런데 보통 약 80%를 설명하는 정도만 되면은 많이 설명을 했구나라고

얘기를 하고요. 자, 그러면 이렇게 얘기할 수

있겠죠? 몇 개의 주성분을 선택하는 것은 어떻게 결정을 할까라고 볼 수가

있습니다. 이것을 우리가 스크리 플롯이라는 것을 활용해서 결정을

해요. 자, 두 성분을 하나만 골랐을 때

분산은 가장 커요. 그다음 두 번째 주성분은 그것보다 분산이 조금

작고요. 세 번째,네 번째는 계속 작아져요. 그래서 기울기가 완만해져

있는 지점부터는 내가 아무리 구성분을 추가를 해도 분산 분산이라 하면은

설명력이죠. 설명력 데이터를 얼마나 잘 설명하냐라는 설명력이 점점 더

좋아지는 정도가 낮아지니까 그 전에 구성개수는 두 개로 하자. 2차원으로

축소를 하자라고 선택이 가능합니다. 물론 절대적인 건 아니고요. 스컬리

플롯은 도움을 주는 것뿐이에요. 그래서 세 개로 선택해도 상관이

없습니다. 여러분들이 가지고 있는 어떤 교재에는 세 개라고 되어 있는

책도 있을 거예요. 두 개라고 되어 있는 책도 있고.

어쨌든 스크립플러 도움이 주고요. 주성분이 수평을 이루게 바로 전을

선택을 하든 수평을 이루는 순간을 선택을 하든 차원을 축소하는데 도움을

주는게 스크립 플롯이다라는 것을 알고 계시면 됩니다. 자,

그다음은 다차원 촉도법이라고 해서 데이터 거리 정보를 근접하는 방식으로

차원을 축소하는 기법이 있습니다. 높은 차원의 데이터를 낮은 차원으로

납쳐 가지고 거리를 나타내는 방식의 축소법이고요. 스트레스 값스로

평가를 합니다. 그리고 얘 같은 경우에는 글로벌 체적점 도달이

어려워요. 이런 특징들이 있구나. 그리고 종류들이 있구나라고 보시면

되고이 다차적 특법은 개념과 특징 모두 주기적으로 물어봅니다. 그래서

제가 빨간색 쳐 드린 부분은 중점적으로 좀 확인을 해 두세요.

자, 그다음은 시계열 예측입니다. 시계열 예측은 시간의 흐름에 따른

데이터를 분석해서 미래를 예측하는 기법이에요. 뭐 주식 데이터라든지

기온 데이터라든지 이런 것들이 있겠죠. 이런 시계열 데이터에는네

가지의 변동 요인이 있습니다. 추운 계절에 순환이 불규칙하다라고

해서 추세 계절 순환 불규칙네 가지가 있고요.네 가지니까 시험 문제네 개

딱 좋죠. 시험이 쉬우면요.네 가지 중에 하나

이상한 거 넣어 놓을 거고요. 시험 문제가 어려워지면은 이러한 특징까지

물어볼 겁니다. 챙겨 두시고요. 이러한 시계열 데이터는

주식 그래프를 생각해 보면 보통 이런 식으로 그래프가 그려지죠.

어떻냐면요. 평균과 분산이 시점에 따라 일정하지

않고 계속 변합니다. 계속 변경이 돼요.

이러면 통계적으로 예측하는게 너무 어려워져요. 그래서 모든 시점의

평균과 분산을 일정하도록 만드는 정상성을 확보해야 됩니다.

자,이 정상성을 어떻게 확보하느냐? 두 가지 방법이 있어요. 물론 여러

가지 더 있습니다. 여러 가지 더 있는데 일단은 크게 두 가지로 보시면

돼요. 첫 번째 차분. 현시점에서 이전 자료를 빼요.

그러면은 데이터가 플러스 마이너스 차이만 남게 되면서 어떻게 데이터가

그려지냐면요. 이런 식으로 데이터가 그려집니다.

차이만 계속. 그럼 어때요? 얘는 평균과 분산이 일정해지죠.

이게 차분이고요. 변환은 로그를 취하거나 제곱권을 취하거나 박스코스

변환으로 분산을 안정화시킬 수 있습니다. 두 가지 중요해요. 정상성

정말 중요합니다. 그러면 정말 자주 나와요.

자, 그다음 평화라기법이 있어요. 우리가 주식 그래프 같은 걸 보면요.

어떻게 되냐면 요런 식으로 막 계속 흔들려요.

자, 이렇게 흔들리는 걸 볼 수 있습니다. 이것을

평평하게 만들어 줄 수 있어요. 평평하게.

이게 평화라입니다. 일정 기간에 평균을 사용하면 이동

평균법이 되고요. 아니면 최근 시간에 가중치를 부여할 수가 있습니다.

이러면 그때는 지수 평화법이 돼요. 자, 그리고 시계열 데이터에는 5차가

존재합니다. 5차는 폐기 분석에서도 존재했었고 어디든 존재를 하는데

시계열 분석에서는 이것을 백색 자금이라고 부릅니다.

백색 자범의 특징은요. 평균의 분산이 일정해요. 즉 정상성을 만족하죠.

그리고 통계적으로 모형을 만들 수가 있습니다. 자, AR 모형, MA

모형 이런 것들이 있는데 AR 모형은 과거 자신의 과거값이

미래를 결정해요. 내가 과거에 했던 행동이 나의 미래를 결정합니다. 이게

자기획이고요. 자, 이동 평균은 내가 하지 않았던 혹은 했지만 발생했던

5차들이 모여서 나의 미래를 결정해요. 이것이 MA 모형입니다.

자, 그러면은 내일을 결정하데 있어서 하루 전, 이틀 전, 3일 전, 8일

전 몇 개의 날짜가 내일을 결정할 건지 하루 전까지 난 사용을 할 건지

이틀 전까지 3일 전까지 4일 전까지 사용을 할 건지를 결정을 해야 돼요.

이걸 어떻게 하냐면요. 상관 함수를 통해서 합니다.

자, 이렇게 현재가 있고요. 현재는 하루 전, 이틀 전, 3일 전, 4일

전 이렇게 있는데 상관계수를 분석을 해 봤어요. 그랬더니 상관이 높아요.

하루 전이랑 이틀 전이랑도 상관이 높아요. 근데

3일 전부터 상관계가 뚝 떨어집니다. 그러면 아, 나는 이틀 전까지만 즉

여기까지만 활용을 해서 모델을 만들겠다라고 하는 거예요. 이게

부분 자기 상관수 PACF였으면요. AR 모형이 되는 거고요. 즉 AR2

모형이 되는 거고요. PACF였으면

아니라 자기 상관 함수였으면요. MA 소모형이 되는 거예요.이

이 상관 분석의 함수를 PACF로 했냐 ACF로 했냐에 따라서 결과를

보고 도형을 선정할 수가 있습니다. 자, 그런데 당연히 둘을 결합한

모델도 있겠죠. 결합한 아리마 모형이라는 것이 있고요. 자,

아리마에 P는요, 여기서 왔어요. 그리고 Q는요,

여기서 왔어요. 그리고 가운데 D는요 차분을 몇 번 했는지를 의미를

합니다. 앞에 값에서 뒤에 값을 얼마나 뗐는지, 몇 번을 뗐는지를

의미를 해요. 자, 그래서 문제가 이렇게 나올 수

있겠죠? 아리마 2 3 4야. 야, 너 이거 차분 몇

번 했냐?이 이 모형 물어보면은 아 차분 세 번 했어라고 대답할 줄 알면

되겠죠. 그리고 뭐 D가 0이면요

i를 없애 버려요. 얘를 없애 버려서 알마 모델이라고 부르고요. P가

0이면요. IMI 모델, Q가 0이면 ARI 모델이라고도 얘기를 합니다.

그리고 만약에 계절성을 붙이고 싶으면요. S리마형도 사용을 한다라는

정도까지 우리가 확인을 해 두시면 될 거 같습니다. 자, 시험 문제 정말

많이 나와요. 여기도. 자, 그다음 데이터 마이닝입니다.

데이터 마이닝은 방대한 데이터 속에서 새로운 규칙과 패턴을 찾고 예측을

수행하는 분야라고 해서 목표를 정의하고 데이터 수집하고 전 처리하고

기법 적용하고 평가함이 해석을 합니다.

마이닝이라는게 금강을 캐는 거잖아요. 데이터라는 금

안에 있는 패턴들을 찾는 겁니다. 데이터 마이닝에는 크게 두 가지

유형이 있어요. 정답이 있는 데이터를 학습하는지도 학습가. 정답이 없는

데이터를 학습하는 비지도 학습이 있고요.

앞에서 우리가 폐기에 대해선 공부를 했습니다.

그리고 차원 축소에 대해서 공부를 했어요. 그 우리한테 남은 건

뭐예요? 이제 분류와 분집 분석, 연관 규칙 분석을 공부를 하면

되겠네요. 거기에 플러스 인공신경마까지

봐 보도록 할게요. 자, 우선 과대 적합과 과소

적합이라는 것을 얘기를 해 보겠습니다. 모델을 학습을 하는데

우리는이 파란색 데이터와 빨간색 데이터를 일반적으로 구분을 하고

싶어요. 그래서 일반적으로 구분하려고 학습을

했는데 너무 복잡해졌어요. 이것을 우리가

과대적합이라고 부릅니다. 혹은 과적합이라고도 불러요. 시험에서

과적합이라고 나오면 과대적합이구나라는 것을 아시면 됩니다.

그다음에 너무 학습을 대충해서 단순하게 돼서 일반화되지 못했어요.

이것을 과소 적합이라고 부릅니다. 직선 하나로만 표현이 되면 안

되겠죠. 즉 5차가 어느 정도 여기 있지만 5차가 어느 정도 있지만 이게

일반화된 모델이 됩니다. 과대 적합은요. 많이 흔들리는 대신

오류가 적어요. 즉 분산 높은데 편형이 낮습니다. 대신 과소 적합은

분산은 낮아요. 직선 하나로 그어졌으니까 그 대신 편형이 높죠.

자, 그다음 데이터 분할과 교차 검증입니다. 데이터 분할과 교차

검증을 하는 이유는 과대적합과 과속 적합을 방지하고 일반화시키기 위해서

합니다. 그래서 데이터셋을 세 가지로 나눠요. 훈련, 검증, 평가용 세

가지로 나누는데 훈련 데이터는 모델을 학습하데 사용을 하고요. 검정

데이터는 조정하는데 사용을 합니다. 그리고

평가용 데이터은 모델을 평가하는데 사용을 해요.

내가 100쪽짜리 문제집이 있어요. 백쪽짜리 문제집이 있는데 자이

문제집을 가지고 모두 문제를 풀고 나서 시험장에 들어가는 것보다는

한 80쪽 정도로 문제를 풀고 20쪽 정도로 자체 모의고사를 봅니다.

그래서 내가 어디가 이상한지 알아요. 그러면 다시 80쪽으로 다시 학습을

하고 다시 내가 검증을 해 보고

이런 과정을 거치는게 나중에 실제 시험에서 훨씬 도움이 될 겁니다. 즉

훈련용, 검증, 평가용으로 나누면은 조금 더 모델이 일반적으로 학습이 될

거고요. 전체 데이터를 훈련용과 검증용 혹은 평가용으로 한

번만 나눠서 수행을 하는 것을 홀드 아웃이라고 부릅니다.

자, 그런데 이렇게 내가 가지고 있는 다양한

데이터 셋이 있어요.이 이 데이터 셋을

이렇게 쪼개 가지고 훈련과 검증으로 나누면요.

여기에 있는 데이터만 학습을 하고 여기에 있는 데이터로 검증만 하고

끝내면요. 다시 학습해서 검증하는 즉 조정하고 튜닝하는게

잘 되지 않을 겁니다. 그렇죠? 여기에만 학습이 특화가 돼 있을

거예요. 그것을 방제하고자이

데이터셋을 접습니다.

폴드 접어요. 몇 개로? K로. 지금은 K가 4라고 가정을 해

볼게요. 그럼네 개로 접어요.네 개로 접어서 나머지 세 개로 학습을

시키고요.요 하나로 평가를 합니다. 혹은 검증을 합니다. 그다음에이

데이터로 검증을 하고요. 나머지 데이터로 학습을 하고 그다음에이

데이터로 검증을 하고 나머지 세 개로 학습을 하고 또이 데이터로 검증을

하고 나머지 세 개로 학습을 합니다. 이렇게 해서 평균을 내면은 모든

데이터가 골고로 학습에 참여하고 모든 데이터가 골고로 평가나 검증에 참여를

하죠. 이게 바로폴드 교차 검증이에요.

자, 그런데 이렇게 검증에 쓰이는 데이터가

만약에 여기 데이터가 1,000개가 있었어요.

그중에 250개를 검증했었 거라고 생각을 해 보세요. 너무 아깝다

이거예요. 훈련에 더 많은 데이터를 쓰고 싶어요. 그래서 한 개의

데이터로만 검증을 하고 나머지로 다 학습을 시킵니다. 즉 999개는

학습에 하고 한 개만 검증을 사용해요. 이것을 리브 원 크로스

밸리데이션이라고 부르고요. 얘는 실뢰도는 높을 거예요. 하지만

연산량이 많을 수밖에 없습니다. 자, 그리고 부트 스태핑 방법이

있어요. 보건 추출을 해서요. 데이터를 넣었다 뺐다 하면서 데이터

셋을 생성하면은 데이터수가 부족할 때도 효율적으로 사용을 할 수가

있겠죠. 자, 그다음 로지스티 회기

분석입니다. 로지스틱 회기 분석은 말은 회기 분석이거든요.

그런데 분류에서 사용을 합니다. 자, 회기 분석은

수치형 데이터에 적용을 하고요. 분류 분석은

검주형 데이터에 적용을 합니다. 자, 0 1 이런 식으로 딱 구분이

되는 강아지냐 고양이냐, 암이냐 암 환자가 아니냐, 흡연자냐 흡연자가

아니냐, 수청 데이터는요. 수익, 뭐 나이 이런 것들이 있을 수

있겠죠. 이런 것들을 예상하는게 회기 문제. 분류 문제는 범주, 성공과

실패 두 개의 집단으로 분류하는 문제입니다.

그럼 왜이 로지스트 회기 분석은 말은 회기인데 왜 분류해서 쓰이냐라고

보면요. 자, 첫 번째 성공할 확률과 실패할 확률의 비을 우리가 불러요.

즈. 오즈는 성공화 확률과 실패 확률에 비해요. 여기에 자연로그를

양변을 취하면요. 얘가 선형화된 상태가 됩니다.

이것을요 확률로 전개하면요. 이런 함수가

나오고요. 이것을 우리가 시그모이드 함수라고 부릅니다. 0에서 1 사이의

확률을 도출해요. 시그모이드 함수는

이런 식의 그림을 그립니다. 여기가 1이고요. 여기가 0이에요.

그리고 여기가 0.5입니다.요 값이. 자,이 시그몰드 함수가 이런 그래프가

그려지는데 예를 들어서 a 학생의 점수가 80점, b학생의

합 점수가 70점, c학생의 점수가 60점,이 학생의 점수가

50점이에요. 이것을

y는 x - 65라는 함수에 적용을 해 보겠습니다.

적용을 해 보면요. 어떻게 나와요? A는 15가 나올 거고 B는 5가

나올 거고 C는 -5가 나올 거고 D는 -10이 나오겠죠?이

상태에서 시그모이드 함수를 적용을 해 볼게요.요 시그모이드 함수에다가

적용을 해 보는 거예요. 적용을 해 보면 A는요 정도의 위치에 있을 거고

B는 한요 정도의 위치에 있을 것 같아요. 그리 C는 마이너스니까 1로

갈 거고 B는 -10이니까 여기가 되겠죠?

자, A는 0.5보다 큰 값이 나옵니다. CD는 0.5보다 작은

값이 나와요. 즉 AB는 50%보다 높은 확률로 항위권이고요.

CD는 50%보다 낮은 확률로 상위권이요. 즉 그 얘기는 뭐예요?

하위권이란 소리죠. 상위권일 확률이 50%보다 낮아요.

근데 A,는 상위권일 확률이 50%보다 넘어요. 그럼 상위권이라는

거죠. 자, 이렇기 때문에

선형 회계식이 적용되면서 0과 1 사이의 확률로 도출과 되면서

성공과 실패, 즉 상의권과 하위권 두 개의 집단으로 분류하는 문제에 활용이

될 수가 있습니다. 이래서 로지스틱 회기 분석이 분류

분석에 사용되는 문제예요. 자, 회기 분석 같은 경우에는

최적의 회기식을 어떻게 찾았어요? 잔차제곱합 즉 SSE가 최소가 되는이

지점을 찾았어요. 이것을 최소 제곱법이라고 불렀죠.

최소 제곱법으로 회기 분석을 수행을 했습니다. 그런데 로지스틱 회기

분석은 최대 우도법이라는 것을 활용해서

계수를 추정을 합니다. 즉 확률이기 때문에 가능성이

높으면 좋아요. 폐기 분석은

오류가 낮으면 좋습니다. 즉 오류가 낮은 질점을 찾아야 되니까 제곱이

최소가 되는 지점을 찾아요. 근데 얘는 우도 가능성이 최대가 되는

지점을 찾는게 좋아요. 그래서 얘는 최대 우도법을 활용해서 로지스틱 회기

분석을 수행을 합니다. 자, 그다음은 KN 기법이 있습니다. KN

기법은요. 자, 데이터가 이렇게 분포가 되어

있어요. 여기에 빨간색 새로운 데이터가

들어왔습니다. 그러면은 내 주변에 이웃이 무엇이 있는지에 따라 결정을

하는 거예요. 내 주변을 세 개를 바라보니까 내 근처 세 개를

바라보니까 얘는 어때요? x가 두 개나 있네요. 그래서 아, 새로운

데이터도 x에 속해라고 얘기를 할 수가 있습니다. 즉 더 많은 데이터가

포함되어 있는 범주로 분류를 할 수가 있어요. 이것이 KNN K니어리스트

네이버스 방법입니다. 지금은 K가 3으로 설정을 한 거죠. 근처에 세

개를 보겠다. 대신 K가 개수가 많아지면은 결과가 또 달라질 수가

있겠죠. K의 개수에 따라 결과가 달라질 수 있을 겁니다. 그 단순하고

효율적이고요. 자, 기존의 회기 분석이나 로지스틱

회기 분석 이런 건 어때요? 이런 가중치나

절편을 학습을 미리 시켰어야 됐습니다. 하지만 얘는 학습을 시킬

필요가 없이 데이터가 들어올 때마다 거리만 계산해 주면 돼요. 이것을

우리가 레이즈 모델, 베으른 모델이라고 부릅니다.

자, 그다음 나이브 베이즈 분류입니다. 나이브 베이즈 분류는

베이즈 정리를 기반으로 합니다. 베이즈 정리는 조건부 확률에서 나온

개념이고요. 자, 이런 문제는 한번 여러분들이

고등학생 때 풀어 보셨던 기억이 있을 거예요.

합격한 신입생 중 남학생을 고를 확률 이렇게 물어봤어요. 그럼 합격한

신입생 중 남학생을 고를 확률 해서 PB의 PA 교집합 BB는요

0.38이 되고요. 합격한 신입생의 비율이 될 거고 PA 교집합 B는

남학생이면서 합격한 비율인 0.18이 18이 될 겁니다.

자, 그래서 이것을 통해 뭘 할 수 있냐면요. 현재 있는 정보를 가지고

즉 과거에 경험했던 경험을 가지고 앞으로 미래에도 합격과 신입생 중

남학생은 47% 정도 되겠구나라고 미래를 예측할 수가 있는 거예요. 즉

과거의 경험을 활용해서 진압적인 출론이 가능합니다.

이게 베이즈 정리고요.이 이 베이즈 정리에다가 이제 라이브라는

독립적이라는 것까지 결합이 되면 그게 바로 라이브

베이즈 분류라는 분류 모델이 됩니다. 지금은 합격과

신입생 중 남학생일 확률이지만 합격과 신입생이면서

뭐 어느 동아리를 하면서 혹은 어느 지역에 있으면서 혹은 몇 년을

공부했으면서 뭐 재수를 했으면서 이러한 다양한 조건들이 한 번에

예측이 되는 모델이 될 거예요. 분류 모델은. 그래서 독립이라는 가정을

통해 계산을 간단하게 만들어서 하는 방법이 바로이 라이브 베이즈

분류입니다. 자, 그다음 의사 결정 나무입니다.

자, 의사 결정 나무는 수모고개 같은 거예요. 날개 있어라고 물어봅니다.

날개 있니? 어, 있어.

혹은 없어라고 대답할 수 있겠죠? 있으면은 날 수 있어라고 물어봅니다.

어, 날 수 있어. 날 수 없어. 날 수 있어. 너 그러면은 독수리.

날 수 없어. 너 그럼 펭귄. 야, 너 날개 없어. 그럼 털 있어?

어, 있어. 그러면 아, 너 곰 털 없어? 그럼 너 물고기.

이게 바로 의사교적 나무예요.이

노드 안에 이거 하나하나를 노드라고 부었는데이 노드끼리는 동질성이 있는

애들끼리 날개가 있는 애들끼리 모이고요.이 노드 간에는

이질성이 커지는 방향으로 분리가 되는 트리 구조의 모델입니다.

화이트박스 모델이에요. 왜냐면 내용을 하얗게 볼 수가 있어요. 제 해석이

너무 쉽습니다. 파이트박스 모델이에요. 대신에 과화 위험이

상당히 높습니다. 자, 이게 트리가 계속 밑으로 내려가면은 계속 즉

질문과 대답이 계속 많아지면은 특화가 되겠죠. 학습 데이터의 특화가

될 겁니다. 그게 바로 과적합, 과대적합이 될 거고요. 그럼 이것을

방지하기 위해서는 분리를 더 이상 수행하지 마라는 정지 규칙을 할 수가

있고요. 일부 과지를 제거해서 과적합을 방지할 수도 있을 겁니다.

필요 없는 과지를 제거해 버릴 수도. 됐죠?

자, 그러면은 이런 노드들을 어떻게 분할할 수 있냐라는 방법에 대해서

있는데요. 분류 문제. 즉 범에서의 분할 방법이

있고 회경 모델에서의 분할 방법이 있습니다. 자,이 방식으로 분할을

하는데요. 정말 중요해요. 어떻게 분할을 할지. 그리고 진위 지수와

엔트로피 지수는 수식까지 기억을 해 두셔야 돼요.

자, 간단한 문제 한번 봐 보도록 하겠습니다.

자, 이러한 동전들이 있으면요. 앞면의 확률, 뒷면의 확률 구해서

앞에서 보여 드린 그 수식에다가 넣어서 값을 도출할 줄 알아야 돼요.

보통 진니 지수를 많이 물어봅니다. 그다음은 서포트 벡터 머신이라고 해서

정말 강력한 도구예요. 자, 이런 세모 데이터가 있고요.

이런 X 데이터가 있어요.이 둘을 분류시키는 선을 하나 긋고

싶습니다.이 직선을 하나 긋고 싶어요. 자, 여기도 문제를 내

볼게요. 1번, 2번, 3번 중에 어느 직선이 가장 분류를 잘한

걸까요? 1번 같죠? 왜 그러냐면요.이

사이에 폭이 폭이 넓습니다. 세모 X 사이에

폭이 넓어요. 즉 마진이 최대가 되는이 사이에 폭 마진이 최대가

되는요 평면 초평면을 찾아서 수행하는 이분류 혹은 회기 분석에서 사용할 수

있는게 바로이 서포트 벡터 머신입니다. 그래서 하이퍼플레인

초평면이라고 부르고요.이 이 초평면은 다중치 벡터와 편양으로 결정이

됩니다. 그리고요 하이퍼플레인과 가장 가까운이 친구들을

서포트 벡터라고 부르고요.이 폭을 우리가 마진이라고 부릅니다. 그리고

서포트 벡터 머신이 강력한 이유는이 커널 함수에 있습니다.

자, 데이터가 만약에 이렇게 있다라고 가정을 해 볼게요.

서포트 벡터의 목적은이 x와 세모를 구분하는 직선 혹은 평면을 찾는

거예요. 그런데 이렇게 돼 있으면은 직선이나 평면으로는 안 되죠. 곡선을

그려야 됩니다. 그래서 이러한

어떠한 공간에다가 매핑을 시키면요. 어떻게 되냐면은 데이터들이

X는 이렇게 위로 올라오고요. 세모는 이렇게

아래 분포하게 됩니다.이 이 함수를 우리가 커널 함수라고

불러요. 자, 이렇게 되면 어떻게 돼요?

여기에 직선 하나 그어 주면은 얘가 바로 초평면이 되겠죠? 즉 두

데이터를 구분할 수가 있습니다. 즉 저 차원 데이터를요. 고차원 데이터로

변경을 해 주는 자 이런 2차원의 데이터에서

3차원으로 커너 함수를 통해 변경을 하니까

초평면을 찾을 수가 있었어요.이 커널 함수를 통해서 서포트 벡터 머신이

정말 강력한 기능을 갖게 됩니다. SVM은 시험에 가끔씩 출제돼요.

엄청 자주는 아니지만 앙상불이라는 것이 악기 연주할 때

여러 악기들이 조합해서 시너지를 낸다는 것처럼 앞에서 배운 여러 가지

모델들 뭐 서포트 벡터 머신, 라이브 베이즈, 의사 결정 나무, 로지스

회기 이런 다양한 것들을 조합해서 사용을 하면 더 좋지 않을까라는

겁니다. 첫 번째는요. 보팅이에요. 여러 모델들을 사용해 보고요. 가장

다수결로 높은 것을 선택하는게 보팅 방식입니다. 자, 그다음 배깅은요.

부스트랩을 생성해서 모델을 학습한 후에 보팅으로 결합을 합니다. 자,

여기 데이터 셋이 있는데요. 데이터셋이 있으면은이

데이터셋을 보건 추출로 샘플을 뽑아요. 하나의 샘플. 이게

부트 스텝 1번이 되는 거고요. 다시 보건 추출로 또 뽑아요.

이렇게 보건 추출로 여러 번 뽑습니다.

그러면 여러 개 샘플링이 된 데이터가 있겠죠?이 이 데이터들을 가져다가

학습을 시켜요. 학습을 시키고 나서 각각 학습을 시킨 다음에 결합을 하면

좋은 성능이 나오지 않을까라는게 바로이 배깅의 기법이고요. 자,이

데이터셋에이 데이터셋을 조금 더 자세히

살펴보면요.이 안에는 계의 데이터가 들어 있습니다. 여러

데이터가 쭉쭉쭉 들어 있는데 여기에이 빨간색 데이터가 하나 들어 있어요.

내가 보건 추출을 한다고 그랬잖아요. 데이터를 꺼냈다가 다시 넣었다가

꺼냈다가 다시 넣었다가 반복을 할 거예요. 그때이 데이터가 선택되지

않을 확률은요. 자, 전체에서 1/n개를 빼 주고

이것을 보건 추출 여러 번 해서 n번 하게 되면이 데이터가이 빨간색 특정

데이터가 선택되지 않을 확률입니다. 이걸 무한히 반복하면요.

무한히 반복하면 수학적으로 36.8%가 나와요.이

얘기를 반대로 뒤집어 보면은이 전체 데이터 세트에서 36.8%

8%. 자,이 36.8%만큼의 데이터들은

어떻게 해도이 부트 스트랩 안에 들어가지 않아요. 그 얘기는이

36.8% 데이터는 아무리 무한 반복을 해도 데이터의 학습에 사용되지

않습니다. 학습에 사용되지 않아요.

그럼이 데이터를 버릴까요? 버리면 안 되겠죠.

학습에 사용되지 않았기 때문에이 데이터를 가지고 뭘 하면 돼요?

평가를 하면 될 겁니다. 즉이 데이터로 검증 혹은 평가를 하면

돼요. 뭐예요? 이게 바로 교차 검증이죠.

자,이 데이터들로 학습을 하고요. 아래 데이터로 검증을 합니다. 이게

바로 교차 검증을 할 수가 있는 배깅에서의 강력한 방법입니다. 이것을

아웃브 백업이라고 불러요. 자,이 배깅에다가 의사결 나무를

결합을 하면요. 랜덤 포레스트라는 기법이 됩니다.

의사 근적 나무와 배깅을 결합을 해서 랜더 포레스트를 수행을 하게 되면은

편양은 높아지지만 분산이 감소해요. 의사 결정 나무의

단점이 뭐였냐면요. 과적합이 높았어요. 그래서 가지를 치거나

깊이를 규제를 하거나 이런 식으로 했었는데

분산이 감소하니까 강력한 모델이 돼요. 대신에 무작기성이 들어가니까

여기에 무작기성이 주입이 되니까 내부를 찾기가 어렵습니다. 내부를

확인하기가 어려워요. 의사 결정 나무는 내부를 확인하기 쉬웠지만 얘는

무작성이 들어가서 내부를 확인하기가 어렵습니다. 그래서 블랙박스 모델이

돼요. 랜더포레스트 정말 많이 쓰이는 모델이고요. 정말 중요한 모델입니다.

빨간색으로 쳐져 있다는 것은 시험에 정말 많이 나온다는 거겠죠?

자, 그다음 부스팅 기법은요.

데이터를요 있으면요 학습을 해요. 그다음에

다시 가중치를 둬서

다시 학습을 지키고 그다음에 또 가중치를 둬서 다시

학습을 지키고 이런 식으로 순차적으로 수행을 하는게 부스팅입니다.

잘못 분류된 데이터에 큰 가중치를 주는 방법이고요. 자, 아다부스트,

GBM, XD 부스트, 뭐 라이트 GBM 이런 다양한 기법들이

있습니다. 이런 기법들도 시험이 어려워지면 출제가 되니까 확인을 해

두시고요. 그다음에 스태킹이고요. 스태킹은 모델에서 학습한 예측 결과가

나오면이 예측 결과를 다시 하나의 학습기에다가 학습을 다시 시켜요.

자, 그래서 추가로 확인해 보면요. 보팅이나 배깅이나 랜덤 포레스트는

어쨌든 각각 병렬적으로 얘 학습 따로 얘 학습 따로 얘 학습 따로 하고

보팅도 여러 개 학습시켜서 다수결 하면 되니까 병렬 처리가 가능한데

부스팅은 어때요? 순차적이죠. 그래서 병렬 처리가 불과합니다. 여기까지

확인을 해 두시면 돼요. 그래서 앙상보로 보팅, 배인 부스팅,

스티킹네 가지 플러스 랜덤 포레스트까지이

세부적인 내용을 다 알아둬야 돼요. 앙상불 무조건 시험에 나옵니다.

자, 그다음은 인공신경망입니다. 인공신경망은 인간의 뉴런을 모방한

퍼셉트론이라는 것이 먼저 등장을 해요. 인간의 뉴런이라 하면은

외부에서 신호를 받아서 다음 뉴런에다가 신호를 전달합니다.

얘도 마찬가지예요. 외부에서 신호를 받아서 신호 강도가 결정이

되고요. 이것이 결합이 돼서 다음 신호로 전달을 하는

이러한층 퍼셉트론의 구조가 등장을 해요. 자, 그런데이 퍼셉트론은

선형의 문제밖에 풀 수가 없어요. 왜냐면은 어때요? 가중 회기의

형태예요. 생긴 게. 그래서 대표적인 컴퓨터의 비선형

문제인 엑월 문제를 해결할 수가 없습니다.

컴퓨터의 가장 대표적인 문제인데이 엑조차 해결을 못 하니까 인공신경망은

한 개가 있다라고 보는 겁니다. 그러다가

퍼셉트론을 여러 개 연결하면 어떻겠냐라는 거예요. 그래서

퍼셉트론을 이런 식으로 여러 개를 연결을 합니다. 여러 개를

이렇게 막 연결을 해요. 이렇게 연결하니까 다양한 문제들이

해결을 가능하더라. 그래서이 안을 우리가

안쪽에 있어서 볼 수 없다라고 해 가지고 은닉층이라고 부릅니다.

하나 이상의 은닉층을 삽입한 구조로 만들어요. 그러고 여기에 활성함수라는

것을 적용을 해요. 인간의 뉴런 같은 경우에는 입력이

들어오고 나서 출력을 할 때 그 출력이 어느 정도 수준이 되면은

출력을 하거든요. 얘도 마찬가지로 어떤 신호가 들어왔을 때이 신호가

특정 값이 넘는지 안 넘는지 확인을 해서 출력을 결정합니다. 이것을

활성함수라고 부르는데요.이 활성 함수로 어떤 걸 쓰냐면요.

시그모이드 함수를 씁니다. 앞에서 로지스틱 회계에서 배운 0에서 1

사이의 값을 출력하는 그래서 비선형 문제를 해결을 해요.

그리고 이런 신경망들을 구성을 해서 보니까 퍼셉트론을 여러 개 놓으면

놓을수록 더 복잡한 문제를 해결할 수 있겠구나라는 생각이 듭니다. 그래서

인공신경망은요. 블랙박스 모델이에요. 내부가 은닉되어

있어요. 은닉되어 있어서 구조로 확인하기 어렵고요.이

은닉층의 수용자가 직접 결정하고요. 각 은닉층에 있는요

노드의 개수 즉 퍼세트론의 개수도 사용자가 직접 결정을 하는

하이퍼파라미터라고 부릅니다. 이것을 사용자가 직접 설정을 해야 돼요.

누가 결정해 주지 않아요. 사용자가 직접 은닉층의 수 몇 개, 노드수 몇

개 정해 줘야 됩니다. 이것이 하이퍼 파라미터고요.

은닉층의 수가 많아지면요. 복잡한 문제 해결은 가능해져요. 하지만

과대적화 위험이 증가합니다. 복잡해지니깐요. 대시 은닉 총수가

너무 적어지면은 패턴을 학습을 못 합니다. 그럼 과소 적합이

가능하겠죠. 자, 그러면이 퍼셉트론 각각의 가중치들과

편형들이 엄청나게 많을 거잖아요.이 안에 얘네들을 학습을 시켜야 되는데

어떻게 학습을 시켰냐라고 보면요. 첫 번째는 순전파를 통해

정보를 앞으로 전달합니다. 순전파로 앞으로 전달해요. 그러면

연결되어 있는 노드들끼리 알아서 계산이 되면서 여기에 값이

튀어나오겠죠. 이 값에 5차를 구할 수 있을

겁니다. 5차. 5차를 구할 수 있을 거예요. 이것을

우리가 손실 함수라고 불러요. 자, 5차를 계산하고 났으면요.이

5차를 다시 역으로 거꾸로 전파를 해서이

가중치들과 절편들을 갱신을 시킵니다. 이걸 우리가 역전파 알고리즘이라고

불러요. 자, 그러면은 우리가 선형기에서

이러 잔차 제곱합을 최소가 되는 5차가 최소화가 되는이

지점을 찾기 위해서 최소 제곱법을 했어요.

근데 여기는 너무 복잡해서이

최소가 되는 지점을 찾기가 너무 어렵습니다. 인공신경망에서는 너무

어려운 문제예요. 이것을 찾기가. 그래서 어떻게 생각을 했냐면은 아,

sse가 결국 뭐 손실 함수랑 같은 거잖아요. 5차 함수니까.이 손실

함수를 최소가 되도록 하기 위해서 여기서부터 경사를 타고 계속 한 땀

한 땀 내려가자. 조금조금씩 컴퓨터한테 시켜서 조금씩

경사를 타고 내려가게 하자. 그러면 언젠가는이 지점에 도착할 거야.

가 경사 하강법이 됩니다. 내리막길로 이동해서 5차가 최소가

되는 최적개를 찾도록 해요. 자, 그런데 앞에서 활성 함수를 시그모이드

함수로 쓰고 있다라고 했어요. 그래서 시그모이드 함수를 통해서 비선형

문제를 해결하고 있었는데 기울기 소실 문제가 발생합니다.

은닉층이 많아지면요. 얘가 경사를 타고 내려가야 되는데 경사를 타고 못

내려가고 찔끔찔끔 내려가요. 병사를 타고 여기까지 도착하고

싶어요. 우리는 도착하고 싶은데 도착이 안 돼요.

학습이 제대로 되지 않습니다. 시그모이드 함수에서.

그래서 활성 함수를요. 은닉층에서는 시그모이드 함수를 처음에는 사용을

했어요. 0에서 1 사이의 확률값을 가지고 로지스틱 회기 분석과 유사한

형태를 사용을 했으나 기울기를 타고 내려가지 못하니까 하이퍼볼릭 탄젠트

함수라는 것을 적용합니다. -1에서 1 사이값을 갖는 하이퍼볼릭 탄젠트

함수를 적용했는데 기울기를 타고 내려가긴 내려가는데 어때요? 기울기가

소실 문제가 지연은 된다. 즉 해결되지 못하고 그냥 늦쳐질 뿐이지

완전히 해결되지 않는다라는 거예요. 그래서 고민을 하다가 사람들이 렐루

함수라는 것을 적용을 합니다.이 렐루 함수를 통해서 기울기 소실 문제가

극복이 돼요. 자, 그래서이 활성 함수들 챙겨

두시고요. 출력층은 어떻게 결정을 하느냐라고

보면요. 여기 다시 신경망의 구조가 엄청 복잡할 텐데.

자, 이렇게 엄청 엉켜 있을 겁니다. 지금 신경마들끼리 여기 내부도 엄청

엉켜 있고 밖에 나올 때 여기서 계산이 돼서 이제

여기에 출력이 될 텐데 출력이 될 때 값이 0에서 1 사이의 값이 나오면은

어때요? 확률로 계산할 수가 있죠. 앞에서

로지스틱 회기해서 어떻게 했어요? 50%의 확률이 넘으면은 상위권,

50%보다 낮으면 하위권이었어요. 즉 0에서 1 사이로 만들어 주면은 어떤

값이 나오든 0에서 1 사이 값으로 만들어 주면은 확률이 될 겁니다.

그래서 출력에서는요. 이증류

즉 상위권이냐 해권이냐 이런 것을 구분할 때는 앞에서 배운 시그모이드

함수를 여기다 적용을 하는 거예요. 시그모이드 함수를 여기다 적용을 해서

0 사이로 만들어 줍니다. 자, 그런데

다중 분류 모델이 있어요. 분류가 세 가지인 경우가 있을

겁니다. 포도, 바나나, 사과. 포도, 바나나,

사과. 이런 식으로 세 가지가 출력되는 경우가 있어요. 자, 그러면

이런 것들이 다 연결돼서 될 테고. 자,요 각각이 포도, 바나나, 사과로

결과가 출력이 될 텐데. 자, 열심히 계산돼서 나온 값들을

계산돼서 나온 값들을 0.7, 0.2, 0.1 이런 식으로

되도록 즉 나온 값들을 합이 1이 되도록 만들어

주면요. 아, 얘는 포돌 확률이

70%구나.라고 라고 해서 다중 분류 문제에 활용을

할 수가 있게 됩니다. 이것을 우리가 소프트 맥스 함수라고

불러요.이 함수 수식을 적용하면 어떤 값들이 나와도이 함수를 적용하는 순간

총합이 1이 되는 확률이 나오게 됩니다.

그래서 이것을 통해 다중 분류 문제를 해결할 수 있게 된다라는 것으로

확인이 가능하요. 그리고 경사강법을 적용하려면요.

경사를 타고 내려가야 되니까이 손실 함수를 정리를 해야 되는데

폐기 문제에서는 SS2의 평균인 MSE를 쓰면 돼요.

아래로 볼록한 MSE를 쓰면 되고 분류 문제에서는

확률을 계산하는 크로스 엔트로피라는 손실

함수를 적용합니다.이 손실 함수를 통해서 목적은 경사 하강을 하기

위함이에요. 최소의 5차를 찾기 위함입니다.

자, 인공신경망 최근 들어서 시험에 정말 어렵게

나오고 복잡하게 출제가 됩니다. 인공신경만과 관련된 부분은 저희

유튜브 채널에 인공지능 특강에 딥러닝 파트 보시면은 제가 훨씬 더 자세하게

설명을 해 놨습니다. 그래서 시간이 되시면 그 부분을 참고하시고 혹은

교재를 참고해서 교재에 있는 강의들도 있을 거예요. 그런 강의들도 활용해서

더 학습을 해 두시면 좋을 것 같습니다.

자, 그다음은 분류 모델을 평가하는 평가 지표에 대해서 봐 보도록

할게요. 자,이 부분은 무조건 여러분들 시험에 나옵니다. 무조건

나와요. 여러분들이 들어가는 시험장에서 이것은 무조건 한 문제

이상은 만나게 돼 있어요. 자, 예측이 트루고요. 실제가 트루이면요

트루 파지티브. 예측이 쓰고 실제가 퍼스면 트루 네거티브. 그리고 예측이

트루인데 실제가 퍼스면 퍼스 포지티브 예측이 퍼스인데 실제가 트루면 퍼스

네거티브 이런 표를 하나 만들 수가 있습니다. 이것을 만든 다음에 이것에

대해 다양한 평가 지표들이 있어요.이 평가 지표를 계산하는 문제가 시험에

나올 수도 있고요. 평가 지표에 대해서 개념을 물어보는 문제가 나올

수도 있고 혹은이 오블류표의 개념에 대해서 물어보는 문제가 나올 수도

있습니다. 그리고 아까도 말씀드렸는데 이거 위치로 외우시면 안 돼요.

예측과 실제 가로 세로축이 바뀔 수도 있습니다. 그러니까 정확하게 외워

두시고 보통은 정밀도와 제연율을 많이

보는데요. 정밀도와 제연율은 하나를 신경 쓰면 하나를 포기해야 되는

트레이트오프 관계에 있습니다. 그래서이 둘을 보기 위해서 F1

스코라는 것을 활용해. 조합 평균으로 활용을 합니다. 그리고이 제연율은

시험에서 민감도라고 나올 수도 있고요. 트루퍼지티브 레이트 혹은

히트 레이트라고도 나올 수도 있으니까 다 챙겨 두세요. F 베타 스코어를

활용하면요. 제연과 정밀도에 비중을 둘 수가 있습니다. 그리고이 5분표를

가지고 내가 가로축에는 벌스 포지티브 레이트 그리고 세로축에는 t r을

하고 나서 그래프를 그리면 이런 식으로 그래프가 그려집니다. 자,이

면적이 아래 면적을 우리가 AUC라고 불러요. 에어리어더 커브. 그래서

AUC라고 부르는데 얘는 최악인 경우는요.

이런 식으로 돼서 0.5가 5가 됩니다.

그리고 최고의 모델이면요. 이렇게 사각형이

돼서 0 1을 지나고요. 합이 1이 됩니다.

그래서 0.5와 뭐 1 사이의 값이 있으면 1에 가까울수록 모델 성능이

좋다라는 것까지 챙겨 두세요. 자, 이렇게 해서 앞에서지도 학습의 분류에

대해서 공부를 했고요. 더 앞에서 통계 쪽에서 회기까지 공부를

했습니다. 이번에는 정답이 없는 문제인 비지도 학습에서의 군집 분석을

해 보도록 하겠습니다. 군집 분석은요. 데이터 간의 거리나

유사성을 기준으로 군집을 나눕니다. 데이터가

자 1 2 3 4 이렇게 데이터가 있어요. 그러면이 데이터들 사이에

거리를 보는 겁니다. 어 1과 2가 가깝네. 그래서 1과 2를 가깝게

그려 주고요. 어 그다음에 3과 1 2가 가까운 거 같아. 그래서 3과

1 2를 묶어 줍니다. 그리고 마지막으로 4와 나머지가

가까운 거 같아라고 해서 8를 묶어 주면 이런 식의 계층적 그래프가

나옵니다. 이것을 우리가 덴드로그램이라고 불러요. 데이터 간의

유사성을 기준으로 군집을 현석을 하는 방법이 계층적 방법이고요.

덴드로그램이 있습니다.이 덴드로그램을 해석하는 방법은요. 거리를 15에서

쪼개요. 그러면 어떻게 될까요? A, B,

CD, EF 즉 세 개의 군집으로 나눌 수가 있죠. 만약에 25에서

쪼개면요. A, 그리고 CDEF 두 개의

군집으로 쪼갤 수가 있습니다. 자, 이런 군집 분석 방법 외에 나머지

방법을 다 비계층적 군집 분석이라고 부릅니다. 우선은 계층적 군집

분석에서 확인해야 될 거는요. 데이터 간의

거리는 어떻게 측정을 할 것이냐. 그리고 분간의 거리는 또 어떻게

측정을 할 것이냐라는 두 가지 문제가 있습니다.

데이터 간의 거리를 측정하는 방식은요. 유클리디안 거리, 매나턴

거리, 뭐 체브시프 거리, 민코스 거리, 마을러비스 거리, 표준화 거리

다양한 방법이 있어요. 자, 이거 시험 문제에 무조건 출제가 된다라고

보고요. 외워 두셔야 됩니다. 거리를 계산하는 방법은 정말 다양해요.

이것은 여러분들이 확인해 보시면 될 거고 검주형 변수 같은 경우에는요.

A라는 사람이 1번, 2번, 3번, 4번 제품을 1번은 구매 안 했고요.

2번은 구매했고 3번은 구매 안 했고 4번은 구매했어요. 그리고 B라는

사람은요. 1번은 구매했고요. 2번 구매 안 했고 3번 구매 안 했고

4번 구매했어요. 그러면 얘를 0 1 0 1이라는

벡터로 표현이 가능하고 얘는 1 0 1이라는 벡터로 표현은 가능합니다.

그럼 얘를 합집합분의 교집합으로 해서 어 겹치는게 뭐예요? 하나니까 1

이런 식으로 표현을 할 수가 있을 거고요. 코사인 유사도는요. 두

벡터의 각도를 계산할 수가 있겠죠. 이것이 코사인 유사도가 됩니다.

그래서 범죄용 배수는 자카드 유사도나 코사인 유사도로 계산을 할 수가

있습니다. 시험이 쉬우면 다음 중 변수 거리 계산 방식의 종류가 다른

것 이런 거 물어볼 수 있고요. 시험이 조금 어려워지면은 이런 식으로

야 일반한 거리 뭐냐? 민코스키 거려 혹은 수식 주구

야 이거 무슨 거리야? 그럼 민코스키 거려 이렇게 물어볼 수 있겠죠? 혹은

이렇게 계산한 문제도 나올 수 있고요. 그다음에 군집간의 거리는

어떻게 하냐? 군직간에 가장 가까운 데이터로

연결하는 최단 연결법 혹은 가장 먼 데이터를 연결하는 최장, 평균,

중심, 편차 제곱합을 활용한 와드 연골법 이런 것들이 있을 겁니다.

자, 얘도 시험 문제에 자주 출제가 되니까 구분하실 줄 알아야 돼요.

자, 그다음은 비계층 군집파에 대해서 설명을 드릴게요. 우선 케이민즈부터

먼저 보도록 하겠습니다. 알고리즘에 대해서 먼저 사례로 좀 얘기를

드릴게요. 자, 이렇게 되어 있는 데이터가

있다라고 가정을 해 볼게요. 그래서 저는이 데이터들을 군지파를 사용을 할

거예요. 첫 번째는 중심점을 임의로 정의를 합니다. 저는 중심점을

여기랑 여기로 정의를 해 볼게요. 첫 번째로

이게 뭐냐면요. 개수를 K를 초기에 설정을 하는

겁니다. K를 몇 개로 설정을 했냐면요. 두 개로 지금 설정을 한

거예요. 그리고 K계로 초기 중심점을 임의로 랜덤하게 설정을 했습니다.

랜덤하게 이렇게 설정이 됐고요. 데이터들을 가장 가까운 군집에 할당을

시킵니다. 자, 그러면은이 데이터들은 여기에 가까울 거

같고요.요 데이터들은요

x에 가까울 거 같아요. 이렇게 가까우니까 묶고 난 다음에 다시

데이터를 평균으로 중심점을 재설정합니다. 그럼

평균을 계상되고 나니까 어떻게 되냐면요.

여기가 지어지고 얘네들이 지어지고요 정도쯤이

평균이 될 거 같아요. 왜냐면은 위쪽에 데이터들이 많으니까 이쪽으로

평균이 더 쏠리겠죠. 그리고 여기는요 가운데인요 정도가 평균이 될 거

같아요. 그러고 난 다음에 다시 반복을 하는 겁니다. 다시 반복을

해요. 그래서 보니까 이번에는 얘가 이렇게 하나의 군집이 될 거 같고

여기가 이렇게가 하나의 군집이 될 거 같아요. 자, 이것을 반복하다가

중심점이 변하지 않는 순간이 올 겁니다. 그러면 과정을 반복을

종료하는 이게 바로민즈 군지파예요. 그래서 군집의 수를 사전에 지정을

해야 돼요. 지금은 k는 2로 설정을 해서 군집을 두 개로 하겠다라고

설정을 한 거고요.이 데이터 같은 경우는 어때요? 첫

번째에는 이쪽에 속해 있다가 두 번째에는 이쪽으로 속하게 됐죠.

중심점이 변경되면 군집이 변할 수 있습니다.

그리고 이상치나 초기 중심점 설정에 민감하겠죠.이 이 초기 중심점이

어떻게 랜덤하게 설정되느냐에 따라도 달라질 거고 저 끝에 이상한 x가

이상치료 있어요. 여기 끝에. 그러면은 중심을 평균으로 계산해야

되니까 계산되는 과정에서 민감하게 반응이 될 수도 있겠죠.

그래서 이런 것들을 방지하기 위해서 실제 데이터를 대표값을 중심점으로

선정하는 K 매도이즈 기법도 있고요. 범주형 데이터인 경우에는

수치의 평균을 계산할 수가 없으니 최빈값으로 활용합니다. 이것을 K모즈

기법이라고도 합니다. 이것이 거리 기반 K민즈 군집파고요. 그다음에

DB 스캔 기법이 있어요. DB 스캔은 1도 기반입니다.

그래서 데이터가 이렇게 있다라고 가정을 해 볼게요.

그러면 밀도 기반으로 밀도가 높은 애를

하나의 군집, 또 밀도가 높은 애를 하나의 군집 그리고 얘를 이상치라고

알아서 판정을 하는 방법이 DB 스캔이에요. 밀도 기반이고요. 얘는

밀도 기반이기 때문에 사전에 정하지 않아요. K민즈는 사전에 정했습니다.

하지만 비캔은 정하지 않아요. 그리고 노이즈와 이상치에 강하죠. K민는

이상치가 학습에 영향을 미치지만 DB 스캔은 이상치로 알아서 분류를 해

줘요. 자, 그럼 밀도를 어떻게 설정할 거냐라는게 중요한데

내 주변에 내 주변에 얼마나 범위에서이

범위 내에이 범위 내에 몇 개의 데이터가 존재할

거냐라는게 밀도로 설정이 됩니다. 내 주변

얼마만큼 거리 안에 몇 개의 데이터가 들어 있느냐가 밀도의 기준이 될

거예요. 그래서 거리와 최소 포인트 개수 두 개는 사전에 설정해야

됩니다. 사전에 설정해야 되는 이것을 뭐라고 했어요? 우리가

하이퍼파라미터라고 인공신경망에서 얘기를 했습니다.

하이퍼파라미터 용어 기억해 두시고요. 사전에 설정을 해야 됩니다. 자,

그럼이 군제배 개수 K도 하이퍼파라미터겠죠?

자,이 분지배 개수 K는 K민제에서는 설정을 무조건 해 줘야 되는데 어떻게

해 줄 거냐면요. 엘보 메소드를 활용하면은

우리가 최적의 K를 설정을 할 수가 있습니다. 그건 뒤에서 다루도록

할게요. 자, 그다음 그 외에 시험에 가끔

출제되는 군지파들에 대해서 얘기를 좀 하면요. 퍼지 군치파는요. 확률적으로

분포를 가지고 이렇게 있을 때 아,이 데이터는 A

군집이야.이 데이터는 B 군집이야. 이런 식으로 얘기하는게 바로

퍼지군집입니다. 확률을 기반으로 계산을 하고요. 얘의 특징은

A가 B에도 속할 수가 있어요. 왜냐면요 가운데 지점은 A 확률과

B1 확률 둘 다 존재를 하죠. 그래서 A 부분과 B 부분 둘 다

할당이 될 수 있습니다. 케이민즈나 디비스캔은

무조건 한 군데에만 속할 수밖에 없었지만이 확률을 기반으로 하는 순간

각각의 확률이 들어갈 수가 있기 때문에 조금 더 유하게

분지파가 가능합니다. 그리고 분포 기반으로 해서 가능성을

기대값을 계산하는 2단계와 기대값을 최대화시키는 m 단계 2m 단계를

반복합니다. 이것을 알고리즘이라고 부르고요. 그리고 자기 조직하지도

얘는 시험에 정말 자주 출제가 되는 애 중 하나입니다.

얘는 한마디로 표현하면요. 차원 축소 플러스

인공식령 망플러스 군지파라고 보시면 돼요.

신경망을 활용해서 차원 축소를 하고요. 이걸로 군지를 하는

방법입니다. 자, 신경끼이

완전 연결돼 있어요. 중간에 끊긴게 없이 신경막길이 다 완전 연결돼

있습니다. 이것을 완전 연결하고요. 인공신경 마응은 역전파 방식으로

경사학법을 통해 학습을 했지만 얘는 순전파 방식 앞으로 나가는 것만

사용을 합니다. 대신이 각 노드들이 경쟁을 하는 경쟁 학습을 해요.

자, 요런 키워드들을 챙겨 두세요. 자, 그다음 군집 분석은 어떻게

평가를 할 거냐라는 평가 지표에 대해 살펴보겠습니다.

분류 분석이나 회기 분석 같은 경우에는 정답이 있어요. 정답이

있으니까 그 정답과 어느 정도 차이가 있는지를 보면 돼요. 그래서 회기

분석은 알스퀘어 같은 것들을 활용을 했고 분류 분석은 오블류표를

활용했습니다. 하지만 군집 분석은 정답이 없기 때문에

신루의 계수라는 것을 활용해서 군집간에는요 응집도가 높고요. 다른

군집간에는 응집도가 낮은 즉 내가 속한 군집은 똘똘 뭉쳐야 되고 나와

다른 군집가는 최대한 멀리 떨어져 있어야 된다라는 그것을 평가를

합니다. 그것이 실루엣의 계수예요. 자, 그다음에 WCS도

있습니다. WCSS도 마찬가지로 군집간에는 응집도가 높고 다른

군집간에는 응집도가 낮은 즉 분리도가 높은

높은 것을 측정을 하는 거고요. 얘 같은 경우에는이 WCSS를

활용하면은 K민즈에 적용을 하면 이것을 엘보

메소드로 활용을 할 수가 있습니다. K민즈에서 K는 1로 적용할 때

WCSS가 높게 나와요. 그러다 K를 2로 적용하면 WCSS가 낮아지고

K를 3으로 적용하면 더 낮아지고 이러다가 점점 팔꿈치가 꺾이는 지점이

오게 됩니다. 엘보라는게 팔꿈치잖아요.이 팔꿈치가 꺾이는

지점이 오면은 분지 배수를 늘려도 더 이상 WCSS가 줄지 않으니 아

그러면 여기가 최적의 K의 개수구나라는

것이 바로 엘보 메소드 기법입니다.이 이 엘보 메소드를 통해서 K민에서의

K를 설정을 할 수가 있겠죠. 그래서 문제에 이러한 그래프가 나오고

최적의 K 구하라고 하면요. 팔꿈치가 꺾이는 지점을 고르시면 되는 거예요.

자, 그다음 마지막입니다. 연간 분석이에요. 연관 분석도 비지도

학습이고요. 연관 분석은 특징을 보기 전에 먼저

사례를 먼저 볼게요. 사례를 먼저 봐야 이해가 쉽습니다. 지표를 먼저

볼게요. 지지도와 신뢰도 그리고 향상도를

구할 수가 있는데요. 대표적인 지표 세 가지 지지도, 신뢰도 향상도

지신향 외워 두시고요. 지지도는 A와 B 두 품목이 동시에 포함된 거래

비율입니다. 그리고 신뢰도는 A가 거래될 때 B품목도 거래될 확률 즉

조건부 확률이죠. 그렇죠? A가 거래될 때 B가 거래될 확률이

PA분 PA 교집합 B잖아요. 그다음에 향상도는요. A 품목과 B

품목의 상관성을 나타냅니다. 1보다 크면 양의 상관 관계, 1이면

상관없고 1보다 작으면 음의 상관 관계를 나타내요.

자, 그러면 문제 한번 봐 보도록 할게요. 맥주를 구매할 때 치킨을

구매하는 경우에 실내도와 향상도를 계산해라라고 했습니다. 자, 우선

맥주 구매 확률은요. 맥주 어디 있어요? 여기 하나, 둘, 셋,네

개죠. 이거 전체 개수 200개예요. 그래서 200분의 10, 20,

30, 40 더하면 0.5 나오고요. 치킨은요? 하나, 둘,

셋, 넷. 그러면 0.45가 나옵니다. 그럼 맥주와 치킨의

지지도는 어떻게 되냐면요. 동시에 거래된 비율이죠. 맥주 치킨 여기

20개랑 또 맥주 치킨 여기 40개 있네요. 그러면 60해서 0.3이

나옵니다. 자, 그럼 맥주를 구매할 때 치킨을 구매하는 것의 실내도는

0.5분의 0.3해서 0.6 나옵니다. 이거는 공식 그대로 넣으면

돼요. 그리고 향상도는 0.5 * 0.45분의 0.3하면 1.33

나오죠. 자, 이러면은 무엇을 알 수 있어요?

우리가 맥주를 구매한 사람은 60%의 확률로 치킨을 구매하는구나라는 것을

알 수가 있고요. 맥주랑 치킨은 양의 상관 관계가 있구나라는 것을 알 수가

있습니다. 자,이 상태에서 위에 올라가서 특징 한번 볼게요. 조건

결과로 이루어지는 패턴을 발견하는 기법입니다. 그래서 장바구니

분석이라고도 부르고요. 결과가 단순하고 분명해요. 맥주를

사면 치킨을 산다.이 이 그리고 목적이 없어요.

거래된 데이터들 내역 가지고 수식만 적용해 보면은 내가 알지 못하는

새로운 패턴들이 나옵니다. 그래서 비지도 학습이고요. 대신에 품목수가

증가하면요. 계산량이 기하급수적으로 늘어나겠죠.

마지막으로 빈바람 도출 알고리즘에 대해서 설명을 드릴게요. 앞에서 연간

규칙 분석의 단점은요. 항목수가 많해질수록 계산량이 증가한다라고

했어요. 그러면 정말 거래가 잘 안 되는 항목들은 없애는게 계산의 연간

규칙 분석에 사용하지 않는게 좋겠죠. 그래서 에프라이오리 혹은 어프라이오리

알고리즘이라고 불리는 이것을 통해서 최소 지지도를 만족하는 빈발 항목을

추출해서 영광 규칙 분석의 연산력을 줄일 수가 있습니다. 자, 절차는

다음과 같고요. 진도수 집합을 탐색을 해서요. 최소

지지도를 확인을 해요. 그리고 나서 후보 집합을 생성하고 반복 탐색을

해서 우리 가게에 거래량이 적은 데이터들은

영광 규칙에 사용하지 않겠다라는 것이 핵심입니다. 과거에는 절차를 물어보는

문제까지 시험에 나왔었는데 최근에는 어프라이오리 알고리즘을 활용해서 빈발

항목을 도출하는 것까지 시험에 나온 적이 있어요. 지금은 요약강이기

때문에 거기까지는 다루지 않겠지만 여러분들이 기출을 통해 확인을 해

보시고요. 혹시나 잘 모르겠다 하시면은 교재 강의에도 있을 거고요.

혹은 저희 인공지능 특강에 영광규칙 분석 쪽 보시면은 제가 자세히 설명해

놨습니다. 그것도 한번 확인을 해 보세요. 시간이 되시면. 그리고이

A프라이오리 알고리즘은 항상 할 때마다 반복을 여러 번

걸쳐야 돼요. 반복을 여러 번 걸쳐야 돼서 이것을 조금 더 간단히 하기

위해 트리 기반으로 연산 효율을 상승시킨 FP 그로스 알고리즘도

있다라는 것으로 정리를 해 두시면 됩니다. 자, 이렇게 해서 처음부터

끝까지 다 정리를 했습니다. 여기까지 강의 들어 주시느라

수고하셨고요. 시험에 좋은 결과 있기를 바라겠습니다. 고생하셨습니다.