1 순열 과 조합
- 서로 다른 n개의 원에서 순서를 고려하지 않고 r개를 택할 때, 이 r 개로 이루어진 각각의 집합을 n 개에서 r개 택한 조합(Combibation) 이라 하고
nCr 로 나타낸다.
- 계산공식과 nC0 의 정의
(1) nCr = nPr / r!
(2) nCr = n!/r!*(n-r)!
(3) nC0 = 1
- 중복을 허락해서 n 개에서 r 개를 선택(여기서는 r이 n 보다 클수 있다.) 할때 늘어놓는 법을 생각지 않는것 을 중복조합이라 고하고 nHr 로 표현한다.
nHr = (n+r-1)Cr 의 관계가 성립한다.
* 간단한 정리 ‘
순열
순서를 생각한다. 중복을 허락하지 않는다.
P
중복순열
순서를 생각한다. 중복을 허락한다.
ㅠ
조합
순서를 생각하지 않는다. 중복을 허락하지 않는다.
C
중복조합
순서를 생각하지 않는다. 중복을 허락한다.
H
2 확률 #
용어 | 원어 | 의미 및 수식 |
시행 | 주사위를 던지거나 출생아의 성별등을 조사하는 것 같은 가능한 모든 결과의 집할을 알수 있는 관찰, 조사, 실험 | |
표본공간, 표본집합 | 어떤 시행에서 일어날수 있는 모든 가능한 결과의 집합 |
3 통계용어 #
용어 | 원어 | 의미 및 수식 |
상관관계 | Correlation | |
p-Value | ||
결측치 | ||
분산 | 자료 분포의 흩어짐 정도(산포도)를 나타내는 양 중 가장 전형적인 양 (각 편차의 제곱의 평균) | |
표준편차 | 각 데이터가 평균과 얼마나 차이를 가지느냐를 알려주는 값 (분산의 양의 제곱근) | |
표준오차 | 추정량의 정도를 나타내는 측도로써 표준편차를 표본크기의 양의 제곱근으로 나눈 것. 즉, 샘플링을 여러 번 했을 때 각 샘플들의 평균이 전체 평균과 얼마나 차이를 보이는가를 알 수 있는 통계량 | |
중앙값 | 자료를 크기순으로 나열했을때 가운데에 위치하는 값 (홀수면 (N+1)/2 번째 자료, 짝수면 N/2번째와 N/2+1번째 자료의 평균) | |
사분위수 | 자료를 크기순으로 나열하여 4등분했을때 첫번째 자료를 제1사분위수, 세번째 자료를 제3사분위수 라고 한다. | |
사분위수 범위 | IRQ(Inter Quaritile Range) | 제3사분위수-제1사분위수 |
z-값 | 평균으로부터 표준편차의 몇 배만큼 떨어져 있는가를 나타내는 값 (X-평균/표준편차) | |
변이계수 | 성질이 다른 집단간의 산포도를 비교하는 값(ex:어른과 아기의 몸무게 변동) (표준편차/평균) |
3.1 사분위수 #
가장작은수를 x(1) 두번째로 작은수를 x(2) …. n번째로 작은수를 x(n) 으로 두고. 제1사분위수(Q1) : x((n+1)/4) 제2사분위수(Q2) : x((n+1)/2) ==> Me(중위수 or 중앙값) 제3사분위수(Q2) : x(3(n+1)/4)3.2 변이계수 #
위에서 예를 든 어른과 아이의 몸무게의 변화의 경우 어른의 몸무게 자체가 아이보다 훨씬 많고 변동폭 자체가 크가. 그에 반해 아이는 적은 몸무게를 가지고 상대적으로 적어보이는 변동폭을 가지고 있으므로 이 둘간의 산포도를 비교할때는 몸무게의 평균을 감안한 표준편차를 따져야 한다. 이 값이 바로 변이계수이다.4 확률분포 #
용어 | 원어 | 의미 및 수식 |
확률변수 | 그 값이 확률에 의존하는 변수를 | |
이항확률 | 성공이나 실패로 나누어 지는 확률(변수) ex) 동전의 앞이 나올확률, 사격이 성공할 확률 | |
포아송획률변수 | 단위시간, 단위공간당 발생하는 사건의 회수 |
4.1 확률변수 #
예를 들어 동전 3개를 던졌을때 앞면이 나오는 경우 -> 0,1,2,3 이며 이들 값은 확률에 의존하게 된다. 관례적으로 확률변수는 대문자 X로 표시하고 확률변수가 취하는 값은 소문자 x로 표시한다.4.2 이항확률분포 #
동전의 앞면이 나올 확률은 1/2 이다. 즉 각 실험에서의 성공확률은 1/2 이고 첫번째 시도와 두번째시도는 각각의 시도에 어떤 영향도 미치지 않는다. 이를 각 실험에 독립적이다 라고 표현하며 이와 같은 확률 변수를 이항확률변수 라고 하며, 이 변의 성공은 횟수분포를 이항분포 라고 한다.EX) 동전을 5번 던졌을때 앞면이 두번 나올 확률은? 5C2*(1/2)^2*(1/2)^(5-2) = 5/16
위의 확률을 계산할때 C의 연산은 팩토리알 연산을 포함하기 때문에 연산중 상당히 큰 숫자를 포함하여 int형 범위를 넘어설수 있다. 따라서 P[x] = n!/x!(n-x)! * p^x * (1-p)^(n-x) ( n : 실험횟수, p : 성공확률 ) 이라고 할때 P[0] = (1-p)^n 으로 계산하고 P[ x+1 ] = (n-1)/(x+1) * p/(1-p)*P[x] 의 관계식으로 나머지 값을 계산하게 된다.
4.3 포아송확률분포 #
단위 시간당, 단위공간당 발생하는 사건의 횟수를 포아송 확률변수라 하고 이의 분포를 포아송 분포라고 한다.예 | 종류 | 단위 |
한시간당 걸려오는 전화 횟수 | 단위시간 | 한시간 |
일주일당 발생하는 교통사고수 | 단위시간 | 일주일 |
원료 1톤당 발생하는 불량품의수 | 단위공간 | 1톤 |
EX) 어느 사무실에 1분당 평균 5통의 전화가 걸려 온다고 한다. xx일 yy분 1분동안 전화가 6통 걸려 올 확률은? PX=6 = e^(-5) * 5^6 / 6! = 0.1462
포아송의 평균과 분산
이항분포의 경우와 마찬가지 이유로 for 루프를 돌려서 직접 포아송 확률값을 구할수가 없다. 따라서 관계식을 구해보면 P[0] = e^(-m) P[ x+1 ] = m/(x+1)P[x] - 평균 = m
- 분산 = m
악 이게 뭐야
놀라지 마세요. 저도 다 잊었어요.