통계관련 정리 – 1



1 순열 과 조합



  • 서로 다른 n개의 원에서 순서를 고려하지 않고 r개를 택할 때, 이 r 개로 이루어진 각각의 집합을 n 개에서 r개 택한 조합(Combibation) 이라 하고
    nCr 로 나타낸다.

  • 계산공식과 nC0 의 정의
     (1) nCr = nPr / r!
    (2) nCr = n!/r!*(n-r)!
    (3) nC0 = 1
C 와 P 에 대해 간단히 말하면 P는 어떤것을 선택할시 순서가 다를경우 그 선택이 다른것 이 되는 경우고 C는 순서는 상관없이 어떤 것들을 선택했는가 이다. 이것은 이후에 나오는 중복조합에도 마친가지 이다.



  • 중복을 허락해서 n 개에서 r 개를 선택(여기서는 r이 n 보다 클수 있다.) 할때 늘어놓는 법을 생각지 않는것 을 중복조합이라 고하고 nHr 로 표현한다.
     nHr = (n+r-1)Cr 의 관계가 성립한다.

    * 간단한 정리

















    순열 순서를 생각한다. 중복을 허락하지 않는다. P
    중복순열 순서를 생각한다. 중복을 허락한다.
    조합 순서를 생각하지 않는다. 중복을 허락하지 않는다. C
    중복조합 순서를 생각하지 않는다. 중복을 허락한다. H

2 확률 #












용어 원어 의미 및 수식
시행 주사위를 던지거나 출생아의 성별등을 조사하는 것 같은 가능한 모든 결과의 집할을 알수 있는 관찰, 조사, 실험
표본공간, 표본집합 어떤 시행에서 일어날수 있는 모든 가능한 결과의 집합

3 통계용어 #







































용어 원어 의미 및 수식
상관관계 Correlation
p-Value
결측치
분산 자료 분포의 흩어짐 정도(산포도)를 나타내는 양 중 가장 전형적인 양 (각 편차의 제곱의 평균)
표준편차 각 데이터가 평균과 얼마나 차이를 가지느냐를 알려주는 값 (분산의 양의 제곱근)
표준오차 추정량의 정도를 나타내는 측도로써 표준편차를 표본크기의 양의 제곱근으로 나눈 것. 즉, 샘플링을 여러 번 했을 때 각 샘플들의 평균이 전체 평균과 얼마나 차이를 보이는가를 알 수 있는 통계량
중앙값 자료를 크기순으로 나열했을때 가운데에 위치하는 값 (홀수면 (N+1)/2 번째 자료, 짝수면 N/2번째와 N/2+1번째 자료의 평균)
사분위수 자료를 크기순으로 나열하여 4등분했을때 첫번째 자료를 제1사분위수, 세번째 자료를 제3사분위수 라고 한다.
사분위수 범위 IRQ(Inter Quaritile Range) 제3사분위수-제1사분위수
z-값 평균으로부터 표준편차의 몇 배만큼 떨어져 있는가를 나타내는 값 (X-평균/표준편차)
변이계수 성질이 다른 집단간의 산포도를 비교하는 값(ex:어른과 아기의 몸무게 변동) (표준편차/평균)


3.1 사분위수 #

가장작은수를 x(1) 두번째로 작은수를 x(2) …. n번째로 작은수를 x(n) 으로 두고. 제1사분위수(Q1) : x((n+1)/4) 제2사분위수(Q2) : x((n+1)/2) ==> Me(중위수 or 중앙값) 제3사분위수(Q2) : x(3(n+1)/4)

3.2 변이계수 #

위에서 예를 든 어른과 아이의 몸무게의 변화의 경우 어른의 몸무게 자체가 아이보다 훨씬 많고 변동폭 자체가 크가. 그에 반해 아이는 적은 몸무게를 가지고 상대적으로 적어보이는 변동폭을 가지고 있으므로 이 둘간의 산포도를 비교할때는 몸무게의 평균을 감안한 표준편차를 따져야 한다. 이 값이 바로 변이계수이다.

4 확률분포 #
















용어 원어 의미 및 수식
확률변수 그 값이 확률에 의존하는 변수를
이항확률 성공이나 실패로 나누어 지는 확률(변수) ex) 동전의 앞이 나올확률, 사격이 성공할 확률
포아송획률변수 단위시간, 단위공간당 발생하는 사건의 회수


4.1 확률변수 #

예를 들어 동전 3개를 던졌을때 앞면이 나오는 경우 -> 0,1,2,3 이며 이들 값은 확률에 의존하게 된다. 관례적으로 확률변수는 대문자 X로 표시하고 확률변수가 취하는 값은 소문자 x로 표시한다.
  • 이산 확률변수 : 주사위를 던졌을때 나오는 값이나 위에서 예를 든 동전의 앞면수 등은 확률변수가 취하는 값을 모두 열거할 수 있는 값
  • 연속 확률변수 : 낚시로 잡은 물고기의 무게나 은행이 발행한 지폐의 수명등 확률변수가 취할수 있는 값이 연속적인 것

    4.2 이항확률분포 #

    동전의 앞면이 나올 확률은 1/2 이다. 즉 각 실험에서의 성공확률은 1/2 이고 첫번째 시도와 두번째시도는 각각의 시도에 어떤 영향도 미치지 않는다. 이를 각 실험에 독립적이다 라고 표현하며 이와 같은 확률 변수를 이항확률변수 라고 하며, 이 변의 성공은 횟수분포를 이항분포 라고 한다.
    EX) 동전을 5번 던졌을때 앞면이 두번 나올 확률은? 5C2*(1/2)^2*(1/2)^(5-2) = 5/16
    위의 확률을 계산할때 C의 연산은 팩토리알 연산을 포함하기 때문에 연산중 상당히 큰 숫자를 포함하여 int형 범위를 넘어설수 있다. 따라서 P[x] = n!/x!(n-x)! * p^x * (1-p)^(n-x) ( n : 실험횟수, p : 성공확률 ) 이라고 할때 P[0] = (1-p)^n 으로 계산하고 P[ x+1 ] = (n-1)/(x+1) * p/(1-p)*P[x] 의 관계식으로 나머지 값을 계산하게 된다.

    4.3 포아송확률분포 #

    단위 시간당, 단위공간당 발생하는 사건의 횟수를 포아송 확률변수라 하고 이의 분포를 포아송 분포라고 한다.


















    종류 단위
    한시간당 걸려오는 전화 횟수 단위시간 한시간
    일주일당 발생하는 교통사고수 단위시간 일주일
    원료 1톤당 발생하는 불량품의수 단위공간 1톤
    X가 포아송 확률변수이고 단위시간당 평균 발생 횟수가 m이면 사건이 x회 발생할 확률은 다음과 같다. PX=x = e^(-m) * m^x / x!
    EX) 어느 사무실에 1분당 평균 5통의 전화가 걸려 온다고 한다. xx일 yy분 1분동안 전화가 6통 걸려 올 확률은? PX=6 = e^(-5) * 5^6 / 6! = 0.1462
    포아송의 평균과 분산

    • 평균 = m
    • 분산 = m
    이항분포의 경우와 마찬가지 이유로 for 루프를 돌려서 직접 포아송 확률값을 구할수가 없다. 따라서 관계식을 구해보면 P[0] = e^(-m) P[ x+1 ] = m/(x+1)P[x]

  • 5 회귀분석 #

    회귀분석(Regression Analysis) 은 한 변수를 이용하여 다른 변수의 값을 설명하거나 예측할 수 있는 모형으로 자료를 분석하는 것입니다. 이때 설명하는 변수를 독립변수 또는 설명변수라 하고, 설명이 되거나 예측이 되는 변수를 종속변수 또는 반응변수라고 합니다.