오늘날의 우리는 개인의 능력과는 상관없이 출신 학교의 지위를 중요하게 여기는 사회현상의 학벌주의로 살아가고 있다. 시대가 변화함에 따라 학벌이 중요시 여겨지면서 서울 중심의 대학으로 집중 포화되는 현상이 보이고 있다.
시대의 흐름에 있어 어쩔 수 없이 서울 중심 대학교를 희망하고 갈망하는 학생들이 많아질 것이고 이에 대한 모형을 만들고 예측하여 앞으로 서울권에 있는 대학교들의 입학자 수가 얼마나 증감할 것인가를 분석하였다.
본 분석은 R Package의 시계열분석과 예측함수를 사용하여 서울지역의 대학교 통계를 통해서 입학자수의 대한 분석과 향후 3년간을 예측하였다.
시계열분석에 사용되는 자기상관계수(Autocorrelation coefficient)과 부분자기상관계수(Partial autocorrelation coefficient6)를 이용하여 알맞은 모형을 예측하였고 그 결과로 자기회귀누적이동평균모형(ARIMA model)을 선정하였다. ARIMA model을 구축하기 위해서는 서울지역의 입학자수의 데이터가 정상성(Stationarity)을 가져야하므로 차분(Difference)를 통하여 정상성을 만족시켰다.
데이터는 서울 열린데이터 광장에서 2008년부터 2018년까지 총 11년의 서울에 있는 대학교에 대한 자료이다. 분석에서 사용되는 변수는 입학자수이고 이 변수를 시계열 데이터로 바꾸면 다음과 같다.
[그림1] 그래프는 계절성을 띄지 않고 정상성을 가지지 않는다고 판단했다. 하지만 과대차분 문제(over-differencing problem)가 생기지 않아야 하므로 차분을 하지 않은 상태에서 자기상관계수(ACF)와 부분자기상관계수(PACF)를 분석을 하였다.
분석결과는 다음과 같다.
<왼쪽이 자기상관계수 오른쪽이 부분자기상관계수>
자기상관계수(ACF)는 시나브로형태를 띄고 있고 부분자기상관계수(PACF)도 시나브로형태를 띄고 있다. 두 계수 모두 시나브로 형태를 띄고 있으므로 ARMA모형을 이용한다. 모수절약의 원칙에 의해서 최소한의 p값과 q값을 구해 ARMA(ARMA model(p,q), p≧1, q≧1)모형을 이용하였다.
ARMA모형중에 차분을 하지 않은 모형에서 가장 좋은 모형으로 판단한 것은 ARMA(3,3)모형으로 AIC가 모수 절약의 원칙을 고려하여 판단한 결과 가장 적합하다고 분석하였다.
ARMA(3,3)모형으로 서울 대학교 입학자 수의 향후3년을 예측해보면 아래와 같다.
원래의 기존 자료 그래프를 보면 2012년도부터 상향하는 그래프가 눈에 띈다.
하지만 예상한 바와는 다르게 향후 3년치 예측 그래프가 [그림3]의 보는 바와 같이 하향곡선을 탄다.
다시 <그림1>의 그래프를 보면 우상향하는 그래프 즉, 계절성이 없는 그래프를 1차 차분 후 정상성을 띄는지 확인한다.
<그림2>의 경우 눈에 띄게 정상성을 가지고 있는 것으로 식별이 된다. 차분을 계속하면 더 좋은 정상성 모형이 나오지만 위에서 언급했듯이 차분을 계속하면 모형을 복잡하게 만들어 좋지 않다. 따라서 과대차분이 발생하지 않아야 하므로 적당히 정상성을 판별할 수 있을 만큼만 차분한다. 일반적으로 1차 차분 또는 2차 차분까지만 한다.
1차 차분 이후의 ACF와 PACF는 다음과 같다.
<왼쪽이 1차 차분한 자기상관계수 오른쪽이 1차 차분한 부분자기상관계수>
앞서 내용의 자기상관계수(ACF)와 부분자기상관계수(PACF)는 모두 시나브로형태 였지만 1차 차분한 시계열 데이터와 비교를 하면 1차 차분한 시계열 데이터의 자기상관계수(ACF)는 시나브로형태이고 부분자기상관계수(PACF)는 절단형태이다. 절단형태가 2에서부터 절단이 시작되므로 AR(1)모형이 되지만 1차 차분한 시계열모형은 차분(d=1)을 포함한 ARIMA(1,1,0) 모형이 완성된다.
이 ARIMA 모형은 정상성을 가지며 시계열자료의 적합도를 판단하는 AIC(Akaike Information Criterion)와 SBC(Schwartz Bayesian Criterion)중 AIC를 이용하여 제일 적합한 모형으로 식별이 되며 이 모형을 가지고 서울 대학교 입학자 수의 향후 3년 값을 계산한다면 다음과 같다.
정상성이 없다고 가정하였지만 과대차분을 방지하기 위해 차분을 하지 않은 <그림3>의 모형보다 더 AIC값이 눈에 띄게 적합하였고 확실히 더 정확한 값으로 예측모형이 나왔다. 서울권 대학교에 입학자수의 증감없이 유지가 되는 것으로 예측모형 분석되었다.
예측모형이 증가하지 않은 첫 번째 이유는 우리나라가 예전부터 학벌주의에 영향이 있었지만 현재는 이미 온 국민들이 학벌주의에 지배되어있어서 대학교에 T/O보다 입학지원자수가 월등히 많아 포화상태에 이르러 증가가 될 수 없어 입학자 수가 유지 된다는 결론이다. 매년 정원을 늘리고 학교를 새로 신설하여 입학자 수를 늘리고 있지만 미미하기 때문에 그래프의 향후3년은 증가하지 않으며 정상성을 띄면서 유지한다.
앞으로 대한민국의 교육적인 부분이 바뀌지 않는 한 학벌주의는 계속될 것이다. 그렇기에 학생들은 소수의 서울권 대학에 가기 위하여 더욱 치열하게 경쟁하게 된다. 이를 해결하기 위해 학생들을 지방으로 분산시키려는 취지에서 나온 정책 중 현재 취업 시 지역인재전형과 비수도권전형이 시행되고 있다. 또한 새로운 과를 증설하거나 기존과의 T/O를 늘리는 방법도 생각해볼 필요가 있다. 앞으로 더욱 체계적이고 학벌주의를 약화 시킬 만한 정책이 필요가 있을 것이다.
통계적 분석 과정
본 자료는 서울 열린데이터 광장(https://data.seoul.go.kr/dataList/210/S/2/datasetView.do#none)에서 2008~2018년 연도별 자료로 저작권은 한국교육개발원에 있다.
참고 문헌
①국내 논문
- 시계열 분석 ARIMA 모형을 이용한 제주 방문 미래 예측 연구
- 학벌주의에 관한 대학생의 인식도 조사 연구
②서적
- 예측을 위한 통계적 기법(제3판), 자유아카데미, 이원후∙장인홍
- 시계열분석 수업때 활용 한 HAND-OUT
- SAS/ETS를 이용한 시계열자료분석 I, 박유성∙김기환, 2008
- SAS 시계열분석 이론 및 실습, 이상열, 자유아카데미, 2013
- 단변량시계열분석, 최병선, 세경사, 1992
- SAS/ETS를 이용한 경제시계열분석, 조신섭∙이정형, 자유아카데미, 1997
- SAS와 R을 이용한 시계열자료분석, 이성덕, 자유아카데미
- 시계열 수요예측 1, 2, 정동빈, 한나래아카데미, 2009, 2010
- Time Series Analysis, 2nd Edition, William W. S. Wei, 2006
- Analysis of Financial Time Series, 3rd Edition, R. S. Tsay, Wiley,
2010
----------------------------------------------------------------------------
분석 방법은 ARIMA모형, 평활법, 분해시계열모형 중 ARIMA모형을 이용하였다.
서울 열린데이터 광장에서 가져온 자료를 csv파일로 R에 불러왔다.
서울시 대학교 데이터 중에 이번 분석에 필요한 변수는 입학자수였고
총 11개의 데이터를 시계열자료로 바꾸어 그래프를 그려 보았다.
그래프는 증가되는 추세선을 보이는데 입학자수가 증가했다는 의미를 한다.
평균이 일정하지 않다고 판단하여 정상성을 가지지 않아 보이지만 과대 차분을 방지하기 위해 차분을 하지 않은 모형을 분석했다.
왼쪽은 자기상관계수이고 오른쪽은 부분자기상관계수인데 그래프를 보면 둘다 시나브로 형태를 띈다. 이럴땐 ARMA모형을 이용해야 하는데 가장 좋을 모형을 찾기 위해서는 AIC를 이용하여 분석한다음 AIC 값이 제일 낮은 모형을 찾는다.
ARMA 모형을 ARMA(p,q), p≧1, q≧1 p와q를 최소로 하고 AIC가 제일 적합한 모형을 찾아보니 ARMA(3,3)이 AIC=52.75 로 가장 적합하였다.
ARMA(3,3)모형으로 향후 3년을 예측해보았다.
내가 예상했던 것은 유지하거나 증가하는 그래프였는데 감소가 많이 일어나서 틀린 모형이라는 생각이 들었다.
본 분석에서 나는 입학자 수의 시계열그래프를 봤을 때 평균과 분산이 안정되어 있지 않아 보였다. 그 말은 즉, 정상성을 띄지 않아 보였기 때문에 정상성을 만들기 위해서는 차분이 필요하기 때문에 차분을 1회 하고 나서 분석을 한번 더 시도해 보았다.
예상한 대로 차분한 그래프가 정상성을 만족하게 나왔고 이 시계열데이터를 가지고 알맞은 ARIMA 모형을 찾아봤다.
마찬가지로 왼쪽이 자기상관계수와 오른쪽이 부분자기상관계수인데 차분을 하지 않았던 상태에서는 두 그래프 모두 시나브로를 띄는 반면 차분을 1회한 자기상관계수는 시나브로형태를 띄지만 부분자기상관계수는 절단형태를 띄고 있다. 차분을 하였음으로 ARIMA모형중에 가장 적합한 모형을 찾으면 된다. 이것도 마찬가지로 AIC를 이용하여 찾아냈다.
부분자기상관계수가 시차2부터 절단이 된 그래프이므로 적합한 모형은 AR(1,0)이지만 더 좋은 모형을 확인하기 위해 ARMA(1,1)까지 구하였다. 그 결과 차분을 하지 않은 모형의 가장 적합한 AIC의 값은 52.75 이지만 차분을 1회 시킨 모형의 가장 적합한 AIC의 값은 41.98로 차분한 값이 월등히 좋다. 차분을 1회 시켰으므로 최종모형은 ARIMA(1,1,0)이 되었고
이 결과에 따라서 이 모형을 가지고 향후 3년을 예측하였다.
ARIMA(1,1,0)모형을 사용하여 향후3년을 예측한 결과 입학자수가 유지되는 결론이 나왔다.
'Portfolio' 카테고리의 다른 글
[Tableau] Business Dashboard 구현 (0) | 2024.07.12 |
---|---|
[Python] Crawling Meta 라이브러리 (0) | 2024.07.12 |
[Tableau] 작업물 (0) | 2024.07.12 |
[DL] RNN / LSTM 태양광 발전량 예측 모델 (0) | 2024.07.12 |
[ML/DL] Youtube 조회수 분석 (0) | 2024.07.12 |