안녕하세요,
데이터 사이언티스트를 꿈꾸는 yejining입니다. 🍓👩💻
오늘은 제1회 UNIST-POSTECH-KAIST 데이터사이언스 경진대회에서 사용했던 셰일가스 데이터를 소개하고 특히 시계열 데이터에 대한 설명을 드릴까 합니다.
대회 보안 상 대회에서 사용했던 데이터는 공개할 수 없고,
그 대신 셰일가스에 대한 정보와 다양한 데이터 중 시계열 데이터에 대해 담아보았습니다. :)
그럼 고고고 ~!😎😎😎

1. 문제 설명
경진대회의 문제는 한마디로 설명해 셰일가스 생산량 예측 및 의사결정 이라고 할 수 있었습니다.
대회에 대한 더 자세한 설명은 앞전 포스팅을 참고해 주세요!
2022.02.24 - [Data Science/Portfolio] - [대회] 제1회 UNIST-POSTECH-KAIST 데이터사이언스 경진대회/참가후기
[대회] 제1회 UNIST-POSTECH-KAIST 데이터사이언스 경진대회/참가후기
안녕하세요, 데이터 사이언티스트를 꿈꾸는 yejining입니다. 🍓👩💻 오늘은 제가 참가했었던 제1회 UNIST-POSTECH-KAIST 데이터사이언스 경진대회에 대한 후기를 써보려고 하는데요! 열심히 한
yejining.tistory.com
교수님께서 대회문제에 대해 설명해주셨을 때, 큰 힌트를 하나 던져주셨는데요.
그것은 바로~ 생산정을 크게 두가지로 나눌 수 있다는 것이었습니다.
간단히 설명해, 생산을 시작하지 않은 NEW 생산정과 생산을 이미 시작한 OLD 생산정이 존재한다는 것이죠!
생산을 시작하지 않은 NEW 생산정은 셰일가스 생산에 관련된 시추공, 유정완결 관련 데이터만 존재했습니다.
생산을 이미 시작한 OLD 생산정은 관련 데이터 뿐만 아니라 지난 30개월간의 생산량, 조업시간의 시계열 데이터가 존재했습니다.
저희조는 이 두가지 생산정에 대해 각각 다른 전처리와 모델을 적용하였습니다.
그 중 저는 OLD 생산정을 주되게 맡았습니다.
2. 데이터 설명
OLD 생산정은 시추공, 유정완결 관련 데이터 + 지난 30개월간의 생산량, 조업시간의 시계열 데이터가 존재한다고 했죠.
그 중에 저는 시추공, 유정완결 관련 데이터는 사용하지 않았습니다!
그 이유는 셰일가스 생산량에 대한 특징과, 시계열 데이터에 대한 특징 때문입니다.
셰일가스 생산량에 대한 특징은 여러 논문들을 읽은 후 알 수 있었습니다.
우선 셰일가스 생산량은 시간이 지나면 지날수록 줄어드는 특징이 있습니다.
그 특징에 대한 설명은 이 논문에 자세히 적혀있습니다.
Shale gas production decline trend over time in the Barnett Shale
Natural gas produced from shale formations in the United States over the past decade have altered the oil and gas industry remarkably. The Barnett sha…
www.sciencedirect.com
논문 안의 그래프를 보시면 이런식으로 생산량이 줄어드는 것을 볼 수 있습니다.
그래프를 살펴보면 생산량이 초기엔 좀 급격히 줄어들다 나중엔 완만쓰~하게 줄어든다는 것을 볼 수 있습니다.
그래서 옛날에는 셰일가스 생산량 예측을 위해 Modified hyperbolic method을 사용했다고 하네요.
초기의 급격한 줄어듬과 나중의 완만한 줄어듬을 표현하기 위해 두가지 수학식을 사용한 방법입니다.
이 논문에서는 다른 수학식도 설명되어 있습니다.
수학식을 사용하면 그냥 변수만 다르게 하면 되닌깐 매.우. 간단하게 셰일가스 생산을 예측할 수 있습니다.
하지만 단점도 존재하죠.
바로 정확도가 떨어진다는 것 입니다.
주황색선이 model을 통해 예측한 값인데요.
음.. 물론 추세정도는 따라갈 수 있겠지만, 위의 실제 셰일가스 생산데이터를 살펴보면 엄청 뾰죡뾰죡 지그재그로 그래프가 그려졌었잖아요!!
이러한 상세한 값까지 예측할 수 있는 방법이 바로 머신러닝&딥러닝 이랍니다 😎😎😎
(갑자기 머신러닝 딥러닝 칭찬을?)
암튼 이런식으로 이전부터 셰일가스 생산량은 이전 생산량값만 가지고 예측하였다는 것을 알 수 있습니다.
또한 저희는 시계열 데이터에 이미 시추공, 유정완결 관련 데이터가 연관되어있을 것 이라고 생각했어요.
그래서 OLD 생산정에 대해서는 시계열 데이터만 사용했습니다.
3. 시계열 데이터
시계열 데이터는 일정 시간 간격으로 배치된 데이터들의 수열을 말합니다.
쉽게 생각해 이런식으로 나타낼 수 있는 데이터들입니다.
시간에 따라 변하는 값들이죠
아마 주식하시는 분들은 많이 접해보셨을 듯 합니다.
기영이 머리 같은 주식 그래프들 다 시계열 데이터입니다 ...!
하지만 제가 다뤘던 시계열 데이터는 흔히 생각하는 주식 데이터와 달리 몇가지 특징이 존재했습니다.
우선 첫번째, multiple time series 이다.
한 생산정의 데이터가 아닌 여러개의 생산정의 데이터가 존재했습니다.
두번째, multivariate time series 이다.
셰일가스 생산량 데이터 뿐만아니라 다른 가스 생산량, 조업시간 생산량과 같은 시계열 데이터 또한 주어졌습니다.
그림으로 나타내면 이런식의 데이터였다는 것이죠..!
생산정 하나당 3가지의 시계열 데이터가 주어지닌깐 이건 multivariate time series,
생산정이 n개가 존재하닌깐 이건 multiple time series라는 겁니다.
저희는 이 데이터를 가지고 어떤 생산정의 향후 6개월 셰일가스 생산량 평균을 예측해야합니다...!
그럼 이 생산정들을 어떤식으로 전처리 해야할까요?
그럼 또 어떤 모델을 사용해야할까요?
다음 포스팅에서는 multivariate + multiple time series 데이터를 어떤식으로 전처리 해야하는지,
또 저희가 무슨 모델을 사용했는지에 대해 설명해보겠습니다.
to be continue ...~
