2018년 4월 11일 수요일

180411 랩스터디










<연진's comment>

이 논문은 투수 부분과 공격 부분에 중요하게 영향을 미치는 요인을 찾고 이를 바탕으로 순위를 예측하는 회귀모형을 실시하였다. 데이터로는 한국야구위원회 홈페이지에 게시된 20114월부터 10월까지의 133개 경기 데이터가 사용되었다. 투수 부문의 독립변수가 17, 타자 부문의 독립변수가 20개로 변수의 개수가 많고 다중공선성이 발생할 가능성이 높기 때문에 본 논문에서는 주성분분석을 이용하여 변수의 차수를 줄여 회귀분석을 시행하였다.
이 논문에서 아쉬운 점은 연구의 필요성이 뚜렷하게 제시되어있지 않다는 점이다. 프로야구 순위 예측이 필요한 이론적, 현실적 배경이 모두 뚜렷하지 않으며 이에 따라 선행연구 역시 매우 부족하다. 스포츠에 관한 연구라는 표현을 사용했는데 이것이 어떤 연구인지, 또 승패에 관한 연구는 어떤 분야에서 어떤 변수를 이용했는지를 제시했다면 더 좋았을 것 같다. 결론 역시 너무 단순하고 모호하게 제시되어있어 아쉽다. 그리고 1년치 데이터를 사용하여 모델을 만든 후 내년에도 이 모델을 적용할 수 있다고 제시하고 있는데 쉽게 일반화하기는 어려워 보인다.

<성제's comment>

본 논문은 2011년도 한국프로야구 데이터를 바탕으로 여러 모델을 만들어 2011년도 순위를 도출하고 이 순위가 실제 2011년 순위와 일치하는지를 판단함으로써 각 모델이 순위 예측에 적합한지 판단했다. 이때 사용된 4가지 모델은 각각 산술평균, 가중평균, 주성분분석, 주성분회귀분석이었고, 주로 주성분회귀분석에 초점을 맞추어 기술 하였다. 주성분회귀분석은 변수의 개수가 많을 때 변수들 중 비슷한 요인을 묶어 몇몇의 주성분으로 변수를 추려내는 분석이다. 야구는 투수, 타자 부문 등 승리에 영향을 미치는 요인이 상당히 많으며, 데이터 또한 많이 축적된다. 따라서 야구에서 순위를 예측하는데 있어 변수들을 중요도 별로 분류할 수 있는 주성분분석을 진행하고 이 주성분들을 변수로 하는 회귀분석을 통해 종속변수를 추정한 것은 바람직하다.
그러나 주성분분석을 통해 얻은 주성분변수와 종속변수의 관계를 갖는 데이터는 1개년의 8개 구단의 데이터만 존재함으로 총 8개가 전부이다. 또한 2011년의 데이터를 통해 2011년의 순위를 추정하는 것은 training set test set의 구분이 안 된 상황이다. 따라서 이 회귀직선이 다른 연도의 순위도 잘 예측할 지에 대해서는 의문이 든다.
더불어 이 논문에서는 해당 회귀모형을 바탕으로 적절한 훈련을 한다면 2012년도 팀 순위를 예측할 수 있을 것이라는 결론을 내고 있다. 그러나 해당 회귀모형의 설명력이 뛰어나더라도 다른 팀들 또한 훈련을 한다는 가정 하에 각 팀들의 데이터는 시즌이 시작되고 어느 정도 지난 후에야 얻을 수 있을 것이다. 그렇다면 이 모형은 사후적인 분석에만 사용될 가능성이 높고, 의미 없는 모형이 될 가능성이 높다. 따라서 시즌 초(1/4) 데이터를 바탕으로 시즌 순위를 예측하는 모델을 만드는 것이 더 실용적일 것으로 판단된다.

2018년 4월 6일 금요일

180404 랩스터디



<성제's comment>


해당 논문은 다양한 생육 변인들을 고려하여 토마토 생산성을 증진 시킬 수 있는 최적의 방법론을 찾는 것을 목표로 한다. 이때 이전 논문들이 사용하였던 선형회귀모델의 문제점을 제시하며 비선형회귀모델과 선형회귀모델의 비교를 통해 토마토 생육 모델에 더 적합한 것이 무엇인지 밝혀내고자 한다.
생육 변인들의 critical point에서 변동하기 때문에 선형모델 대신에 비선형모델을 선택한 점은 긍정적이다. 하지만 지역적 요인을 고려하지 않은 것은 아쉽다. 데이터의 한계가 주요한 원인이겠지만 한 지역의 1년간 데이터만으로 토마토 생육 모델을 비교하기에는 한계가 있을 것으로 판단된다. 농업에 있어 각 지역의 특성이 중요한 만큼 여러 지역의 데이터를 바탕으로 연구를 진행 했다면 더욱 신뢰도 높은 연구가 되었을 것이다.
또 다른 문제점으로는 과적합의 문제가 있을 수 있다. 앞서 지적한 지역적 요인이 한 곳을 통일된 점, 한 해 데이터만 사용한 점 등은 해당 모델이 그 지역, 그 해에만 적합한 모델일 수도 있다는 지적을 면하기 어렵게 한다. 다양한 지역적 요인, 연도에 따른 기후 변화 등을 고려한다면 오히려 선형모델의 설명력이 비선형모델의 설명력보다 높게 나타날 가능성이 있을 것이다. 따라서 다양한 환경을 고려한 선형모델과 비선형모델 간의 비교가 실질적으로 의미 있는 비교가 될 것이다.

<진용's comment>

주제 :  Analysis of Multi-Climate Controller Data in Tomato Greenhouses

내용 : 최근 도입되고 있는 비닐하우스의 시스템은 그 많은 데이터의 활용 가능성에도 불구하고, 그저 기본적인 수준의 기능만 활용하고 그저 자동화 설비를 이용하는 것에만 그치고 있다. 비닐하우스의 관리를 개선하고 기술의 미래 가치를 개발하기 위해서는 추가적인 데이터 분석이 필요하다. 이 연구는 비닐하우스 시설의 시스템에서 수집된 데이터를 분석하여 시설 토마토의 성장 모델을 테스트한다. 연구의 결과는 줄기 두께와 잎 면적의 증가율이 온도, CO2농도 및 습도에 의해 영향을 받는다는 것을 보여 준다. 변수가 제어 지점 사이에서 변동하기 때문에 비선형 모델은 선형 모델보다 데이터에 더 적합하며, 결과는 대시 보드에 게시되거나 스마트 폰을 통해 각 농가 및 경영자에게 도움을 줄 수 있다.

한계 : 실제로 도움이 되는 정보인가?
작물이 온도, CO2, 습도에 의해 영향을 받는다는 것을 모르는 사람은 없을 것 같다. 그럼에도 불구하고 연구는 그 연관성을 빅데이터를 통해 분석해냈다는 점에서 의의를 가진다고 볼 수 있을 것 같다. 하지만 작물이라는 것은 그 시기에 따라 성장 조건이 다르고, 오늘 내가 공급한 물과 이산화탄소가 언제 결과로 나타날지 모르는 것인 것 같은데, 이 연구결과에 따라 일정하게 적정 온도를 유지하고 적정 습도를 유지하고 적정 이산화탄소 농도를 유지하면 가장 성장이 잘 되는 것인지 의문이 든다.

의문점 : 선형모델과 비선형모델을 비교했을 때 R2는 무조건 비선형모델에서 크게 나오는 것이 아닌가?

2018년 3월 28일 수요일

180328 랩스터디


양돈농가의 경영정보시스템 수용과 관련변인





발표일 : 3/28(수)
발표자 : 엄진용




논문요약

1. 서론



2. 농업정보시스템 수용에 영향을 미치는 요인


3. 연구방법


4. 연구결과


Statistical Methods

로지스틱 회귀


<연진's comment >

이 연구는 농업정보시스템을 수용하는 농가들의 특성을 규명하고 있으며 데이터로는 농림부의 ‘전국 전업규모 양돈농가 경영실태 조사서’의 설문결과를 이용하였다. 연구의 독립변인은 크게 개인특성, 농가특성, 외부지원 세 부분으로 나누어져있으며 종속변수는 정보시스템 수용 여부로서 로짓 모형이 연구의 방법론으로 사용되었다. 기술 수용과 관련된 연구의 경우 표본의 연령이나 지역이 한정적인 경우가 있는데 전국 단위의 data를 사용한 점이 연구의 특징 중 하나인 것 같다. 본 연구에서는 정보손실의 문제 때문에 결측치를 제거하는 대신 의사결정나무 기법을 이용하여 예측값을 삽입하였다. 이러한 방법은 평균값, 최빈값 등을 넣는 것보다는 덜 자의적이기는 하나 예측하는데 사용된 모델의 예측력이 중요하므로 논문에 모델의 예측력을 써줬다면 좋았을 것 같다. 또한 예측값을 삽입하는데에 regression, logistic regression 등이 주로 쓰이는데 자주 쓰이는 모델과 비교하여 논문에서 채택한 이유를 보여줬어도 괜찮았을 것 같다.
연구에서는 농업외 분야를 경험한 사람일수록 컴퓨터와 친숙할 것이라 예상하고 겸업 변인을 삽입하였다. 결과적으로 겸업여부는 유의미하지 않아 변수선택 시 제외되었는데 연구자가 설정했던 변인을 보면 겸업_축산판매, 겸업_축산가공, 겸업_기타로 나누어져있다. 농업외 분야 경험 여부를 검증하기 위해서는 위와 같은 분류보다는 농업/농업외로 구분하는게 더 나았을 것 같으며 겸업보다는 타분야 종사 경험 유무가 더 타당했을 것으로 보인다. 노동력 변인의 경우도 가족의 경우 비용이 안들어가기 때문인지 분류를 가족, 1인 고용, 2~3인 고용, 4인 이상 고용, 공동운영으로 나누었는데 노동력을 영농규모를 측정한 지표로 설정하고 싶었다면 변인을 종사자 수로만 구분하는게 더 좋지 않았을까 생각이 든다.




<성제's comment >



연구 주제 : 농업정보시스템 수용 가능성이 높은 국내 양돈 농가의 특성 규명

연구 목적 : 농업정보시스템의 보급은 다른 기술의 보급과 유사하게 선도 농가에의 기술 보급을 통해 이루어진다. 혁신농가에서 기술의 효율성을 평가하고, 이를 바탕으로 다른 농가로 전파하는 이른바 혁신전파 방식을 취한다. 따라서 농업정보시스템의 보급에 있어 이를 수용할 선도 농가는 어떤 특성을 가진 농가인가를 규명하는 것은 매우 중요하다고 할 수 있다. 따라서 본 연구에서 다양한 변수를 분석해 선도 농가의 특성이 될 수 있는 특성들을 규명한다.

연구 방법론 : 해당 연구에서는 로지스틱 회귀모델을 사용하고 있다. 로지스틱 회귀모델은 종속변수가 범주형일 경우 사용하는 모델로 이 경우 종속변수가 양돈 농가의 농업정보시스템 수용 여부(이산형)이기 때문에 적합한 모델이다.
한계점:
  • 선행연구 대부분 미국 사례 위주인 점은 아쉽다. 미국의 농가 형태와 한국의 농가 형태의 차이가 크다는 점을 고려한다면 미국 이외의 국가들의 연구 또한 의미 있을 것이다.
  • 선행연구들이 농업정보시스템만의 차별점을 고려하지 않고 단순 생산기술의 도입과 같은 관점에서 진행되었다고 주장하지만 해당 연구의 변수들 또한 선행연구의 변수들을 일부 차용하는데 그치고 있다.
  • 학력의 경우 변수로서는 의미가 있지만 현실적으로 유용한 선도 농가의 특징이 되지 못할 것이다. 학력이 선도 농가의 중요한 변인 중 하나로 밝혀졌고 실제로 고학력 농가 위주로 선도 농가가 지정이 되었다면 과연 일반 농가들이 시스템 도입에 쉽게 공감할 수 있을까?
  • 시스템 도입 후 사후관리 관점 부족
    도심(기준 설정)과의 거리 혹은 주변 수km 내 정보시스템 관련 회사 존재 유무 등
  • 보험가입 여부 변수 > 연구에서는 보험 가입할수록 위험을 효율적으로 관리하려는 경향이 강할 것이고 따라서 정보시스템을 활용할 확률이 높을 것이라는 주장을 하고 있다. 이 주장에 따르면 가축, 건물 모두 보험에 가입한 농가가 위험 관리 경향이 가장 강하고 정보시스템 수용 확률이 높아야 한다. 그러나 연구 결과는 가축만 가입한 농가가 더 높게 나온다는 한계가 있다.

180411 랩스터디

<연진's comment> 이 논문은 투수 부분과 공격 부분에 중요하게 영향을 미치는 요인을 찾고 이를 바탕으로 순위를 예측하는 회귀모형을 실시하였다 . 데이터로는 한국야구위원...