본문 바로가기

COMPUTING/BIG DATA

혼공 R데이터분석 2주차 공부 인증

여러 가지

안녕하세요? 오재용입니다. 이번 주에는 굉장히 바쁠 예정이기 때문에, 9일과 10일 오전을 이용해서 미리 혼공 2주 차 공부를 마쳤습니다. 노는 것도 숙제를 다 해두고 놀아야 마음이 놓이듯이, 저도 맘껏 놀기 전에 미리 생각해 두었던 과제를 끝마칠 생각이었습니다. 양이 많으면 어쩌나 걱정했는데, 다행히 2주 차에는 소단원이 2개밖에 안돼서 쉽게 마무리했네요. 굿~

 

이번 챕터를 공부할 때에는 통계학 수업 내용이 정말 많이 떠올랐네요. 머신러닝 때와는 다르게 이 책은 통계학 용어를 마구마구 나오더라고요? 기술통계량과 검정통계량.. 정말 수식 하나하나 공부하느라 힘들었는데, 여기서 다시 보니 옛 친구 만난 마냥 오히려 반가웠습니다. 제가 통계를 따로 전공하고 그런 건 아니지만, 그래도 고등학교 때 나름 확률과 통계도 잘했었고, 대학에서도 공부할 기회가 많았었습니다. (필수 전공이었으니 ㅠㅠ) 이쪽으로 공부를 많이 하신 분들께는 햇병아리로 보이겠지만, 그래도 이번 공부 인증 포스팅을 올리면서는 최대한 간단하고 쉽게 설명을 올리려고 노력해 볼 생각입니다.

 

그럼 시작해 보죠!

 

CHAPTER 2 데이터 분석을 위한 기본 다지기

첫 번째 소단원은 데이터를 분석하는 과정에 대해 조금은 상세히 설명하고 있었습니다. 여기서는 크게 5가지 단계로 이 과정을 예를 들어 알려주었습니다. 이걸 보고 처음에 먼저 든 생각은 '통계적 가설 검정 10단계'에 관한 것이었습니다. 뭔가 단계가 많이 보이고, 가설과 변수가 주구장창 늘여뜨려 놓았으니 제가 중간고사 때 술술 나오도록 외웠던 이 10단계가 당연히 생각났겠지요. 아시다시피, 데이터 분석과정과 가설검정은 조금 다른 이야기인 듯 보이네요. 데이터 분석은 말 그대로, 현재나 과거 상황을 담고 있는 데이터를 활용해 현황을 파악하고 앞으로 다가올 상황을 예측하기 위한 방법입니다. 이 과정에서 가설을 세우긴 하지만, 실은 데이터 분석 방향성을 잡기 위한 도구로 쓰입니다. 이에 비해 가설 검정은 가설을 검정하기 위해 표본 데이터로 검정 통계량을 산출해 기각 여부를 결정하는 방법입니다. 주로 논문 작성 시, 과학적인 근거를 제시하기 위해 이 방법을 사용하여 유의 수준, 즉 p-value값을 기재하는 방식을 씁니다.

그래서 두 단계는 목표하는 지향점이 다른 방법이라 보면 좋겠네요. 아무튼 데이터 분석 방법은 가설검정 단계에 비해 짧아서 훨씬 좋았습니다. 데이터분석을 설계하고(1), 데이터를 확보한 후(2), 데이터를 필요에 맞게 가공합니다(3). 그 후 다양한 방법을 통해 데이터를 시각화하고 분석하는 과정을 거쳐(4), 결론을 도출합니다(5). 이 과정에서 가장 중요한 과정을 고르라고 하면, 당연히 첫번째 단계인 '데이터 분석 설계'가 되겠습니다. 뭐든지 기틀을 탄탄히 세워두고 일을 진행해야 흔들림 없이 완수할 수 있을 테니까요! 그래서 이 혼공 책에서는 이 단계에 대해 조금 더 자세히 기술해 두었습니다. 주제를 선정하고, 가설을 설정한 다음, 변수를 구성하고, 분석 방법을 설정합니다. 여기서 두 용어에 볼드체로 처리해 두었죠? 이 두 가지가 통계 분석할 때 정말 골치 아프게 만드는 요소라 그렇습니다. 정말 많은 변수들을 사용할 수 있기 때문에, 보여주고자 하는 결론에 맞춰서 변수와 분석법을 알맞게 설정해야 할 필요가 있습니다. 뭐, 계속 공부하다 보면 차차 이 둘에 대해 이야기를 하겠죠.

 

두 번째 소단원은 '데이터의 형태'에 따른 분류가 주였던 것 같습니다. 이것 역시 통계 수업에서 주구장창 했었죠. 그리고, SQL에서 많이 쓰는 테이블 용어도 나와서 내심 반가웠습니다. 이번 단원에서는 이런 용어들, 분류들을 실제로 R언어 환경에서 생성하고  조직하는 방법을 배우게 되었죠. 매우 간단했지만, 그래서 오히려 R언어가 어려운 언어가 아니라는 믿음이 더욱 굳건해진 시간이었습니다. ㅋㅋ 

관련 내용은 필기 자료에 정리해 두었고, 제가 전에 통계학과 SQL 공부할 때 써 두었던 도식도 함께 첨부해 두었습니다. 참고 바랍니다!

 

2-1

 

생략

 

2-2

 

벡터의 종류와 생성법 정리
범주형 자료와 행렬 표현 확인. byrow=T도 잘 새겨두자.
배열과 리스트. 리스트에 두개의 문자를 넣어봤는데, 다른 영역으로 찍힌다. 뭔가 방법이 있을 것 같은데...

 

기본미션 - p.99 확인문제 3,4번 풀고 인증

필기 자료에도 업로드 해두었지만 잘라서 따로 올려두었다. 왼손잡이라 그런가 확대하니 글씨가 이쁘지 않는듯 하다..

선택미션 - 데이터 분석 과정 정리하기

위의 내용 참고!

 

필기자료

2주차 정리.pdf
2.15MB

 

마무리 및 소감

이번 챕터는 분량이 적은 편에 속했지만, 꼭 필요한 통계 내용을 알차게 담은 느낌이네요. 공부하면서도 "이건 꼭 알긴 해야지!' 하는 게 많았어서, 즐거운 마음으로 했던 것 같습니다. 그리고 이 책의 주된 내용이 될 데이터 분석 과정에 대해 방법론을 빠르게 지르고 가니, 첫 단추를 잘 꿴 느낌입니다. 마치, 데이터 분석 설계 단계처럼 말이죠 :)

 

앞으로의 놀 계획을 살짝 말해드리자면(?), 도쿄에 가기 전에, 10일과 11일엔 대관령에 놀러 가기로 했습니다. 그리고, 그다음 날인 12일엔 출국하죠. 갔다 오면 19일이 될 겁니다. 19일에는 아마 피곤에 골골거릴 테니, 다음날 20일부터 놀아야 합니다. 20일에는 어머니께서 방학식을 하고 오시기 때문에, 일찍 끝나서 여동생과 함께 영화도 보고, 저녁을 먹을 수 있을 것 같네요. 꽤나 살인적인 일정인데, 걱정보단 기대가 됩니다. 이제 눈 감았다 딱 뜨면 2주가량의 시간이 사라져 있겠죠? ㅎㅎ 시간 여행 제대로 하고 오겠습니다 감사합니다!

 

출처

혼자 공부하는 R데이터분석 p.74~p.99