제대로 된 실무서적 - 파이썬 데이터분석 실무 테크닉 100

책 표지

사전 공지 : 내돈내산

실력은 그리 좋지 못한데, 책 읽는 건(정확히 말하면 책을 사고 책장에 장식하는 건) 좋아하기에 출판사로부터 책 선물을 받기도 하고, 서평단 활동을 하기도 한다. 그렇지만 이 책은 분명 내가 돈을 내고 내가 직접 구매한 내돈내산 책이다. 그렇기에 책에 대해서 칭찬을 하든 비판을 하든 전혀 광고가 아님을 밝힌다.

누구나 그럴듯한 계획이 있다 - 데이터 분석

타이슨이 강조한 말이다. 두들겨 맞기 전까진 다들 자기의 능력을 발휘해 데이터분석을 어떻게 어떻게 처리하고 인정을 받을거란 환상을 품는다. 나 또한 그랬다. 실무에 가기 전까진. 이 책을 만나기 전까진.

데이터분석이라고 하면 보통 크롤링 하고 전처리 조금 한 뒤에 스케일링을 좀 해주고 머신러닝 라이브러리를 사용해서 회귀나 예측만 잘하면 되는거라고 생각하기 쉬운데 그렇지가 않다. 전처리란 것도 우리가 생각한 거 이상으로 다양한 종류가 있을 수 있고, 단순히 회귀나 분류, 예측을 해야 하는 게 아니라 소셜 네트워크 분석을 하거나 자연어처리를 해야 할 수도 있다.

특히나 이 책에선 일반적인 데이터분석 서적에서 잘 다루지 않는 최적화와 시뮬레이션까지 다루고 있다. 일반적으로 데이터분석 커리큘럼에서 자신감을 얻고 뭔가 자만감까지 빠지고 있는 사람이라면 이 책을 통해 그 자만감을 없애고 다시 겸손해질 필요가 있다.

책 앞부분은 일반적으로 많이 접해본 비즈니스 데이터 전처리 및 에측 분석인데다 저자가 하나하나 마치 꼭꼭 씹은뒤 먹여주기 때문에 '너무 쉬운거 아니야?'라고 착각할 수 있다. 하지만 물류 최적경로 파악을 위한 소셜 네트워크 분석, 물류 네트워크 최적화, 시뮬레이션을 통한 소비자 행동 예측 부분 (각각 6, 7, 8장)으로 가면 익숙하지도 않은데다 저자의 설명 또한 많이 빈약하므로 멘붕에 빠질 수 있다. (나만 그런가?)

정량분석 그리고 ‘감각’

그럼에도 이 책이 좋은 책이라고 생각하는 건 tool설명에 약간 치우친 책들과 달리 '감각’을 길러줄 수 있는 책이기 때문이다.

이번 케이스처럼 반년 정도의 데이터라면 별로 영향이 없겠지만, 과거 수년의 데이터에는 여러가지 비즈니스 모델이 포함되어 있을 수 있기 때문에 전체 데이터를 한 번에 분석하면 데이터의 시계열 변화를 잘못 파악하는 경우가 있습니다. 그런 경우에는 데이터 범위를 좁혀서 분석하는 것도 하나의 방법입니다.

파이썬 데이터 분석 실무 테크닉 100 19p

end_date(회원 기간이 만료된 날짜)컬럼에 결측이 있는 이유는 탈퇴하지 않은 회원의 경우 탈퇴일이 없기 때문에, 컬럼에 NULL값을 넣었을 것이기 때문이라고 추측할 수 있습니다.

파이썬 데이터 분석 실무 테크닉 100 64p

이미 어느정도 실무에서 굴러보신 분이라면 '너무 당연한 소리아니냐’할 수 있겠지만, 시계열 분석만 공부하고 막 실무에 투입된 사람, 머신러닝 라이브러리를 통해 머신러닝이 무엇인지 어떻게 회귀와 분류 문제를 푸는지 방법만 이해한 사람에게는 이런 조언들이 단순한 Tool설명보다 더 좋은 영양제가 될거라 생각한다.

정량적으로 데이터를 분석해야하는 분석가에게도 '감각’이 중요한 이유를 생각하다보니 장자의 양생주편이 생각이 났다.

포정이라는 사람이 문혜군(文惠君)을 위해 소를 잡았다. 그런데 그 포정의 칼을 움직이는 동작이 신기에 가까웠다. 이를 본 문혜군은 어떻게 그런 경지에 이를 수 있냐고 물었다.

포정은 도(道)를 얘기하며 자신의 철학을 설명해주었는데 그 중 백미는 다음의 문장이다.

평범한 보통 소잡이는 달마다 칼을 바꾸는데, 이는 무리하게 뼈를 가르기 때문입니다. 그렇지만 제 칼은 19년이나 되어 수천 마리의 소를 잡았지만 칼날은 방금 숫돌에 간 것과 같습니다. 저 뼈마디에는 틈새가 있고 칼날에는 두께가 없습니다. 두께 없는 것을 틈새에 넣으니, 널찍하여 칼날을 움직이는 데도 여유가 있습니다.

잘 모르는 분석가는 툴만 이해했기 때문에 데이터의 의미를 이해하지 못한 채 이리저리 쑤셔놓기만 하지만(== 지금 내 상태), 좋은 분석가는 툴은 물론 데이터의 의미와 프로세스와 설득방법 같이 프로젝트의 전반적인 흐름을 정확히 이해하기 때문에 힘을 빼더라도 더 좋은 분석을 해낸다고 생각을 했다.

무튼 이제 막 데이터 분석 실무를 다루셔야 할 분이라면 실무 들어가기전에 한 번쯤 실습해보고 가시면 좋을듯 하다. 같이 멘붕에 빠지시면 더욱 좋을거고.