관리자 패널에서 메뉴를 설정하세요

“데이터분석, 누구나 할 수 있다” 빅데이터 분석 전도사 서진수 소장 – 게임포커스

바야흐로 ‘빅데이터’의 시대다. 여기저기서 빅데이터라는 말이 사용된다. 정책결정 같은 영역뿐만 아니라 예능 멤버를 뽑는 일처럼 가까운 일에도 빅데이터가 사용된다고 한다. 여기저기서 빅데이터라는 말이 많이 사용되지만 일반인들은 대체 빅데이터가 어떤 것인지, 또 어떻게 사용되는 것인지 쉽게 알지 못한다. 그렇다면 대체 빅데이터가 무엇이며, 빅데이터 분석은 어떻게 하는 것일까?

게임포커스는 ‘빅데이터 분석 전도사’로 잘 알려진 서진수 데이터컨시어지랩 연구소장을 만나 빅데이터, 빅데이터 전문가란 어떤 것인지, 그가 강연 등에서 소개한 데이터 분석 툴 ‘R’은 어떤 것인지 들어봤다.

데이터앤피플 대표이사이자 데이터컨시어지랩 연구소장으로 재직중인 서진수 소장은 고용노동부 우수 강사 표창을 유명 베테랑 강사로 국가정보원, 연세대, 국민대, 이화여대, 성균관대, 건국대, 인하대, 한국외대 등에서 R을 활용한 데이터 분석 특강을 여러 차례 진행해 왔다.

15년 동안 여러 회사의 데이터베이스 구축 및 운영 업무를 진행하며 8권의 오라클 관련 서적을 집필한 베스트셀러 작가이기도 하다. 여러 기관의 요청으로 오라클 전문 교육을 진행하다 데이터 분석으로 강의 영역을 넓혔다.

그의 저서인 ‘R라뷰’, ‘R 까기’ 등은 다소 어려운 빅데이터 분석 분야의 입문서로 잘 알려져 있다. 서진수 소장은 현재 TV프로그램(TV조선 ‘알맹이’ 토크쇼) 패널로도 출연 중이며 무료 지식 나눔 특강 및 정부의 공공복지 증진 사업에 참여하는 등 사회공헌 활동도 왕성히 진행한다.

서진수 소장은 2014년 하반기부터  마소캠퍼스에서 정기적으로 직장인을 위한 R 강의를 진행할 예정이다.

빅데이터라는 말이 여기저기서 사용되고 있지만 빅데이터가 무엇인지를 아는 사람은 드물 것 같다. 빅데이터란 대체 무엇인가
서진수 소장: 빅데이터란 용어는 크다, 빠르다, 많다 등 다양한 의미를 가지고 있습니다만 더 쉽게 말하자면 우리 주변에서 우리를 둘러싸고 있는 모든 데이터를 의미합니다. 그 데이터는 텍스트일 수도, 그림이나 동영상이 될 수도 있습니다. 인터넷 홈페이지가 될 수도 있죠.

과거에는 여론조사를 하더라도 많아야 2000명 정도에게 전화 설문을 하는 정도에 그쳤습니다. 표본이 작으니 모집단인 전체의 의견을 대표한다고 보기 어려웠죠. 그러나 정보의 저장, 처리 기술이 발전하면서 엄청난 양의 데이터를 모을 수 있게 됐습니다. 데이터가 엄청나게 많으니 잘 파헤치면 무엇인가 멋지고 근사한 걸 찾아낼 수 있지 않을까 기대하게 됐죠.

빅데이터 분석이란 이런 다양한 데이터에서 새로운 가치를 찾아내고 그 가치를 통해 미래를 분석하고 예측하는 과정을 의미합니다.

예를 한 가지 들어본다면
서진수 소장: 최근 뉴스 중에서 한국의 출산율이 줄어서 인구가 2060년에는 4000만명 대로 줄어든다는 기사가 있었습니다. 이건 그냥 데이터지요. 이 데이터를 보고 그 뒤에 숨어 있는 다양한 가치를 찾을 수 있습니다.

인구가 줄어든다는 건 출산율이 준다는 거니까 사회복지 관점에서 보면 어떻게 출산율을 높일수 있을까를 연구할 수 있고 , 부동산 측면에서 보면 인구가 줄어들고 출산율이 줄어 드니 중대형 아파트 보다는 소형 아파트가 더 선호될 것이라는 것을 예측할 수 있겠지요. 교육적인 측면에서도 아이들 교육보다는 실버 교육 시장이 커질 거라고 예측할 수 있습니다.

빅데이터가 대중적으로 널리 쓰이게 된 이유가 뭘까
서진수 소장: 실생활에 도움을 주고 적용할 수 있기 때문이겠죠. 빅데이터나 데이터 분석은 결코 전문가의 전유물이 아닙니다. 동네 김밥집 경영자도 내일 근처 학교에서 소풍을 가면 어떤 김밥이 잘 팔릴지, 비 오는 날 잘 나가는 메뉴가 뭔지 미리미리 예측해서 재고가 남지 않게 조절합니다. 과거의 수많은 경험을 토대로 미래를 예측하는 거죠. 내일 어떤 술이 잘 팔릴까, 이번 시즌에는 어떤 패션이 유행할까 등 우리 삶은 굉장히 많은 경험에 기반한 예측을 필요로 합니다.

그런데 데이터에 기반하지 않으면 선입견에 빠지거나 한 두 가지 사례로 섣부르게 예단해버리는 오류에 빠지기 쉽습니다. ‘감(感)’이 좋으면 대박 나고, 운 나쁘면 쪽박을 차게 되는 거죠. 물론 감을 무시할 수는 없습니다. 언어로 표현할 수 없는 수많은 경험적인 데이터를 분석해서 예측해낸다는 건 데이터 분석과 마찬가지거든요.

대개 우뇌적인 사고가 강한 분들은 좀더 감각적인 예측에 강하고 이 분들의 감이 잘 들어 맞습니다. 일명 신내린 경영자들이죠. 그러나 현대 사회의 대다수 사람들은 수리와 언어에 강한 좌뇌적인 사고를 합니다. 언어로 표현하기 어려운 ‘too big to handle’ 데이터를 바탕으로 합리적이고 과학적인 의사결정을 해낼 수 있는 방법이 필요하죠. 빅데이터 분석이 바로 그 방법입니다.

일명 감 좋은 경영자들이 독단에 빠져 회사에 재앙을 가져오는 걸 방지하기 위해서라도 데이터의 분석 결과가 꼭 필요합니다. 예를 들어 어떤 사람이 매주 금요일에 마트에 가서 맥주를 산다고 칩시다. 맥주 안주로 땅콩을 즐기는 경영자는 개인 취향에 빠져 땅콩을 묶음 판매할 수 있습니다. 그런데 데이터를 분석해보니 비슷한 패턴을 가진 사람들은 땅콩보다 육포를 안주로 선호한다면, 이 사람에게 ‘이번 주말에 육포를 세일한다’는 정보를 보내줄 수 있겠죠. 데이터 분석이 감에 의존하는 경영자의 독단을 막고 매출로 이어지는 예입니다.

비단 대기업 뿐만 아니라 동네 구멍가게도 고객의 소비 패턴을 분석하면 언제 어떤 품목을 세일하면 좋을지, 마일리지 적립을 더 해주는 게 나은지, 값을 깎아 주는 게 좋은지, 일정 금액마다 스탬프를 모아 몇 개 모으면 좋은 상품을 주는 게 좋은지 판단할 수 있습니다. 데이터 분석이 더 이상 감에 의존하지 않고 현실적인 이득을 얻는 수단이 됩니다.

그렇게 실생활에 직접 적용할 수 있을 정도로 데이터 분석을 해내려면 어떤 걸 알아야 하나
서진수 소장: 평소 안타깝게 생각하는 부분으로, 빅데이터 분석을 위해 뭘 공부해야 하는지를 검색해 보면 기초적인 C 언어, 데이터 구조, 자료 구조, 자바 프로그래밍, 리눅스, 아파치, 하둡, SAS, 오라클, R, 파이썬 등을 모두 다 알아야 한다는 답변을 흔히 볼 수 있습니다. 이건 마치 컴퓨터를 다루려면 전기회로도는 기본이고 기계어, 반도체 집적기술 등을 알아야 한다고 조언하는 것과 같습니다.

현실적으로는 타자를 칠 줄 알고, 마우스 클릭할 줄 알면 어린아이도 컴퓨터를 다룰 수 있습니다. 스마트해진 세상이라 이제는 터치 하나로 다 되죠. 기술이 발전할수록 기계가 커버하는 영역이 넓어지고, 일반 이용자가 알아야 할 부분은 적어집니다. 빅데이터 분석 역시 몇 년 사이에 기술이 눈부시게 발전해서 이제 특수 전문가가 아닌 이상 모든 걸 다 알 필요는 없습니다.

정말 실생활에, 특히 경제적으로 도움이 될 당장 써먹을 수 있는 데이터 분석을 빨리 배우고 싶다면 먼저 R을 배우시라고 권하고 싶습니다. 그나마도 R의 모든 기능을 다 알 필요는 없고 R의 다양한 기능 중 당장 자신에게 필요한 일부 기능만 골라 배우면 됩니다. 거기서 데이터 분석을 더 잘하고 싶고 깊이 공부하려면 통계를 꼭 공부하길 권합니다.

안타깝게도 아직 R은 마우스 클릭만으로 작업을 다 할 수 없기 때문에 직접 명령어 입력을 하기 위해서 영어 타자는 질 줄 알아야 합니다.


다른 것보다 R이 특별히 중요한 이유는 무엇인가
서진수 소장: 어떤 신기술이 나타나면 초창기에는 하드웨어가 득세하죠. 하드웨어의 복잡함을 이해하고 다루는 고난도 기술 전문가가 필요합니다. 그런데 이 기간은 별로 길지 않습니다. 기계나 기술은 버전이 올라갈수록 기계가 더 많은 범위를 커버하도록 자동화되고 쉽게 이용할 수 있도록 대중화됩니다. 물론 고난도 전문가가 필요하지만 극소수죠. 하드웨어가 안정되고 자동화되기 시작하면 소프트웨어가 주목 받게 마련입니다.

데이터 분석 역시 엄청난 양의 데이터를 저장하고 처리하기 위한 하드웨어적인 기술 분야가 중요했던 때도 있었고, 지금도 그 기술자가 필요하기는 합니다. 그러나 이제 해당 분야는 초심자보다는 경력자를 원하고 소수의 전문가가 많은 하드웨어를 관리할 수 있는 단계에 들어 섰습니다. 일반인과 무관한 영역이죠.

소프트웨어 중심 단계에 들어서면 수많은 툴들이 겨루는 춘추전국시대를 지나서 한 두 개가 사실상 표준으로 자리잡게 됩니다. 판매자(vender)에게 종속된 기술은 판매자의 몰락과 함께 사라져 버립니다. 그리고 끝까지 살아 남는 건 결국 오픈소스(open source)죠.

벤더에게 종속되는 기술이 오래 갈 수 없다는 사실은 큰 돈 들여 MCP, OCP, SCJP, CCIE 등의 자격증을 따야 이력서 한 줄을 채울 뿐이라는 걸로 많은 분들이 경험했을 것입니다. 결국 인정받는 건 경력과 실력이라는 걸 현장에서 경험한 분들이라면 누구나 공감할 것입니다. 누구나 쉽게 공짜로 이용할 수 있는 오픈소스가 결국 대세가 됩니다. 굳건했던 유닉스의 아성도 리눅스에 무너졌고, 각종 사이트 유료 제작툴도 오픈소스인 워드프레스에 밀리고 있습니다.

유료 제작툴이 오픈 소스인 워드프레스에 밀리는 이유는 무엇인가
서진수 소장: 공짜니까요. 대중화되기 쉽고, 여러 사람이 쓰다 보면 자연스레 발전해 나갑니다.

R도 마찬가지입니다. 데이터 분석의 수많은 툴 중 R이 영향력을 넓히고 있는 이유는 다른 거 없습니다. 공짜이기 때문입니다. 데이터 분석이 더 대중적인 영역이 되면, R의 영향력도 더 커지고, R을 이용해 또 다른 부가가치 프로그램을 만들어내는 사람이 돈을 벌게 될 것입니다. 누군가의 성공이 촉매제가 돼 R의 이용자가 더 많아지고, 그럼으로써 발전하는 선순환이 본격 가동돼 굳건히 자리잡게 되는 거죠.

R이 무료이긴 하지만 너무 어렵다는 평이 많다. R이 대중화될 수 있을지 의문을 가진 사람도 많을 것이다
서진수 소장: 맞습니다. R은 아주 복잡하고 어렵습니다. 프로그래밍이니까요.

그러나 저처럼 R의 모든 것을 파악하고 이해해서 책을 쓰려는 사람이 아니라면 모든 것을 다 알 필요가 없습니다. 영어 타자를 칠 줄 알고, 어떤 데이터를 분석하겠다 또는 어떤 것들을 예측하겠다는 목적 의식을 갖고 있는 분이라면 R이나 통계, 코딩 등을 전혀 모르는 백지 상태에서 시작해도 40시간 정도만 배우면 원하는 걸 해낼 수 있습니다.

제가 약 3년 정도 직장인, 대학생 등 다양한 사람들에게 R을 여러 번 강의했는데, 아무 것도 몰랐던 직장인이 가장 습득이 빠르더군요. 한 30시간을 배우면 본인이 원하는 걸 해보고 잘 안되는 부분을 물어봐서 완성할 정도 수준이 되는 겁니다. 반면에 ‘R을 배운다’가 목적인 학생들은 몇 달을 배워도 큰 진전이 없습니다. ‘R로 무엇을 하고 싶다’는 목표가 있는 분은 필요한 부분만 집중하지만, R 자체가 목적이면 너무 복잡하고 어려워서 금세 질려 버리더군요.

알고 보면 R은 분야별로 많이 쓰이는 부분들이 있습니다. 보건의료 쪽을 위한 패키지, 금융을 위한 패키지, 마케팅을 위한 패키지 등이 나뉘어 있기 때문에 누구나 원하는 것을 해내는 건 40시간 정도만 배우면 충분합니다.

데이터 분석 전문가로서 어떤 목표를 갖고 있나
서진수 소장: 다른 사람보다 데이터 분석을 먼저 시작한 사람으로서 가장 원하는 건 데이터 분석이 누구에게나 필요하고, 누구나 할 수 있는 일이라는 걸 알리는 겁니다.

모든 기술의 정점에 모든 사람이 다가가야 하는 건 아닙니다. 일반인에게는 삶의 질을 높일 수 있는 일반적인 수준으로 기술이 대중화돼야 합니다. 그럼에도 불구하고 아직까지 데이터 분석은 전문가의 영역이라는 인상이 너무 강해서 안타깝습니다. 데이터 분석을 쉽게 접함으로써 동네 미용실 매상을 올려주고, 야쿠르트 아줌마가 안정적인 판로를 찾게 돕고 싶습니다.

또 하나 빅데이터 전문가로서 책임감을 느끼고 힘쓰는 분야는 공공복지입니다. 이 분야는 정말 엄청나게 방대한 데이터를 토대로 정밀한 분석을 해야 하므로 몇몇 전문가만이 해낼 수 있는 어려운 프로젝트가 많습니다. 정책의 효과나 교통량을 예측하고, 빅데이터를 토대로 복지의 사각지대를 줄이는 방법을 연구하고, 탄소 배출량을 조절하는 등 정부와 함께 진행하는 활동이 있습니다. 데이터 분석 전문가로서 우리 모두의 삶을 개선하는데 기여할 수 있다는 점에 항상 감사하며 공헌하려고 노력하고 있습니다.

마지막으로 데이터 분석을 공부하려는 사람들에게 한 말씀 부탁드린다
서진수 소장: 툴과 기법에 매몰돼 특정 도구를 완벽히 알려 노력하지 마십시오. 그렇게 학습하면 어떤 분야든 재미없고 따분하게 느끼게 됩니다. 더구나 IT 기술은 시간이 지날수록 자동화되게 마련이고, 오늘날 R을 완벽 이해하려는 여러분의 노력은 물거품이 될 가능성이 높습니다.

도구의 편리함을 최대한 이용하세요. R로 무엇을 분석해서 무엇을 만들어낼지 아는 게 가장 중요합니다. 만약 잘 모르겠다면 제가 수년간 강연을 펼치면서 많은 사람들에게 ‘두루 응용하기 좋은 데이터 분석 사례’로 추천 받아 모아둔 비정형 데이터와 정형 데이터 분석 사례를 접해 보시기를 추천합니다.

R은 결국 도구일 뿐 가장 중요한 건 사람입니다. 누구에게나 데이터 분석은 필요하고, 누구나 할 수 있다는 말을 다시 한 번 강조하고 싶습니다.

 

소스 – http://gamefocus.co.kr/detail.php?number=50134

머니매그넷(주) Since 2013
마소캠퍼스
- 온라인|원격평생교육시설 등록번호
: 제 원-509호

마소캠퍼스ICT평생교육원
- 오프라인|지식·인력개발사업 평생교육시설 등록번호
: 제 지-286호

서울시 강남구 테헤란로 242 아이타워 9층 (06221), 전화 02-6080-2022, 팩스 02-6455-2021, 이메일 문의 cs@masocampus.com
통신판매업번호 2014-서울강남-03465, 대표(개인정보책임자): 김진, 서비스 이용약관, 개인정보 처리방침
마소캠퍼스 웹사이트는 크롬 브라우저에 최적화 되어 있습니다.

©MasoCampus. All rights reserved.