배철순 하우사회문제연구소장, “빅데이터는 정보화시대 원유”

[인물포커스]배철순 하우사회문제연구소장, ‘데이터 결합’은 빅데이터 핵심, 규제완화 과감한 선택만 남아

머니투데이 더리더 홍세미 기자 2018.06.08 10:03 카카오톡 네이버블로그 페이스북 트위터
▲배철순 하우사회문제연구소장/사진=더리더
빅데이터를 이용한 선거 예측이 유명해진 시기는 2012년 미국 대선 때다. 버락 오바마 전 미국 대통령이 2012년 재선을 달성하기 전, 캠프에 IT조직을 꾸리고 빅데이터를 이용한 예측, 선거 전략을 세워 우리나라에도 널리 알려졌다.
또 2016년 미국 대선 때 미국의 대부분의 여론조사 기관들은 힐러리의 당선을 예측했지만 결과는 트럼프가 승리했다. 구글 트렌드에서 ‘트럼프’는 힐러리보다 많은 데이터양이 집계되면서 빅데이터가 승리를 예측했다는 평이 나왔다. 또 2016년 영국의 주류 언론은 유럽연합에 잔류할 것이라는 여론이 우세하다고 보도했지만 결과는 빗나갔다. 빅데이터는 영국의 브렉시트를 예측, 또 한 번 선거 기법으로 유명해진 바 있다.

‘Data is the New Oil’이라는 말이 있다. 4차 산업혁명을 앞두고 빅데이터를 ‘원유’로 본다는 비유다. 아무리 좋은 자원이라도 활용을 하지 못하면 무용지물이다. 우리나라는 4차 산업혁명을 앞두고 빅데이터를 어떻게 활용해야 할까.
배철순 하우사회문제연구소장에게 ‘빅데이터 활용’과 6•13 지방선거에 대해 묻기 위해 지난달 24일 여의도에 위치한 한 카페에서 인터뷰를 진행했다.

-일단 구글 트렌드 빅데이터는 6•13 선거 후보자들에 대해 어떤 결과를 보이는지
▶흥미로운 지역은 서울이다. 4월부터 5월까지 구글 트렌드에서는 안철수 바른미래당 서울시장 후보가 박원순 더불어민주당 서울시장 후보보다 검색량이 더 많았다. 여론조사와는 다른 결과다. 또 이인제 자유한국당 충남도지사 후보가 상대 후보인 양승조 민주당 충남도지사 후보보다 검색량이 더 많았다.

-검색량이 많은 게 지지로 연결될까
▶안철수•이인제 후보는 ‘대선 후보’를 지낸 소위 ‘큰 인물’이다. 전국적인 지지도를 얻었던 대선 후보급 인물들로 평소에 다른 후보보다 더 큰 관심이 있을 수 있다. 지지 투표로 이어질지는 지켜봐야 한다. 안 후보는 본인이 ‘드루킹 사건’의 가장 큰 피해자라고 주장한다. 많은 언론이 이에 대해 보도했다. 또 빅데이터 정보를 제공하는 언론진흥재단 빅카인즈 서비스를 보면 안 후보에 대한 인터뷰가 보도된 당일 ‘안철수’ 키워드 검색건수가 다른 후보에 비해 높았다. 언론에 많이 노출됐기에 많은 검색이 이뤄졌다는 추정이 가능하다. 우리나라 뉴스 환경은 다양한 변수가 있다. 이런 변수 속에서 빅데이터 분석은 사실 불가능하다고 볼 수 있다. 이런 빅데이터로 당선 가능성을 예측할 수 있는 것도 사실 어렵다.

▲(왼쪽부터)박원순 더불어민주당 서울시장 후보, 김문수 자유한국당 서울시장 후보, 안철수 바른미래당 서울시장 후보/사진=뉴시스
-우리나라 뉴스 환경에 어떤 변수가 있는지
▶구글 트렌드로 트럼프의 당선 예측이 가능했던 것은 ‘트럼프’와 관련된 뉴스를 보고 싶어한 유권자들이 주변 영향을 적게 받고, ‘트럼프’라는 키워드를 검색한 환경적 특성이 있었다. 구글은 최근 모바일 뉴스서비스를 제공하기 시작했지만, 원칙적으로 검색창 하나만 보여준다. 우리나라의 경우에는 국민의 약 75% 정도가 네이버를 이용한다고 한다. 네이버는 실시간 검색어와 다른 기타 정보들이 많이 노출된다. 검색의 빈도만으로 유권자의 성향을 알기에는 영향을 미치는 요소들이 너무 많다는 의미다. 또 유권자들은 인물이나 이미지, 소속 정당, 지역 연고 등의 영향을 받고 현안에 휩쓸리기 때문에 예측이 그리 쉽지 않다.

-6•13 지방선거에서 빅데이터를 활용한 예측이 불가능하다는 이야기인지
▶빅데이터로 6•13 지방선거 예측이 가능하다고 생각하지는 않는다. 우선 지방선거 후보자는 빅데이터를 형성할 정도로 충분히 많은 수의 데이터 값을 확보하기 힘들다. 전화 여론조사가 잘 맞는 선거는 대선>총선>지방선거 순이다. 지역적 범위가 좁아질수록 충분한 수의 조사 대상을 설정하고 분석하기가 어렵다.

-아직 한국에서는 빅데이터보다 전화 여론조사를 더 많이 이용한다
▶비용과 속도 때문이다. 내가 10년 전 여론조사기관에서 근무했을 때도 여론조사 무용론이 제기됐다. ‘어떤 의미가 있나’ 혹은 ‘정확성이 너무 떨어진다’는 비판은 꾸준히 있었다. 그럼에도 여론조사는 여전히 건재하다. 대부분의 정당에서 후보자를 선택하는 중요한 기준으로 반영하고 있다. 아주 정확하지는 않지만, 어느 정도 추세는 반영한다고 보고 있다.

-여론조사는 앞으로 정확해질 수 있을까
▶RDD방식이나 안심번호를 활용한 휴대전화 여론조사가 가능하긴 하지만 응답률이 낮다. 응답자 또한 솔직한 속마음을 밝히지 않는 경우가 많다. 대한민국 국민들은 상당히 똑똑하다. 여론조사에 대한 이해도는 물론, 그것이 미칠 영향까지 고려하고 답변하는데 여론조사가 정확할 수가 있겠나.

-지금 빅데이터를 이용해 예측하려면 어떤 문제가 발생하나
▶빅데이터 여론조사는 상당히 매력적이지만 시간과 비용이 많이 들어간다. 오바마 전 대통령은 지난 2012년 미국 대선 당시 캠프에서 최초로 빅데이터를 이용했다. 그때 들어간 선거비용이 7억2100만달러 였다. 한화로 7825억7340만 원이다. 서울시장의 경우 선거비용제한액이 34억9400만 원이다. 그만큼 미국은 선거비용이 넉넉한 데 비해 우리나라는 그 정도가 아니다. 속도도 문제다. 빅데이터 분석을 위해서는 오랜 준비와 많은 인력이 필요하다. 지방선거의 공식선거운동기간은 13일이다. 대선의 경우는 조금 더 길기는 하지만 미국과 같이 2년여에 가까운 선거운동을 하지 않는다. 투자할 시간 자체가 없다. 지금은 포털들이 제공하는 서비스에 의존한 1차원적인 분석만이 가능하다. 이 분석이 의미가 없다는 것은 아니지만 성별, 나이, 지역 등의 상세한 정보를 얻기에는 한계가 있을 수밖에 없다.

-그럼에도 전화 여론조사보다 빅데이터에 기대를 하는 이유는
▶여론조사는 모집단을 대표할 수 있는 표본을 추출해서 의견을 묻는다. 전체 대상을 모두 파악할 수 없다. 빅데이터는 전체 대상에 대한 조사 혹은 그에 가까운 수준의 조사가 이뤄진다. 표본의 절대 수 자체가 여론조사와는 다르다.

-빅데이터는 단순히 검색어 비교로 볼 수밖에 없지 않나
▶단순히 검색어 비교로만 생각하면 안 된다. 본래 빅데이터의 의미를 생각하면 다양한 경로를 통해 확보된 다양한 형태의 데이터들이다. 이를테면 검색어뿐만 아니라 SNS에 게시된 개인의 의견과 생활, 후원 또는 기부가 이루어진 단체, 평소 좋아하는 인물의 외형, 경제활동 등에 대한 정보가 모두 취합될 수 있다면 엄청난 양의 빅데이터가 될 것이다. 정확한 데이터를 통한 정확도는 더 올라갈 것이다. 나는 이런 빅데이터를 ‘나보다 나 자신을 더 잘 아는 빅데이터’라고 부른다. 이 정도 수준이라면 단순히 의견의 향방을 예측하는 것이 아니라 무엇을 원하는지, 무엇이 약점인지를 안다면 설득도 가능할 것이라고 본다.

-4차 산업혁명을 앞두고 빅데이터가 중요해지고 있다. 빅데이터를 우리는 어떻게 활용해야 한다고 생각하나
▶‘Data is the New Oil’이라는 말이 있다. 빅데이터는 정보화 사회의 원유라는 비유다. 산업혁명시대의 철과 석탄의 역할처럼, 빅데이터는 4차 산업혁명시대의 산업 전반에서 작용하고 있다. 4차 산업혁명은 이미 진행 중이다. 인류는 증기기관으로 시작된 ‘산업혁명‘, ’전기‘의 발명을 거쳐 ‘컴퓨터’와 ‘인터넷’을 통한 혁명적 사회변화를 이뤄냈다. 그리고 AI와 로봇, IoT와 드론 등을 통해서 더 똑똑하고 편리해진 새로운 세상이 오고 있다. 빅데이터는 미래를 예측하는 것뿐만이 아니다. 우리가 모르고 있었던 패턴, 새로운 사실을 발견할 수 있다. 기존의 산업과 빅데이터적 시스템이 결합하는 것은 ‘산업혁명’이라는 말처럼 혁명적 변화를 이끌어낼 것이라고 예상한다.

-빅데이터를 이용하기 위해서는 개인정보보호법에 대한 규제가 풀려야 하는데
▶빅데이터 관련 법률은 대부분 개인정보보호법의 완화에 방점을 두고 있다. 공공기관, 금융기관, 학교, 일부 민간단체를 제외한 영역에서 개인 정보의 취득과 거래는 엄격히 금지돼 있다. 데이터 결합이야말로 빅데이터의 핵심 부분이다. 지금은 법적으로 금지돼 있다. 이것을 해결하기 위해 비식별화 조치 등을 한다고 하지만, 빅데이터의 세계에서는 큰 의미가 없다. 결국 과감한 선택만이 남아있다.

-배 소장은 최근 어떤 연구를 진행하고 있는지
▶최근 저출산과 비혼에 대해 연구하고 있다. 저출산의 원인은 비혼, 비혼의 원인은 경제적 요인이라고 보는 분들이 많다. 여론조사에서는 경제적 이유가 절반에 불과하다. 정서적 이유가 나머지 절반을 차지한다. 이 정서적 이유를 ‘로맨스 상실의 시대’로 정의하고, 연구하고 있다.

배철순 하우사회문제연구소장
연세대학교 언론홍보대학원 석사
하우사회문제연구소 부소장
로맨틱연구소 소장
극동미래연구소 객원연구위원
왕토끼썸씽연구소 자문위원
(주)히즈디자인하우스 스페셜연구소 자문위원
前 여의도연구소 여론조사실 차장
前 여의도연구소 뉴미디어실 팀장 

▶본 기사는 입법국정전문지 더리더(the Leader) 6월호에 실린 기사입니다.
semi4094@mt.co.kr

정치/사회 기사