본문 바로가기
Book Some place../오늘의 책이 담긴 책상자

리치보이가 주목한 오늘의 책 - 빅데이터 인간을 해석하다(크리스티안 루더)

by Richboy 2015. 7. 29.

 

 

 

 

《뉴욕 타임스》 베스트셀러
《아마존》 베스트셀러
《블룸버그》 선정 2014년 최고의 책
《미국공영라디오》 선정 2014년 최고의 책
《글로브앤메일》 선정 2014년 최고의 과학책

페이스북의 ‘좋아요’ 데이터를 이용해 사용자의 지능을 알아낼 수 있을까?
아름다운 외모는 우리의 삶에 얼마나 많은 영향을 미칠까?
트위터가 정말 우리의 언어 수준을 끌어내릴까?
그리고, 이 빅데이터의 홍수에서 우리는 안전하고 자유롭게 살아남을 수 있을까?

감시’와 ‘마케팅’, 그것뿐일까?
아무도 언급하지 않았던 빅데이터의 말랑한 속살


 

숫자가 알려주는 낯 뜨겁고도 흥미진진한 인간 관찰서!

 

‘빅테이터’라는 단어는 이미 우리 삶의 상당 부분에 흡수되어 있다. 하지만 그 앞에 붙는 수식어는 그다지 긍정적이지 않다. 바로, 감시와 마케팅 판매수단. 그동안 빅데이터에 대해 이야기할 때 이 2가지 틀을 벗어난 경우를 찾아보기란 힘들었다. 그런데 정말 빅데이터가 하는 일이 이처럼 몸을 사리며 의혹의 눈길을 보내는 그런 것들뿐일까?

미국 최대의 데이트 사이트 ‘Ok큐피드’의 설립자이자 정보 분석가로 일해 온 크리스티안 루더는 빅데이터에 대한 이 2가지 카테고리를 지운 채, 흥미롭고도 말랑말랑한 이야기를 들려준다. 예컨대 남성이 가장 호감을 느끼는 이성의 나이라든가, 인종과 성별에 따라 가장 많이 쓰는 표현은 무엇인지, SNS상에서의 ‘마녀사냥’과 집단 분노의 이유 등이 그것이다.

그런 다음, 그는 처음에 과감히 지워 버렸던 빅데이터의 2가지 부정적인 역할을 다시 불러내어, 데이터 분석으로 모든 연구가 가능한 세상에서 자아와 사생활을 안전하게 지킬 방법을 찾아내기 위해 고심한다. 그 결과 우리의 인간성을 없애는 것은 숫자가 아니라 스스로 인간이길 그만두는 계획적 결정이라는 결론을 내리며, 이를 힘주어 강조한다.

 

 

‘빅데이터’는 더 이상 무시하고 넘어갈, 혹은 모른 채 지나쳐도 될 신조어나 잠깐의 유행 같은 것이 아니다. 실제로 거대 웹사이트는 물론 각종 기업과 슈퍼마켓 체인까지 데이터라는 것을 조금이라도 더 모으고 연구하고 이용하느라 열을 올리고, 인터넷을 사용하는 사람이라면 누구나 검색창에 궁금한 단어나 문장 한번 쳐본 일이 있을 테니 빅데이터는 이미 우리 삶 아주 가까운 곳에, 어쩌면 상당 부분 흡수되어 있는 셈이다. 하지만 그 앞에 붙는 수식어로만 보자면, 빅데이터는 명성 높다기보다는 악명 높은 도구다. ‘감시’와 ‘판매 수단’. 그동안 빅데이터에 대해 이야기할 때, 이 두 가지 틀을 벗어난 경우를 찾아보기란 힘들었다. 물론 두 단어 모두 그리 환영받을 만한 수식어는 아니다. 그런데 빅데이터가 하는 일이란 정말 다들 몸 사리며 의혹의 눈길을 보내는 그런 것들뿐일까?

크리스티안 루더는 빅데이터를 말하기 시작하면서 처음부터 단호히 그 두 카테고리를 지워 버린다. 그것 말고도 할 말이, 그것도 누구나 귀를 쫑긋 세울 만한 흥미롭고도 말랑말랑한 이야기들이 너무나 많기 때문에. 미국 최대의 데이트 사이트 ‘Ok큐피드’의 설립자이자 정보 분석가로 일해 온 크리스티안 루더는, 그 가치를 아는 사람이라면 누구라도 군침을 흘릴 법한 엄청난 규모의 빅데이터를 쥐고 있다. 그리고 이제 그것들을 하나씩 풀어 놓기 시작한다. 각각의 데이터는 사소하다. 어느 술자리에 가서 관심을 끌고 웃음을 유발할 정도일 뿐인지도 모른다. 하지만 이것들이 모이고 쌓여서, 그리고 전문가의 분석을 거쳐, 우리가 어떤 사람들인지에 대한 하나의 거대한 현상을 보여 준다면?
《빅데이터 인간을 해석하다》에서 크리스티안 루더는 페이스북의 ‘좋아요’ 데이터를 이용해 한 사람의 성적 성향이나 지능을 놀라운 정확도로 예측할 수 있다는 연구 결과, 아름다운 여성이 기하급수적으로 더 많은 면접 요청을 받는 현상, 트위터에서 나타나는 ‘조리돌림’과 집단 분노의 이유에 관해 설명한다. 공적인 자리에서, 그리고 사적인 자리에서 사람들은 자신을 어떻게 표현할까? 사적일 때와 공적일 때, 사람들이 어떻게 자신을 표현하는지에 대해서도 들여다본다. 남성이 선호하는 여성의 나이와 같은 지극히 사적인 주제에서부터 인종과 성별에 따라 가장 자주 쓰는 표현은 무엇인지, 시골 마을에서 대도시로의 전 세계적 이주 현상은 어떻게 나타나는지까지 살피는 저자의 관심은 모든 것을 아우른다. 그런 다음, 그는 처음에 지워 버렸던 빅데이터의 두 가지 부정적인 역할을 다시 꺼내, 이런 모든 연구가 가능한 세상에서 자아와 사생활을 지킬 방법을 찾아내기 위해 고심한다.

거대한 숫자로 인간의 마음을 속속들이 파헤친다

흥미로운 소규모 사례를 렌즈 삼아 대규모 현상을 들여다보는 방식은 이미 대중 과학 서적의 관행으로 자리 잡았다. 크리스티안 루더는 반대로 큰 것에서 작은 것을 이끌어내고자 한다.
트위터, 페이스북, 구글, 인스타그램은 물론 기업체이지만, 동시에 규모와 완전성과 중요성 면에서 이제껏 존재한 적 없는 수준의 거대한 인구 통계 기구이기도 하다. 우연한 기회에 인간은 디지털 데이터를 통해 자신이 싸우고 사랑하고 나이 드는 모습과, 자신이 누구이며 어떻게 변해 가는지까지 볼 수 있게 되었다. 그저 들여다보기만 하면 된다. 전체 데이터 중 아주 작은 부분만 살펴보더라도, 아무도 지켜보지 않는다고 생각할 때 우리들이 어떤 행동을 하는지 드러난다.
이에 근거하여 크리스티안 루더는 흔히 얘기되어 온 인터넷과 스마트폰 시대의 거시적 문제점이나 윤리적 일탈에 대한 지루한 언급 없이 모두의 흥미를 끌 만한 구체적이고도 재미있는 사례로 곧장 들어간다. 사람들의 행동, 생각, 말을 담은 수 테라바이트의 거대한 데이터 집합에서 친구 관계를 통해 알아보는 결혼 생활의 안정성, 동양인, 백인, 흑인, 라틴계 등 인종별로 자기를 소개할 때 잘 쓰지 않는 말, 동성애자가 성 정체성을 숨기는 장소와 그 이유, 지난 십 년 동안 크게 변한 글쓰기, 이와 달리 전혀 변하지 않은 분노 등 여러 소소한 이야기를 여과해 내는 것이다.
《빅데이터 인간을 해석하다》에서 숫자는 그 자체로 ‘서사’라 할 수 있다. 언뜻 기계적이고 차갑게 느껴질지 모르지만 그 숫자들이 얼마나 개인적이고도 은밀한 개개인의 속마음을 여과 없이 밝혀내는지, 독자는 곧 이 책을 통해 확인하게 될 것이다. 덤으로 천연덕스럽고 재치 넘치는 저자의 글솜씨까지 즐기면서.

우리는 어떻게 연결되는가

데이트 사이트의 운영자답게 저자는 가장 자신 있는 이야기, 즉 짝을 찾는 남녀의 이야기로 시작한다. 저자가 ‘우더슨의 법칙’이라 명명한 현상으로, “가장 호감이 가는 이성의 나이는?”이라는 질문에 대한 모든 사용자의 대답을 모아 놀라운 결과를 보여 준다. “남자의 이상형은 젊은 여자”라는 농담은 더 이상 농담이 아니다. 하지만 이들이 실제로 접촉을 시도하는 상대도 그와 같을까? 책에 수록된 정확하고 아름다운(!) 그래프들이 이러한 궁금증을 해소하며 속마음과 현실의 미묘한 괴리를 밝혀 준다. 그 밖에도 다수가 평가한 외모의 점수와 실제 인기도에는 어떠한 차이가 있는지, 그 이유는 무엇인지, 흥미로운 결과들을 살펴보면 연애 관계를 둘러싼 실로 다양한, 그럼에도 일관적인 현상들을 확인할 수 있을 것이다.
다음으로 저자는 관계의 시작이라 할 만한 ‘대화’에 대한 흥미로운 내용 또한 살펴보는데, 물론 이는 온라인상에서의 대화에 관한 이야기다. 140자라는 제한된 포맷에서 오가는 트위터의 세계가 정말로 우리의 언어 수준을 떨어뜨릴까? 누군가에게 호감을 느껴 메시지를 보낼 때 우리는 어떤 단어를 사용하며 어떤 반응을 얻어낼까? 시대에 따라 인간 보편 집단이 사용하는 단어는 어떻게 달라졌을까? 더하여 모두가 뜨끔해할 내용, ‘복사+붙이기’의 활용에 대해 재미있는 결과 또한 볼 수 있을 것이다.
하지만 크리스티안 루더가 정말 하고 싶은 말은 다른 것일지도 모른다. 이 많고 많은 정보들은 과연 우리들의 관계에 어떤 영향을 미칠까? 데이트 사이트를 통해 사람들의 판단이나 욕망을 자세히 연구할 수 있을지도 모른다고 기대하면서도 그는 데이트 사이트에서 제공하는 수많은 정보가 사랑에 악영향을 미치고 있지는 않은지 우려한다. 우리가 정보를 보고 판단을 내리는 까닭은 그것이 꼭 필요해서가 아니라 단지 그것을 ‘볼 수 있기’ 때문이니까. 이러한 걱정과 함께, 그는 온라인 세상에서는 언제나 원하는 것을 손에 넣을 수 있지만 진짜 원하는 것을 알기란 훨씬 힘든 법임을 강조한다.

우리는 어떻게 분열하는가

혐오의 시대다. 남녀 성별은 물론 인종이나 성적 성향에 따른 혐오와 배척도 이제 먼 나라 이야기가 아니며, 무엇보다 ‘외모’에 따르는 불균형은 말할 필요도 없다. 이 모든 것은 사용자가 정체를 숨길 수 있는 온라인상에서 극히 활발히 나타나며, 심지어 집단적 증오로 표출되기도 한다. 저자는 먼저 ‘Ok큐피드’ 사이트 내에서 인종에 따라 사용자의 평가가 어떻게 엇갈리는지 분석하며 불편한 진실을 드러낸다. 아무리 아름다운 흑인 여성이라도 평범한 백인 여성에 비해 낮은 점수를 받을 수밖에 없는 현상, ‘흰 피부와 금발’을 향한 무한한 동경. 이야기는 구글 검색어로 이어져, 미국 대선 시기에 있었던 ‘nigger(흑인을 비하하여 부르는 표현)’ 검색 추이와 함께 “왜 여자들은……” 혹은 “왜 남자들은……” 등의 검색어에 관한 보고서로 또 다른 양상을 보여 주며 우리가 타인에 대해 얼마나 편협하고도 틀에 박힌 편견을 지니고 있는지, 심지어 검색을 통해 그 편견을 얼마나 단단하게 구축해 나가는지도 확인하게 한다. ‘외모 평가’가 유독 여성에게 극적으로 작용하는 현상도 씁쓸하긴 마찬가지다. 외모와 취업률을 분석한 데이터 속에서 ‘아름다움의 신화’를 직접 목격하고, 우리가 얼마나 기울어진 운동장에 살고 있는지, 왜 그렇게 많은 소녀들이 거식증에 시달려야 하는지 숙고해 볼 만하다.
저자는 또한 소위 ‘조리돌림’이라 부르는 온라인상의 마녀사냥과 집단 폭력성을 다루며 최근 우리나라에서도 화제가 되었던 저스틴 사코의 사례를 든다. 출장차 런던에서 요하네스버그로 가는 비행기에 오르며 트위터에 “아프리카 갑니다. 에이즈 안 걸리길 빌어요. 농담. 난 백인이니까요!”라는 글을 올린 그녀는 요하네스버그에 도착하기도 전에 트위터 최대의 사냥감이 되었고 결국 해고되었다. 트위터가 가질 수 있는 ‘정보 민주화’와 더불어 그 그늘로서 나타난 ‘디지털 돌팔매질’에 대해 크리스티안 루더는 상당한 우려를 드러내며, 이 거대한 숫자들이 의미하는 소셜 미디어의 부끄러운 단면을 고백한다. 이러한 사례들로 밝히는 ‘루머’의 발전 형태나 ‘키보드 워리어 증식 이론’ 등을 따라가다 보면, 인간의 집단 분노와 공격성에 대해 다시금 생각해 보는 계기가 될 수 있을 것이다.

우리는 어떻게 만들어지는가

‘OK큐피드’의 사용자를 분류하면 크게 여덟 집단이라 할 수 있다. 백인, 흑인, 아시아인, 히스패닉, 그리고 남자와 여자. 그런데 이들이 사용하는 단어들이 확연하게 다르다면? 아니, 이들이 절대로 쓰지 않는 단어들로 각각의 정체성을 설명한다면? 이 흥미로운 작업을 크리스티안 루더는 해냈다. 사용자들의 자기소개서 속에서 백인 남성이 가장 많이 사용하는 단어를 살펴보자. ‘내 파란 눈my blue eyes’. 그렇다면 동양인 남성은? ‘동양인치고는 큰 키tall for an asian’. 반대로 흑인 남성이 절대 쓰지 않는 단어는 ‘보르헤스Borges’, 히스패닉 남성은 ‘남부 억양southern accent’이다. 웃어넘길 시시한 이야기로 여겨질 수도 있지만, 여태껏 인종에 대한 분석적 접근이 거의 없었다는 점에서 이는 놀라운 성과라 할 만하다. 자동 완성을 비롯한 연역적 연구 방법을 사용해서는 무슨 수를 써도 이러한 내용을 접할 수 없다. 존재 자체를 모르는 것을 질문할 수는 없기 때문이다. 이렇듯 저자는 자신이 가진 수많은 데이터를 활용하여 누구도 생각하지 못한 방식으로 조합해 전혀 새로운 분석 도구를 만들어 낸 셈이다. 이어서 같은 방식을 통해 동성애자 사용자에 대해서도 분석하는데, (그들을 혐오하는 사람들에게는 놀랍게도) 그 결과가 여느 이성애자와 크게 다를 바 없음을, 다르다 해도 예상되는 바와는 전혀 다른 방식의 차이임을 밝혀낸다. 즉, 다른 챕터에서 동성애자 사용자에 대해 특별히 언급하지 않은 까닭은 실제로 그들이 특별하게 언급될 만큼 다르지 않기 때문이라는 것이다.
이야기의 마지막에서, 저자는 다시 처음으로 돌아간다. ‘감시’와 ‘판매 수단’으로서의 빅데이터로. 많은 이들에게, 특히 정부나 거대 기업에게 각각의 개인은 숫자에 불과하다. 거의 모든 일을 인터넷으로 해결하는 지금 인간이 숫자로 환원되는 것은 당연한 현실인지도 모른다. 하지만 우려의 목소리를 숨길 수는 없다. 사람들은 숫자도 아니고 인간성을 제거한 사용자 ID로 환원된 후 마케팅 알고리즘 분쇄기로 들어가 다른 이의 브랜드를 살찌우는 곡식이 되기도 하고, 모든 것이 너무도 수치화된 소셜 미디어에서는 원치 않는 개입이 너무 쉽게 일어나기도 한다. 저자는 이와 관련한 재미있는 에피소드를 하나 내놓으며 메시지를 전한다.

최근에 마운틴 듀Mountain Dew는 ‘크라우드소싱crowdsourcing’ 물결에 합류해 멋진 새 이름을 짓고자 ‘듀의 이름을 지어라Dub the Dew’라는 공모전을 개최했다. 이들은 아마 일이 잘 풀려 영향력 있는 인터넷 인사들의 주목을 받으면 블로그 홍보 대사를 몇 명 얻을 수 있을 거라고 생각했을 것이다. 하지만 실제로는 레딧과 4챈4chan이 공모전 정보를 입수한 후 한동안 ‘히틀러는 잘못한 게 없다Hitler did nothing wrong’라는 이름이 맨 위에 오르다가 마지막에 ‘디아비터스(당뇨병을 뜻하는 속어)’가 치고 올라와 이겼다. 마치 “이름은 네가 지어, 멍청아.”라고 외치는 소리가 실제로 들리는 듯하다. -295쪽

물론 인터넷은 광란의 공간이 될 수 있다. 하지만 광적으로 예상을 빗나갈 수 있는 이런 가능성이 인터넷을 보완하는 역할을 하기도 한다. 인터넷 산업의 모범 사례는 아니지만, 이러한 일들은 우리의 뉴스피드, 포토스트림, 담벼락은 물론 심지어 정신까지 침투하고 있는 기업이 우리 안의 작은 부분에는 아직 접근하지 못하고 있다는 증거다. 우리의 인간성을 없애는 것은 숫자가 아니라 스스로 인간이길 그만두는 계획적 결정이라고 저자는 힘주어 강조한다. 


빅데이터 인간을 해석하다

저자
크리스티안 루더 지음
출판사
다른 | 2015-07-24 출간
카테고리
인문
책소개
‘감시’와 ‘마케팅’, 그것뿐일까? 아무도 언급하지 않았던 빅데...
가격비교