모두 거짓말을 한다
오랜만에 본 자기계발서-
요약보다 자료가 훨씬 디테일하고 풍부했으며, 특히 구글 본질의 특성상 음적인 부분(?)에 대한 언급이 많고 흥미로웠으나, 아래 내용은 정말 큰 줄기만 옮겼다.
생각보다 재밌었고, 기억하고 싶어서 정리하고 남겨보았다. 가장 기억에 남을 것 같은 건, 빅데이터는 확보만 되면 모든 것을 해결해주는 만능해결책이 아니라 유의미한 결과를 도출하려면 결국 질문자의 통찰과 적절한 질문이 중요한 것이고, 그것이 자료와 합쳐질때 궁극의 결과물을 낼수 있다는 것을 깨달았다는 점이다.
O 주변사람들이 당황하거나 그 이상의 반응을 보일지 모른다는 두려움이나 기대 없이 자신의 이야기를 털어놓을 수 있다. 전형적인 정보원에서는 숨겨졌지만 인터넷 검색어에는 사람들의 악의와 미움이 확연하게 드러났다.
O 특히 현실과 많이 다른 부분, 즉 의미가 있을 부분은 민감한 주제들이다.
1. 성적인 자료
2. 정치적이거나 인종적인 자료
구글데이터는 누가 실제로 투표를 하러 나올지 알고있다. 선거몇주전에 걸쳐 투표하는법, 투표장소가 구글에서 얼마나 검색되었는지 살펴보면 어떤지역의 투표율이 높을지를 예측가능하다. 후보의 이름이 등장하는 순서를 보면 지지하는 후보를 앞에 두는 경향이 유의미하게 강하다.
O 구글검색이 귀중한 가장 큰 이유는 데이터가 많기 때문이 아니라 사람들이 솔직한 생각을 내놓기 때문이다. 사람들은 친구, 연인, 의사, 설문조사원은 물론 자기자신에게도 거짓말을 한다. 하지만 구글에서는 섹스없는결혼생활, 정신건강문제,불안감,흑인을향한적대감에 관해 다른 곳에서는 내놓기 힘든 정보를 공유한다.
O 직감은 불완전하다 : 블링크 이후에 직관 열풍이 불었다.
1.인간은 극적인 것에 강한 흥미를 느끼기 때문에 직관에 의지하면 판단이 흔들릴 수 있다. 좋은데이터과학의방법론은 직관적이지만 ,그 결과는 직관에 반할때가 많다.
2.인지의 함정에 빠질수 있다. 자신의 데이터에 큰 비중을 둔다.
O 빅데이터의 힘
1.새로운유형의 데이터제공
2.솔직한 데이터제공
3.작은집단도 클로즈업해서 볼수 있는 것: 데이터가 많기 때문에 사소한 내용의 추출도 검증할만큼의 검색량을 확보할 수 있다. (예: 오이꿈을 꾸는사람과 토마토꿈을 꾸는 사람의 수를 비교)
4.인과적 실험의 실행가능성(이전에는 검증이 불과했던 데이터들을 사회과학적으로 분석할 수 있는 가능성이 열림)
O 구글링이 다른 기타 검색엔진과 다른점
다른 검색엔진은 사용자가 검색한 문구가 가장 많이 들어가는 웹사이트를 보여줌.이는 시스템혼란이 가능한데, '오바마 오바마 오바마 오바마 오바마 오바마' 라는 문장이 어딘가에 숨어있으면 백악관 공식 웹사이트보다 높은 점수를 받을 수 있다.
구글은 더나은 유형의 데이타 찾기에 몰두: 단순히 단어수를 세는 것이 아닌 다른방법.사람들이 주제를 이해하는데 도움이 된다고 생각하는 사이트를 링크해놓으면 그 링크된 웹사이트 갯수중에 최상위를 검색함.이외 뉴욕타임즈 기사, 리스트서브, 블로거, 크라우드소싱을 이용.
O 신체데이터: 경주마를 찾기 위해서, 혈통으로 확보하는게 아닌, 우승한 경주마들의 좌심실이 크다는 데이터를 활용하여 미래의 경주마확보
O 단어데이터: the united states are/is divided : IS -> ARE로 바뀌는것은 사회문화적 의미가 있다. 미국인들은 남북전쟁후 연합이 되었다고 생각했지만,남북전쟁 15년후에도 여전히 사고방식의 변화는 군사적 승리보다 느렸다.
O 민감한 주제에 대해서는 모든 설문조사방법이 상당한 오류를 낳는다. 이는 사람들이 설문조사에서 진실을 말할 유인이 없기 때문.
O 빅데이터는 디지털 자백약이다. : 솔직하게 만드는 요건: 온라인, 혼자, 설문조사 관리자가 없는 것
O 진실을 어떻게 다뤄야 할것인가.
1. 불안에잠기고 당혹스러운 행동을 하는게 나 혼자만은 아니라는 사실에 안도할 수 있다.
(공동연설장면을 보면서 몇살인지/ 옆사람은 누구인지/왜 녹색넥타이를 맸는지/피부색이 왜 어두운지 검색함)
2. 이를 통해 어려움에 처한 사람들을 민감하게 알아차릴 수 있다. 실제로 그런 고민들을 하는 사람의 비중등을 필요성으로 연결시킬 수 있다.
3. 문제에서 해답으로 우리를 이끌어주는 능력. 실제로 특정 검색어와 지지비중등을 실시간으로 연결지어 생각하는 자료가 추출 가능.
O 빅데이터의 분석은 그저 좀더 많은 데이터를 이용해 설문조사로 하는 일을 똑같이 반복하는 것이 아니다. 설문조사와는 완전히 다른 방식으로 접근할 수 있다. 지역 등 작은 부분을 확대할 수 있는 것. 세금탈루는 어떻게 이뤄지는가를 검색할때 누가 정직하고 누가 정직하지 못하냐가 아니라, 누가 탈세방법을 알고 누가 알지 못하냐를 판단하는 것이고 그것을 세금전문가와 유경험자와 가까운곳에 사는 정보로 추출할 수 있다.
O A/B 테스트 : 온라인에서 몇가지 옵션중 선택하게 하는 테스트
1.사람들은 종종 종잡을수 없다. 아무리 인간본성에 대한 통찰력이 있어도, 아무것도 가정할 수 없다. 문자 그대로 모든 것을 실험해야한다.
2.작게 보이는 변화도 큰 효과를 낼 수 있다.
3. WOW등 게임업계가 많이 이용하는 도구이다. 여러버전으로 미션을 수행함. A말을 건네다. B 그냥 지나간다. 여러종류의 샘플을 제공하고 어떤 샘플이 주어질 때 더 많은 사람들이 게임을 하는지 확인한다.=> 중독이 심해짐
O 빅데이터가 가진 한계
1. 차원의 저주 : 주식시장의 이동이나, 유전적 열쇠를 찾을 수 없다. 변수가 너무 많고, 임의로 충분히 많은 것을 실험하다보면 통계적으로 유의미한 무언가가 나오긴 하지만 그것이 정답은 아닐수 있다.
2. 측정가능한 것에 대한 지나친 집중: 숫자는 유혹적이다. 점차 수에 집착하면서 더 중요한 고려사항을 놓칠 수 있다. 빅데이터는 인간이 세상을 이해하기 위해 수천년동안 개발해온 다른 모든 방법의 필요성을 없애지 않는다. 그들은 서로를 보완한다.
3. 윤리적 문제를 야기 = 권력화된 기업에서 생기는 위험: 기업이 P2P대출에서 대출을 승인하기 위하여 채무변제예상을 할때 우리가 사용한 단어를 활용하는 세상. 채용하기 위하여 취미와, 선호도(오토바이, 클래식 등) 로 평가받는 세상. 이것은 일반적으로 채용회사가 면접자의 매너나 신뢰를 주는 말투 같은 걸 보고 평가하는 것과 같은가 다른가?
O PAIN POINT : 도박하는 사람이, 긴 시간동안 카지노를 찾지 않게 만들만큼 사람을 겁먹게 만드는 손실액. 카지노입장에서 A의 페인포인트가 3000달러라고 하면, 2900달러까지 잃도록 유혹할 수 있다. 이 금액은 사람마다 다른데, 이를 빅데이터로(나이,성별,도박행동,우편번호, 도박습관) 추산할 수 있고 활용할 수 있다. 정교한 분석을 통하여, 더욱 돈을 짜내게 할 수 있다.
O 한편으로 소비자에게 바가지를 씌우거나 조잡한 제품을 공급하는 기업에게 강타를 날릴수도 있다: 소비자평가사이트 같은 것들이 대표적이다.
O 차세대 킨제이,차세대 푸코, 차세대 마르크스는 데이터과학자일 것이다.
O 얼마나 많은 사람들이 책을 끝까지 읽을까?
도나타트의 소설 '황금방울새'를 끝까지 읽은 독자는 90%가 넘었다. 노벨상을 수상한 경제학자 대니얼 카너먼의 대표작 '생각에관한생각'을 끝까지 읽은 사람은 독자의 약 7%에 불과했다. 이 대략적 방법의 추산에 따르면 정말로 많이 언급되고 높은 평가를 받는 토마피케티의 '21세기자본'을 끝까지 읽은 사람은 겨우 3%에 불과하다.
나는 독자들이 내가 쓴 모든 말에 잘 따라오고 뒤 내용을 앞 내용과 연결하는 패턴을 감지했기를 바란다. 하지만 내가 글을 가다듬기 위해 얼마나 노력을 했건, 대부분은 첫 50페이지를 읽고 몇가지 요점을 받아들인 뒤에 일상으로 돌아가버릴 것이다.
따라서 나는 이 책을 적절한 방법으로 끝맺을 것이다. 데이터에 따라서, 사람들이 하는 말이 아니라 사람들이 실제로 하는 행동에 따라서 말이다. 나는 친구들과 맥주를 한잔하고 이 망할 결론을 그만 쓸것이다. 빅데이터가 말하길 여기까지 읽고 있는 사람은 극히 소수니까.
Review/Book
모두 거짓말을 한다.
728x90