본문 바로가기

DataAnalytics

(Coursera) 06 07. Lesson | Data 출처와 오류(최근 경향까지) 그리고 대책

06. Lesson 6 | Data, Data, Everywhere

raw data와 processed data

data 출처의 크기

  • raw data >> processed data 로 발전

screen shot 2015-08-02 at 1 59 10 am

예) 20대 여자 
+ 커피 애호가 (관심사)
+ 커피 사이트 방문자 (인텐트)
+ 리마케팅 대상

screen shot 2015-08-02 at 2 00 15 am

데이터를 획득하는 방법

  • API, CSV다운로드, web에서 스크랩핑

screen shot 2015-08-02 at 2 09 41 am

획득한 데이터의 오류(bias)문제

  • 질문 오류: VOC, 설문지 등의 경우 애초에 질문이 문제가 되는 경우는?
  • 샘플링 오류: 잘못된 표본을 뽑았을 때의 문제,
  • 해석의 오류: 애매모호한 상황을 해석자의 성향에 따라서 해석하고자 하는 성행

07. Lesson 7: New Media – New Data, New Opportunities, New Dangers

대부분의 내용은 기존 내용의 wrap up 인데, 일부 추가 내용이 있습니다.

소셜미디어의 새로운 Bios의 사례

  • VTview.com의 사례

    • 돈을 내면 유튜브의 비디오 조회수를 올려주는 사이트
    • 유튜븨 조회수를 실제로 믿을 수 없다
    • screen shot 2015-08-02 at 2 18 54 am
  • 영국 유명가수의 사례

    • 수백만명의 twitter follower를 보유하고 있으나, 실제로 트위터 이벤트는 완전히 실패했다
    • 약 2000명의 팬을 제외한 나머지 follower 들은 가짜이다.

screen shot 2015-08-02 at 2 20 32 am

구글이 해결책은 광고에 돈을 써라?

이 강의를 하고 있는 Harman 아저씨가 구글의 광고 담당이라 그런지.. 광고 영업을 살짝 넣으신 듯.

screen shot 2015-08-02 at 2 22 00 am

  • 마케팅에 사용할 수 있는 정보는
    • paid 돈을 내고 사용하는 광고성 정보
    • owned 직접 만들고 컨트롤 하는 공간 (예. 티스토어 배너 등!)
      • 홍보기사(PR), 유튭 채널, 트위터 계정, 페북 페이지, 제품(티스토어 등)
    • earned 남이 리트윗, 라이크를 해주는 것들 사실상 컨트롤이 어려운 정보이다.
  • 구글의 주장에 따르면…
    • paid 가 가장 정확하고, 확실한 정보이고
    • earned 는 확장성이 높지만 신뢰성이 떨어진다.