데이터 분석 준전문가/제1과목

제2장 데이터의 가치와 미래

표독's 2016. 2. 16. 21:44

제 2장 데이터의 가치와 미래

학습목표

빅데이터의 정의와 기능, 빅데이터로 인한 변화에 대한 이해

빅데이터의 가치와 영향 이해

빅데이터 비즈니스 모델 이해

빅데이터로 인한 위기 요인과 통제 방안 이해

미래의 빅데이터 이해

 

제 1절 빅데이터의 이해

  1. 정의

빅데이터는 일반적인 데이터베이스 소프트웨어로 저장 관리 분석할 수 있는 범위를 초과하는 규모의 데이터다.

 

빅데이터의 특징(세 가지 측면, 3V)

데이터의 양(Volume) / 데이터 유형과 소스측면의 다양성(Variety) / 데이터 수집과 처리측면에서 속도(Velocity)

 

정의 종합.

  1. 3V로 요약되는 데이터 자체의 특성 변화에 초점을 맞춤.
  2. 데이터 자체뿐 아니라 처리, 분석 기술적 변화까지 포함하는 중간 범위의 정의
  3. 인재, 조직 변화까지 포함해 빅데이터를 넓은 관점으로 정의하는 방식

 

2.출현 배경

  1. 산업계 – 고객 데이터 축적
  2. 학계 – 거대 데이터 활용 과학 확산
  3. 관련 기술 발전 (디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅)
  • 인터넷 발전 : 사용자의 특성을 보다 정교하게 파악해 광고주가 도달하고자 하는 정확학 고객군 파악. 사용자의 log 정보가 활용됨.
  • 모바일 시대 : sns로 감정 데이터를 쏟아내고 있으며, 스마트폰의 GPS, 가속센서, 거리센서 등 시시각각 사용자의 정보를 생산하고 있다.
  • 클라우드 컴퓨팅 : 점점 더 많은 정보가 클라우드로 집중, 빅데이터의 처리 비용을 획기적으로 낮춤.

 

  1. 빅데이터 기능

  1. 차세대 산업혁명의 석탄이나 철
  • 지금의 제조업뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회 경제 문화 생활 전반에 혁명적 변화를 가져올 것으로 기대.
  1. 21세기의 원유
  • 원유처럼 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 '정보'를 제공함으로 써 산업 전반의 생산성을 한 단계 향상시키고, 새로운 범주의 산업을 만들 것.
  1. 렌즈
  • 수 많은 정보는 우리가 이해하지 못했던 메커니즘을 이해하도록 도와준다.
  • 구글의 'Ngram Viewer' 사례, 단순히 수백 만권의 구글 책을 뒤져 The United State is와 The United State are 연 별 빈도수 차이를 보여주어 남북전쟁 이후 미국인들의 인식 변화를 읽을 수 있음. (are -> is)
  1. 플랫폼 역할
  • 다양한 사업자들이 공동으로 사용하는 플랫폼을 빅데이터 형태로 제공할 것으로 예상 됨. (facebook에서 서드파티 개발자들이 페이스북 위에서 작동하는 앱들을 만들기 시작)

 

  1. 빅데이터가 만들어 내는 본질적인 변화

    1. 사전 처리에서 사후 처리 시대로.

산업 혁명 이후 엄청난 정보를 처리하기 위해 정보의 사전 처리. (필요한 것만 걸러내기)

그러나 빅데이터 시대에는 가치가 있을 것이라고 정의한 특정 정보만 처리하는게 아니라, 가능 한 많은 데이터를 모으고 그 데이터에서 숨은 정보를 찾아냄.

  1. 표본조사에서 전수조사로

데이터 수집 비용, 대용량 데이터 처리 도구, 비용 등이 모두 걸림돌이 되었기 때문에, 표본조사에 의존. (통계학의 발전)

그러나 데이터 수집 비용이 문제가 되지 않으며, 처리 비용이 클라우딩 컴퓨팅 기술의 발전으로 급격하게 감소, 통계 프로그램의 발전

전수조사의 장점 : 샘플링이 주지 못하는 패턴이나 정보를 제공 / 데이터 활용, 재가공 측면에서 유리.

 

  1. 질보다 양으로

데이터가 지속적으로 추가 될 경우, 오류 정보보다 양질의 정보가 많기 때문에 좋은 결과 산출에 긍정적인 영향을 미친다는 추론.

데이터 수가 증가할수록 오류데이터가 '데세에 영향을 주지 못하는'경향이 늘어나기 때문이다.

 

  1. 인과관계에서 상관관계로

기존에 잘 정제된 데이터를 얻고 이를 정교한 이론적 틀에 맞춰 분석한 후 변인간의 인과관계를 찾으려함.

그러나 지금은 특정 키워드나 사건과 상관관계를 구할 수 있게 됨. (더 빠르고 효율적임)

Ex) tv시청과 고혈압사이의 인과관계를 밝혀내긴 어렵지만, 상관관계는 통계분석을 통해 예측할 수 있음.

 

변인들간의 인과관계를 많이 알수록 현상에 대한 이해의 폭과 깊이가 깊어짐.

제 2절 빅데이터의 가치와 영향

  1. 빅데이터의 가치

빅데이터의 가치 산정이 어려운 이유:

  1. 데이터 활용 방식 : 재사용, 재조합, 다목적용 개발
  2. 새로운 가치 창출
  3. 분석 기술 발전
  1. 빅데이터의 영향

빅데이터가 가치를 만들어 내는 방식 (빅데이터 보고서(2011), 맥킨지)

  1. 투명성 제고로 연구개발 및 관리 효율성 제고
  2. 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
  3. 고객 세분화 및 맞춤 서비스 제공
  4. 알고리즘을 활용한 의사결정 보조 혹은 대체
  5. 비즈니스 모델과 제품, 서비스의 혁신

 

빅데이터 영향

  1. 기업 : 혁신, 경쟁력 제고, 생산성 향상
  2. 정부 : 환경 탐색, 상황 분석, 미래 대응
  3. 개인 : 목적에 따라 활용
  4. 거시적 측면 : 생활 전반의 스마트화

 

빅데이터의 활용에 대한 가치 환산은 쉽지 않다.

  • 맥킨지컨설팅 보고에 따르면 빅데이터가 제조업에 적용될 경우 제품개발비 50%, 운전자본 7% 절감 예상.
  • 위치정보에 관한 서비스 분야 매년 1000억 달러 이상의 매출 창출

제 3절 비즈니스 모델

  1. 빅데이터 활용 사례

  1. 기업 :

    - 구글의 페이지랭크의 경우 사용자의 로그 데이터 활용

    - 월마트는 구객의 구매패턴을 분석해 상품 진열에 활용

2) 정부는 대국민 서비스 개선을 위해 활용, 실시간 교통정보, 기후, 방송모니터링

3) 개인의 경우 정치인 사회관계망을, 가수는 음악 청취 기록 분석

 

  1. 빅데이터 활용 기본 테크닉

7가지 테크닉

  1. 연관 규칙 학습

    변인들 간에 주목할 만한 상관관계가 있는지 찾아냄

    Ex) 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?

  2. 유형 분석

    새로운 사건이 속하게 될 범주를 찾아내는 일 / 훈련용 분류 틀이 필요 함

    Ex) 문서를 분류하거나 조직을 그룹으로 나눌 때 사용

  3. 유전 알고리즘

    최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법.

    Ex) 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?

  4. 기계 학습

    데이터를 통해 학습할 수 있는 소프트웨어 포함, 훈련 데이터로부터 학습한 알려진 특성을 활용해 '예측'하는 일에 초점을 맞춘다.

    Ex) 스팸 메일 걸러내기, 사용자에게 추천 서비스

  5. 회귀 분석

독립변수를 조작하여, 종속변수가 어떻게 변하는지를 살펴 두 변인의 관계를 파악

ex) 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?

  1. 감정 분석

    특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석한다.

    Ex) '새로운 환불 정책에 대한 고객의 평가는 어떤가?'

  2. 소셜 네트워크 분석

    Ex) 특정인과 다른 사람이 몇 촌 정도의 관계인가?' , 오피니언 리더 찾기

     

제 4절 위기 요인과 통제 방안

  1. 위기 요인

빅데이터 시대가 진행되면서 부각되고 있는 어두운 면으로는 사생활 침해, 책임원칙 훼손, 데이터 오용등을 들 수 있다.

 

  1. 사생활 침해 : 모든 혁신 기술이 출현할 때마다 끊임 없이 논란이었음.

    빅데이터 시대에는 그 어느 때보다 우려사항이 부각, 구글은 이미 2010년 서비스 이용자가 1시간 뒤에 어떤 일을 할지 87% 정확도로 예측할 수 있다고 함.

    여행 사실을 트위트한 사람의 집을 강도가 노리는 고전적 사례 발생.

    익명화 기술이 발전하지만 충분하지 않고, 정부의 정보 수집에서도 사생활 침해가 빈번하다.

  2. 책임 원칙의 훼손 : 지금까지 민주주의 국가에서 채택한 형사 처벌은 잠재적 위협이 아닌 명확하게 행동한 결과에 대해 책임을 묻고 있으나, 빅데이터 분석 결과 특정한 행위를 할 가능성이 높다는 이유만으로 처벌 받는 것은 행위 결과에 대해서만 책임을 묻는다는 민주주의 사회 원칙을 크게 훼손할 수 있다.

    이 뿐만 아니라, 직원 해고, 의사의 환자 수술 거절 등의 의사결정이 데이터를 기초해 사전적으로 결정 된다면 인권이 제대로 존중 받지 못할 수 있다.

  3. 빅데이터 활용자가 데이터를 과신할 때 큰 문제가 발생할 수 있다. 빅데이터는 과거에 일어난 일에 의존하기 때문에 그것을 바탕으로 미래를 예측하는 것은 정확도는 높을 수 있어도 항상 맞을 수는 없다. 또한 잘못된 지표를 사용할 경우 그 피해는 막심 할 수 있다.
    1. 통제 방안 (연방거래위원회가 제시한 3대 원칙)

  4. 동의에서 책임으로 : 개인정보 사용으로 발생하는 피해에 대해 사용자가 책임을 하게 하여 사용 주체가 적극적인 보호 장치를 강구하게 해야함.
  5. 결과 기반 책임 원칙 고수 : 예측 알고리즘의 판단을 근거로 처벌하는 것이 아닌, 실제 담합한 결과에 대해서만 처벌해야 한다.
  6. 알고리즘 접근 허용 : 구글의 알고리즘의 부당한 적용으로 피해를 봤다는 웹사이트 수는 꾸준히 증가하고 있으며, 미국정부와 EU는 검색 알고리즘에 사용되는 시그널과 비중에 대해 공개를 요구하고 있다. 이는 알고리즘에 대한 접근권을 보장함으로써 해결 될 수 있으며 알고리즘을 해석하는 알고리즈미스트가 각광받게 될 것이다.

제 5절 미래의 빅데이터

빅데이터 활용에 필요한 기본적인 3요소는 데이터와 기술, 인력이다.

  1. 데이터 : 모든 것들이 데이터화하는 시대가 도래하고 있다. 목적 없이 생산된 데이터라도 창의적으로 재활용되면서 가치를 만들어 낼 수 있기 때문이다.
  2. 기술 : 빅데이터 분석 알고리즘의 진화가 빠르게 진행될 것이다. 데이터 생산량이 기하급수적으로 증가하면서, 그것을 다룰 수 있는 알고리즘의 효율성역시 필요하게 되었다. 특히 인공지능 기술은 인간의 사고 추론 계획 학습 능력을 담아내고 있는데 빅데이터를 활용해 인간보다 더 빠르고 정확한 판단을 내릴 수 있음을 실제로 보여주기 시작했다.