빅데이터에서 유의미한 지식을 찾는 통계 기술, 데이터마이닝

[문화뉴스 MHN 김종민 기자] 최근 세계의 관심사는 단연 미국 대통령 선거였다. 바이든과 트럼프의 각축전은 선거 전 예측과는 다소 다른 양상이었다. 최종적으로는 바이든이 당선되었으나, 예측하기 어렵고 불확실한 상황인지라 오늘날에는 선거 활동에도 빅데이터가 사용된다.

과거 2012년 재선 당시 오바마는 체계적으로 선거 활동을 펼치기 위해 데이터마이닝 전문가를 모집했다. 데이터마이닝은 빅데이터 통계학과 관련이 있는 분야로, 그린 뉴딜과 4차 산업혁명의 주인공 중 하나다.

출처: 미디엄

 

■ 데이터마이닝이란?

데이터 마이닝은 사전에서 '대용량의 데이터 안에서 체계적이고 자동으로 통계적인 규칙이나 패턴을 발굴하는 것'으로 정의된다. 마이닝(Mining)이라는 단어의 의미가 채굴, 채광이므로, 많은 양의 데이터 안에서 유용한 정보와 지식을 가공한다는 뜻으로 볼 수 있다.

 

데이터마이닝의 분석 기법은 크게 네 가지다.

첫째는 '연관성 분석'이다. 이는 데이터 간에 얼마나 비슷한지, 상관관계가 높은지를 따진다. 연관성 분석을 보여주는 대표적인 예시가 '장바구니'다. 만약 초콜릿을 구매한 고객이 우유도 구매할 확률이 높다면, 두 상품은 연관성이 높다.

과거 월마트에서 이 연관성 분석을 활용했다. 월마트에서는 고객 데이터를 분석해 기저귀를 사는 젊은 남성은, 맥주를 구매할 확률이 높다는 것을 발견했다. 월마트는 이러한 근거를 따라서 매장을 상품에 전략적으로 배치했다.

냉장고와 기저귀, 출처: 빅데이터 월드

 

둘째는 '분류 분석'이다. 분류 분석은 데이터를 특정 기준으로 나누어 분류한다. 이를테면, 신용 평점 데이터를 바탕으로 저신용자, 고신용자 등을 분류해 대출 및 금융 상품 상담에 활용한다. 보험에도 이를 적용할 수 있다. 과거 병력, 건강 기록 등을 바탕으로 보험 사기인지 아닌지를 판단하는 것이다.

셋째는 '군집 분석'이다. 군집 분석도 분류분석처럼 데이터를 나누는 방법이지만, 차이가 있다. 군집 분석은 어떤 기준을 설정하지 않은 상태에서, 데이터를 가지고 귀납적으로 기준을 찾아가는 방식이다. 아무 기준도 없는 상황에서 서로 묶이는 데이터를 보고 기준을 사후에 판단하게 된다.

공정에서 군집 분석의 기법이 주로 사용된다. 불량품을 줄이기 위해서 과거 데이터를 이용한다. 과거에 발생한 불량품들이 어떻게 묶이는지, 어떤 기준이 있는지를 찾아서 원인을 규명하는 것이다.

마지막은 '예측 분석'이다. 기존의 데이터 패턴을 기반으로, 유사한 상황에서 미래에도 비슷한 사건이 일어나리라 전망하는 방식이다. 프리미엄 냉장고 제품이 특정 소비자에게 많이 팔렸다는 정보를 바탕으로, 자사 프리미엄 냉장고 후속 모델의 판매 확률 및 수요를 판단하는 등에 해당한다.

이외에도 최근에는 인공신경망 분석 등 '인간이 내리는 의사결정'과 유사한 알고리즘들이 도입되고 있다.

 

■ 데이터마이닝 응용 예시

연관성 분석, 연속성 분석의 대표적인 예시는 쉽게 찾아볼 수 있다. 오늘날 포털사이트에서 제공되는 연관 검색어가 그것이다. 구글의 경우 연관성 분석을 활용한 '독감 트렌드' 서비스를 런칭했다. 구글 검색어에서 '감기' 키워드 검색량이 증가할 때, 독감이 유행한다는 패턴을 발견한 구글은 국가, 지역별 독감 유행 시기를 예측해 게시했다. 구글은 이 결과가 미국 질병관리본부보다 1주가량 빠르고 정확했으며 실제 병원 방문 빈도와 일치했다고 밝힌다

사진=CBS

예측 분석을 응용한 예시는 추천 알고리즘이 대표적이다. 기업마다 내부에 축적된 고객 데이터가 있을 것이고, 이 데이터를 바탕으로 고객별 맞춤형 서비스를 제공하는 것이다. 유튜브에서 추천 동영상을 끊임없이 제공하는 것도 같은 원리다. 오늘날 전자상거래 기업들에서도 같은 방식으로 추천 상품 정보를 소비자에게 건넨다. 

■ 데이터마이닝에서 유의할 점

데이터마이닝은 데이터를 분석하기 이전에 가공하는 '전처리'가 필수적이다. 데이터 전처리가 제대로 이루어지지 않은 경우, 분석 결과도 엉망이 된다. 이를 지적한 유명한 표현이 "Garbage In, Garbage Out"으로 쓰레기 값을 넣으면 쓰레기가 나온다는 것이다.

또 데이터 자체를 다루는 일은 법적인 문제를 내포할 우려가 있다. 개인 정보 유출 사고가 종종 발생하여, 기업이 개인의 데이터를 수집하는 것을 좋지 않은 뉘앙스로 받아들이는 이용자들이 이미 많다. 반대로 회사 홈페이지의 자료를 개인이 무단으로 이용하는 예시도 비일비재하다. 따라서 데이터를 합법적으로 이용할 수 있는 플랫폼을 구축하는 것이 중요한 요소다. 한국에서는 공공데이터 포털에서 빅데이터 자료가 공개되어 있으며. 도로명주소, 대기오염, 교통사고 등 정보를 이용할 수 있다.
 

주요기사
관련기사

 
저작권자 © 문화뉴스 무단전재 및 재배포 금지