데이터 마이닝이란 무엇인가?

KDD

kdd KDD

KDD란 Knowledge Discovery in Database의 준말로, “데이터로 부터 유용한 지식을 발견하는 전 과정”을 말한다. KDD는 다음과 같은 과정으로 이루어진다.

  1. 문제 인식 (Problem Formulation)
  2. 데이터 수집 (Data Collection)
  3. 전처리 과정 (Pre-Processing, Cleaning)
  1. 변형 (Transformation)
  1. 마이닝 업무/방법 선택 (Choosing Minig Task and Mining Method)
  2. 결과 평가 및 시각화 (Result Evaluation and Visualization)

KDD의 적용: 은행 업무, 고객 관리, 타켓 마케팅, 생산 및 판매 관리

데이터 마이닝

데이터 마이닝은 어떻게 쓰이는가?

데이터 마이닝 과정

  1. 입력 이해 (어떤 형식의 입력이 들어오지?)
  2. 데이터셋 생성 (마이닝 알고리즘에 바로 먹일 수 있도록!)
  3. 데이터 마이닝 Task와 특정 알고리즘 선택
  4. 결과 해석, 마음에 안 들면 2로 회귀

데이터 마이닝의 필요성

현실 세계의 데이터는 더럽다.

쓰레기가 들어가면 쓰레기가 나온다. (Garbage In, Garbage Out) 질 좋은 판단은 질 좋은 데이터에서 나온다. 따라서 데이터 마이닝은 필수적이다!

Data Mining Task

크게 Prediction Tasks (Supervised Learning), Description Tasks (Unsupervised Learning)으로 나뉜다. Prediction은 입력 변수와 정답을 이용하여 알지 못하는 혹은 미래의 값을 예측/예상하는 것이고, Description은 정답 따위 없이 주어진 입력의 특성들을 이용해서 인간 친화적인, 인간이 잘 해석할 수 있는 패턴을 찾아 서술하는 작업이다.

  1. Prediction Tasks (Supervised Learning)
  2. Description Tasks (Unsupervised Learning)

데이터는 어떻게 생겼나? (어떤 Input이 들어가는가?)

데이터셋은 두 개의 방향으로 이루어진 매트릭스로 표현할 수 있다. (벡터의 집합)

data_matrix 데이터 매트릭스

각 행은 데이터의 샘플을 나타내고, 각 열은 각 특성을 나타낸다. 만약 인간에 대한 데이터 매트릭스라면, 1행은 1번째 사람을 말하는 것이고, 2행은 2번째 사람을 말하는 것이다. 위 사진을 예시로 들자면, 150명에 대한 데이터 매트릭스이고, 5가지의 특성으로 정리되어 있다.

요런거 물어보면 헷갈릴 수도 있으니 잘 정리해놓자!