데이터 마이닝 툴 사용하기(WEKA) 클라우드/빅데이터/가상화

최근 머신러닝을 넘어 인공지능쪽에 관심이 많아지고있다.
여기선 머신러닝에 필요한 데이터를 사전에 시험해보는 방법을 설명한다. WEKA 앱을 사용하는 방법이다.
머신러닝, 딥러닝이라는 단어가 나오는데, 간단히 말해서 기계보고 학습을 시키는 것이다.
큰 범주에서 머신러닝이있고 그 일부가 딥러닝이있다. 딥러닝을 통하여 인공지능으로 간다.

머신러닝은 두가지 방식으로 진행된다. 첫째, 사람이 식별 가능한것을 구분하는 방식과 식별 불가능한 데이터를 등록하여
일정한 패턴에 따른 그룹으로 나누는 방법이다.
보통 90%의 데이터를 이용하여 머신러닝 결과를 산출하고 데이터 10%의 결과를 도출하는 방식으로 한다.
머신러닝의 결과는 확률을 말하는 것이지 정확하다라는 의미는 아니다.

WEKA 사용하기 (freeware)

1.  설치 : http://www.cs.waikato.ac.nz/~ml/weka/

2.  데이터 로딩 및 확인
    설치하고 실행하면 아래와  같은 창이 표시된다.
    "Explorer"버튼을 클릭하면 아래와 같은 창이 표시된다.
    많이 사용하는 "tic tac toe"라는 게임 데이터를 가지고 시험해보자.
    아래 사이트에서 WEKA형식을 데이터셋을 다운받자
    https://github.com/renatopp/arff-datasets/tree/master/classification

    "Preprocess"탭에서 "Open file.."항목을 클릭하여 데이터를 읽어오면 위와같은 데이터가 표시된다.
    참고로 WEKA는 특정 포맷을 가지고있어야 분석이 가능한 툴이다. 파일을 열어보면 세가지 항목을 확인할 수 있다.
    @relation (제목이다.), @attribute(데이터 개수와 동일한 항목의 판단 데이터이다.), 
    @data(attribute에 정의한 내용을 콤마(,)로 구분하여 저장한다. 아래 이미지를 참고하자.
    "Classify"탭으로 이동하여 "Choose"항목으로 실행 알고리즘을 선택하고 "Start"를 클릭하면 결과가 나온다.
    "Percentage split"는 몇 %의 데이터를 가지고 나머지 %를 돌려보니 어느정도의 승률이 나온다라는 것을 표현한다.
    즉, 84.5511%의 확률로 이길 수 있다라고 표시된다.
    "Cross-validation"은 시험을 몇 번으로 나눠서 테스트할 때 이길 확률을 표시한다.
    즉, 어떤 데이터를 입력하면 어느정도의 확률로 내가 원하는 값을 나오는지 확인하는 것이다.

덧글

  • 2016/08/19 16:16 # 답글

    돈이 있으면 azure machine learning studio가 낫고, 프로그래밍 가능하면 python을 쓰는게 낫고, 둘 다 안 되면 울면서 weka를...
댓글 입력 영역