* 진행 순서클러스터링 대상 텍스트 -> 문서 하둡 시퀀스 파일( 이하 모두 하둡 시퀀스파일)-> 토큰-> 문서별 벡터 + 사전파일 + 단어 계수 결과-> 클러스터 * 예시- 뉴스 기사 1개 = 문서 1개로 하며,- 1000개 문서- k=100 으로 가정 ( => 100개의 초기벡터가 필요하고, 100개의 클러스터가 생성될것) [ 문서별 벡터 ] * 사전파일 dictionary.file-X- 토큰 - 토큰번호 쌍으로 이뤄짐 [ 클러스터 ]* clusteredPoints, clusters-0~x , clusters-x-final 디렉토리가 생성됨- maxIteration = 20 (작업 반복횟수) 이라면 clusters-0 부터 시작하여 clusters-20-final 까지 생성됨. * clusteredP..
* 개요- MAHOUT KMeans 클러스터링- KMeansDriver.run () 실행 중 오류 java.lang.IllegalStateException: No input clusters found in 시퀀스경로 Check your -c argument.- * 테스트 결과 - 초기 중심점 클러스터(캐노피 결과 등) 의 경로를 지정해 줘야 하는데,- 이때 파일명이 part-r-00000 형식이 아닌 경우 발생.
* 개요 웹 프로젝트에 Mahout 넣어서 클러스터링 테스트 하자 다음 오류 발생함. ...java.lang.NoSuchMethodError: org.apache.hadoop.yarn.proto.YarnProtos$LocalResourceProto.hashLong(J)Iat org.apache.hadoop.yarn.proto.YarnProtos$LocalResourceProto.hashCode(YarnProtos.java:11555)at org.apache.hadoop.yarn.api.records.impl.pb.LocalResourcePBImpl.hashCode(LocalResourcePBImpl.java:62) Maven 사용시 의존성의 버전 충돌 문제 * 환경Spring MVC 5Mahout 0.1..
* 1. mahout 다운로드https://mahout.apache.org/ * 2. 압축 풀기 * 3. 동작 확인머하웃/bin/mahout 실행 * 에러 : JAVA_HOME is not set- export JAVA_HOME=/usr/lib/jvm/java-8-oracle 실행 후 머하웃 실행 - 매번 반복해야 하므로 이 내용을 스크립트에 추가 sudo gedit ~/.profile http://ark1230.tistory.com/44 * 하둡없이도 사용 가능하지만, - 함께 사용하려면 하둡 관련 환경변수도 설정해야 함.
* Mahout jar 버전 0.12 기준, CanopyDriver 클래스는 Deprecated 다.- MapReduce 이용하는 대부분 Deprecated 이다.더이상 지원 않기로 했다고.. Apache Spark 가 대체.https://www.quora.com/Why-Apache-Mahout-stopped-MapReduce-support-for-it-new-algorithms * java.io.FileNotFoundException: File file:.../df-count/data does not exist는 아마 구버전에서 벡터 생성하면 /df-count 아래가 아닌 /df-count/data 아래에 결과 시퀀스 파일을 생성했던것으로 추정.- 따라서 시퀀스 파일을 /data 디렉토리로 옮겨주면서 ..
특별한건 없고 그냥 설치하면 됨. 윈도우즈 7 64bit * 홈페이지 들어가서 다운로드https://www.cs.waikato.ac.nz/ml/weka/ * 환경에 맞게 선택 * 잠시 후 다운로드 됨 * 설치 시작 * jre 도 함께 진행됨 * 설치 완료 후 실행 화면 * 자바 프로젝트에서 사용할땐 weka.jar 나 weka-src.jar 를 포함시켜서 사용한다.설치하고 나오면C:\Program Files\Weka-3-8에 jar 도 있음..
* 이 글은 정보전달보다는 개인이 학습하면서 요약할 목적으로 쓴 글입니다. 따라서 오류가 있을 가능성이 있지만 다른 분들의 참고 자료가 되지 않을까 하여 남깁니다. * '실전 예제로 살펴보는 집단지성 프로그래밍 (인사이트)''자연어 텍스트 처리를 통한 검색시스템 구축 (에이콘)' 두권이 중심이 됨. * 집단지성(다수 개체가 협력하여 얻은 지성) 자체는 여러 학문에서 등장하는 개념.https://ko.wikipedia.org/wiki/%EC%A7%91%EB%8B%A8_%EC%A7%80%EC%84%B1- 곤충학자가 개미 군집이 높은 지능체계를 갖는 것을 보고 처음 제시한 개념이며, - 웹이 다수의 정보소통이 가능하므로 집단 지성의 핵심이 되는 기술이 될수밖에..- 대표적으로 위키백과, 오픈소스 등이 있으며,..