티스토리 뷰
* Mahout jar 버전 0.12 기준, CanopyDriver 클래스는 Deprecated 다.
- MapReduce 이용하는 대부분 Deprecated 이다.
더이상 지원 않기로 했다고.. Apache Spark 가 대체.
https://www.quora.com/Why-Apache-Mahout-stopped-MapReduce-support-for-it-new-algorithms
* java.io.FileNotFoundException: File file:.../df-count/data does not exist
는 아마 구버전에서 벡터 생성하면 /df-count 아래가 아닌 /df-count/data 아래에 결과 시퀀스 파일을 생성했던것으로 추정.
- 따라서 시퀀스 파일을 /data 디렉토리로 옮겨주면서 문제 해결 가능지만...
(dt-count 뿐만 아니라 다른 디렉토리에서도 동일 예외 발생 )
- 결과적으로 실행시키지 못하고 끝남. InterruptedException
* 하둡 이용하는 CanopyDriver 대신 CanopyClusterer 이용해야 할듯 함.
(Deprecated 인건 마찬가지..
다만 저장된 벡터 -> VectorWritable -> List<Vector> 로 변환하여 실행은 가능함... )