MAHOUT / K평균 클러스터링 결과

티스토리 뷰

SW개발/Machine Learning

MAHOUT / K평균 클러스터링 결과

개소왕 2018. 5. 21. 01:42

* 진행 순서

클러스터링 대상 텍스트

-> 문서 하둡 시퀀스 파일( 이하 모두 하둡 시퀀스파일)

-> 토큰

-> 문서별 벡터 + 사전파일 + 단어 계수 결과

-> 클러스터

* 예시

- 뉴스 기사 1개 = 문서 1개로 하며,

- 1000개 문서

- k=100 으로 가정 ( => 100개의 초기벡터가 필요하고, 100개의 클러스터가 생성될것)

[ 문서별 벡터 ]

* 사전파일 dictionary.file-X

- 토큰 - 토큰번호 쌍으로 이뤄짐

[ 클러스터 ]

* clusteredPoints, clusters-0~x , clusters-x-final 디렉토리가 생성됨

- maxIteration = 20 (작업 반복횟수) 이라면 clusters-0 부터 시작하여 clusters-20-final 까지 생성됨.

* clusteredPoints는 Int, WeightedPropertyVector 쌍으로 이뤄짐

- 문서 개수 (예제상 1000개) 의 레코드 반환

- Key(int) 는 해당 문서가 속한 클러스터 번호

- Value(WeightedPropertyVector) 는 해당 문서의 벡터를 나타냄

- 레코드는 문서 순서대로 배열

* clusters-0

- 레코드 1개씩인 시퀀스 100개 생성

Int - Cluster 쌍 (이하 동일)

- part-xxxxxx 꼴로 표시됨.. (맵/리듀스 결과가 아님)

- 첫번째 작업이므로 100개의 클러스터가 생성됨

초기 벡터 = 초기 클러스터

* clusters-x

- part-r-xxxxx 꼴 표시.. 리듀스 작업의 결과.

* clusters-x-final

- 최종 결과

- 1개의 파일, 100개 레코드

- Int - Cluster

- Int 는 그냥 0부터 순서대로 클러스터의 번호가 됨

- Cluster 는 클러스터의 중심점 벡터, 반경 등

* 활용 :

- clusters-x-final은 클러스터번호-클러스터(중심벡터,반경)

- clusteredPoints 는 (문서 순서대로) 문서가 속한 클러스터 번호 - 문서의 벡터(WeightedPorpertyVector)

* 추가 문제 WeightedPropertyVector 사용

* Cluster / Kluster / AbstractCluster / Canopy / ....

저작자표시 비영리 변경금지

'SW개발 > Machine Learning' 카테고리의 다른 글

MAHOUT / java.lang.IllegalStateException: No input clusters found in /home/udell/180513clst/clst_180519_201534/vect/initVect/initVect.seq. Check your -c argument. (0)	2018.05.19
MAHOUT / java.lang.NoSuchMethodError: org.apache.hadoop.yarn.proto.YarnProtos$LocalResourceProto.hashLong (0)	2018.05.14
Ubuntu / Mahout 설치 (0)	2018.04.29
Mahout CanopyDriver.run 실행시 FileNotFoundException (0)	2018.04.13
weka 외카 웨카 설치 (0)	2018.01.13

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

글 보관함

dogcowking

티스토리 뷰

MAHOUT / K평균 클러스터링 결과

'SW개발 > Machine Learning' 카테고리의 다른 글

티스토리툴바