티스토리 뷰

* 이 글은 정보전달보다는 개인이 학습하면서 요약할 목적으로 쓴 글입니다. 

따라서 오류가 있을 가능성이 있지만 다른 분들의 참고 자료가 되지 않을까 하여 남깁니다.


* '실전 예제로 살펴보는 집단지성 프로그래밍 (인사이트)'

'자연어 텍스트 처리를 통한 검색시스템 구축 (에이콘)'  두권이 중심이 됨.


* 집단지성(다수 개체가 협력하여 얻은 지성) 자체는 여러 학문에서 등장하는 개념.

https://ko.wikipedia.org/wiki/%EC%A7%91%EB%8B%A8_%EC%A7%80%EC%84%B1

- 곤충학자가 개미 군집이 높은 지능체계를 갖는 것을 보고 처음 제시한 개념이며, 

- 웹이 다수의 정보소통이 가능하므로 집단 지성의 핵심이 되는 기술이 될수밖에..

- 대표적으로 위키백과, 오픈소스 등이 있으며, 촛불시위도 한 예시로 볼 수 있음.

- 프로그래밍에서 집단지성은 주로 웹 페이지, 블로그 포스팅, 뉴스 등을 수집하여 가공하는 기술들에 초점을 맞춤.



* 1. 텍스트로 된 페이지들을 모아서

2. 검색을 위해 인덱싱을 하거나, 분류하는 작업을 위한 기술들이 중점이 됨.

이 과정에서 나오는 알고리즘들은 인공지능의 한 분야인 <기계학습(Machine Learning)> 과 관련됨.



*  데이터마이닝은 데이터를 분석하여 유용한 정보를 찾아내는것 = 몰랐던 속성을 발견에 집중.

탐색적 자료분석, 가설검정, 다변량 분석 ,시계열 분석, 일반 선형모형 (from 통계학)

OLAP(온라인 분석 처리) (from 데이터베이스)

SOM, 신경망, 전문가시스템 (from 인공지능)


- 관련 기술이 인공신경망, 유전 알고리즘, 의사트리, 회귀분석 , ... 결국 기계학습.

https://namu.wiki/w/%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EB%A7%88%EC%9D%B4%EB%8B%9D

http://www.aistudy.co.kr/learning/mining/data_mining.htm



기계학습은 과거 데이터를 기준으로 미래를 <예측>하는 것

- 데이터마이닝 기술이 포함 (http://www.dt.co.kr/contents.html?article_no=2015010502101860718001)

- 베이즈 이론, 인공신경망, 결정트리학습법, 유전알고리즘, K-최근접 이웃 알고리즘, ...

https://ko.wikipedia.org/wiki/%EA%B8%B0%EA%B3%84_%ED%95%99%EC%8A%B5



* 빅데이터 : "많은 양의 데이터"

- 빅데이터 분석을 위해 {통계학 , 데이터마이닝, 기계학습, 자연언어처리, 패턴 인식} 등이 사용됨.

- 비정형데이터 증가로 텍스트 마이닝, 오피니언 마이닝, 소셜 네트워크 분석, 군집분석 등이 주목받고 있음.


정형데이터 : 컬럼 구분된 표로 나타낼 수 있음 ...

ex : 이름-나이-로그인 횟수 가 기록된 표

비정형데이터 : ex : 웹페이지


* 통계학에서 나온 알고리즘들을 일반 텍스트를 적용할 순 없다.

그래서 텍스트 처리가 필요한것.

예를 들어 뉴스들 중 '언론 정상화' 주제의 뉴스를 찾아내고 싶을때

'MBC 사장' '언론노조 파업' 등의 단어를 찾아내서

뉴스번호 

등장단어 

횟수

 1

 MBC 사장

5

 1

 언론노조 파업

이런식으로 '표' 의 형태로 바꿔야 통계 알고리즘 적용 가능하겠지만...


이를 위해선 '신임 MBC 사장인 최승호 전 뉴스타파 기자...."  란 문장에서 조사 제거하고 'MBC 사장' 만 끌어내야만 적용 가능하다. 

'MBC 파업으로 인해 ....'이나 'MBC 노조는 오늘 파업했다' 등의 문장도 같이 인식할 수 있도록 텍스트 처리, 자연어 처리 과정 필요한것.


공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함