[[TableOfContents]] == 프로젝트 명 == RSS crawler 및 parser 개발 == 프로젝트 접근방법 == 1. 준비(2주) – Coord & Lucene 설치 및 활용 2. 설계(1주) – 분산 색인 및 검색을 위한 시스템 설계 3. 구현1(2주) – 분산 색인 및 검색 시스템 개발 4. 구현2(2주) – 랭킹알고리즘 개선 및 분산화 5. 오픈소스화(1주) – Coord 프로젝트에 등록 및 위키 작성 1. 루씬에 대해서는 이미 개략적으로도 알고 있으며 2주간 프로젝트 수행을 위한 수준으로 관련 책을 보거나 익힐 생각입니다. 2. 지금까지 몇가지 전공 프로젝트를 진행하며 대부분 제가 주도하여 설계를 하였는데, 이 부분에 대해서 제대로 보고 배우고 싶습니다. 3.4. 검색 시스템 및 랭킹 알고리즘 적용 등은 이미 웹 로봇을 만들어 본 경험을 살려 구현 가능하리라 생각합니다. 5. 위키를 통한 문서화가 가능합니다. 오픈소스 프로젝트 참여에 대해 관심이 큽니다. == 프로젝트 예상 결과 == 오픈소스 Coord와 Lucene을 이용한 대용량 데이터를 위한 고성능 분산 색인/검색 시스템 == 관련 경험/경력 == * kNN 모델을 이용한 문서 자동 분류 시스템 * perl을 이용해 엠파스의 뉴스를 크롤링 하는 웹 크롤러 * 그 외 C/C++등을 이용한 프로젝트 경험 * 자료구조,알고리즘,perl,정규표현식 == 프로젝트에 가능한 시간은? == 1주일에 20~30시간 == 해당 프로젝트를 선택하게 된 동기 == 학기 중 웹 크롤러를 만들어 본 경험을 살리고, 현재 가지고 있는 C/C++의 개발 능력과 함께 프로젝트 협동능력도 업그레이드 시켜보고 싶어보고 싶습니다.