#action Blog Add Blog ##Blog {{{#!blog hyacinth 2008-11-29T14:00:24 공간기억능력 테스트 {{{#!html


\}}} 레벨이 올라가면서 새로생긴 원을 찾아서 클릭만 해주면 오케이! 평균 레벨 20수준이면 수재, 최고는 90 레벨까지 갔다라고 하던데.. 믿거나 말거나 입니다. 가져온 곳에서 사람들의 댓글을 보면 레벨 20 넘긴 사람이 꽤 있던데 저는 10~14 레벨을 넘기기가 좀처럼 힘들군요. ---- 15레벨 이상 올라가기가 어렵군 -- Spinel [[DateTime(2008-11-29T12:20:51)]] ---- 음... 나만 이상한건 아닌거 같아 다행인걸. {{{ -_-; \}}} 쉬운거 같은데 10 레벨 올라가면 너무 어려워. -- [hyacinth] [[DateTime(2008-11-29T12:55:34)]] }}} [[HTML(
)]] http://hyacinth.byus.net/img/flower.jpg [[HTML(
)]] {{{#!blog hyacinth 2008-11-28T07:01:50 영어와 한국어의 불용어 처리 ''' 영어의 불용어 처리 ''' 루씬(lucene)에서는 영어의 불용어를 다음 34개의 단어로 정의하고 있습니다. 'a', 'and', 'are', 'as', 'at', 'be', 'but', 'by', 'for', 'if', 'in', 'into', 'is', 'it', 'no', 'not', 'of', 'on', 'or', 's', 'such', 't', 'that', 'the', 'their', 'then', 'there', 'these', 'they', 'this', 'to', 'was', 'will', 'with' Rijsbergen(1975)은 250개의 불용어 목록을 제시하고 있으며, 100만 어절 Brown corpus로부터 추출한 불용어의 개수는 425개로 그 예는 아래와 같습니다. - a, about, above, across, after, against, all,... - b, back, backed, backing, backs, be, because,... - c, came, can, cannot, case, cases, certain,... 빈도가 높은 단어 중에는 time, war, home, life, water 등 색인어로서 중요하게 사용되는 것도 있습니다. 또한, 컴퓨터 분야에서 computer, program, language, windows 등은 색인어로서 가치가 낮기 때문에 동일한 용어에 대해서도 분야별로 색인어의 중요도를 계산하는 방법이 달라질 수 있습니다. 특히, 자동색인에서 불용어로 간주하여 제거된 색인어는 검색이 되지 않기 때문에 불용어 처리는 매우 신중해야 하며, 상업적인 정보검색 시스템에서는 불용어가 거의 없습니다. 예를 들어, ORBIT search service는 an, and, by, from, of, the, with 등 8개만을 불용어로 간주하고 있습니다. ''' 한국어의 불용어 처리 ''' 한국어에서 불용어로 간주되는 용어는 품사 불용어와 명사 불용어, 그리고 숫자 불용어 등이 있습니다. 일반적으로 체언을 제외한 모든 품사(조사, 어미, 동사, 형용사, 관형사, 부사, 감탄사)는 불용어로 간주합니다. 체언 중에서도 대명사, 수사, 1음절 명사는 색인어로서 가치가 매우 낮으므로 불용어로 간주할 수 있습니다. 또한, 일반적으로 '1999년','1,200원', '제1절' 등 한글과 숫자가 혼합된 것과 'x값','y축' 등 한글과 영어가 혼합된 것도 불용어인 경우가 대부분입니다. 다만 한글, 영문자, 숫자, 문자 등이 혼합된 경우에도 'LG전자', '비타민 A','C++','B 트리' 등은 색인어로서 매우 중요합니다. '3.1절', '한글97', '윈도 3.1', '비주얼 베이직 6' 등 '3.1'이나 ‘6’과 같은 숫자도 색인어의 일부로서 가치가 매우 높은 경우가 있습니다. 수사 어절의 경우 아라비아 숫자와 한글의 혼용 및 띄어쓰기에 따라 '230000원', '230,000원', '이십 삼만원', '이십삼만원' 등 다양하게 표현이 가능합니다. 따라서 수사 어절은 표준화기법에 의해 동일한 표현으로 정규화함으로써 불용어로 처리할 수 있습니다. 품사 불용어로 간주되는 용어들도 문서 유형에 따라 혹은 특정 문서에서는 색인어로서 매우 중요한 경우도 발생하기 때문에 형태소 분석결과만으로 불용어를 제거하는 방법은 바람직하지 않습니다. 따라서 형태소 분석결과에 의한 불용어 제거 기법보다는 구문분석이나 복합명사 결합 기법에 의해 색인어의 중요도를 계산하는 방법에 의해 해결되어야 할 문제입니다. }}} [[HTML(
)]] http://hyacinth.byus.net/img/flower.jpg [[HTML(
)]] {{{#!blog hyacinth 2008-11-21T10:24:00 내 블로그는 어떤 꽃을 피울까 || attachment:WebpagesAsGraph.jpg || [http://wiessen.tistory.com wiessen 님 블로그]에서 [http://wiessen.tistory.com/142#trackback1076459 이 포스트]를 보고 "나도 해 봐야지" 해서 해 본 겁니다. 홈페이지에서 연결된 링크들로 그래프를 그려줍니다. wiessen 님 블로그는 위 같은 꽃 모양이 나오는군요! 예쁩니다. 나도 해봤습니다. || attachment:20081121.PNG || 아 네 ;; (포자? 바이러스??) ---- 그래프는 [http://www.aharef.info/static/htmlgraph/ 이곳]에서 그릴 수 있습니다. -- [hyacinth] [[DateTime(2008-11-21T10:31:06)]] ---- 해보려 했더니 자바를 깔아야 한다는군. 내 컴퓨터가 아니라 오늘은 패스~ -- Spinel [[DateTime(2008-11-25T16:25:45)]] ---- Spinel //오우~ -- [hyacinth] [[DateTime(2008-11-27T04:52:57)]] }}} [[HTML(
)]] http://hyacinth.byus.net/img/flower.jpg [[HTML(
)]] {{{#!blog hyacinth 2008-11-12T16:33:45 한자 나에게 가벼운 결벽증이 있다는 것을 깨달은 것은 얼마되지 않습니다. 깨끗하지 못한 것은 당연히, 될 수 있으면 최대한 깨끗해야하다는 사실이 사람에 따라서는 보편타당한 일이 아닐 수 있다는 것을 알게 된 것입니다. 그건 그렇고, 한국어문회 한자능력시험 2급을 취득한 것은 작년 말입니다. 2년여 전부터 한자를 공부했지만 시험용 공부가 아니라 교양으로 한자를 익히려는 목적으로 공부했기 때문에 지금은 대부분의 한자를 완전히 읽고 쓰기가 가능합니다. 그런데 한자를 외다보면 재미있는 한자가 많습니다. 예를 들어, {{{+2 勞 \}}} 이 한자는 '일할 로' 입니다. '힘 력' 발에 '불 화' 두 개의 머리가 있습니다. 직관적으로도 어떤 연유에서 저 부수가 모여 '일할 로'가 되었는지 알게됩니다. 힘을 쓰니 덥고 힘들다, 이것이 '일할 로' 입니다. 전 이 한자만 보면 옛 사람(서민)들의 고생이 떠올라서 안쓰럽습니다. 그리고 다음 한자입니다. {{{+2 榮 \}}} 이 자는 '영화 영' 입니다. 부귀영화(富貴榮華) 등에서 쓰이는 '영' 입니다. '일할 로'에서 조금 변형되었습니다. '힘 력'에서 '나무 목' 발로 바뀌었습니다. 어떻습니까? 어쩐지 다른 사람은 뙤약볕에서 고생하며 일하고 있는데 그늘진 큰 나무 밑에서 대 자로 누워 쉬고 있는 사람이 생각납니다. 이것이 '영화 영' 입니다. 여기서 끝이 아니고 하나 더 있습니다. {{{+2 營 \}}} '경영할 영' 입니다. 쓰이는 곳은 뜻에 있는대로 경영(經營)이나 운영(運營) 등에 쓰입니다. 이것도 '일할 로'를 기본으로 발 부분만 변한 자입니다. '힘 력' 대신 '집 궁(宮)'이 들어가니 이번엔 건물에서 주판을 두드리는 관리직이 생각납니다. 찾아보면 이렇게 한자의 구성에서 어떤 이유에서 그 한자가 되었는지 알 수 있는 재미있는 자가 많습니다. 사실 한자를 배우며 가장 좋았던 점 중 하나가, 한자를 배우며 자연스럽게 옛 사람들의 사상과 생각을 알 수 있게되었다는 것입니다. 2000년 이상 한자문화권에서 쓰이며 정제되며 의미를 갖게 된 문자니 당연한 것입니다. 그런 이유에서 한자 교육, 적어도 교양으로서 배우는 한자는 적극적으로 권하는 편입니다. 한자가 모국어로 쓰이지 않더라도 한자 문화권에서는 분명 교양의 영역에 속할 것입니다. }}} [[HTML(
)]] http://hyacinth.byus.net/img/flower.jpg [[HTML(
)]] {{{#!blog hyacinth 2008-11-05T14:49:17 11월의 근황 근황에 앞서 방문해 주신 방문자 분들께 몇 가지 유익한 정보를 알려드릴까 합니다. 영어 단어에서 'Q' 로 시작하는 단어의 99% 이상은... 'Q' 다음에 'U' 가 옵니다. 이십 몇 년 살면서 얼마 전에 처음 알았습니다. 이것은 오라일리의 정규 표현식(regular expression) 관련 책에서 본 내용인데 인터넷에서 "Q 시작 단어" 로 검색하니 몇 가지 재미있는 내용이 더 보입니다. 1. 'Q' 다음에 반드시 'U' 가 나오는 이유는 발음상의 이유라고 합니다. 이 자음의 뒤에 다른 모음이 오면 파찰음이 되어 된소리로 발음되지만 'U' 를 넣음으로서 파열음이 되게 발음을 하여 부드러운 느낌을 갖는다고 합니다. 2. 이것은 문서의 압축 원리 중 하나로 이용되기도 합니다. 'Q"로 시작하는 영어 단어는 항상 'Q' 다음에 'U' 가 나오기 때문에 'U' 를 빼는 식으로 용량을 줄이게 됩니다. ---- 나도 처음 알았어 -- Spinel [[DateTime(2008-11-10T04:28:29)]] ---- 그런데 근황은 어디에?? -- Spinel [[DateTime(2008-11-10T04:29:54)]] ---- 아 그걸 빠트렸군 -- [hyacinth] [[DateTime(2008-11-11T10:27:06)]] }}} [[HTML(
)]] http://hyacinth.byus.net/img/flower.jpg [[HTML(
)]] {{{#!blog hyacinth 2008-11-01T04:57:18 칸나기 한 줄 평 attachment:1.jpg 작화 보고 놀라서 뒤로 자빠졌습니다. }}}