#keywords BOM,UCS-2,UTF-16,UTF-8,ìœ ë‹ˆì½”ë“œ
[[TableOfContents]]
''ì´ ë¬¸ì„œë¥¼ ì£¼ì˜ ê¹Šê²Œ ì½ìœ¼ë©´ ìœ ë‹ˆì½”ë“œì— ëŒ€í•œ ì´í•´ë¥¼ í¬ê²Œ ë†’ì¼ ìˆ˜ ìžˆì„ ê²ƒìž…ë‹ˆë‹¤.''

== ìœ ë‹ˆì½”ë“œ ê°œìš” ==
> Unicode provides a unique number for every character,
> no matter what the platform,
> no matter what the program,
> no matter what the language.
>
> - http://www.unicode.org/standard/WhatIsUnicode.html 
ìœ ë‹ˆì½”ë“œëŠ” ì „ ì„¸ê³„ ëª¨ë“  ë¬¸ìžì— ëŒ€í•´ í”Œëž«í¼ì— ìƒê´€ ì—†ì´, í”„ë¡œê·¸ëž¨ì— ìƒê´€ ì—†ì´, ì–¸ì–´ì— ìƒê´€ ì—†ì´ ì»´í“¨í„°ì—ì„œ ì¼ê´€ë˜ê²Œ í‘œí˜„í•˜ê³  ë‹¤ë£° ìˆ˜ ìžˆë„ë¡ ì„¤ê³„ëœ ì‚°ì—… í‘œì¤€ì´ë‹¤. ìœ ë‹ˆì½”ë“œ  ì»¨ì†Œì‹œì—„ì—ì„œ ì œì •í•˜ë©° ìœ ë‹ˆì½”ë“œ í‘œì¤€ì—ëŠ” ISO 10646 ë¬¸ìž ì§‘í•©, ë¬¸ìž ì¸ì½”ë”© ë°©ë²•, ë¬¸ìž ì •ë³´ ë°ì´í„°ë² ì´ìŠ¤, ë¬¸ìžë“¤ì„ ë‹¤ë£¨ê¸° ìœ„í•œ ì•Œê³ ë¦¬ì¦˜ ë“±ì„ í¬í•¨í•˜ê³  ìžˆë‹¤.

ìœ ë‹ˆì½”ë“œì˜ ëª©ì ì€ í˜„ì¡´í•˜ëŠ” ë¬¸ìž ì¸ì½”ë”© ë°©ë²•ë“¤ì„ ëª¨ë‘ ìœ ë‹ˆì½”ë“œë¡œ êµì²´í•˜ë ¤ëŠ” ê²ƒì´ë‹¤. ê¸°ì¡´ì˜ ì¸ì½”ë”©ë“¤ì€ ê·¸ ê·œëª¨ë‚˜ ë²”ìœ„ ë©´ì—ì„œ í•œì •ë˜ì–´ ìžˆê³ , ë‚˜ë¼ë§ˆë‹¤ ë‹¬ë¼ ì„œë¡œ í˜¸í™˜ë˜ì§€ ì•ŠëŠ” ë¬¸ì œì ì´ ìžˆì—ˆë‹¤. ìœ ë‹ˆì½”ë“œê°€ ë‹¤ì–‘í•œ ë¬¸ìž ì§‘í•©ë“¤ì„ í†µí•©í•˜ëŠ” ë° ì„±ê³µí•˜ë©´ì„œ ìœ ë‹ˆì½”ë“œëŠ” ì»´í“¨í„° ì†Œí”„íŠ¸ì›¨ì–´ì˜ êµì œí™”ì™€ ì§€ì—í™”ì— ë„ë¦¬ ì‚¬ìš©ë˜ê²Œ ë˜ì—ˆë‹¤.

ëª¨ë“  ë¬¸ìžë“¤ì˜ ì½”ë“œ ê°’ì€ ë¬¸ìž ì½”ë“œí‘œì—ì„œ í™•ì¸í•  ìˆ˜ ìžˆë‹¤.
http://www.unicode.org/charts/ 

{{{+1 ë²„ì „ }}}
{{{
- Unicode 1.0.0 - 1991ë…„ 10ì›”
- ...
- Unicode 6.0 - 2010ë…„ 10ì›” 11ì¼
- Unicode 6.1 - 2012ë…„ 2ì›” 1ì¼
- Unicode 6.2 - 2012ë…„ 9ì›” 27ì¼
- Unicode 6.3 - 2013ë…„ 9ì›” 30ì¼
- Unicode 7.0 - 2014ë…„ 6ì›” 16ì¼
}}}

{{{+1 ìœ ë‹ˆì½”ë“œ í‰ë©´ }}}
ìœ ë‹ˆì½”ë“œëŠ” 110ë§Œê°œ ì´ìƒì˜ ì½”ë“œ í¬ì¸íŠ¸ë¥¼ ì§€ì •í•  ìˆ˜ ìžˆë‹¤. ìœ ë‹ˆì½”ë“œëŠ” ì´ 110ë§Œê°œ ì´ìƒì˜ ì½”ë“œ í¬ì¸íŠ¸ë¥¼ 17ê°œì˜ 'í‰ë©´(Plane)'ìœ¼ë¡œ ë‚˜ëˆ„ê³  ê° í‰ë©´ì—ì„œ 256*256=65,536ê°œì˜ ë¬¸ìžë¥¼ ì§€ì •í•  ìˆ˜ ìžˆë‹¤. 0ë²ˆ í‰ë©´ì€ ì¼ë°˜ì ìœ¼ë¡œ BMP(Basic Multilingual Plane)ë¼ê³  ë¶€ë¥´ëŠ” í‰ë©´ìœ¼ë¡œ BMPì—ëŠ” ê±°ì˜ ëª¨ë“  ê·¼ëŒ€ ë¬¸ìžì™€ íŠ¹ìˆ˜ ë¬¸ìžê°€ í¬í•¨ë˜ì–´ ìžˆìœ¼ë©°, ê·¸ ì¤‘ ëŒ€ë¶€ë¶„ì€ í•œê¸€ê³¼ í•œì¤‘ì¼ í†µí•© í•œìžë“¤ë¡œ ì´ë£¨ì–´ì ¸ ìžˆë‹¤.

http://upload.wikimedia.org/wikipedia/commons/thumb/8/8e/Roadmap_to_Unicode_BMP.svg/500px-Roadmap_to_Unicode_BMP.svg.png

https://i-msdn.sec.s-msft.com/bb688113.f03tm07(ko-kr).jpg
< BMP(í‰ë©´ 0)ì˜ ìœ ë‹ˆì½”ë“œ ë¬¸ìž ë°°ì¹˜ >

1ë²ˆ í‰ë©´ì€ ë³´ì¡° ë‹¤êµì–´ í‰ë©´(Supplementary Multilingual Plane, SMP)ìœ¼ë¡œ ì˜› ë¬¸ìžë‚˜ ìŒì•… ê¸°í˜¸, ìˆ˜í•™ ê¸°í˜¸ ë“±ì— ì“°ì¸ë‹¤.

2ë²ˆ í‰ë©´ì€ ë³´ì¡° ìƒí˜• ë¬¸ìž í‰ë©´(Supplementary Ideographic Plane, SIP)ìœ¼ë¡œ ì´ˆê¸° ìœ ë‹ˆì½”ë“œì— í¬í•¨ë˜ì§€ ì•Šì€ í•œì¤‘ì¼ í†µí•© í•œìžë¥¼ ì£¼ë¡œ ë‹´ê³  ìžˆë‹¤.

3ë²ˆ í‰ë©´ì¸ 3ì°¨ ìƒí˜• ë¬¸ìž í‰ë©´(Tertiary Ideographic Plane, TIP)ì€ ê°‘ê³¨ ë¬¸ìž, ê¸ˆë¬¸, ì†Œì „ ë”°ìœ„ì˜ ë¬¸ìžë‚˜ ì¶”ê°€ í•œì¤‘ì¼ í†µí•© í•œìž, ê¸°íƒ€ ì˜› ìƒí˜• ë¬¸ìž ë“±ì„ ìœ„í•´ ì˜ˆì•½ëœ ì˜ì—ì´ë‹¤. ìœ ë‹ˆì½”ë“œ 7.0 í˜„ìž¬ 3ë²ˆ í‰ë©´ì—ëŠ” ì•„ë¬´ ë¬¸ìžë„ ì§€ì •ë˜ì§€ ì•Šì•˜ë‹¤.

ìœ ë‹ˆì½”ë“œ 4ë²ˆ í‰ë©´ë¶€í„° 13ë²ˆ í‰ë©´ì€ ë¯¸ì§€ì • í‰ë©´ìœ¼ë¡œ í˜„ìž¬ ì•„ë¬´ ë¬¸ìžë‚˜ ê¸°í˜¸ë„ ì§€ì •ë˜ì§€ ì•Šì•˜ë‹¤.

14ë²ˆ í‰ë©´ì¸ ë³´ì¡° íŠ¹ìˆ˜ ëª©ì  í‰ë©´(ì˜ì–´: Supplementary Special-purpose Plane, SSP)ì€ í˜„ìž¬ ì ì€ ìˆ˜ì˜ ì œì–´ìš© ë¬¸ìžë“¤ì´ ë“¤ì–´ ìžˆë‹¤.

15ë²ˆê³¼ 16ë²ˆ ë‘ í‰ë©´ì€ ì‚¬ìš©ìž ì˜ì—ìœ¼ë¡œ, íŠ¹ì • ì—…ì²´ë‚˜ ì‚¬ìš©ìž ë³„ë¡œ í• ë‹¹í•˜ì—¬ ì“°ê²Œ ë˜ë¯€ë¡œ ì†Œí”„íŠ¸ì›¨ì–´ê°„ì´ë‚˜ ê¸€ê¼´ê°„ì˜ í˜¸í™˜ì„±ì´ ë³´ìž¥ë˜ì§€ ì•ŠëŠ”ë‹¤.

{{{+1 ìœ ë‹ˆì½”ë“œì˜ ì¸ì½”ë”© ë°©ì‹ë“¤ }}}
ìœ ë‹ˆì½”ë“œì˜ í‘œí˜„ ë°©ì‹ì€ ìœ ë‹ˆì½”ë“œ ì»¨ì†Œì‹œì—„ê³¼ ISO 10646ì— ì •ì˜ë˜ì–´ ìžˆë‹¤. ëŒ€í‘œì ì¸ ì¸ì½”ë”© ë°©ì‹ì€ UCS-2, UTF-8, UTF-16ì´ ìžˆë‹¤.

(UTF - Unicode Transformation Format, UCS - Universal Character Set)

== UCS ==
UCSëŠ” ISO/IEC 10646ìœ¼ë¡œ ì •ì˜ëœ ë¬¸ìž ì¸ì½”ë”©ì˜ êµì œ í‘œì¤€ì´ë‹¤. UCSëŠ” ìœ ë‹ˆì½”ë“œ ê°’ì„ ê·¸ëŒ€ë¡œ í‘œí˜„í•˜ëŠ” ì¸ì½”ë”©ì´ë‹¤. ìœ ë‹ˆì½”ë“œëŠ” 110ë§Œ ê°œ ì´ìƒì˜ ì‚¬ìš© ê°€ëŠ¥í•œ ì½”ë“œ ì˜ì—ì´ ìžˆì§€ë§Œ ì¼ë°˜ì ìœ¼ë¡œ ì²« 65535ê°œ(Basic Multilingual Plane, BMP, ê¸°ë³¸ ë‹¤êµì–´ í‰ë©´)ë§Œì´ ì‚¬ìš©ëœë‹¤. ê·¸ë¦¬ê³  ë§Žì€ ì½”ë“œ ì˜ì—, ì‹¬ì§€ì–´ BMP ì˜ì—ì—ì„œë„ ì„œë¡œ ë‹¤ë¥¸ ì¸ì½”ë”© í˜•íƒœì™€ ë¯¸ëž˜ì˜ í™•ìž¥ì„±ì„ ê³ ë ¤í•˜ì—¬, ì¼ë¶€ëŸ¬ ë¬¸ìžë¥¼ í• ë‹¹í•˜ì§€ ì•Šì•˜ë‹¤.

UCS-2ëŠ” ì´ˆê¸° ìœ ë‹ˆì½”ë“œ í‘œí˜„ ë°©ì‹ ì¤‘ í•˜ë‚˜ë¡œ ê° ë¬¸ìžë“¤ì„ 0 ~ 65535(0xFFFF) ì‚¬ì´ì˜ ì½”ë“œ ê°’ìœ¼ë¡œ ë§¤ê²¨ë†“ê³ , ê° ë¬¸ìžë¥¼ ë‘ ë°”ì´íŠ¸ë¡œ í‘œí˜„í•œë‹¤. BMP ì½”ë“œ ì˜ì—ë§Œ í‘œí˜„í•  ìˆ˜ ìžˆê³ , BMP ë°–ì˜ ì˜ì—ì€ í‘œí˜„ì´ ë¶ˆê°€ëŠ¥í•˜ë‹¤. UCS-2ë¥¼ í™•ìž¥í•˜ì—¬ BMP ë°–ì˜ ì˜ì—ë„ í‘œì‹œê°€ ê°€ëŠ¥í•˜ê²Œ í•œ ì¸ì½”ë”©ìœ¼ë¡œ UTF-16ì´ ìžˆë‹¤.

UCS-4ëŠ” 0xFFFFFFFF ê¹Œì§€ì˜ ì½”ë“œ ì¦‰ 4 ë°”ì´íŠ¸ë¡œ í•œ ë¬¸ìžë¥¼ í‘œí˜„í•œë‹¤. ìœ ë‹ˆì½”ë“œ ê°’ì„ ê·¸ëŒ€ë¡œ 32ë¹„íŠ¸ë¡œ í‘œí˜„í•œë‹¤. UTF-32ë„ ê°™ì€ ë°©ì‹ì„ ì‚¬ìš©í•˜ëŠ” ì¸ì½”ë”©ì´ë©° ë”°ë¼ì„œ __USC-4ì™€ UTF-32ëŠ” ê°™ë‹¤.__

== UTF-16 ==
UTF-16ì€ ê¸°ë³¸ ë‹¤êµì–´ í‰ë©´(BMP)ì— í•´ë‹¹í•˜ëŠ” ë¬¸ìžë“¤ì€ ê·¸ëŒ€ë¡œ 16ë¹„íŠ¸ ê°’ìœ¼ë¡œ ì¸ì½”ë”©ëœë‹¤[[footnote(ì´ ê²½ìš° ì¸ì½”ë”©ëœ ë°”ì´íŠ¸ ìŠ¤íŠ¸ë§ì˜ ì—”ë””ì–¸ë§Œ ì¡°ì‹¬í•˜ë©´ ëœë‹¤.)]]. ê·¸ë¦¬ê³  BMPì— í¬í•¨ë˜ì§€ ì•ŠëŠ” ë¬¸ìžë“¤ì€ íŠ¹ë³„ížˆ ì •í•´ì§„ ë°©ì‹ìœ¼ë¡œ 32ë¹„íŠ¸ ì¸ì½”ë”©ëœë‹¤. 

ê·¸ ìžì„¸í•œ ë°©ì‹ì€ ë‹¤ìŒê³¼ ê°™ë‹¤.

BMPë¥¼ ë²—ì–´ë‚˜ëŠ” ë¬¸ìžëŠ” ì„œëŸ¬ê²Œì´íŠ¸(Surrogate) ë¬¸ìž ì˜ì—ì— í•´ë‹¹í•˜ëŠ” ë‘ ê°œì˜ 16ë¹„íŠ¸ ë¬¸ìžë¡œ ë³€í™˜ë˜ì–´ í•œ ìŒ(ì¦‰ 32ë¹„íŠ¸)ì´ ê·¸ ë¬¸ìžë¥¼ í‘œí˜„í•œë‹¤. ìœ ë‹ˆì½”ë“œì˜ ê¸°ë³¸ ë‹¤êµì–´ í‰ë©´ì— ë¬¸ìžê°€ ì „í˜€ ë°°ì •ë˜ì–´ ìžˆì§€ ì•Šì€ ì˜ì—ì´ 2êµ°ë°ê°€ ìžˆëŠ”ë° í•˜ë‚˜ëŠ” 110110ìœ¼ë¡œ ì‹œìž‘í•˜ëŠ” ì˜ì—ìœ¼ë¡œ U+D800ë¶€í„° U+DB7Fê¹Œì§€ì´ê³  ë‹¤ë¥¸ í•˜ë‚˜ëŠ” 110111ìœ¼ë¡œ ì‹œìž‘í•˜ëŠ” ì˜ì—ìœ¼ë¡œ U+DC00ë¶€í„° U+DFFFê¹Œì§€ì˜ ì˜ì—ì´ë‹¤. ì „ìžëŠ” High Surrogate ì˜ì—, í›„ìžëŠ” Low Surrogate ì˜ì—ì´ë¼ê³  ë¶€ë¥¸ë‹¤. ë”°ë¼ì„œ UTF-16ì—ì„œ 110110ì´ë‚˜ 110111ë¡œ ì‹œìž‘í•˜ëŠ” ê²½ìš° ê¸°ë³¸ ë‹¤êµì–´ í‰ë©´ ì´ì™¸ ë¬¸ìžë¼ê³  í™•ì‹ í•  ìˆ˜ ìžˆì„ ê²ƒì´ë‹¤.

ë‹¤ìŒ ê°™ì€ BMP ë²”ìœ„ë¥¼ ë²—ì–´ë‚˜ëŠ” ë¬¸ìžê°€ ìžˆë‹¤.

{{{
Bit
31            24|23           16|15            8|7             0|
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
|0 0 0 0 0 0 0 0|0 0 0 z z z z z|x x x x x x y y|y y y y y y y y|
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
}}}
1) ê°€ìž¥ ì•žì—ì„œë¶€í„° 110110ì„ ë¶™ì¸ë‹¤.
2) ê·¸ ë’¤ì— z z z z zì—ì„œ 1ì„ ëº€ ZZZZì„ ë¶™ì¸ë‹¤.
3) x x x x x x ë¥¼ ë¶™ì¸ë‹¤. ì—¬ê¸°ê¹Œì§€ High-Surrogateê°€ ëœë‹¤.
{{{
|15            8|7             0|
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
|1 1 0 1 1 0 Z Z|Z Z x x x x x x|
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
}}}
4) ê°€ìž¥ ì•žì—ì„œë¶€í„° 110111ì„ ë¶™ì¸ë‹¤.
5) ë‚˜ë¨¸ì§€ y y y y y y y y y yë¥¼ ë¶™ì¸ë‹¤. ì—¬ê¸°ê°€ Low-Surrogateê°€ ëœë‹¤.
{{{
|15            8|7             0|
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
|1 1 0 1 1 1 y y|y y y y y y y y|
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
}}}
ì´ê°™ì´ ë‘ ê°œì˜ ì„œëŸ¬ê²Œì´íŠ¸ ë¬¸ìžë¥¼ êµ¬ì„±í•˜ëŠ” ë°©ë²•ìœ¼ë¡œ U+10FFFF ê¹Œì§€ì˜ ë¬¸ìžë¥¼ ì¸ì½”ë”©í•  ìˆ˜ ìžˆë‹¤.

== UTF-8 ==
UCSì™€ UTF-16ì˜ ë¬¸ì œì ì€ ì§€ë‚˜ì¹˜ê²Œ ë§Žì€ ê³µê°„ì´ í•„ìš”í•˜ë‹¤ëŠ” ì ê³¼ ê¸°ì¡´ ASCII ì²´ê³„ì™€ í˜¸í™˜ì„±ì´ ì—†ë‹¤ëŠ” ì ì´ë‹¤. ì²« ë²ˆì§¸ ë¬¸ì œëŠ” ì»´í“¨í„° ìƒì— ì¡´ìž¬í•˜ëŠ” ë§Žì€ ê¸€ìžë“¤ì´ 1ë°”ì´íŠ¸ë¡œ í‘œí˜„í•  ìˆ˜ ìžˆëŠ” ê¸€ìžë“¤ì¸ë° ì´ ê¸€ìžë“¤ì— 2ë°”ì´íŠ¸ë¥¼ ì‚¬ìš©í•˜ëŠ” ê²ƒì€ ë„ˆë¬´ ë‚ë¹„ë¼ëŠ” ì§€ì ì´ë‹¤. ë‘ ë²ˆì§¸ ë¬¸ì œëŠ” UCS-2ë‚˜ UTF-16ê³¼ í˜¸í™˜ì„±ì„ ìœ„í•´ì„œëŠ” ê¸°ì¡´ ë¬¸ì„œë“¤ì„ ëª¨ë‘ ë³€í™˜í•´ì•¼í•˜ëŠ”ë° ì´ ì—ì‹œ ë¬¸ì œë¼ëŠ” ì§€ì ì´ë‹¤. ì´ ë‘ ê°€ì§€ ë¬¸ì œë¥¼ ë™ì‹œì— í•´ê²°í•˜ëŠ” ì¸ì½”ë”© ë°©ì‹ì´ UTF-8ì´ë‹¤.

UTF-8ì€ ì¼„ í†°ìŠ¨ê³¼ ë¡ íŒŒì´í¬ê°€ ë§Œë“  ê°€ë³€ ê¸¸ì´ ë¬¸ìž ì¸ì½”ë”© ë°©ì‹ì´ë‹¤. ë³¸ëž˜ FSS-UTF(File System Safe UCS/Unicode Transformation Format)ì´ëž€ ì´ë¦„ìœ¼ë¡œ ì œì•ˆë˜ì—ˆë‹¤.

UTF-8 ì¸ì½”ë”©ì€ ìœ ë‹ˆì½”ë“œ í•œ ë¬¸ìžë¥¼ ë‚˜íƒ€ë‚´ê¸° ìœ„í•´ 1ë°”ì´íŠ¸ì—ì„œ 4ë°”ì´íŠ¸ê¹Œì§€ë¥¼ ì‚¬ìš©í•œë‹¤. U+0000ë¶€í„° U+007Fë²”ìœ„ì— ìžˆëŠ” ASCII ë¬¸ìžëŠ” UTF-8ì—ì„œ 1ë°”ì´íŠ¸ ë§Œìœ¼ë¡œ í‘œì‹œëœë‹¤. 7ë¹„íŠ¸ ì´ìƒì´ í•„ìš”í•œ ê¸€ìžë“¤ì€ ë‹¤ìŒ ë°©ì‹ìœ¼ë¡œ ë°”ì´íŠ¸ ìˆ˜ë¥¼ ëŠ˜ë ¤ê°„ë‹¤.

{{{
U+ 0 0 0 0 0 y y y | y y x x x x x x ì˜ ê¸€ìžë“¤ì€ UTF-8 | 1 1 0 y y y y y | 1 0 x x x x x x |
U+ z z z z y y y y | y y x x x x x x ì˜ ê¸€ìžë“¤ì€ UTF-8 | 1 1 1 0 z z z z | 1 0 y y y y y y | 1 0 x x x x x x |
U+ 0 0 0 w w w z z | z z z z y y y y | y y x x x x x x ì˜ ê¸€ìžë“¤ì€ UTF-8 | 1 1 1 1 0 w w w | 1 0 z z z z z z | 1 0 y y y y y y | 1 0 x x x x x x |
}}}
ì²« ë°”ì´íŠ¸ëŠ” 110 ë˜ëŠ” 1110, 11110 ìœ¼ë¡œ ì‹œìž‘í•˜ê³ , ë‚˜ë¨¸ì§€ ë°”ì´íŠ¸ëŠ” 10ìœ¼ë¡œ ì‹œìž‘í•œë‹¤.

ê²°ê³¼ì ìœ¼ë¡œ ì²« 128 ë¬¸ìžëŠ” 1ë°”ì´íŠ¸ë¡œ í‘œì‹œë˜ê³ , ê·¸ ë‹¤ìŒ 1920 ë¬¸ìž(ë°œìŒ ê¸°í˜¸ê°€ ë¶™ì€ ë¼í‹´ ë¬¸ìž, ê·¸ë¦¬ìŠ¤ ë¬¸ìž, í‚¤ë¦´ ë¬¸ìž, ì½¥íŠ¸ ë¬¸ìž, ì•„ë¥´ë©”ë‹ˆì•„ ë¬¸ìž, ížˆë¸Œë¦¬ ë¬¸ìž, ì•„ëž ë¬¸ìž)ëŠ” 2ë°”ì´íŠ¸ë¡œ í‘œì‹œë˜ë©°, ë‚˜ë¨¸ì§€ ë¬¸ìžë“¤ ì¤‘ BMP ì•ˆì— ë“¤ì–´ìžˆëŠ” ê²ƒì€ 3ë°”ì´íŠ¸, ì•„ë‹Œ ê²ƒì€ 4ë°”ì´íŠ¸ë¡œ í‘œì‹œëœë‹¤. 

ìœ„ íŒ¨í„´ì„ ì‚¬ìš©í•˜ë©´ ë” í° ì½”ë“œ ë²”ìœ„ë„ í‘œì‹œí•  ìˆ˜ë„ ìžˆë‹¤. í•˜ì§€ë§Œ ì›ëž˜ UTF-8ì€ 6ë°”ì´íŠ¸ê¹Œì§€ì˜ ì½”ë“œ ë²”ìœ„ë„ í‘œí˜„í•  ìˆ˜ ìžˆì—ˆìœ¼ë‚˜, 2003ë…„ 11ì›” RFC 3629ì—ì„œ UTF-16ìœ¼ë¡œ í‘œí˜„ ê°€ëŠ¥í•œ ìƒí•œì„ ì¸ U+10FFFF ê¹Œì§€ì˜ ê¸€ìžë§Œ í‘œì‹œí•  ìˆ˜ ìžˆë„ë¡ ì œí•œí•˜ê²Œ ë˜ì—ˆë‹¤.

== ìœ ë‹ˆì½”ë“œ ì •ê·œí™” ==
=== ê°œìš” ===
ìœ ë‹ˆì½”ë“œ ì •ê·œí™”(Unicode normalization ë˜ëŠ” Unicode equivalence)ëŠ” ëª¨ì–‘ì´ ê°™ì€ ë¬¸ìžê°€ ì—¬ëŸ¬ ê°œ ìžˆì„ ê²½ìš°, ì´ë¥¼ ê¸°ì¤€ì— ë”°ë¼ í•˜ë‚˜ë¡œ í†µí•©í•´ì£¼ëŠ” ì¼ì„ ê°€ë¦¬í‚¨ë‹¤. ì˜ˆë¥¼ ë“¤ì–´ ìœ ë‹ˆì½”ë“œëŠ” ë¯¸ë¦¬ í•©ì³ì§„(precomposed) ë¬¸ìžì™€ ë”°ë¡œ ê²°í•©í•˜ëŠ”(combining) ë¬¸ìžê°€ ê³µì¡´í•˜ê³  ìžˆë‹¤(ì˜ˆ: í•œê¸€ ìžëª¨ ì˜ì— [ã…Žã…ã„´]ê³¼ í•œê¸€ ìŒì ˆ ì˜ì— [í•œ]). ê·¸ë¦¬ê³  ê° ë‚˜ë¼ ë§ˆë‹¤ ê°™ì€ í•œìžì— ë‹¤ë¥¸ ì½”ë“œ ê°’ì„ ê°€ì§€ê³  ìžˆë‹¤(ì˜ˆ: í•œêµì–´ äº® U+F977, CJKV í†µí•© í•œìž äº® U+4EAE). ì´ë“¤ì„ ì ì ˆí•œ ë°©ë²•ìœ¼ë¡œ ì •ê·œí™”í•˜ì§€ ì•Šìœ¼ë©´ ì—¬ëŸ¬ê°€ì§€ ë¬¸ì œê°€ ìƒê²¨ë‚  ìˆ˜ ìžˆë‹¤.

ìœ ë‹ˆì½”ë“œ ì •ê·œí™” ìƒì„¸ ìŠ¤íŽ™ http://www.unicode.org/reports/tr15/


=== ì •ê·œí™” í˜•íƒœ Normalization Forms (NF) ===
|| Form || Description ||
|| Normalization Form D (NFD) || ì •ì¤€ ë¶„í•´ Canonical Decomposition ||
|| Normalization Form C (NFC) || ì •ì¤€ ë¶„í•´í•œ ë’¤ì—, ë‹¤ì‹œ ì •ì¤€ ê²°í•© Canonical Decomposition, followed by Canonical Composition ||
|| Normalization Form KD (NFKD) || í˜¸í™˜ ë¶„í•´ Compatibility Decomposition ||
|| Normalization Form KC (NFKC) || í˜¸í™˜ ë¶„í•´í•œ ë’¤, ë‹¤ì‹œ ì •ì¤€ ê²°í•© Compatibility Decomposition, followed by Canonical Composition ||

==== NFD ====
ì½”ë“œë¥¼ ì •ì¤€ ë¶„í•´í•œë‹¤.
 * ë°œìŒ êµ¬ë³„ ê¸°í˜¸ê°€ ë¶™ì€ ê¸€ìžê°€ í•˜ë‚˜ë¡œ ì²˜ë¦¬ë˜ì–´ ìžˆì„ ê²½ìš°, ì´ë¥¼ ê¸°í˜¸ë³„ë¡œ ë‚˜ëˆˆë‹¤.
 * í•œê¸€ì„ í•œê¸€ ìŒì ˆ ì˜ì—(U+AC00~U+D7A3)ìœ¼ë¡œ ì¼ì„ ê²½ìš°, ì´ë¥¼ ì²«ê°€ë ì½”ë“œë¡œ ë‚˜ëˆˆë‹¤.
 * í‘œì¤€ê³¼ ë‹¤ë¥¸ ì¡°í•© ìˆœì„œë¥¼ ì œëŒ€ë¡œ ì •ë ¬í•œë‹¤.
ì˜ˆ)
 * Ã€ (U+00C0) â†’ A (U+0041) + Ì€ (U+0300)
 * ìœ„ (U+C704) â†’ á„‹ (U+110B) + á…± (U+1171)

==== NFC ====
ì½”ë“œë¥¼ ì •ì¤€ ë¶„í•´í•œ ë’¤ì—, ë‹¤ì‹œ ì •ì¤€ ê²°í•©í•œë‹¤.
 * ë°œìŒ êµ¬ë³„ ê¸°í˜¸ê°€ ë¶™ì—ˆì„ ê²½ìš°, ì´ë¥¼ ì½”ë“œ í•˜ë‚˜ë¡œ ì²˜ë¦¬í•œë‹¤.
 * í•œê¸€ì„ ì²«ê°€ë ì½”ë“œë¡œ ì¼ì„ ê²½ìš°, ì´ë¥¼ í•œê¸€ ìŒì ˆ ì˜ì—(U+AC00~U+D7A3)ìœ¼ë¡œ ì²˜ë¦¬í•œë‹¤.
ì˜ˆ)
 * A (U+0041) + Ì€ (U+0300) â†’ Ã€ (U+00C0)
 * á„‹ (U+110B) + á…± (U+1171) â†’ ìœ„ (U+C704)

==== NFKD ====
ì½”ë“œë¥¼ í˜¸í™˜ ë¶„í•´í•œë‹¤.
 * í•©ìž ì²˜ë¦¬ëœ ì•ŒíŒŒë²³ ì½”ë“œë¥¼ ê° ì•ŒíŒŒë²³ìœ¼ë¡œ ë¶„í•´í•œë‹¤.
 * ì˜› ì•ŒíŒŒë²³ì„ í˜„ëŒ€ ì•ŒíŒŒë²³ìœ¼ë¡œ ë°”ê¾¼ë‹¤.
ì˜ˆ)
 * ï¬ (U+FB01) â†’ f (U+0066) + i (U+0069)

==== NFKC ====
ì½”ë“œë¥¼ í˜¸í™˜ ë¶„í•´í•œ ë’¤ì— ë‹¤ì‹œ ì •ì¤€ ê²°í•©í•œë‹¤.
 * ë°œìŒ êµ¬ë³„ ê¸°í˜¸ê°€ ìžˆëŠ” ì˜› ì•ŒíŒŒë²³ì„ í˜„ëŒ€ ì•ŒíŒŒë²³ìœ¼ë¡œ ë°”ê¾¼ë‹¤.
ì˜ˆ)
 * áº› (U+1E9B) â†’ á¹¡ (U+1E61)
 
==== ëª¨ë“  ê¸°ì¤€ì—ì„œ ê³µí†µëœ ì •ê·œí™” ì²˜ë¦¬ ====
* í•œì¤‘ì¼ í˜¸í™˜ í•œìžë¥¼ í•œì¤‘ì¼ì›” í†µí•© í•œìžë¡œ ì²˜ë¦¬í•œë‹¤.
* ì „ìš© ê¸°í˜¸ë¥¼ ëª¨ì–‘ì´ ê°™ì€ ë³´íŽ¸ì ì¸ ê¸°í˜¸ë¡œ ë°”ê¾¼ë‹¤.
ì˜ˆ)
 * æ¨‚ (U+F914), æ¨‚ (U+F95C), æ¨‚ (U+F9BF) â†’ æ¨‚ (U+6A02)
 * Î© (U+2126, ì˜´) â†’ Î© (U+03A9, ì˜¤ë©”ê°€)
==== ìš”ì•½ ====
1. NFD, NFKDë¥¼ ê±°ì³ì„œ ìµœëŒ€í•œ ë¶„í•´í•œë‹¤.
2. ê°€ëŠ¥í•œ ëª¨ë“  ë¹„ê²°í•© ë¬¸ìžì™€ ë’¤ì— ë”°ë¼ ì˜¤ëŠ” ê²°í•© ë¬¸ìž, ê·¸ë¦¬ê³  ê·¸ ë’¤ì— ë”°ë¼ì˜¤ëŠ” ë¹„ê²°í•© ë¬¸ìžì— ëŒ€í•´ ìˆœì„œëŒ€ë¡œ ê²°í•©ì„ ì‹œë„í•œë‹¤.
3. ê²°í•©ì´ ì„±ê³µí•˜ë©´ ë’¤ì˜ ë¬¸ìžëŠ” ì§€ìš°ê³  ì•žì˜ ë¬¸ìžë¥¼ ê²°í•©ëœ ë¬¸ìžë¡œ ë°”ê¾¼ë‹¤. ì´ì „ì— ì‹¤íŒ¨í•œ ê²°í•©ì€ ë‹¤ì‹œ ì‹œë„í•˜ì§€ ì•ŠëŠ”ë‹¤.
4. ê²°í•©ì„ ì‹œë„í•  ë•ŒëŠ” ì¼ë°˜ ë¶„í•´ ë§¤í•‘ì˜ ì—ë³€í™˜ë§Œ ì‹œë„í•œë‹¤(ì˜ˆì™¸ë„ ìžˆë‹¤.).

=== ê° ì–¸ì–´ì˜ ì •ê·œí™” ë°©ë²• ===
==== Java ====
{{{#!gcode
    import java.text.Normalizer;
    public class NormalizerTest {
        public static void main(String args[]) {
            String ui = "ìœ„";
            String nfd = Normalizer.normalize(ui, Normalizer.Form.NFD);
            String nfc = Normalizer.normalize(nfc, Normalizer.Form.NFC);
        }
    }
    
    => ui = U+C704
    => nfd = U+110B + U+1171
    => nfc = U+C704
}}}
==== Perl ====
{{{#!gcode
    #!/usr/bin/perl
    use utf8;
    use Unicode::Normalize;
    
    my $ui = "ìœ„";
    my $nfd = NFD("ìœ„");
    my $nfc = NFC($nfd);
}}}
==== C# ====
{{{#!gcode
    using System;
    using System.Text;
    
    string s1 = new String( new char[] { '\uC704' }
    string s2 = null;
    
    s1.IsNormalized();
    s1.IsNormalized(NormalizationForm.FormD));
    // False
    // False
    
    // Normalize to the default form(Form C)
    s2 = s1.Normalize();
    s2.IsNormalized(); // True
    
    // Normalize to Form D
    s2 = s1.Normalize(NormalizationForm.FormD);
    s2.IsNormalized(NormalizationForm.FormD)); // True
}}}
==== C++ ====
{{{#!gcode
    const int maxIterations = 10;
    LPWSTR strInput = L"ìœ„";
    LPWSTR strResult = NULL;
    HANDLE hHeap = GetProcessHeap();

    int iSizeEstimated = NormalizeString(NormalizationD, strInput, -1, NULL, 0);
    for (int i = 0; i < maxIterations; i++)
    {
        if (strResult)
            HeapFree(hHeap, 0, strResult);
        strResult = (LPWSTR)HeapAlloc(hHeap, 0, iSizeEstimated * sizeof (WCHAR));
        iSizeEstimated = NormalizeString(NormalizationD, strInput, -1, strResult, iSizeEstimated);
 
        if (iSizeEstimated > 0)
            break; // success 
    }    
    TRACE(L"%x", strInput[0]);
    TRACE(L"%x", strResult[0]);
    TRACE(L"%x", strResult[1]);
    
    => strInput = U+C704
    => strResult = U+110B + U+1171
}}}
Windows Vista >= only
https://msdn.microsoft.com/en-us/library/windows/desktop/dd319093(v=vs.85).aspx
== BOM ==
ë°”ì´íŠ¸ ìˆœì„œ í‘œì‹(Byte Order Mark, BOM)ì€ ìœ ë‹ˆì½”ë“œì—ì„œ ì—”ë””ì–¸ì„ êµ¬ë³„í•˜ê¸° ìœ„í•´ ì‚¬ìš©ë˜ëŠ” ë¬¸ìžë¡œ, ë¬¸ìž ê°’ì€ U+FEFF ì´ë‹¤.

ìœ ë‹ˆì½”ë“œ ì¸ì½”ë”©ì—ì„œ ë¬¸ì œê°€ ë˜ëŠ” ê²ƒì€ ë°”ì´íŠ¸ ìˆœì„œ ë˜ëŠ” ì—”ë””ì–¸ì´ë‹¤. ì¦‰ 'A'ë¥¼ 00 48ë¡œ í‘œí˜„í•  ê²ƒì¸ê°€ 48 00ìœ¼ë¡œ í‘œí˜„í•  ê²ƒì¸ê°€? UTF-16, UTF-32 ê°™ì€ ì¸ì½”ë”©ì—ì„œëŠ” ì—”ë””ì–¸ì˜ ì¢…ë¥˜ì— ë”°ë¼ ë¬¸ìžì—´ì˜ ê°’ì´ ì™„ì „ížˆ ë‹¬ë¼ì§€ë¯€ë¡œ, ë¬¸ìžì—´ì˜ ì—”ë””ì–¸ì„ êµ¬ë³„í•  ìˆ˜ ìžˆëŠ” í‘œì‹ì´ í•„ìš”í•˜ë‹¤. ì´ì— ë”°ë¼ ìœ ë‹ˆì½”ë“œ ë¬¸ìžì—´ ì•žì— BOM ë¬¸ìžë¥¼ ë¶™ì—¬, ì—”ë””ì–¸ì„ êµ¬ë³„í•œë‹¤.

UTF-8ì˜ ê²½ìš°ì—ëŠ” ì—”ë””ì–¸ ë¬¸ì œê°€ ì¼ì–´ë‚˜ì§€ ì•Šìœ¼ë¯€ë¡œ BOMì„ ë¶™ì—¬ì•¼ í•  í•„ìš”ëŠ” ì—†ë‹¤. í•˜ì§€ë§Œ í•´ë‹¹ ìžë£Œê°€ UTF-8 ì¸ì½”ë”©ì´ë¼ëŠ” í‘œì‹ìœ¼ë¡œ ì‚¬ìš©í•˜ëŠ” ê²½ìš°ë„ ìžˆë‹¤. íŠ¹ížˆ ë§ˆì´í¬ë¡œì†Œí”„íŠ¸ì˜ ë§Žì€ ë¬¸ì„œ íŽ¸ì§‘ê¸°ëŠ” UTF-8 ë¡œ ì €ìž¥í•  ê²½ìš° ìžë™ìœ¼ë¡œ ë¬¸ì„œì˜ ê°€ìž¥ ì•žë¶€ë¶„ì— BOMì„ ì¶”ê°€í•œë‹¤. ì´ì™€ëŠ” ë°˜ëŒ€ë¡œ ìœ ë‹‰ìŠ¤ ê³„ì—´ ë¬¸ì„œ íŽ¸ì§‘ê¸°ëŠ” BOMì„ ì‚¬ìš©í•˜ì§€ ì•ŠëŠ” ê²½ìš°ê°€ ë³´í†µì´ë‹¤. ì´ ê²½ìš° ë¬¸ì„œì˜ BOMì„ ìž˜ëª» ì¸ì‹í•˜ê³  ë¬¸ì œê°€ ë°œìƒí•  ìˆ˜ë„ ìžˆë‹¤.

ê° ìœ ë‹ˆì½”ë“œ ì¸ì½”ë”© ë°©ë²•ì— ë”°ë¥¸ BOM ê°’ì€ ë‹¤ìŒê³¼ ê°™ë‹¤.

||||||'''BOM Table'''||
||<td style="background-color:#f8f8f8">Encoding||<td style="background-color:#f8f8f8">Representation||
||UTF-8||EF BB BF||
||UTF-16 ë¹… ì—”ë””ì–¸||FE FF||
||UTF-16 ë¦¬í‹€ ì—”ë””ì–¸||FF FE||
||UTF-32 ë¹… ì—”ë””ì–¸||00 00 FE FF||
||UTF-32 ë¦¬í‹€ ì—”ë””ì–¸||FF FE 00 00||
||SCSU||0E FE FF||
||UTF-EBCDIC||DD 73 66 73||
||BOCU-1||FB EE 28||


ì°¸ì¡°
----
http://ko.wikipedia.org/wiki/UTF-8
http://ko.wikipedia.org/wiki/UTF-16
http://ko.wikipedia.org/wiki/%EB%B0%94%EC%9D%B4%ED%8A%B8_%EC%88%9C%EC%84%9C_%ED%91%9C%EC%8B%9D
http://heyjimin.tistory.com/15

----
CategoryDocument