Unicode provides a unique number for every character,
no matter what the platform,
no matter what the program,
no matter what the language.
- http://www.unicode.org/standard/WhatIsUnicode.html
유니코드는 전 세계 모든 문자에 대해 플랫폼에 상관 없이, 프로그램에 상관 없이, 언어에 상관 없이 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준이다. 유니코드 컨소시엄에서 제정하며 유니코드 표준에는 ISO 10646 문자 집합, 문자 인코딩 방법, 문자 정보 데이터베이스, 문자들을 다루기 위한 알고리즘 등을 포함하고 있다.
유니코드의 목적은 현존하는 모든 문자 인코딩 방법들을 유니코드로 교체하려는 것이다. 기존의 인코딩들은 그 규모나 범위 면에서 한정되어 있고, 나라마다 달라 서로 호환되지 않는 문제점이 있었다. 유니코드가 다양한 문자 집합들을 통합하는데 성공하면서 유니코드는 컴퓨터 소프트웨어의 국제화와 지역화에 널리 사용되게 되었다.
버전
- Unicode 1.0.0 - 1991년 10월
- ...
- Unicode 6.0 - 2010년 10월 11일
- Unicode 6.1 - 2012년 2월 1일
- Unicode 6.2 - 2012년 9월 27일
- Unicode 6.3 - 2013년 9월 30일
- Unicode 7.0 - 2014년 6월 16일
유니코드 평면
유니코드는 110만개 이상의 코드 포인트를 지정할 수 있다. 유니코드는 이 110만개 이상의 코드 포인트를 17개의 '평면(Plane)'으로 나누고 각 평면에서 256*256=65,536개의 문자를 지정할 수 있다. 0번 평면은 일반적으로 BMP(Basic Multilingual Plane)라고 부르는 평면으로 BMP에는 거의 모든 근대 문자와 특수 문자가 포함되어 있으며, 그 중 대부분은 한글과 한중일 통합 한자들로 이루어져 있다.
< BMP(평면 0)의 유니코드 문자 배치 >
1번 평면은 보조 다국어 평면(Supplementary Multilingual Plane, SMP)으로 옛 문자나 음악 기호, 수학 기호 등에 쓰인다.
2번 평면은 보조 상형 문자 평면(Supplementary Ideographic Plane, SIP)으로 초기 유니코드에 포함되지 않은 한중일 통합 한자를 주로 담고 있다.
3번 평면인 3차 상형 문자 평면(Tertiary Ideographic Plane, TIP)은 갑골 문자, 금문, 소전 따위의 문자나 추가 한중일 통합 한자, 기타 옛 상형 문자 등을 위해 예약된 영역이다. 유니코드 7.0 현재 3번 평면에는 아무 문자도 지정되지 않았다.
유니코드 4번 평면부터 13번 평면은 미지정 평면으로 현재 아무 문자나 기호도 지정되지 않았다.
14번 평면인 보조 특수 목적 평면(영어: Supplementary Special-purpose Plane, SSP)은 현재 적은 수의 제어용 문자들이 들어 있다.
15번과 16번 두 평면은 사용자 영역으로, 특정 업체나 사용자 별로 할당하여 쓰게 되므로 소프트웨어간이나 글꼴간의 호환성이 보장되지 않는다.
유니코드의 인코딩 방식들
유니코드의 표현 방식은 유니코드 컨소시엄과 ISO 10646에 정의되어 있다. 대표적인 인코딩 방식은 UCS-2, UTF-8, UTF-16이 있다.
(UTF - Unicode Transformation Format, UCS - Universal Character Set)