基本簡介
Unicode:一種計算機字符編碼。也稱“統(tǒng)一碼”“萬國碼”“Unicode碼”
Unicode只有一個字符集,中、日、韓的三種文字占用了Unicode中0x3000到0x9FFF的部分 Unicode目前普遍采用的是UCS-2,它用兩個字節(jié)來編碼一個字符, 比如漢字"經(jīng)"的編碼是0x7ECF,注意字符編碼一般用十六進制來 表示,為了與十進制區(qū)分,十六進制以0x開頭,0x7ECF轉換成十進制 就是32463,UCS-2用兩個字節(jié)來編碼字符,兩個字節(jié)就是16位二進制, 2的16次方等于65536,所以UCS-2最多能編碼65536個字符。 編碼從0到127的字符與ASCII編碼的字符一樣,比如字母"a"的Unicode 編碼是0x0061,十進制是97,而"a"的ASCII編碼是0x61,十進制也是97,對于漢字的編碼,事實上Unicode對漢字支持不怎么好,這也是沒辦法的, 簡體和繁體總共有六七萬個漢字,而UCS-2最多能表示65536個,才六萬 多個,所以Unicode只能排除一些幾乎不用的漢字,好在常用的簡體漢字也不過七千多個,為了能表示所有漢字,Unicode也有UCS-4規(guī)范,就是用 4個字節(jié)來編碼字符。