Unicode 也就是我们常说的 Unicode 字符集,它是把各国有的字符包含在一个集合里,计算机使用这一个字符集,就能支持所有语言。
Unicode 是分区定义的,每个区包含 65536 (216) 个字符,也就是两个字节的长度,一个分区称为一个平面(plane)。目前,一共定义了 17 个平面,整个 Unicode 字符集的大小现在是 221 个字符,占 21 位的长度,。
Unicode 最先定义和公布的一个平面(第一个平面)是前面的 65536 个字符位,称为基本平面(缩写 BMP),它的码点范围是从 0000 - FFFF。
不常用的字符放在辅助平面内(缩写 SMP),码点范围从 U+010000 到 U+10FFFF。
我们常用的汉字都在基本平面内,码点范围:4E00 - 9FA5,一些不常用的字符在辅助平面内。因此常用的汉字的 Unicode 编码长度为两个字节,16 位长度。
Unicode 只把每一个字符定义一个码点(编码),而没有定义如何在计算机中存储这些编码,要存储这些编码就要使用特定的编码方法,如:UTF-8,UTF-16,UTF-32。