有关于字符集的问题。什么是Unicode,什么是UTF-8?
Unicode是一种(编码字符集。n),它对应于Unicode编码字符集的字体表。
Unicode代码对应于Unicode字体表中的一个字符。可以说Unicode编码是Unicode字体表中一个字符的编号。
(Unicode编码。n)是一个二进制数。
为了包含世界上所有的字符,Unicode采用了多字节代表一个八位字符的规则,一位可以有两种状态,分别是0和1,一个字节可以有256种状态,n个字节可以有256种状态,每种状态对应一个二进制数,所以多字节可以代表更多的字符,从而使字体表更大。
UTF-8是一种字符编码方案,它对Unicode进行编码(即对二进制数字进行编码),字符编码方案将一个二进制数字映射为一个字节序列。
为什么要重新编码Unicode?因为Unicode是固定长度的(编码字符。n),这种方式带来的麻烦是:
假设二进制值00000001是字符A的代码,在计算机中只用一个字节就可以存储。但是,因为Unicode的长度固定为四个字节,所以A的代码变成00000000000000000000000000000000000000000000000000000000000000000000000000008+0需要在计算机中存储四个字节,这导致
因此,为了使用Unicode的大字体表和节省存储空间,需要对Unicode进行重新编码,而且是基于(Unicode编码的内容。n)-UTF-8是(Unicode编码)的可变长度字符编码方案。n)。
UTF-8字符编码方案决定了如何(Unicode编码。n)存储在计算机中。
(Unicode编码。n)也可以看作是经过UTF-8字符编码方案编码后的一个新的二进制数(这个新的二进制数的值通常用十六进制的数字字符表示,它们的直接关系就是这个十六进制字符表示的值等于这个二进制数的值)。