字符集
ASCII
Amerrican Strandard Code for Information Interchange:美国信息交换标准代码,包括英文、符号等。
标准ASCII使用1个字节存储一个字符,首位是0,总共可表示128个字符。
GBK
-
汉字内码扩展规范,国标
-
汉字编码字符集,包含了2万多个汉字等字符,GBK中一个中文字符编码成两个字节的形式存储。
-
注意:GBK兼容了ASCII字符集。
GBK规定:汉字的第一个字节的第一位必需是1
1xxxxxxx xxxxxxxx 0xxxxxxxx 1xxxxxxx xxxxxxxx
Unicode字符集(统一码)
UTF-32:4个字节表示一个字符(占空间、通讯效率低)
UTF-8(编码):
- 是Unicode字符集的一种编码方案,采取可变长编码方案,共分四个长度区:1个字节,2个字节,3个字节,4个字节。
- 英文字符、数字等只占1个字节,汉字字符占用3个字节。