Java基础 Unicode、UTF-8

发布时间 2023-10-23 19:34:24作者: 嘎嘎鸭2

UTF-8 不是字符集,而是 Unicode 字符集的一种编码方式

UTF-8 编码规则:用 1~4 个字节保存

 

UTF-8 规定,如果是 ASCII 里面的英文字母,统一用一个字节表示,二进制的第一位是 0,转成十进制是正数

UTF-8 规定 一个中文用三个字节表示,二进制的第一位是 1,第一个字节转成十进制是负数

 

如果是一个字节,前面直接补 0 就可以了;

如果是三个字节,左边的第一个字节前面要加 1110,中间的第二个字节前面要加 10,右边的第三个字节前面也要加 10