UTF-8 编码遇见 “不认识” 的字节串一些情况下会用 EF BF BD
代替,例如:0x90
是一个字节会变成 0xefbfbd
三个字节。
UTF-8 “认识”:
- ASCIl 字符:
0×00
到0x7F
- 非 ASCIl 字符:第一个字节总是在
0xC0
到0XFD
的范围里,并指出这个字符包含多少个字节。多字节串的其余字节都在0x80
到0xBF
范围里。
更新于 写于
UTF-8 编码遇见 “不认识” 的字节串一些情况下会用 EF BF BD
代替,例如:0x90
是一个字节会变成 0xefbfbd
三个字节。
UTF-8 “认识”:
0×00
到 0x7F
0xC0
到 0XFD
的范围里,并指出这个字符包含多少个字节。多字节串的其余字节都在 0x80
到 0xBF
范围里。