字符编码

字符编码有哪些
什么时候使用什么样的编码
 
1、ascii 编码
我们平时存储的字符其实存储的就是ascii编码
0-127 标准ascii
128-255 拓展ascii
ascii127-255.jpg
 
2、gbk gb2312 或gb2312-80 或者 big-5针对自己国家的编码
使用ascii 拓展里面的两个字符组成一个汉字
棒子文跟小日本也是这么搞的 这就存在乱码问题
 
3、unicode编码横空出世
给世界上所有常用的符号统一的唯一编码
0 - 0x10FFFF 可以容纳100W+符号
unicode没有约定是怎么存储的
 
 
4、如何存储unicode utf-16 /utf-8 是unicode的实现方式 默认是 utf-16
<utf-16> 16位对齐
utf-16编码以16位无符号整数为单位 两个字节是一个单位,并不代表一个字节有两个字节
如:
中=> 0x 12 34 一个单位两个字节搞定
国=> 0x 00 01 23 45 就需要存储4个字节
2个不够就需要4个字节
<utf-8> 在网络传输的时候兴起的
变长存储方案 一个字节能存下就用一个 两个能存下就用两个
优点:节省空间
缺点:解析困难
 
常见的BOM(Byte Order Mark)头就是在文件起始位置来表明当前文件已什么格式存储的
UTF-8 || EF BB BF
UTF-16LE || FF FE 默认小端存储
UTF-16BE || FE FF

本博客所有文章如无特别注明均为原创。作者:odaycaogen复制或转载请以超链接形式注明转自 123``blog
原文地址《字符编码

相关推荐

发表评论

路人甲 表情
Ctrl+Enter快速提交

网友评论(0)