java字符串“我是谁”的转码问题-猿圈-程序猿的知识社区

微信公众号：爱问CTO
专业编程问答社区
www.askcto.com

问题出场

public static void main(String[] args) throws Exception {
                 String a = "我是谁";
                 String b=new String(a.getBytes("utf-8"),"gbk");
                 System.out.println(b);
                 String c=new String(b.getBytes("gbk"),"utf-8");
                 System.out.println(c);
            }

输出的结果：

鎴戞槸璋�
我是�?

问题:字符串从utf-8转到gbk再转回utf-8为什么会出现部分乱码？

ps:如果换成偶数个数的字符串，比如“我是谁啊”往回转就没问题的。详情见本文补充

utf-8编码

回答上面的这个问题，我们先回顾一下基础的编码知识，说到 UTF 必须要提到 Unicode（Universal Code 统一码）。开始有了UTF-16，UTF-16 用两个字节来表示 Unicode 转化格式，这个是定长的，不论什么字符都可以用两个字节表示，两个字节是 16 个 bit，所以叫 UTF-16。

试想一下，不管什么字符都要用两个字节表示，是不是有点浪费空间呢。比如有很多单个字符的如英文字母完全可以用一个字节表示的。这个时候UTF-8就出场了，它采用了一种变长技术，每个编码区域有不同的字码长度。对汉字采用三个字节表示。不同类型的字符可以是由 1~6 个字节组成。让我想到了数据库的char与Varchar2的区别。

ps：顺便再说一下，UTF-16还存在一个问题。UTF-16 采用顺序编码，不能对单个字符的编码值进行校验，如果中间的一个字符码值损坏，后面的所有码值都将受影响。而 UTF-8 这些问题都不存在。每当一个问题出现的时候，总有人想法设法去解决它。

GBK编码

全称叫《汉字内码扩展规范》，是国家技术监督局为 windows95 所制定的新的汉字内码规范，它的出现是为了扩展 GB2312，加入更多的汉字，(GB2313总包含 6763 个汉字)。它的编码范围是 8140~FEFE（去掉 XX7F）总共有 23940 个码位，它能表示 21003 个汉字，它的编码是和 GB2312 兼容的，也就是说用 GB2312 编码的汉字可以用 GBK 来解码，并且不会有乱码。

GBK 字符集有一个 char 到 byte 的码表，不同的字符编码就是查这个码表找到与每个字符的对应的字节，然后拼装成 byte 数组。而汉字被编码成双字节。

解答问题

有了上面的基础，我们在看文章开始提出的问题。

首先字符串“我是谁”经过getBytes("utf-8")转为utf-8编码的字节。utf编码的汉字占用3个字节。一共也就是9个字节，然后再经过(a.getBytes("utf-8"),"gbk")转回gbk编码的字符串，而gbk编码对应的汉字是双字节。经过utf-8编码后的9个字节，在转GBK就是4个字，但是还余剩下个字节，这个时候，它会帮你在补充一个字节。就是5个字了-鎴戞槸璋�，

最后一个字很奇怪，就是最后2个字节组合的时候，在GBK码表中找不到对应的字，没有对应的怎么办，找一个比较接近的代替。

继续往下看代码，(b.getBytes("gbk"),"utf-8")，这是拿到gbk编码的字节，也就是10个字节。然后转回utf-8编码的字符串。utf编码的汉字占用3个字节。10个字节。前三个被翻译为了我，接着三个翻译为了是，在接着三个就开始乱码了，因为这个你拿的字节是-鎴戞槸璋�，这5个字的第4个字的2个字节和第5个字的第一个字节，而你刚才在转GBK的时候，最后两个字节组合在GBK码表中找不到对应的字，他找了一个比较接近的替代，字变了，那对应的字节数组也发生了改变。所以这里在翻译回去就出了问题。

最后还剩一个字节，但是utf-8需要三个字节才能被翻译，它又补上了两个，就翻译出来了一个?

从代码中认识

将转换的字节打印出来。

    public static void main(String[] args) throws Exception {
                 String a = "我是谁";
                 byte[] byte1 = a.getBytes("utf-8");
                 String b=new String(byte1,"gbk");
                 System.out.println(b);
                 byte[] byte2 = b.getBytes("gbk");
                 String c=new String(byte2,"utf-8");
                 System.out.println(c);
            }

字符串“我是谁”，转成utf-8的字节对应的数据：

[-26, -120, -111, -26, -104, -81, -24, -80, -127]

字符串“鎴戞槸璋�”，转成gbk的字节数组

[-26, -120, -111, -26, -104, -81, -24, -80, 63]

这个时候最后一个字节已经发生了变化，肯定翻译的会出现部分乱码了。

补充一点

字符串是偶数个数就可以转过去

public static void main(String[] args) throws Exception {
                 String a = "我是谁啊";
                 String b=new String(a.getBytes("utf-8"),"gbk");
                 System.out.println(b);
                 String c=new String(b.getBytes("gbk"),"utf-8");
                 System.out.println(c);
            }

运行的结果：

鎴戞槸璋佸晩
我是谁啊

仔细想一下，因为这样，转gbk编码的时候就不需要它自己去补位了。原来的字节数组也就不会发生改变。

菜单 学习猿地 - LMONKEY

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练！告别无效练习

接私单赚外块

VIP优先接，累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

人生苦短我要学Python！

PHP开发工程师

PHP是世界上最好的编程语言!

GO开发工程师

想优雅的写程序，赶紧GO!

大数据开发工程师

弄大数据，就是在搞革命!

前端开发工程师

不仅最好，而且最全!

UI开发工程师

这个世界从来不缺少美，缺少你来创造美!

Linux运维工程师

不只是说说而已！

WEB前端1+X

不仅为考证，轻松做开发

计算机二级（C语言）

一切只为考证！

猿工手册

各种工具精挑细选

猿材料

各种工具精挑细选

猿代码

各种工具精挑细选

猿著课件

各种工具精挑细选

知识题库

知识闯关节节高，刷题涨知识！

阶段练习

单元测试知识学习状况秒掌握！

期末考试

期末测试，学习情况即刻知道！

面试题库

最新的企业技术人员招聘真题练习！

Java专区

2948篇 ｜ 24.5万人浏览

Python专区

2593篇 ｜ 19.5万人浏览

大数据专区

2948篇 ｜ 18.5万人浏览

PHP专区

3953篇 ｜ 27.5万人浏览

Go专区

1382篇 ｜ 12.5万人浏览

Web前端专区

1453篇 ｜ 31.5万人浏览

Linux云计算

1230篇 ｜ 4.5万人浏览

其他专区

53232篇文章 ｜ 11.5万人浏览

搜索

历史记录 清除记录

近期热搜

项目开发全程实录（电商EW_Shop）

8674 人 1年前

轻松学会Laravel-项目篇（商城API）

2022 人 1年前

Python数据分析2.0-金融

325 人 1年前

Python办公自动化2.0

241 人 1年前

使用账号登录

启用更安全省心的  微信登录

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

菜单学习猿地 - LMONKEY

尊享10项VIP特权持续新增

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览

历史记录清除记录

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览