java之学习篇-乱码问题汇总

天突然想到之前的一个项目，是和另一个公司合作，我提供后台，对方写小程序调用我的接口，我本地测试好接口后，是没有问题的，然后部署到对方服务器（windows系统），接着就是出先各种各样的乱码问题，在这里汇总记录下，以便后面学习。

java乱码出现的问题有很多，这里主要记录下tomcat，log4j,mysql,jsp,html,http(get,post请求乱码处理)。常见的问题可能是tomcat，http请求乱码问题了，至于jsp和html的乱码问题就很简单了，相信大家也知道，我也就不多说了，首先来说下tomcat的乱码问题，

一个是程序需要发送http GET请求到服务器，请求的参数中包含了中文字符。程序中参数为UTF-8格式，且经过了UTF-8 URL编码再发送。使用的tomcat服务器，但服务器端后台程序中取到的参数的中文是乱码。

解决办法：修改Tomcat的Server.xml，在Connector标签中加上URLEncoding参数。

<Connector port="8080" maxThreads="150" minSpareThreads="25"
maxSpareThreads="75" enableLookups="false" redirectPort="8443"
acceptCount="100" debug="99" connectionTimeout="20000"
disableUploadTimeout="true" URIEncoding="UTF-8"/>

另一个是tomcat控制台打印乱码，程序中输出到tomcat控制台的中文信息乱码了，

解决办法：打开文件/tomcat/bin/catalina.bat，然后设置set JAVA_OPTS=　的内容中添加选项-Dfile.encoding=UTF-8即可，当然，我不敢包证，但是我的就是这么处理然后就可以了。

然后是log4j的日志打印乱码，这个乱码也是打印在tomcat控制台的时候乱码，但是日志文件却不会，而且我本地测试的时候打印也不会乱码

而且我配置的也是utf-8，这个曾经让我恼火好久，后面我偶然在一篇博客上发现，说有些服务器你配utf-8是不行的，他的是编码就是GBK，我就权当试试，没想到还真是这个问题，这也是让我很无语，，，，

然后就是http请求的乱码，我这个乱码问题是我在shiro判断是否登录的时候，因为我是前后端分离，所以我shiro判断未登录的时候，是返回状态码和提示信息，而不是跳转登录页面，我用response返回中文提示信息是，结果返回的是乱码，可是我明明设置了

res.setCharacterEncoding("utf-8");

可是到前端页面的时候还是乱码了，这让我很费解，后面我仔细想了下，我服务端是设置了返回utf-8的编码,但是浏览器是用utf-8去解析的吗？后面去查了下还要加一条配置，

res.setContentType("text/html;charset=utf-8");

之前知道有这个配置，但是一直不知道有什么区别，今天算是明白了一点，这个就是告诉浏览器，你要用什么编码去解析这个数据。

最后一个是mysql 中文的乱码了，这个着实让我烦恼了好久，我去网上查了，说建表的时候要设置utf-8的编码，可是我在新建数据库的时候就设置了默认就是utf-8的编码，然后我说要配置数据库的默认编码，修改mysql配置文件/etc/my.cnf。

[mysqld]
character-set-server=utf8 
[client]
default-character-set=utf8 
[mysql]
default-character-set=utf8

我设置好这个以后，终于不会乱了，但是，，保存进去的中文居然全部变成了？？？号，于是又去奔波了，

通过这个命令，我们可以看到，我们服务端居然还不是utf-8？？？

这让我很伤，终于，寻的良方，

只要在数据库properties文件的连接信息里加两个参数

?useUnicode=true&characterEncoding=utf-8

就可以了，唉，真是一波三折啊，

真是与服务器斗，其乐无穷；与数据库斗，其乐无穷；与浏览器斗，其乐无穷啊

融界2024年1月16日消息，据国家知识产权局公告，中信银行股份有限公司申请一项名为“一种基于iText的支持生僻字转换方法及系统”的专利，公开号CN117408230A，申请日期为2023年10月。

专利摘要显示，本发明提供了一种基于iText的支持生僻字转换方法及系统，涉及人工智能技术领域。其中，所述方法包括：获得生僻字字库；获得常规字字库；将所述生僻字字库与所述常规字字库进行组合，获得字库集合；根据所述字库集合对HTML进行字体样式设定，获得HTML信息；将所述字库集合设置到iText中，调用所述iText对所述HTML信息进行PDF转换，获得转换文件。解决了现有技术中存在遇到生成含有生僻字的HTML转换PDF场景时，无法正常完成生僻字转换，出现生僻字变为乱码，且使用升级现有中文字字库的方法不能随时新增生僻字，灵活性差的技术问题。

本文源自金融界

明：本栏目所使用的素材都是凯哥学堂VIP学员所写，学员有权匿名，对文章有最终解释权；凯哥学堂旨在促进VIP学员互相学习的基础上公开笔记。

关于乱码问题的解决

会有乱码现象，其实就是因为字符集编码不一致的问题，就好像中国人和外国人谈话一样，互相不懂对方在说啥。字符集编码也是如此，本来就是一段GBK编码的文字，却要用utf-8的编码格式去解码，就当然是鸡同鸭讲会出现乱码啦，这个时候就得使用GBK编码的格式去解码才不会出问题。如果互相都是使用的GBK编码后，那就像中国人和中国人都说普通话一样，就能听懂对方在说什么，这样才不会出现乱码。

在web开发中，请求或响应数据时出现乱码，往往就是客户端和服务端的编码不一致的问题所导致的。

不过在介绍如何解决乱码的问题前，我们先看看HttpServletRequest中关于获得表单数据的一些方法，虽然在上一篇也介绍了使用方式，不过关于乱码和拿到具体的值这方面没有涉及到：

获得和设置表单数据方法（如果是上传文件的话则无法获取文件中的数据）：

既然和表单有关，那么就得先写一个简单的html表单代码，我们可以在Eclipse中创建一个html文件：

可能使用Eclipse编写HTML的代码不太方便，我们也可以使用一个专门编写html代码的工具来编写Eclipse里已经创建了的html文件，我这里使用HBuilder作为示例：

1.复制Eclipse中的html文件所在目录的路径：

2.在HBuilder中点击文件，然后选择打开目录把复制的文件路径粘贴进去，并为这个工程起一个新的名称：

工程目录如下：

如图，可以看到index.html已经在这个工程下了，我们可以在HBuilder中编辑这个html文件，编辑的内容会同步到Eclipse，因为它俩访问的都是同一个目录同一个html文件。

3.我在HBuilder编辑的代码如下：

4.再看看Eclipse发生了什么：

可以看到代码是同步的。

浏览器运行结果：

以下使用实际代码演示常用的几个获得表单数据的方法，代码示例：

在Eclipse中执行html文件，Eclipse有一个内置的浏览器：

如果要在其他的浏览器则需要使用这个URL地址：

http://localhost:8080/TestResponse/index.html

不要直接在HBuilder中运行这个html文件，因为它的URL是指向HBuilder的工程路径的。

控制台打印结果：

如图，可以看到我们将所有的值都获得到手了。

获得表单数据的时候要注意一个问题：当你需要获得一个属性的值时，如果得到的结果为null，那么就是因为表单数据中并没有这个属性的存在。例如我获得一个不存在的属性：

控制台打印结果：

可以看到结果为null，所以当你获得表单数据进行某些操作时，出现了空指针异常的话，很有可能就是因为代码上写错了获得了一个不存在的属性。

如果表单数据中的某个属性值没有写，那么获得的将是一个空字符串，而非null，例如：

控制台打印结果：

如图，并没有打印null，而是打印空白，这个空白就是一个空字符串：’’

会出现乱码的情况，以及解决方法：

现在我们修改一下代码把表单提交的方法改为post，再运行一次，看看控制台的打印结果，html代码示例：

Java代码示例：

提交的表单：

控制台的打印结果：

可以看到控制台中的打印结果出现了不能识别的字符，解决方法很简单，使用setCharacterEncoding(String)方法，设置表单提交的数据的编码格式即可：

运行结果：

注意：除了在Java代码中需要设置编码格式，在html文件中也要设置好编码格式，如果html中不设置编码格式的话，即便在Java代码中使用了setCharacterEncoding(String)方法设置了也没有用，所以这是双向的，例如我把html文件中设置编码格式的标签给删掉：

可以看到在网页上显示都是乱码（这是因为Eclipse内置的浏览器原因，一般市面上的浏览器提前预设了字符编码，所以不会出现这种情况）

控制台打印结果：

果然出现了不能识别的字符，所以html文件也是需要设置好编码的，不然的话就会出现乱码的情况。

下面来看看浏览器的地址栏中为什么能够显示中文：

这其实是因为浏览器转码了，可以把这个URL复制到记事本中：

可以看到是一堆的编码，并没有显示中文，所以实际上浏览器就是把这个编码给转换成了中文而已。

只要不属于128个字符内的字符，在地址栏中都会转换成这种格式的编码，这些编码格式是采用的16进制的编码格式，以上面这文本示例编码对应的中文：

如图，每一个16进制编码都是以%开头，这是utf-8编码的中文，所以一个中文字对应3个16进制编码。

如果是GBK编码格式的中文则是一个中文字对应2个16进制编码，但是GBK编码格式转换成的16进制编码不能被浏览器转换，会仍然显示着16进制编码：

中文字对应的16进制编码：

如图，GBK编码格式的中文字和utf-8编码的中文字不一样，是2个16进制编码对应一个中文字。

关于客户端请求数据方面的乱码情况就介绍这么多，另外响应数据中出现乱码的情况和解决方法在介绍HttpServletResponse方法部分进行说明。

思维导图：

HttpServletResponse中的方法

HttpServletResponse接口类型的对象是封装服务端响应数据的，所以这个对象中的方法都是与响应数据相关。以下罗列一些常用的方法：

下面使用实际的例子，演示以上方法的使用方式：

编辑响应头一类的方法：

代码示例：

在服务端设置响应数据的编码格式是很有必要的，这么做同样的也是为了避免出现乱码的问题。例如以下这个示例，我不设置响应数据的编码格式，并输出一段中文，看看会发生什么，代码示例：

运行结果：

如图，可以看到，没有设置响应数据的编码格式的话，输出中文就会无法被识别。

这种问题设置一下响应数据的编码格式就好了，但是服务端设置的编码格式，要与浏览器端的编码格式对应上，如果不对应的话仍然会是乱码，代码示例：

运行结果：

添加新的响应头数据：

代码示例：

打开TCP/IP Monitor窗口，可以看到以上代码添加进响应头的数据：

获得设置的响应头信息：

代码示例：

控制台打印结果：

修改响应头信息：

代码示例：

TCP/IP Monitor窗口：

总结：

解决客户端表单提交数据乱码的问题，需要使用setCharacterEncoding(String)方法，设置好与客户端对应的编码格式。

解决服务端响应数据乱码的问题，则使用setCharacterEncoding(String)方法，设置好对应的编码格式。

HttpServletRequest是封装请求数据的对象，所以它的方法都是与客户端请求信息相关的。

HttpServletResponse是封装响应数据的对象，所以它的方法都是与服务端响应信息相关的。

在线咨询

上一篇：将织梦网页GBK/GB2312编码转为UTF-8编码步骤方法
下一篇：web前台小测试题

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

java之学习篇-乱码问题汇总

您的项目需求