苹果、谷歌、微软、火狐四大巨头首次联手，解决网页“乱码”问题

前全球的4大浏览器分别是谷歌的 Chrome，微软的Edge，苹果的Safari 和火狐的Firefox，这4大浏览器占了90%以上的份额。

而这4大浏览器背后，其实也是4大内核，分别是Trident（也称IE内核）、webkit、Blink、Gecko，无一例外，全是美国的。

从网页浏览行为来看，浏览器内核是解析网页的工具，通过“ 排版引擎 ” 和 “JavaScript 引擎 ”，将文本标记，解析成精美的网页，内核才是核心。

至于浏览器，形象的来讲，只是给内核套一个壳，加上一些其它功能，浏览器的核心还是内核。

但也因为内核有多个，大家的标准多多少少还是稍有不同的，所以大家在解析同一网页时，使用不同的浏览器时，可能会发现一些问题，那就是大家的排版可能不一致，甚至有些网页，在某些浏览器中，会显示“乱码”一样。

不过，好消息是近日谷歌、微软、苹果和 Mozilla 基金会联手了，这可是首次了，4家宣布共同努力提高浏览器的互操作性。

其实说得简单一点，那就是4大巨头表态，要确保 Chrome、Edge、Safari 和 Firefox 这4大浏览器，给所有用户，提供同样可靠和一致的 Web 体验，同一网页，用这4种浏览器浏览，都会是同样效果，不会再有“乱码”等等情况出现。

事实上，在2021年的时候，谷歌和微软就联手了，双方合作推出了 Compat 2021 标准，让双方的浏览器提供一致的WEB体验。

而这个Compat 2021 标准涉及的东西比较多，差不多囊括了网页上的所有显示元素，比如Dialog Element（对话框元素）、滚动条控件、表单控件等等。

当时苹果、火狐没有加入进来，而今终于苹果、火狐也加入进来了，4大浏览器齐聚首了。

另外值得一提的是，目前国内的浏览器，均使用的是前面所讲的4大内核，而这4大厂商更多的也是从内核入手，所以国产浏览器样，也一样可以享受到这一波技术红利。

明：本栏目所使用的素材都是凯哥学堂VIP学员所写，学员有权匿名，对文章有最终解释权；凯哥学堂旨在促进VIP学员互相学习的基础上公开笔记。

关于乱码问题的解决

会有乱码现象，其实就是因为字符集编码不一致的问题，就好像中国人和外国人谈话一样，互相不懂对方在说啥。字符集编码也是如此，本来就是一段GBK编码的文字，却要用utf-8的编码格式去解码，就当然是鸡同鸭讲会出现乱码啦，这个时候就得使用GBK编码的格式去解码才不会出问题。如果互相都是使用的GBK编码后，那就像中国人和中国人都说普通话一样，就能听懂对方在说什么，这样才不会出现乱码。

在web开发中，请求或响应数据时出现乱码，往往就是客户端和服务端的编码不一致的问题所导致的。

不过在介绍如何解决乱码的问题前，我们先看看HttpServletRequest中关于获得表单数据的一些方法，虽然在上一篇也介绍了使用方式，不过关于乱码和拿到具体的值这方面没有涉及到：

获得和设置表单数据方法（如果是上传文件的话则无法获取文件中的数据）：

既然和表单有关，那么就得先写一个简单的html表单代码，我们可以在Eclipse中创建一个html文件：

可能使用Eclipse编写HTML的代码不太方便，我们也可以使用一个专门编写html代码的工具来编写Eclipse里已经创建了的html文件，我这里使用HBuilder作为示例：

1.复制Eclipse中的html文件所在目录的路径：

2.在HBuilder中点击文件，然后选择打开目录把复制的文件路径粘贴进去，并为这个工程起一个新的名称：

工程目录如下：

如图，可以看到index.html已经在这个工程下了，我们可以在HBuilder中编辑这个html文件，编辑的内容会同步到Eclipse，因为它俩访问的都是同一个目录同一个html文件。

3.我在HBuilder编辑的代码如下：

4.再看看Eclipse发生了什么：

可以看到代码是同步的。

浏览器运行结果：

以下使用实际代码演示常用的几个获得表单数据的方法，代码示例：

在Eclipse中执行html文件，Eclipse有一个内置的浏览器：

如果要在其他的浏览器则需要使用这个URL地址：

http://localhost:8080/TestResponse/index.html

不要直接在HBuilder中运行这个html文件，因为它的URL是指向HBuilder的工程路径的。

控制台打印结果：

如图，可以看到我们将所有的值都获得到手了。

获得表单数据的时候要注意一个问题：当你需要获得一个属性的值时，如果得到的结果为null，那么就是因为表单数据中并没有这个属性的存在。例如我获得一个不存在的属性：

控制台打印结果：

可以看到结果为null，所以当你获得表单数据进行某些操作时，出现了空指针异常的话，很有可能就是因为代码上写错了获得了一个不存在的属性。

如果表单数据中的某个属性值没有写，那么获得的将是一个空字符串，而非null，例如：

控制台打印结果：

如图，并没有打印null，而是打印空白，这个空白就是一个空字符串：’’

会出现乱码的情况，以及解决方法：

现在我们修改一下代码把表单提交的方法改为post，再运行一次，看看控制台的打印结果，html代码示例：

Java代码示例：

提交的表单：

控制台的打印结果：

可以看到控制台中的打印结果出现了不能识别的字符，解决方法很简单，使用setCharacterEncoding(String)方法，设置表单提交的数据的编码格式即可：

运行结果：

注意：除了在Java代码中需要设置编码格式，在html文件中也要设置好编码格式，如果html中不设置编码格式的话，即便在Java代码中使用了setCharacterEncoding(String)方法设置了也没有用，所以这是双向的，例如我把html文件中设置编码格式的标签给删掉：

可以看到在网页上显示都是乱码（这是因为Eclipse内置的浏览器原因，一般市面上的浏览器提前预设了字符编码，所以不会出现这种情况）

控制台打印结果：

果然出现了不能识别的字符，所以html文件也是需要设置好编码的，不然的话就会出现乱码的情况。

下面来看看浏览器的地址栏中为什么能够显示中文：

这其实是因为浏览器转码了，可以把这个URL复制到记事本中：

可以看到是一堆的编码，并没有显示中文，所以实际上浏览器就是把这个编码给转换成了中文而已。

只要不属于128个字符内的字符，在地址栏中都会转换成这种格式的编码，这些编码格式是采用的16进制的编码格式，以上面这文本示例编码对应的中文：

如图，每一个16进制编码都是以%开头，这是utf-8编码的中文，所以一个中文字对应3个16进制编码。

如果是GBK编码格式的中文则是一个中文字对应2个16进制编码，但是GBK编码格式转换成的16进制编码不能被浏览器转换，会仍然显示着16进制编码：

中文字对应的16进制编码：

如图，GBK编码格式的中文字和utf-8编码的中文字不一样，是2个16进制编码对应一个中文字。

关于客户端请求数据方面的乱码情况就介绍这么多，另外响应数据中出现乱码的情况和解决方法在介绍HttpServletResponse方法部分进行说明。

思维导图：

HttpServletResponse中的方法

HttpServletResponse接口类型的对象是封装服务端响应数据的，所以这个对象中的方法都是与响应数据相关。以下罗列一些常用的方法：

下面使用实际的例子，演示以上方法的使用方式：

编辑响应头一类的方法：

代码示例：

在服务端设置响应数据的编码格式是很有必要的，这么做同样的也是为了避免出现乱码的问题。例如以下这个示例，我不设置响应数据的编码格式，并输出一段中文，看看会发生什么，代码示例：

运行结果：

如图，可以看到，没有设置响应数据的编码格式的话，输出中文就会无法被识别。

这种问题设置一下响应数据的编码格式就好了，但是服务端设置的编码格式，要与浏览器端的编码格式对应上，如果不对应的话仍然会是乱码，代码示例：

运行结果：

添加新的响应头数据：

代码示例：

打开TCP/IP Monitor窗口，可以看到以上代码添加进响应头的数据：

获得设置的响应头信息：

代码示例：

控制台打印结果：

修改响应头信息：

代码示例：

TCP/IP Monitor窗口：

总结：

解决客户端表单提交数据乱码的问题，需要使用setCharacterEncoding(String)方法，设置好与客户端对应的编码格式。

解决服务端响应数据乱码的问题，则使用setCharacterEncoding(String)方法，设置好对应的编码格式。

HttpServletRequest是封装请求数据的对象，所以它的方法都是与客户端请求信息相关的。

HttpServletResponse是封装响应数据的对象，所以它的方法都是与服务端响应信息相关的。

言

乱码是我们在程序开发中经常碰到且让人头疼的一件事，尤其是我们在做javaweb开发，如果我们没有清楚乱码产生的原理，碰到乱码问题了就容易摸不着头脑，无从下手。

乱码主要出现在两部分，如下：

第一，浏览器通过表单提交到后台，如果表单内容有中文，那么后台收到的数据可能会出现乱码。

第二，后端服务器需要返回给浏览器数据，如果数据中带有中文，那么浏览器上可能会显示乱码。

接下来我们逐一分析乱码产生的原因，以及如何解决乱码问题。

一、后端收到浏览器提交的中文乱码

这里又分为get请求和post请求。

get请求

get请求，请求参数中带有中文，后台接收会出现乱码，原因是tomcat默认编码是“ISO-8859-1”，所以tomcat会使用“ISO-8859-1”对中文进行编码，该编码不支持中文，所以后台接收到就乱码了。解决方式有两种。

param = new String(param.getBytes("ISO-8859-1"),"utf-8");
修改tomcat编码为"utf-8"，不建议使用这种方式。

post请求

post请求，出现乱码的原因同get请求，解决方式比较简单，如下：

request.setCharacterEncoding("utf-8");

设置请求参数的编码格式为“utf-8”，这样就不会有问题了。

二、后端返回中文给浏览器发生乱码

后端返回数据给浏览器，一般也有两种形式，一种是response.getOutputStream()，一种是response.getWriter()。

两者区别以及使用规则

getOutputStream()就是得到了OutputStream，用来向客户端（浏览器）输出任何数据，如果输出的是字符，会被转换成二进制输出，如果字符中出现中文，那么会出现“java.io.CharConversionException:Not an ISO 8859-1 character:”异常
getWriter()是对outputStream进行了包装,用来输出字符用的。

因此，调用requonse.getWriter()方法时可实现文本字符串数据输出，调用response.getOutputStream()方法可现实字节流数据的输出。所以，如果要输出图片等二进制数据时，需要使用response.getOutputStream。

注意，getOutputStream()和getWriter()不能同时使用，否则会抛出”getWriter() has already been called for this response“异常。

区别讲完了，下面我们主要还是通过实践分析下乱码产生的原理。

response.getOutputStream().print()

返回英文数据就不说了，没什么问题，看下返回中文是什么效果；

@RequestMapping("/helloworld.do")
public void helloworld(HttpServletRequest request, HttpServletResponse response) throws IOException {
    String str = "中国加油，武汉加油";
    response.getOutputStream().print(str);
}

结果如下：

分析：

OutPutStream是输出二进制数据的，所以需要对字符串改成二进制输出，Tomcat使用的是"ISO8859-1"编码对其进行转换，而中文对”ISO859-1“不支持，所以就抛异常了。

response.getOutputStream.write()

同样的，我们再来看下输出中文会怎么样。

@RequestMapping("/helloworld.do")
public void helloworld(HttpServletRequest request, HttpServletResponse response) throws IOException {
    String str = "中国加油，武汉加油";
    response.getOutputStream().write(str.getBytes());
}

页面输出结果如下：

涓浗鍔犳补锛屾姹夊姞娌�

分析：

在java中,String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组，我电脑的系统是macos，默认编码格式是utf-8，返回给浏览器是utf-8编码格式的字节数组，但是浏览器默认是"gbk"编码解析，所以就乱码了。

既然这样，那我们换成“gb2312”编码（gb2312编码是gbk编码的一种）试试呢？

@RequestMapping("/helloworld.do")
public void helloworld(HttpServletRequest request, HttpServletResponse response) throws IOException {
    String str = "中国加油，武汉加油";
    response.getOutputStream().write(str.getBytes());
}

页面输出：

中国加油，武汉加油

原理我们弄清楚了，但是在项目开发中，我们需要编码统一，最常用的就是中文字符编码"UTF-8"，可是按照我们的理解，如果我们直接response.getOutputStream().write(str.getBytes("utf-8"));肯定会乱码，我们需要用某种方式，告诉浏览器，你要用我指定的“utf-8”编码接受我返回的中文。response.setContentType("text/html;charset=UTF-8")这样就完事了，看看效果吧。

@RequestMapping("/helloworld.do")
public void helloworld(HttpServletRequest request, HttpServletResponse response) throws IOException {
    String str = "中国加油，武汉加油";
    response.setContentType("text/html;charset=utf-8");
    response.getOutputStream().write(str.getBytes("utf-8"));
}

页面输出：

中国加油，武汉加油

response.getWriter()

前面已经总结过了，response.getWriter()跟response.getOutputStream()不一样，outputStream是输出二进制的，writer是输出字符串的。response.getWriter()输出也有两种方法，一种是print()，一种是write()，其实两者在处理乱码这一块没有什么区别，就不分开讲述了。

示例：

@RequestMapping("/helloworld.do")
public void helloworld(HttpServletRequest request, HttpServletResponse response) throws IOException {
    String str = "中国加油，武汉加油";
    response.getWriter().print(str);
}

页面输出：

?????????

分析：

同样的，Tomcat默认的编码是ISO 8859-1，当我们输出中文数据的时候，Tomcat会依据ISO 8859-1码表给我们的数据编码，中文不支持这个码表呀，所以出现了乱码。

这个时候response.setContentType("text/html;charset=UTF-8")又派上用场了。

@RequestMapping("/helloworld.do")
public void helloworld(HttpServletRequest request, HttpServletResponse response) throws IOException {
    String str = "中国加油，武汉加油";
    response.setContentType("text/html;charset=utf-8");
    response.getWriter().print(str);
}

页面输出：

中国加油，武汉加油

在这里，response.setContentType("text/html;charset=UTF-8")做了两件事，response.setCharacterEncoding("UTF-8");和response.setHeader("Content-Type", "text/html;charset=UTF-8");具体就是，第一，输出中文”中国加油，武汉加油“的时候，对中文进行”utf-8“编码；第二，告诉浏览器，你也要用"utf-8"来显示我返回的中文。

最后

对于springMVC项目，如何解决乱码问题呢？项目中一般会在web.xml中配置编码过滤器。配置如下：

  <filter>
    <filter-name>encodingFilter</filter-name>
    <filter-class>org.springframework.web.filter.CharacterEncodingFilter</filter-class>
    <init-param>
      <param-name>encoding</param-name>
      <param-value>UTF-8</param-value>
    </init-param>
    <init-param>
      <param-name>forceEncoding</param-name>
      <param-value>true</param-value>
    </init-param>
  </filter>
  <filter-mapping>
    <filter-name>encodingFilter</filter-name>
    <url-pattern>/*</url-pattern>
  </filter-mapping>

这样能保证请求的参数按照指定的编码格式进行编码，简单翻看下过滤器源码如下：

@Override
    protected void doFilterInternal(
            HttpServletRequest request, HttpServletResponse response, FilterChain filterChain)
            throws ServletException, IOException {

        if (this.encoding != null && (this.forceEncoding || request.getCharacterEncoding() == null)) {
            request.setCharacterEncoding(this.encoding);
            if (this.forceEncoding) {
                response.setCharacterEncoding(this.encoding);
            }
        }
        filterChain.doFilter(request, response);
    }

代码中有两处重要的地方值得注意，分别是request.setCharacterEncoding(this.encoding);和response.setCharacterEncoding(this.encoding);前者表示我们对请求过来的参数使用指定的"utf-8"进行编码，后者便是，返回给浏览器时，后端返回字符的编码是“utf-8”。

好了，经过以上分析是不是乱码也没有那么可怕了。只要明白其中的缘由，解决起来就是一行代码或者几行配置的事儿了，如果大家觉得有帮助，不妨点赞支持一下？

在线咨询

上一篇：沃尔玛基于前后端的消息通知框架介绍和源码
下一篇：HTML 中引入 CSS 的方式

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

苹果、谷歌、微软、火狐四大巨头首次联手，解决网页“乱码”问题

言

一、后端收到浏览器提交的中文乱码

二、后端返回中文给浏览器发生乱码

最后

您的项目需求