整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

Java Web开发中文乱码总结-先收藏了慢慢看

开发过程中,经常遇到中文乱码问题,以前总是解决就好,并没有对该问题总结一下,现在来总结一下开发过程中常见的中文乱码问题。

一、有必要了解一些基本的编码知识:

  • 这篇字符编码笔记是必读的

  • jsp的三次编码

    第一阶段:JVM将.jsp文件编译为.java文件。JVM先读取pageEncoding的值,根据该值去读取.jsp文件,然后由指定的编码方案生成UTF-8的.java文件。

    第二阶段:JVM将.java文件转换为.class文件,从UTF-8至UTF-8。这个过程就与任何编码的设置都没有关系了,经过这个阶段后.java文件就转换成了统一的UTF-8编码的.class文件了。

    第三阶段:服务器将处理的结果返回给浏览器,这个阶段则依靠contentType的charset,如果设置了charset则浏览器就会使用指定的编码格式进行解码,否则采用默认的ISO-8859-1编码格式进行解码处理。

  • jsp中的编码设置

  1. pageEncoding:<%@ page pageEncoding=”UTF-8”%>

    上文中第一阶段,使用该值去读取jsp文件,为避免中文乱码,跟jsp文件编码一致;对服务器响应进行重新编码,即jsp的输出流在浏览器中显示的编码(不是主要作用)。

  2. contentType: <%@ page contentType=”text/html;charset=UTF-8”%>

    使用该值对服务器响应进行重新编码,即jsp的输出流在浏览器中显示的编码;对表单get和post请求数据编码;上文中第一阶段,使用该值去读取jsp文件(不是主要作用)。

  3. < META http-equiv=”Content-Type” content=”text/html;charset=UTF-8”>

    网页的编码信息 ,说明页面制作所使用的编码。

  4. request.setCharacterEncoding()

    可用在servlet和jsp页面中,作用是设置对客户端请求进行重新编码的编码,即post方式提交的数据进行编码。

  5. response.setCharacterEncoding()

    与<%@ page contentType=”text/html;charset=UTF-8”%>一样。

  6. response.setContentType()

    与<%@ page contentType=”text/html;charset=UTF-8”%>一样。

  7. response.setHeader(“Content-Type”,”text/html;charset=UTF-8”)

    与< META http-equiv=”Content-Type” content=”text/html; charset=UTF-8”>一样。

    注意:上文1,2,3中有部分功能是一样的,是有优先级的,在读取jsp文件时,1>2;在对服务器响应进行编码的时候,2>1>3,一般情况下,1,2都写。

  • http请求默认以”ISO-8859-1”的编码来传送URL的。

  • 二、中文乱码的几种情况及最简单的解决方案:

    • pageEncoding设置错误

      pageEncoding设置为jsp文件的编码类型。

    • 查询字符串包含中文

      中文的编码方式取决于浏览器,chrome为UTF-8,IE为GB2312,这是由于浏览器并没有遵循URI编码规范。有两种解决方法:

    1. 开发过程中,将查询字符串提前编码,

      如:http://www.baidu.com/demo?demo=%D6%D0%B9%FA (UTF-8编码)

    2. 在Servlet的doGet()方法中添加

    1
    String value = new String(request.getParameter("parameterName").getBytes("ISO-8859-1"),"浏览器的编码方式");
    • 表单中的get和post数据包含中文

      中文的编码方式取决于上文的contentType中的charset,有两种解决办法:

    1. 在Servlet的doPost()方法中添加request.setCharacterEncoding(“charset的值”);(仅对post有用)

    2. 在Servlet的doPost()方法中添加

    1
    String value = new String(request.getParameter("parameterName").getBytes("ISO-8859-1"),"charset的值");

    三、原理

    我们通过上面的方法可以解决乱码问题,下面讲讲原理:

    • 客户端发到服务器的数据需要在客户端进行编码,类似于:String parameterName = "中国".getBytes("UTF-8")然后将编码后的数据发到服务器。

    • 客户端接受数据,request.getParameter(“”)的作用就是对接收到的数据进行解码,默认使用ISO-8859-1进行解码,可以使用request.setCharacterEncoding(“”)进行设置,但仅对post有用。假如我们使用默认的ISO-8859-1,肯定乱码,因为编码跟解码不一致,那此时怎么办呢,引出了上文中的两种解决方案:使用request.setCharacterEncoding(“”)改变request.getParameter(“”)的解码方式或者new String(request.getParameter("parameterName").getBytes("ISO-8859-1"),"charset的值")将request.getParameter(“”)解码的数据重新编码再解码。

    四、其他

    在jsp中的页面使用response.setContentType()等设置字符集会破坏jsp容器自身的页面编码,会引起html中字符乱码,脚本不会乱,所以不建议设置。在开发中多采用page指令设置字符集。

    1234567891011121314151617
    <%	response.setContentType("text/html;charset=UTF-8");	String str = new String("你好".getBytes("iso-8859-1"),"utf-8");%><!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"><html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><title>Insert title here</title></head><body><p>你好</p><br><%=str %></body></html>

    网页测试

    .NET6.0的MVC中,可以通过以下方式将参数传递给Partial View:

    <partial name="_MyPartial" model='new { code=1,name="参数值" } ' />

    但是这样会出现中文乱码问题,使用下面的方式可以解决中文乱码问题:

    <partial name="_MyPartial" model='new { code=1,name=@Html.Raw(System.Net.WebUtility.HtmlEncode("参数值")) } ' />

    在上面的示例中,使用 System.Net.WebUtility.HtmlEncode 方法对参数进行编码,然后使用 Html.Raw 方法来解码,以确保中文字符正确显示。

    通过这种方式,可以避免在 .NET 6.0的MVC中使用 <partial> 传递参数时出现中文乱码的问题。

    在Partial View中获取参数的值如下面示例代码:

    <div>
        <p>@Model.code</p>
        <p>@Model.name</p>
    </div>

    希望这个例子对您有所帮助。

    面已经介绍了HttpServletResponse响应对象中的一些常用方法,这一小节介绍如何使用HttpServletResponse响应对象,解决中文乱码问题。

    1.1、乱码问题的原因

    使用HttpServletResponse响应对象,发送数据给浏览器客户端的时候,浏览器接收到中文,会出现乱码情况,出现这个问题的根本原因还是:浏览器和服务器之间的编码字符集不一致

    默认情况下,Servlet容器是采用ISO-8859-1的编码将数据发送给浏览器客户端的,但是客户端采用何种编码方式来解析是不一定的,有可能是UTF-8、也有可能是GBK,所以这就导致编码不一致,从而造成中文乱码问题。

    那么针对这种乱码问题???我们要如何解决呢???解决的办法很简单:那就是主动告诉Servlet容器采用哪种编码方式,并且告诉浏览器客户端采用哪种方式来解码就可以啦。

    1.2、解决中文乱码办法

    解决方案:调用response响应对象的【setContentType()】方法、或者调用【setCharacterEncoding()】方法来指定编码即可

    // 方式一(推荐)
    // 告诉Servlet容器采用UTF-8字符集进行编码
    // 并且告诉浏览器,采用UTF-8字符集进行解码
    response.setContentType("text/html;charset=UTF-8");
    
    // 方式二
    // 解决响应乱码问题
    // 并且告诉浏览器,采用UTF-8字符集进行解码
    response.setCharacterEncoding("UTF-8");

    通过以上两种方式,就可以解决返回数据的乱码问题啦。

    今天就到这里,未完待续~~