当前位置:首页 > JavaServer Page > 正文内容

用java把google和baidu的URL编码还原成明文字串ZT

canca18年前 (2007-08-16)JavaServer Page558

因为在做链接来源统计的时候需要把 http://www.baidu.com/baidu?word= ... B%F7&tn=myie2dg  这类的URL编码还原成明文字串,一般大部分的网站都是用普通的URL编码形式,如上面链接中的badu,这种很容易转换和还原,Java包里提供了两个类的不同方法URLEncode.encode()和URLDecode.decode()可以很方便实现,但也有特别一点的就是Google了,http://www.google.com/search?hl= ... 9C%E7%B4%A2&lr= 他们的编码和别人不一样,如果使用URLDecode.decode()的话则变成乱码,查询的一些相关资料都说Google使用的是UTF-8编码,这点我就有些奇怪了,如果Google使用的是UTF-8编码,那别人使用的又是什么?IE的高级选项里不是有项“始终以UTF-8形式发送URL”的吗?但是UTF-8一个中文是3byte,而一般的编码则是2个byte,这就是为什么一般的URL中是以两组'%'代码表示一个汉字,如“中”的URL编码为"%D6%D0",而UTF-8则为3组,“中”为"%E4%B8%AD",这个问题我在Google里也没得到较好回答。我对各种编码形式了解的不是很好,之前只看过如何将字符串转成Utf8-URL编码的方法,其实也挺简单的,直接转成byte后直接取其16进制值前面加个%就行,还原方法在网上搜了几圈居然没发现有现成的!倒是也是几个人在CSDN问了此类的问题。最后还是决定自己搞定了,基本上是toUTF8的原路退回法,再加了个检测URL链接是否UTF-8形式的方法,觉得已经蛮好用了。可以拿出来share一下。

import java.io.UnsupportedEncodingException;
import java.net.URLEncoder;
import java.net.URLDecoder;
/**
* <p>Title:字符编码工具类 </p>
* <p>Description:  </p>
* <p>Copyright: flashman.com.cn Copyright (c) 2005</p>
* <p>Company: flashman.com.cn </p>
* @author: jeffzhu
* @version 1.0
*/
public class CharTools {
  /**
   * 转换编码 ISO-8859-1到GB2312
   * @param text
   * @return
   */
  public String ISO2GB(String text) {
    String result = "";
    try {
      result = new String(text.getBytes("ISO-8859-1"), "GB2312");
    }
    catch (UnsupportedEncodingException ex) {
      result = ex.toString();
    }
    return result;
  }
  /**
   * 转换编码 GB2312到ISO-8859-1
   * @param text
   * @return
   */
  public String GB2ISO(String text) {
    String result = "";
    try {
      result = new String(text.getBytes("GB2312"), "ISO-8859-1");
    }
    catch (UnsupportedEncodingException ex) {
      ex.printStackTrace();
    }
    return result;
  }
  /**
   * Utf8URL编码
   * @param s
   * @return
   */
  public String Utf8URLencode(String text) {
    StringBuffer result = new StringBuffer();
    for (int i = 0; i < text.length(); i++) {
      char c = text.charAt(i);
      if (c >= 0 && c <= 255) {
        result.append(c);
      }else {
        byte[] b = new byte[0];
        try {
          b = Character.toString(c).getBytes("UTF-8");
        }catch (Exception ex) {
        }
        for (int j = 0; j < b.length; j++) {
          int k = b[j];
          if (k < 0) k += 256;
          result.append("%" + Integer.toHexString(k).toUpperCase());
        }
      }
    }
    return result.toString();
  }
  /**
   * Utf8URL解码
   * @param text
   * @return
   */
  public String Utf8URLdecode(String text) {
    String result = "";
    int p = 0;
    if (text!=null && text.length()>0){
      text = text.toLowerCase();
      p = text.indexOf("%e");
      if (p == -1) return text;
      while (p != -1) {
        result += text.substring(0, p);
        text = text.substring(p, text.length());
        if (text == "" || text.length() < 9) return result;
        result += CodeToWord(text.substring(0, 9));
        text = text.substring(9, text.length());
        p = text.indexOf("%e");
      }
    }
    return result + text;
  }
  /**
   * utf8URL编码转字符
   * @param text
   * @return
   */
  private String CodeToWord(String text) {
    String result;
    if (Utf8codeCheck(text)) {
      byte[] code = new byte[3];
      code[0] = (byte) (Integer.parseInt(text.substring(1, 3), 16) - 256);
      code[1] = (byte) (Integer.parseInt(text.substring(4, 6), 16) - 256);
      code[2] = (byte) (Integer.parseInt(text.substring(7, 9), 16) - 256);
      try {
        result = new String(code, "UTF-8");
      }catch (UnsupportedEncodingException ex) {
        result = null;
      }
    }
    else {
      result = text;
    }
    return result;
  }
  /**
   * 编码是否有效
   * @param text
   * @return
   */
  private boolean Utf8codeCheck(String text){
    String sign = "";
    if (text.startsWith("%e"))
      for (int i = 0, p = 0; p != -1; i++) {
        p = text.indexOf("%", p);
        if (p != -1)
          p++;
        sign += p;
      }
    return sign.equals("147-1");
  }
  /**
   * 是否Utf8Url编码
   * @param text
   * @return
   */
  public boolean isUtf8Url(String text) {
    text = text.toLowerCase();
    int p = text.indexOf("%");
    if (p != -1 && text.length() - p > 9) {
      text = text.substring(p, p + 9);
    }
    return Utf8codeCheck(text);
  }
  /**
   * 测试
   * @param args
   */
  public static void main(String[] args) {
    CharTools charTools = new CharTools();
    String url;
    url = "http://www.google.com/search?hl=zh-CN&newwindow=1&q=%E4%B8%AD%E5%9B%BD%E5%A4%A7%E7%99%BE%E7%A7%91%E5%9C%A8%E7%BA%BF%E5%85%A8%E6%96%87%E6%A3%80%E7%B4%A2&btnG=%E6%90%9C%E7%B4%A2&lr=";
    if(charTools.isUtf8Url(url)){
      System.out.println(charTools.Utf8URLdecode(url));
    }else{
      System.out.println(URLDecoder.decode(url));
    }
    url = "http://www.baidu.com/baidu?word=%D6%D0%B9%FA%B4%F3%B0%D9%BF%C6%D4%DA%CF%DF%C8%AB%CE%C4%BC%EC%CB%F7&tn=myie2dg";
    if(charTools.isUtf8Url(url)){
      System.out.println(charTools.Utf8URLdecode(url));
    }else{
      System.out.println(URLDecoder.decode(url));
    }
  }
}


扫描二维码推送至手机访问。

版权声明:本文由Ant.Master's Blog发布,如需转载请注明出处。

本文链接:https://iant.work/post/567.html

标签: JavaServer Page
分享给朋友:

“用java把google和baidu的URL编码还原成明文字串ZT” 的相关文章

JBoss,Tomcat 中文URL支持方法

JBOSS 找到jboss4的deploy\jbossweb-tomcat50.sar\server.xml,编辑该文件,在下面的XML节点中增加红色的字<Connector port="8080" address="${jboss.bind.address}"  &nbs...

在web.xml不认<taglib>解决办法

在web.xml不认<taglib>解决办法: 如果是头是这样的<!DOCTYPE web-app PUBLIC "-//Sun Microsystems, Inc.//DTD Web Application&n...

<html:select>设置默认值

在ActionFrom的reset方法里赋初值就可以,这样不管是调用的action或jsp都会先调用reset方法。...

struts,ajax乱码解决方案

乱码问题好像跟我们中国程序员特别有缘,一直困扰着我们,从开始的JSP乱码问题,STRUTS乱码问题,到现在的AJAX乱码问题,无一不是搞得许多程序员焦头烂额的,整天骂XXX产品对中文支持不了,UTF-8无法使用中文啊什么的,其实这里面被骂的产品中其实99%以上是对中文支持非常好的,而出现乱码的原...

JSP动态include与静态include的区别

动态INCLUDE   jsp:include page="included.jsp" flush="true" />它总是会检查所含文件中的变化,适合用于包含动态页面,并且可以带参数。静态INCLUDE   用include伪码实现,定不会检...

session监听器

HttpSessionBindingListener:                     在把实现了...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。