昨天发现,用 HtmlDecode() 去解码后,“ ”不是被解码为半角的空格(ASCII码0x20)而是变成半角问号“?”(ASCII码0x3F)。而且奇怪的是,只有每行前面的空格才会出问题,如果前面后面有汉字的话,空格就还是空格。但是更加奇怪的是,如果直接在HtmlDecode()的后面直接加上trim()的话,这个问号会被去掉。而正常的情况下,问号是不会被去掉的,只有空格才会被去掉。
发生这个问题的时候,我是在把解码后的内容写入数据库,因此一直都以为是sql******与应用程序之间的字符集问题或者编码方式问题。搞了N久,最后才发现在送进Sql******之前,内容就已经是问号了。
查了很久,也找不到这个问题如何解决。因此,只能使用山寨解决方法了:
转自http://www.jiaonan.tv/html/blog/1/29483.htm
1、在Decode之前替换 为 空格。
2、在Decode之后直接加 Trim()
显而易见的,这个不是一个好办法:在显示到浏览器的时候,空格就不见了
最近认真去查了一下这个问题,发现问题的关键,是编码方式:如果使用的Encoding是UTF-8的话,就会发生这种情况。
问题的根源,在于UTF-8这种编码里面,存在一个特殊的字符,其编码是“0xC2 0xA0”,转换成字符的时候,表现为一个空格,跟一般的半角空格(ASCII 0x20)一样,唯一的不同是它的宽度不会被压缩,因此比较多的被用于网页排版(如首行缩进之类)。而其他的编码方式如GB2312、Unicode之类并没有这样的字符,因此如果简单地进行编码转换,生成地GB2312/Unocode字符串中,这个字符就会被替换成为问号(ASCII ox3F)。此时如果进行写库、写文件之类,就会把问号直接写入了。当然此时会有一种山寨方式:直接替换问号为空格。可是这种方法,会把原本真正的问号也*毙掉。
使用UTF-8进行HTMLDecode的时候,对于语句开头的( ),就会被自动转换成为这个特殊的空格,可能是判断为放在开头的空格,一定是用来排版的。在转换为其他编码之前,这个特殊的空格受到的待遇与普通的半角空格是一致的,甚至也会被trim()去掉。
因此,碰到这个问题的原因有两种:一种是在UTF-8编码下进行了转换,产生了这个字符;还有一种就是网页中直接采用了这个字符进行排版。
知道了具体原因,就有正规的解决方法了。方法就是:在得到UTF-8字符串之后,先进行一个替换,把这个特殊的空格替换为普通的空格,如果是HTML串,建议替换为( )。C#代码如下:
byte[] space = new byte[]{0xc2,0xa0}; string UTFSpace = Encoding.GetEncoding("UTF-8").GetString(space); HtmlStr = HtmlStr.Replace(UTFSpace," ");
java版: byte bytes[] = {(byte) 0xC2,(byte) 0xA0}; |
这样做,就不会把串里面本来应该有的问号错误的替换为空格。也不会看到讨厌的问号,能保存原来字符串的真面目了。
需要强调的是,替换之前不能进行编码转换,一定要继续使用UTF-8编码。如果已经转换成其他编码,那么错误就已经不可逆转了。没有办法再区分这个错误的问号和正常的问号之间的差别了。
相关推荐
2.选择语言编码,默认已选择en_US.UTF8,zh_CN UTF-8 UTF-8,用空格键将以下两项打上星号,zh_CN GB2312,zh_CN GBK GBK,回车确认。 3.选择系统默认语言为英文en_US.UTF8 4.为当前用户配置默认语言为中文zh_...
java作业 空格 字母 数字 马克-to-win java视频 详细介绍
15--[按空格开始吧].zip源码scratch2.0 3.0编程项目源文件源码案例素材源代码15--[按空格开始吧].zip源码scratch2.0 3.0编程项目源文件源码案例素材源代码15--[按空格开始吧].zip源码scratch2.0 3.0编程项目源文件...
2 支持ANSI,Unicode,UTF-8等编码互换 3 可以设置无限个书签(9种图标可换)轻松定位 4 空格,制表符彩色显示,并可互相转换 5 可以对任意的文本块进行操作,ALT键+鼠标 6 对括号{}〔〕()可以高亮配对...
网上的都是这样用的 复制代码 代码如下:$content = iconv(“utf-8″,”gb2312”,$content); 这样做其实也对着了,看着确实是把utf-8转化为gb2312了,但是实际运行的话,往往都是以失败告终的,原因呢? 原因实际上...
[Java]算法练习-空格替换练习题
[修复]修复空格删除错误,导致tepfa 引擎 xml文件不能生成 [修复]修复相关档案列表编辑错误并优化显示 [修复]修复3处 SQL 注入漏洞 (redflog1 提供) 相关阅读 同类推荐:企业网站源码
google-java-format 一个重新格式化Java源代码以符合Google Java Style的程序
login-支持中文用户版
# -*- coding: utf-8 -*- ''' python读取英文文件,将每个单词按照空格分开,并将每个单词独自放一行 ''' def dcfenhang(infile,outfile): infopen = open(infile,'r',encoding='utf-8') outopen = open(outfile,'...
使用方法:java -jar fileDecrypt-1.0.1.jar <文件路径|文件夹路径> 然后源文件或源文件夹会在同级文件夹下生成一个 temp2023010101 的临时文件夹 原理:利用加密文件在绿盾环境电脑上可以正常... 需要java8及其以上
java -jar code_conversion.jar "E:\work_architecture\doc" "utf-8" ".js .css" 还是挺简单的吧~~ 支持的功能: 1,批量转换,子目录自动发现 2,文件编码自动识别,所以使用的时候不用提供原文件的编码;识别不...
8、java中的注释, 单行注释 //...... 多行注释 /* .......*/ 文档注释/** ........(换行标签)*/,用javadoc命令可以根据原码中的文档注释生成注释文档(html格式)。文档注释中可以使用html标签。 javadoc -d ...
$ca->SetSource( $str, 'utf-8', 'utf-8'); $ca->StartAnalysis(); $okstr = $ca->GetFinallyResult(' '); //指定分隔用的字符,默认是空格 //从一段长文本里提取出现次数最高的关键字 $str = "输入一段稍为长...
解决⽅法为只要在⽂件开头加⼊ # -*- coding: UTF-8 -*- 或者 #coding=utf-8 就⾏了 (需在最开始,=号两边不要空格) 注意: Python3.X 源码⽂件默认使⽤utf-8编码,所以可以正常解析中⽂,⽆需指定 UTF-8 编码。...
电子政务-一种空格键模拟电路.zip
电子政务-一种空格键模拟电路系统.zip
注释用java处理源代码的空格,
其实这个问题是:如果你的js本身是unicode编码,那么用正则表达式\s就可以去掉所有空白,但是如果你js是utf-8编码,那么正则就不能处理编码为160的空格了。 下面我先是正则表达式去掉编码为32的空格,再用递归的方法...
它保留前导和尾随空格,保留空行,并且可以处理 UTF-8 文件和 ANSI 文件。 请注意,虽然编码应在特殊的前导位中指定,但无法用 Matlab 读取。 因此,可能会以错误的编码读取文件,尽管这种情况非常罕见。 也可以...