字体:  

解答:为什么采集的内容都是乱码?

茄子 发表于: 2006-12-29 17:39 来源: SupeSite/X-Space官方站

适用SS 5.x/XS 3.x 以及以下版本

这个一般都是您的SupeSite/X-Space程序的编码和被采集的页面的编码不一致导致

如果您要采集的页面的编码是GBK/UTF8/BIG5,则可以在编写采集规则的时候设置

采集规则里面有个栏目

QUOTE:

采集页面编码
请输入要采集页面的编码。比如:gbk、utf-8、big5。为空则不进行编码转换
根据被采集页面的实际情况填写即可:
1)如果您的SS程序编码和要采集的页面编码一致,则可以留空,不会进行编码转换
2)如果您要采集的页面编码不是gbk/big5/utf-8,则建议您不要采集,因为程序不对其他编码进行转换,采集了还是会乱码

如何查看一个页面的编码?

可以在被访问的页面上鼠标右键--查看源文件:
您可以看到类似代码:

CODE:

<meta http-equiv="Content-Type" content="text/html; charset=gbk">这个说明页面的编码为GBK,其他同理



如果您是智能采集出现乱码,检查下页面源代码中是否有指定的编码,如果没有指定的编码,那么程序就会默认按照程序的编码来处理的。

最新回复

wuhaolong at 2006-12-30 09:16:50
沙发..
7306 at 2006-12-30 17:20:42
我为什么不能在这个板块发新贴?

采集上碰到问题还想请茄子姐姐指导一下
前面几步都没问题,在内容分页上不能通过

索引页面URL地址http://search.daqi.com/cgi-bin/s ... mp;chl=tu&page=[page]
文章内容分页区域识别规则
<div class="b"><a href="*"><img src="http://tu.daqi.com/img_0602/aa.jpg" border="0" /></a>[page]<img src="http://tu.daqi.com/img_0602/bb.jpg" border="0" /></a>
文章内容分页链接识别规则
<a href="[page]" class="blue">*</a>
文章内容分页链接URL补充前缀  http://tu.daqi.com/tuhai/article/tu_0/141823318/

分页源文件<div class="pic"><a href="2.html#t"><IMG SRC="http://image1.daqi.com/pic_search/original/14249/b043d6367b9813e8063b1b1919d29130.jpg" WIDTH="500"  BORDER=0 ALT="点击进入下一张图片"></a></div>
<div class="next2">
<div class="b"><a href="1.html#t"><img src="http://tu.daqi.com/img_0602/aa.jpg" border="0" /></a>
<a style="font-weight:normal" class="black">1</a>
<a href="2.html#t" class="blue">2</a>
<a href="3.html#t" class="blue">3</a>
<a href="4.html#t" class="blue">4</a>
<a href="5.html#t" class="blue">5</a>
<a href="6.html#t" class="blue">6</a>
<a href="7.html#t" class="blue">7</a>
<a href="2.html#t"><img src="http://tu.daqi.com/img_0602/bb.jpg" border="0" /></a>
</div>
这个怎么解决呢
gogolala at 2007-5-11 17:06:00
学到了。呵呵。活动老,学到老
pc77maikongjian at 2007-6-26 23:08:42
如果您的SS程序编码和要采集的页面编码一致,则可以留空
leetop at 2007-7-03 22:03:38
我看到很多人使用智能采集都是乱码
都在提问!!
是不是程序的问题??
我的是
ss5.2.2
梦若思笑 at 2007-7-06 09:04:51
ddddddddddd
梦若思笑 at 2007-7-06 09:06:12
ddddddddd
leetop at 2007-7-14 14:38:56
难道就没有人回答?
这个帖子点击1340多了!!
没有人回答!·!
myseagull at 2007-8-03 16:06:23
UTF-8版采集规律中如果有中文,就会采集不到.
suchaozheng at 2007-8-04 02:51:53
duku123 at 2007-8-06 13:24:13
因为不能在这个版块发新贴所以只好在这里写了,麻烦各位帮忙看下.为什么我采集规则编制正确了,点开始采集也显示了所采集到的页面内容,但是采集完毕后点显示结果时却是一片空白,什么内容都没有,就光看到个采集器的名字了,请问如何解决,谢谢
幻剑 at 2007-8-06 13:51:18
我 用的是其他的采集工具 发现utf8的论坛 和 ss都会出现乱码的

把utf8转换成 gbk是不是就好了啊
coolgol at 2007-8-07 02:00:19
路过,支持一下...
ochestra_y at 2007-10-25 14:30:08
那我想问如果用的是utf-8版本的究竟有什么办法可以采集到中文啊?
如果采集的都是乱码,那这种版本岂不是没有用了??
片片翔 at 2007-10-26 21:25:26
学习了. ......