字体:  

SS采集菜鸟级教程,看了不会的留言我负责教会

dingzi 发表于: 2007-9-04 08:57 来源: SupeSite/X-Space官方站

未完,待续中,觉得有用的顶下,不然没动力写了


  所谓授人以渔而非授以鱼,本教程不会给你一个现成的采集器用,但你看完了,学会了SS自带的采集,更会享用终生。
  SS自带的采集器,只能用于采集发布资讯,不能用于论坛和个人空间的日志。特此声明。

(注:本教程为菜鸟级,任何想获得高级教程的止步,任何非SS自带的采集此处不研究,请止步。)

  一、采集原理

  从小学到初中,学习好象基本都讲原理,但是,俺这原理是自写的,比任何以往都管用。

  SS之采集器,从根本上讲,采集过程就是我们看网页的过程,但是,有个最大的区别,我们看网页是多姿多彩的,但采集器看网页,只是专注于“源文件”的。即我们在查看——源文件或右键,查看源文件(V),所看到的记事儿或写字板(文件太大时自动提示选用)打开看到的源码,这源码也正是我们在写采集器时要研究的东东。示例部分源码如下(用俺自己的破网删除而成):

<html>
<head>
<title>中华技击论坛</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<script language="JavaScript">
function MM_reloadPage(init) {  //reloads the window if Nav4 resized
  if (init==true) with (navigator) {if ((appName=="Netscape")&&(parseInt(appVersion)==4)) {
    document.MM_pgW=innerWidth; document.MM_pgH=innerHeight; onresize=MM_reloadPage; }}
  else if (innerWidth!=document.MM_pgW || innerHeight!=document.MM_pgH) location.reload();
}
MM_reloadPage(true);
</script>
</head>

<body bgcolor="#FFFFFF" text="#000000" onLoad="MM_preloadImages('images/logoeng.jpg')">
<table width="750" border="0" cellspacing="0" cellpadding="0" align="center">
  <tr>
    <td width="159" height="114" align="center" valign="middle"><a href="http://www.lawdiy.com/bbs/forum-13-1.html" target="_blank"><img src="images/wu.gif" width="109" height="108" border="0" alt="这里是留言本噢!"></a></td>

…………

        </tr>
        <tr>
          <td width="21" height="26"> </td>
          <td width="127" height="40"><a href="train.htm" target="_blank">训练图片</a></td>
        </tr>
      </table>
<br>
<p align="center"><font size="2" color="#FF0000">小李飞钉制作,一切权利保留!</font></p>
<p align="center"><font size="2" color="#00CC99">建议在800*600分辨率下浏览本站</font></p>
<p align="center"><font size="2" color="#FF0000"><a href="mailto:xiaoninglaw@163.com">Email:xiaoninglaw@163.com</a></font></p>
</body>
</html>

这里可以看到基本的HTML成对儿出现的语言格式,即<html></html>为起始标志,<head></head>组成的头部,其中有<script language="JavaScript">……</script>标注的java语言,更主要的是<body></body>组成的网页主体(当然你要是没找到这些代码也不用奇怪,这是标准html用的,别的倒不定非得有)。其中<body>这家伙跟许多同类的家伙(象<div>、</table>)一样,可以带一批不听话的参数,如这里<body bgcolor="#FFFFFF" text="#000000" onLoad="MM_preloadImages('images/logoeng.jpg')">,我也看不懂,不要问我,学学英文先。不过,基本上,凡是网页上不让右键不让选择不让复制的东东,都在body后面,另存为后,删除其后的参数,基本搞定的说。

回归正传,采集原理:

SS的采集器,看得正是上面的东西,通过指定区域,分别照单查收,不管是<p>还是什么,一律收归中,这点,在制作采集器过程中,一定要牢记。

好象没说原理啊?原理其实就一句话:SS采集就是打开网页读取源码的过程(好好理解吧,呵)


  二、真抓实干,开始研究做采集器

SS 有两种采集器,人工和智能,智能我们就不研究了,凡智能的,都是傻瓜,这是真理。我们研究人工的,开工了:

1、确定你要采的网页
这好象是废话,可是很多人会错在这儿。我们在采的,不是一个站,而是一个“分类”的列表,不要说你要采集http://www.lawdiy.com,也不是http://www.lawdiy.com/html/news.html这个资讯列表,这是废话,没这样采的。你要采的是一个分类,是一个列表,比如我的“结婚专题”http://www.lawdiy.com/html/87/category-catid-187.html,唉这样的页面才是我们要开工的页面。

2、开工填写

(1)基本要素

机器人名:这个没有专项要求,你能看明白就行,一般用采集的网站的名字。

采集总个数:一看明白,总个数么,呵,不过,有一定上限,不信,你打入N个0提交再回来看下。

单次采集个数:HOHO,一般的水平就写1吧,慢不了多少,写多了累爬了你的服务器,可莫怪我。一般写到5也是可以的。

采集页面编码:我的用gbk的,所以一般是空的,你水平一般的话,也空着吧。除非你采来的是乱码。查看人家的源文件:<meta http-equiv="Content-Type" content="text/html; charset=gb2312">,看到了没?charset后面就是对方的编码了。如果人家是big5而你是gbk当然你就只能老老实实地写上big5了。

提示:请输入要采集页面的编码。比如:gbk、utf-8、big5。为空则不进行编码转换。所以,千万不要输入个gb2312,就三样可填:gbk、utf-8、big5


(2)列表页面采集设置(重要的部分来了)
  索引页面URL地址方式,下面还有个框框供你写东西:
  这里提供两种,一种是手工输入,输入的是什么呢?是二项1中确定你要采的网页,即输入http://www.lawdiy.com/html/87/category-catid-187.html这个地址,这个地址是你要采的地址,必须是可以直接copy到IE地址栏里能打开的,这点,NN倍的重要。如果有多个地址,比如第一页和第二页,那就在每个地址后打一回车,继续粘上呗。

二种方式是自动增长,这里多了一个分页变量[page],这是对付有规律的列表分页(强调是列表分页,不是每个文章的分页)的。如前所述,http://www.lawdiy.com/html/87/category-catid-187.html是俺一个结婚的资讯列表页,这页后面还有2页和3页(将来会更多,不然俺站岂不是死悄悄了?)。2页是什么呢?点下,在IE地址栏里是:http://www.lawdiy.com/html/87/category-catid-187-page-2.html,3页是http://www.lawdiy.com/html/87/category-catid-187-page-3.html。如果仅此3页,简单了,用手工输入分别输入可也,一行一个。可是,不是所有人都象俺这样善良,只有3页新闻,万一有100页呢?HOHO。研究下规律,我在采第2、3页可以自动增长了:
http://www.lawdiy.com/html/87/category-catid-187-page-[page].html
索引页面页码:页码开始数 2   页码结束数 3  
那机器人在采集时就会用页码开始数的值(2)一直加1替换[page]来打开,直到页码结束数(3)。
所以,只要有规律,N多页也不怕。

注:经验表明,有部分网页列表首页可以和其他列表分页采用自动增长模式,方法是在点2页后再点1页,一般会显示其全部网址,或在第2页基础上改2为1来试,如http://www.lawdiy.com/html/87/category-catid-187-page-2.html是第二页,我改下http://www.lawdiy.com/html/87/category-catid-187-page-1.html来做第一页打开,如果可行,就可以直接用自动增长,如果不行(本网就不行),就只能老老实实采完1页,再用自动方式采第2页以后的内容了。
友情提示:许多ASP网页用&page=2的方式来分页,这更是自动增长大展身手的时间,一般&page=1虽然是个垃圾参数,但是也能打开每1页。哈哈哈,所以,别忘了,试一下。

(3)列表区域识别规则(很关键啊)
到这里,开始研究源代码了,请打开要采集的列表网页,查看源代码(不会的请参照前面,依然不会的自觉退场)。


这儿还得罗嗦几句原理,采集器,就是从你指定的列表区域中(源文件里),按你指定的url文章网址打开方式,一个一个地取出文章的网址后打开文章(象我们在IE里做的一样),然后看其源代码,选取你指定的内容发布。

为什么要指定列表区域呢?我们知道,一个网页中除了这个分类的文章连接之外,还会有一批对我们没有用的连接,指定了区域,就是给机器人缩小了查找文章连接的范围。
还是以俺的http://www.lawdiy.com/html/87/category-catid-187.html为例,打开后查看源文件,一批代码,对我们有用的是:

<h3>资讯列表</h3>
<ul id="newslist" class="newslist">
<li>
<a href="http://www.lawdiy.com/html/74/n-3674.html" target="_blank">同华侨、港澳同胞结婚如何办理手续?</a>
<span class="smalltxt">(07-27 04:07)</span>
</li>
<li>
<a href="http://www.lawdiy.com/html/73/n-3673.html" target="_blank">涉外婚姻如何登记?</a>
<span class="smalltxt">(07-27 04:07)</span>
</li>
…………………………
<li>
<a href="http://www.lawdiy.com/html/70/n-2970.html" target="_blank">论婚前财产公证</a>
<span class="smalltxt">(07-25 09:07)</span>
</li>
</ul>
<div class="pages">
<div class="xspace-page"><span class="xspace-totlerecord">89</span><span class="xspace-totlepages">1/3</span><span class="xspace-current">1</span><a href="http://www.lawdiy.com/html/87/category-catid-187-page-2.html">2</a><a href="http://www.lawdiy.com/html/87/category-catid-187-page-3.html">3</a><a href="http://www.lawdiy.com/html/87/category-catid-187-page-2.html">&gt;</a></div></div>
</div>
<!--论坛资源列表-->
</div>
</div>
<!-- /Content -->

我们要采的就是“同华侨、港澳同胞结婚如何办理手续?”开始到“论婚前财产公证”之间的这一批文章,我们要告诉机器人儿,这批文章在源代码的什么位置,就是要在开始和结束之间分别设定一个标记,也就是指定“列表区域”。

提示:SS采集器中的任何开始和结束标记,都应当是唯一性的,即这代码,在源文件中只出现一次,原因很简单,如果代码有很多个,你让机器人从哪一个开始啊到哪个结束啊?比如以</ul>为结束标志就是不妥的。另外,这代码还应当是通用性的,即在同类页面中都存在。在文章列表处,应当是采第一页http://www.lawdiy.com/html/87/category-catid-187.html、第二页http://www.lawdiy.com/html/87/category-catid-187-page-2.html、第三页http://www.lawdiy.com/html/87/category-catid-187-page-3.html等各个列表中都是存在的,且是唯一存在的。
由于CMS系统框架的统一性,这个一般不是问题,但也有个别网站个别代码只出现在第一页,而第二页没有,这样的就不可用了,考虑换别人了(如果第一页正常采集,第二页采不了,就要查查这方面的问题了)。

选择技巧:要选用最贴近内容区域的特征代码。网页上一般有很多说明啊,哈,这就是好东西。象<!--根分类最新日志列表-->类的就是好东西,<h3>资讯列表</h3>、<ul id="newslist" class="newslist">,这些都是可用的了。特别关注一些带content的、指定了大小或样式的<table>或div,一眼看上去是独有的,然后把鼠标定位于文件开始,搜一下(复制、粘贴会吧,不用说了吧),如果是唯一的,基本都可以做开始标志。结束标志切忌简单化,比如</div>、</table>、</ul>都因其不唯一化,不应选用。结否标志应当找一个特征码,比如下一个有特色的表格或div。有个很好的地方,通常一试一个准儿,那就是分页标志,如这里的<div class="pages">定义了页码的开始,正好拿来做结束标志。呵。有些网页规范地标注个<!-- 新闻列表结束 -->,拿来用用也不错的说。

提示:标志要力求简洁,虽然可以用*,但是,尽量不要用,也不要用包含回车的代码,那一提交就是一个*。当然了,实在没有别的最佳方案,也只好用了。
标志要完整,用代码切记从“<”到“>”,这点在内容采集方面尤为重要,<ul id="newslist" class="newslist">就不能只能<ul id="newslist" ,虽然可用,但如果用在内容上,就会采集到class="newslist">放在你的文章内容里,烦不烦啊?!

示例:1、<table width="572" height="3" border="0" align="center" cellpadding="0" cellspacing="0" bgcolor="#C7C8CA">
    <table width="100%" height="26"  border="0" align="center" cellpadding="0" cellspacing="0"> (width和height的指定,决定了表格代码的唯一性)
    2、<div id="txt02"></div>
      <!-- 分页开始 -->(妙用div和分页说明部分)
      3、<span class="kk"><!--Content Start--> </span>
        <!--Content End-->(看人家网页,多规范,哈,开始结束都告诉你了)
        4、<td height="600" valign="top" background="../expert/images/dd.jpg">
          <select name="page" onChange="javascript:location=this.options[this.selectedIndex].value;">(开始是带背景图的td,结束是页码标志)
          5、<td width="703" valign="top"><table border="0" cellpadding="0" cellspacing="0" width="100%">
            <td width="50%" align="right"><br>第(结束用的分页标志,那位说了,你怎么没写全啊?哈,写全就不行了,后面是变化的:第1页、第2页……,再写,就不通用了)
            6、<TD class="d271" vAlign=top>
              a.pagelink{ (K,就这也能用,哈)
              7、<td class="wz12_ca02 size14" height=24>
                <td nowrap><a href=*>首页(结束标志用了*取代了连接,为的是通用性,因为这个连接在采别的分类时可能会变的噢~,那个首页是下方的分页连接)

                [ 本帖最后由 dingzi 于 2007-9-27 11:01 编辑 ]

最新回复

dingzi at 2007-9-04 09:02:32
注:由于list不显示,可能还有别的代码不显示,具体以此处为准:

http://www.lawdiy.com/index.php? ... ewspace-itemid-4313

安笛 at 2007-9-04 09:22:35


支持dingzi

希望继续更新
dingzi at 2007-9-07 23:10:15
应网友要求,试以http://edu.qq.com/job/qzjq_more.htm中的求职技巧为例。讲下list选择

无疑,这是文章的列表,很规律。
<tr><td height="24" class="font14px"><div align="left">·<a target="_blank" class="blackul" href="/a/20070823/000108.htm">大学生求职需讲究策略 有效进行自我“推销”</a>
</div></td></tr>
<tr><td background="/images/edugk_36.gif" height="1"></td></tr>
<tr><td height="24" class="font14px"><div align="left">·<a target="_blank" class="blackul" href="/a/20070719/000044.htm">大学生求职屡被骗 网友列"骗子公司"提醒大全</a>
</div></td></tr>

我们的目的,在上向选一开始标志。
<table width="100%" border="0" cellspacing="0" cellpadding="0">是上面紧靠的,但是width="100%"太通用了,经查找测试,确实太多了,好几个,所以不可用。再往上看,<meta content="text/html; charset=gb2312" http-equiv="Content-Type">这里有一标签,说过了,特别注意content   list之类的,这里就有content,查找测试,唯一,可用。

当然了,<table width="90%" border="0" align="center" cellpadding="5" cellspacing="0">也是可用的,实在不行,你还可以用<td width="22%" height="30" align="center" class="whitezi font14px ctzi">求职技巧</td>,这基本是百发百中的,就是用显示的类别的名字(可是统一性差,不利于采集全站,自己慢慢理解吧)。

结束标志:

<td height="30" align="center" class="font14px ctzi">第 <a

(如前所述,页码是最好的结束,这是第 几页的开头,用来满不错,且经测试唯一)


URL:
·<a target="_blank" class="blackul" href="[url]">

注意,需加URL前缀:http://edu.qq.com

另,如果有分页,可能会有麻烦。
sps113 at 2007-9-10 22:47:07
正需要了.谢谢了....
dingzi at 2007-9-11 09:48:23
(4)文章链接URL识别规则


承上,我们在分析上一网页http://edu.qq.com/job/qzjq_more.htm时,已经谈到了其URL的选取。

URL的选择并不是难点,主要注意以下几个问题:
1是找出其通用性特征,通过通用性特征适当约束,避免误读到其他内容,特别是在开始结束标志之间有其他URL连接时,尢为注意。
2是在遵守上一原则情况下,尽量缩短代码,不要太复杂。
3是注意可用性原则,要保证你用[Url]取代的部分,copy到IE里可以打开。原来有引号的不要一并取代了引号。如本例:源码如下:
·<a target="_blank" class="blackul" href="/a/20070226/000159.htm">对薪酬的期望值 求职面试考官必问的经典问题</a>
显然,我们要取的是/a/20070226/000159.htm而不是"/a/20070226/000159.htm",这是引号问题,后面的文字标题各不相同,也不能列入代码,因此我们可以用[url]取代href="后面的部分,结果是:
·<a target="_blank" class="blackul" href="[url]">
当然了,你要直接用href="[url]">应当也是可以的,但是,其特征性就极不明显了,某些情况下容易误采。

**特别注意**:本人遇到过一asp网页,在IE里点击可以打开,但是从源码中取出的URL,copy到IE里却打不开,即源码里的网址和在IE里右键查看或点击打开取得的网址不一致,不知采用了什么技术,这样的,就不能采集了。也正是上面的第3条,可用性原则。

(5)文章链接URL补充前缀
这一条是针对某些网页采用的相对地址而来的,如上,我们用url取代的部分是/a/20070226/000159.htm,这个在IE里直接粘到地址栏肯定是打不开的,呵呵,因为这是相对网址,怎么办呢?就要把少的补上,在IE里打开这文章,可以看到地址是:http://edu.qq.com/a/20070226/000159.htm,对比下,少了http://edu.qq.com,那这个“文章链接URL补充前缀”里就要写上http://edu.qq.com了。

要点1:如果用URL取代的部分本身就是带http://开头的,且直接copy到IE里可以打开,这里留空可也。
要点2:注意不要写多了/,如果有些采到的URL是没有/开头的,如a/20070226/000159.htm,那前缀就要在最后加上/,如http://edu.qq.com/。千万不要多不要少,本质就是这两块儿粘在一起是一个能打开的网址!

****下面的图片前缀是一个道理****
=============================================

3、内容页面采集设置

到这里开始,机器人开始处理具体的文章页了,就是你能看到内容的页了。所以,你需要点开几篇具体的文章,并查看其源码,特别注意查找有分页的,否则你分页不设,将来麻烦死你。打开几篇,是为了验证代码的通用性。

经常有的采集器,有的文章采回来了,有的采不回来,就是因为代码不通用,当然了,就是有个别文章“与众不同”,那也只好放弃了。

(1)文章标题识别规则[subject]

这是必须的。就是要用[subject]取代网页中的标题(汉字部分)
如免侵权之嫌,还是以俺的http://www.lawdiy.com/html/55/n-4255.html为例。
标题选择主要有两大方式:

方式一:IE标题,最佳选择。大部分网页打开后在IE标题栏,通常是会显示文章具体标题的,即:<title></title>之间的内容,这代码在一个网页里99.99%是唯一的,我们要做的就是用[subject]取代标题部分,即<title>[subject]</title>。如本页为:
<title>法官摆摊与市民面对面说法 离婚物业纠纷成咨询热点 - 烟台婚姻家庭律师网  |烟台律师|家庭婚姻|烟台婚姻咨询|烟台离婚律师|婚姻法律咨询|烟台离婚网|烟台法律顾问|</title>

需要注意的是,许多标题象我一样,加了一批垃圾后缀,好在这后缀基本是统一的,在各文章里都一样。解决办法2个:
一是直接不取,代码设为<title>[subject] - 烟台婚姻家庭律师网  |烟台律师|家庭婚姻|烟台婚姻咨询|烟台离婚律师|婚姻法律咨询|烟台离婚网|烟台法律顾问|</title>,可见,[subject]只是取代了“法官摆摊与市民面对面说法 离婚物业纠纷成咨询热点”这个标题,目的达到。缺点是如果被采网页稍有改变,可能取不到标题。
二是全取,但在下面的“文章标题过滤规则”处滤掉垃圾内容,或替换掉,如把“烟台婚姻家庭律师网”换成你自己的网站名字。

方式二:直接到显示标题处取。一般标题都采用了黑体等特别字体,或设定了特别的显示格式,以求在浏览时醒目,如本页是<h1 class="articletitle">法官摆摊与市民面对面说法 离婚物业纠纷成咨询热点</h1>。h1是黑体,article是文章,title是标题,所以这个class只用于文章标题,用它没商量:<h1 class="articletitle">[subject]</h1> ,OK了,就它了。

个人感悟:文章标题的选择,跟内容等起始标志略有不同,对唯一性要求略低,我们只要注重开始代码的唯一性可也,<h1 class="articletitle">是唯一的就可以了,系统读取,会在遇到第一个结束标志</h1>时停止,哪怕这</h1>在网页中有多下,也不要紧。(***其他作者、来源等都是一个道理)

(2)信息来源识别规则、作者识别规则

这两项不是必须的,可用可不用,如果不用或采到的是空的,系统会用默认的来代替。设置方法同标题的设置。
如下代码:
<span class="smalltxt">发布: 2007-7-06 10:47    采编: dingzi    来源:
都市主妇论坛                     &nbsp    查看: 38次</span>

则,来源代码:来源:[from]; 查看:(通过来源:这个关键词来定义开始,通过查看:这个关键词结来源的采集。注意[from];这个分号,这是网页显示的,可跟来源没关系,不要一并采到来源上,哈。)
  作者代码:采编: [author]; 来源:

这两项设错了不影响采集,空着也没关系。甚至有时设错了把来源采成了一大段文字(结否标志不当),那也不要紧,系统会给你处理的。俺经常采错了,采一大段,结果来源是?号“来源: ?”

[ 本帖最后由 dingzi 于 2007-10-7 16:40 编辑 ]
dingzi at 2007-9-11 10:45:37
(3)文章内容识别规则

这和标题一样是关键性指标,也是最难搞的一个东西。
但是,说到这里,好象已经没有什么好说的了,原理,同文章列表一样,指定开始和结束标志,两个标志要唯一的,在多个文章里的还是通用的(都有的共性的代码),如果你上面的都看明白了,好象就没什么可说的了。HOHO。

试以SS自己http://www.lawdiy.com/html/88/n-3788.html为例吧,有分页。
无分页的http://www.lawdiy.com/html/62/n-4262.html

其实SS的这内容的采集还是满讨厌的,看完了你就知道什么是讨厌了。

无分页的:
<span class="smalltxt">发布: 2007-7-30 15:52    采编: dingzi    来源:
?   查看: 4次</span>
</p>
<div id="articlebody">

<P>  中新网7月9日电  据三秦都市报报道,因为妻子不满丈夫酗酒,丈夫又不满妻子管得太严,一对结婚不到一周的小夫妻闹起了离婚。女方感到在这桩短命的婚姻中很受伤,于是向男方索赔“磨损费”,男方则认为女方无理取闹,索赔毫无道理。后经律师调解,女方放弃了索赔,双方表示愿做朋友。(7月4日《羊城晚报》)</P>
……

<br />
</div>
</div>
<div id="xspace-rates" class="block">

有分页的:
<span class="smalltxt">发布: 2007-7-27 16:42    采编: 未知    来源:
   查看: 0次</span>
</p>
<div id="articlebody">

<P>第 一 章 总则<BR>第    1 条 公证事务,由法院或民间之公证人办理之。<BR>地方法院及其分院应设公证处;必要时,并得于管辖区域内适当处所设公证分处。<BR>民间之公证人应于所属之地方法院或其分院管辖区域……
<br />
</div>
<div class="pages">
<div class="xspace-page"><span class="xspace-totlerecord">3</span><span class="xspace-totlepages">1/3</span><span class="xspace-current">1</span><a href="http://www.lawdiy.com/index.php/action-viewnews-itemid-3788-page-2">2</a><a href="http://www.lawdiy.com/index.php/action-viewnews-itemid-3788-page-3">3</a><a href="http://www.lawdiy.com/index.php/action-viewnews-itemid-3788-page-2">&gt;</a></div></div>
</div>
<div id="xspace-rates" class="block">

从上,文字部分是我们要采的内容吧,要在其前后指定唯一的、通用的标志。开始标志好说,很规范的吗,一眼看到<div id="articlebody">,articlebody=文章主体,搜一下,全篇唯一,不用对不起观众。

结束标志,麻烦了,分页页码与正文之间未见明显特征,简直就是没有什么代码,这是最可恨的地方,哈。<div id="xspace-rates" class="block">这是评分的地方,是不错的结束标志,但遇到分页的文章,就会在内容中多采集了页码的3 1/3 1 2 3 >  ,好烦的说,如果只能想办法用到后面的内容过滤。

页码与正文之间唯一可以用的代码应当是:
<br />
</div>
所以,也可以尝试用<br />*</div>来做结束标志试下。(*取代了回车)

(====本文全部内容均未经实战,不定可用,只是说方法,到这儿不得不声明下了,另外,不建议采集用SS做的站的文章,太雷同了怕百度不喜欢====)


再看下我们QQ上的吧,http://edu.qq.com/a/20070226/000159.htm

<div id="ArticleTit">对薪酬的期望值 求职面试考官必问的经典问题</div>
<div id="ArtFrom">
<a href="http://edu.qq.com" class="lred">http://edu.QQ.com</a> 
                2007年02月26日16:18  
                        中华英才网                          <a target="_blank" class="lblack" href="http://comment1.edu.qq.com/comment.htm?site=edu&id=103662">评论<span id="comment_count">0</span>条</a> </div>
<div id="ArticleCnt"><P style="TEXT-INDENT: 2em">面试的形式有多种,有一个面试官对一个<A href="http://edu.qq.com/job/" target=_blank>应聘</A>者,也有多对一,一对多,多对多;也有小组讨论,情景模拟游戏等其他更丰富的形式。无论面试的形式有多少,都是围绕考核应聘者的素质是否符合所<A href="http://edu.qq.com/job/" target=_blank>招聘</A>岗位的要求而展开的。这里谈谈应届毕业生常见的面试内容。 </P>

…………(PS:中间一大批广告,需过滤)

<P style="TEXT-INDENT: 2em">2)、列出一个案例请你分析,或请你做一个策划方案。 </P>
<P style="TEXT-INDENT: 2em"></P>
<P align=right><FONT color=#666666>[责任编辑:moninfu]</FONT></P></div>
<div id="ArtPLink"></div>
<div id="ArtInfo">
【<a href="http://dy.qq.com/cgi-bin/pop?channel_id=14002" target="_blank">考试订阅</a>】 【<a

分析:<div id="ArticleTit">对薪酬的期望值 求职面试考官必问的经典问题</div>满好的采标题的地方。ArticleTit,文章标题的缩写。
代码:<div id="ArticleTit">[subject]</div>
<div id="ArticleCnt">满好的内容开始标志,ArticleCnt,文章内容的缩写。
<div id="ArtPLink"></div>和<div id="ArtInfo">均可用于内容结束标志。
代码:<div id="ArticleCnt">[message]<div id="ArtPLink">

(4)文章内容分页模式、文章内容分页区域识别规则、文章内容分页链接识别规则、文章内容分页链接URL补充前缀

当文章(或部分文章)有分页时需设定。先留之,后面讨论。

==============================
小结:至此,我们设定完4大基本内容:列表区域、文章连接URL、文章标题、文章内容,理论上,已经可以试下能否采集到内容了。下面所做的,都是完善而已了。
==============================

4、内容页面整理设置

完善工作:我们的目标是,追求最完美的采集器!
dingzi at 2007-9-11 10:58:42
累乎乎,先占个地方。

也不知有没人看这看会了的,本人如盲摸像中…………
hixinqin at 2007-9-11 11:00:45
感谢楼主的工作
squallzeng at 2007-9-11 11:28:49
LZ辛苦啊。
我也正在用这个采集器,基本上按您说的那样做的,但就是采集不了。比如说我要采集
http://sports.163.com/special/s/0005rt/sportsgd.html
设置完后每次都不能进行采集的工作,请您帮我看看是什么原因如何?
我采集器的代码如下:
# SupeSite Dump
# Version: SupeSite 5.5.2
# Time: 2007-09-11 11:32:50
# From:  (/supesite)
#
# This file was BASE64 encoded
#
# SupeSite: http://www.supesite.com
# Please visit our website for latest news about SupeSite
# --------------------------------------------------------


YTozNzp7czo3OiJyb2JvdGlkIjtzOjI6IjI0IjtzOjQ6Im5hbW
UiO3M6MTg6Iue9keaYk+S9k+iCsuaWsOmXuyI7czozOiJ1aWQi
O3M6MToiMSI7czo4OiJkYXRlbGluZSI7czoxMDoiMTE4OTQ4MT
U1OCI7czo4OiJsYXN0dGltZSI7czoxOiIwIjtzOjg6InJvYm90
bnVtIjtzOjE6IjAiO3M6MTE6Imxpc3R1cmx0eXBlIjtzOjY6Im
1hbnVhbCI7czo3OiJsaXN0dXJsIjtzOjUyOiJodHRwOi8vc3Bv
cnRzLjE2My5jb20vc3BlY2lhbC9zLzAwMDVydC9zcG9ydHNnZC
5odG1sIjtzOjEzOiJsaXN0cGFnZXN0YXJ0IjtzOjE6IjAiO3M6
MTE6Imxpc3RwYWdlZW5kIjtzOjE6IjAiO3M6NjoiYWxsbnVtIj
tzOjI6IjMwIjtzOjY6InBlcm51bSI7czoyOiIxMCI7czo3OiJz
YXZlcGljIjtzOjE6IjEiO3M6NjoiZW5jb2RlIjtzOjY6ImdiMj
MxMiI7czoxMzoicGljdXJsbGlua3ByZSI7czowOiIiO3M6OToi
c2F2ZWZsYXNoIjtzOjE6IjEiO3M6MTQ6InN1YmplY3R1cmxydW
xlIjtzOjMzOiI8IS0tIGxlZnQgLS0+W2xpc3RdPCEtLSByaWdo
dCAtLT4iO3M6MTg6InN1YmplY3R1cmxsaW5rcnVsZSI7czoyMD
oiPGxpPjxhIGhyZWY9Ilt1cmxdIj4iO3M6MTc6InN1YmplY3R1
cmxsaW5rcHJlIjtzOjA6IiI7czoxMToic3ViamVjdHJ1bGUiO3
M6MjQ6Ijx0aXRsZT5bc3ViamVjdF08L3RpdGxlPiI7czoxMzoi
c3ViamVjdGZpbHRlciI7czoxOiItIjtzOjE0OiJzdWJqZWN0cm
VwbGFjZSI7czowOiIiO3M6MTY6InN1YmplY3RyZXBsYWNldG8i
O3M6MDoiIjtzOjEwOiJzdWJqZWN0a2V5IjtzOjA6IiI7czoxOD
oic3ViamVjdGFsbG93cmVwZWF0IjtzOjE6IjAiO3M6MTI6ImRh
dGVsaW5lcnVsZSI7czowOiIiO3M6ODoiZnJvbXJ1bGUiO3M6MD
oiIjtzOjEwOiJhdXRob3JydWxlIjtzOjA6IiI7czoxMToibWVz
c2FnZXJ1bGUiO3M6ODY6IjxkaXYgaWQ9ImVuZFRleHQiPlttZX
NzYWdlXTxhIGhyZWY9Imh0dHA6Ly9zcG9ydHMuMTYzLmNvbS8i
PjxpbWcgc3JjPSIqIiogLz48L2E+KjwvZGl2IjtzOjEzOiJtZX
NzYWdlZmlsdGVyIjtzOjEwOiI8YSBocmVmPSo+IjtzOjE1OiJt
ZXNzYWdlcGFnZXR5cGUiO3M6NDoicGFnZSI7czoxNToibWVzc2
FnZXBhZ2VydWxlIjtzOjA6IiI7czoxODoibWVzc2FnZXBhZ2V1
cmxydWxlIjtzOjA6IiI7czoyMToibWVzc2FnZXBhZ2V1cmxsaW
5rcHJlIjtzOjA6IiI7czoxNDoibWVzc2FnZXJlcGxhY2UiO3M6
MDoiIjtzOjE2OiJtZXNzYWdlcmVwbGFjZXRvIjtzOjA6IiI7cz
o3OiJ2ZXJzaW9uIjtzOjU6IjUuNS4yIjt9
dingzi at 2007-9-11 12:55:54

QUOTE:

原帖由 squallzeng 于 2007-9-11 11:28 发表
LZ辛苦啊。
我也正在用这个采集器,基本上按您说的那样做的,但就是采集不了。比如说我要采集
http://sports.163.com/special/s/0005rt/sportsgd.html
设置完后每次都不能进行采集的工作,请您帮我看看是什么原因 ...
既然您贴子发到了,我也帮着看了下。谢谢你提供的采集器先。

我导入后机器人名字是乱码,你可能用的不是gbk的SS吧,试采集,标题乱码,内容基本没有,除了图。突然想起,你的编码规则写的是gb2312,见过类似问题,写gb2312的一般是拉倒,所以,删除后留空,初测采集基本正常。

如果你用的其他非gbk的SS,留空显示乱码,那就写上gbk试下,至少,采集器说明处,没有GB2312一说:
采集页面编码:请输入要采集页面的编码。比如:gbk、utf-8、big5。为空则不进行编码转换
liyinet at 2007-9-11 23:56:11
先谢谢LZ
上面的我看了大受启发,但是还没有讲有分页的怎么采呢?
我采了一些,正常,但就是分页里分采集原站的分页
因为这个代码不好弄:
如无分页的代码:
<div id="NewsContentLabel" class="ContentFont">--------文章内容-----<div id="Message" class="Message"></div></div>
</td>
有分页的:

<div id="NewsContentLabel" class="ContentFont">--------文章内容-----<p align='center'><b><font color='red'>[1]</font> <a href='7111_2.html'>[2]</a> <a href='7111_3.html'>[3]</a>  <a href='7111_2.html'>下一页</a></b></p></div>
         </td>

这怎么设置分页呢?

我是这样设置的(如下图),总是出错,一时也没有想到办法


分页设置.JPG



附,我采集的原网站分页是这样的:


分页设置一.JPG

liyinet at 2007-9-12 00:11:03
而且无法采集第二页,郁闷
dingzi at 2007-9-12 09:06:44
你的代码:
[message]后面只用一个</td>,个人认为不妥,这个标志不会是唯一的。当然如果你采集内容正常,就当我没说,HEHE,

注意搜下[pageaera]前后的代码是否是唯一的,且,要注意啊,在第二页、第三页……应当也有这样的代码,且唯一

加URL前缀

建议你还是用我下面说的试下,个人认为页码导航比上下页要好很多。
=======================================
QQ群里回过:
(2007-09-12 08:46:50)   婚姻家庭律师网(64475774)
开始<b><font color='red'>[1]</font>
结束.html'>下一页</a></b></p></div>
URL:<a href='[page]'>[

加上前缀,用“页码导航”(我不太喜欢用上下页导航)

分析:一般首页,[1]是红的,可以做开始标志。下一页正好做结束标志,为了保证不搞错,比如文章中正好有下一页几个字造成重复,所以前后加了点限制代码,考虑到下一页的连接并不相同,所以只用了.html'>下一页的方式,加上前面的html可以有效避免多采第二页,系统读分页连接时,既使读到了下一页的连接,也是无效的。。
分页URL<a href='[page]'>[后面的[号很值得研究啊,可以有效避免采到下一页所带的连接。

=======================

一并再分析一下,虽然废话很多,但可能更有利于大家理解。

页码导航,是在第一页,就是下面代码处,把全部分页的连接都读出来,这个是3页。而上下页导航不同,在第一页读个下一页的连接(第2页),然后在第2页再读一个下一页的连接(第3页),由于每个分页都要保证代码的正确性,所以,很懒得用。
本人建议,能用页码的,就用页码导航。

<div id="NewsContentLabel" class="ContentFont">--------文章内容-----<p align='center'><b><font color='red'>[1]</font> <a href='7111_2.html'>[2]</a> <a href='7111_3.html'>[3]</a>  <a href='7111_2.html'>下一页</a></b></p></div>
         </td>

我们知道,页码导航只在第一页读取全部分页连接,所以只研究第1页代码就行。
上述蓝色部分,为开始和结束的标志。第1页在网上显示为红色字,所以一般可用<p align='center'><b><font color='red'>[1]</font>来做开始,下一页正好做结束(加上适当代码限制)。。中间红色部分是第2、3页的连接。URL为什么最后要加个[呢?看下上面,绿色部分,这是下一页(也就是第2页的连接),如果加上了[,因为 <a href='7111_2.html'>后面没有[,所以系统认为规则不符,就会有效避免最后多采一个第二页。
在某些情况下,下一页也有[,即<a href='7111_2.html'>[下一页]的形式,这时只在Url加个[就不管用了,那我们就可以把结束标志提前些,设为html'>[下一页]的形式,或[下一页]的形式,使得下一页的连接<a href='7111_2.html'>[在采集区域内的代码不全,系统读到的只是<a href='7111_2.不符合URL规则,避免多采第2页。

[ 本帖最后由 dingzi 于 2007-9-12 09:28 编辑 ]
dingzi at 2007-9-12 09:06:55
发重发,当占位子了

[ 本帖最后由 dingzi 于 2007-9-12 09:08 编辑 ]
bladeng at 2007-9-12 10:31:27
学学!好人一生平安
jiao533 at 2007-9-13 23:46:05
我的根本就不工作,真是发愁
dingzi at 2007-9-14 09:34:30

QUOTE:

原帖由 jiao533 于 2007-9-13 23:46 发表
我的根本就不工作,真是发愁
先找一个别人用着好用的,跟你编码一致的,试下,不好用,就要找服务器问题了。

比如,有些服务器不支持fopen函数,看下phpinfo:allow_url_fopen是不是开着。不开到php.ini里打开。

还有的服务器,数据库不稳定,一采SQL就休班了,一般会有错误提示。

另外:在部分你的操作电脑、服务器、被采网页三者的任何网络不佳的情况,都有可能不工作。
ifromsky at 2007-9-15 00:20:21

yanhuo168 at 2007-9-16 00:18:19
# SupeSite Dump
# Version: SupeSite 5.5.2
# Time: 2007-09-16 00:17:13
# From: 天涯乐吧社区门户 (http://x.ty68.cn)
#
# This file was BASE64 encoded
#
# SupeSite: http://www.supesite.com
# Please visit our website for latest news about SupeSite
# --------------------------------------------------------


YTozNzp7czo3OiJyb2JvdGlkIjtzOjE6IjQiO3M6NDoibmFtZS
I7czo4OiLM7NHEwNawySI7czozOiJ1aWQiO3M6MToiMyI7czo4
OiJkYXRlbGluZSI7czoxMDoiMTE4OTg3MjE2NCI7czo4OiJsYX
N0dGltZSI7czoxOiIwIjtzOjg6InJvYm90bnVtIjtzOjE6IjAi
O3M6MTE6Imxpc3R1cmx0eXBlIjtzOjQ6ImF1dG8iO3M6NzoibG
lzdHVybCI7czo0MToiaHR0cDovL3d3dy50eTY4LmNuL3RocmVh
ZC1bcGFnZV0tMS0xLmh0bWwiO3M6MTM6Imxpc3RwYWdlc3Rhcn
QiO3M6NDoiMzAwMCI7czoxMToibGlzdHBhZ2VlbmQiO3M6NDoi
NTAwMCI7czo2OiJhbGxudW0iO3M6MzoiMTAwIjtzOjY6InBlcm
51bSI7czoxOiIxIjtzOjc6InNhdmVwaWMiO3M6MToiMCI7czo2
OiJlbmNvZGUiO3M6MzoiZ2JrIjtzOjEzOiJwaWN1cmxsaW5rcH
JlIjtzOjA6IiI7czo5OiJzYXZlZmxhc2giO3M6MToiMCI7czox
NDoic3ViamVjdHVybHJ1bGUiO3M6NDc6IjxkaXYgaWQ9InBvc3
RtZXNzYWdlX1tsaXN0XSIgY2xhc3M9InRfbXNnZm9udCI+Ijtz
OjE4OiJzdWJqZWN0dXJsbGlua3J1bGUiO3M6NTc6Ijxmb250IH
N0eWxlPSJmb250LXNpemU6MHB4O2NvbG9yOiNGRkYiPszs0cTJ
58f4fMzs0cTC28yzLSI7czoxNzoic3ViamVjdHVybGxpbmtwcm
UiO3M6MDoiIjtzOjExOiJzdWJqZWN0cnVsZSI7czowOiIiO3M6
MTM6InN1YmplY3RmaWx0ZXIiO3M6MDoiIjtzOjE0OiJzdWJqZW
N0cmVwbGFjZSI7czowOiIiO3M6MTY6InN1YmplY3RyZXBsYWNl
dG8iO3M6MDoiIjtzOjEwOiJzdWJqZWN0a2V5IjtzOjA6IiI7cz
oxODoic3ViamVjdGFsbG93cmVwZWF0IjtzOjE6IjEiO3M6MTI6
ImRhdGVsaW5lcnVsZSI7czowOiIiO3M6ODoiZnJvbXJ1bGUiO3
M6MDoiIjtzOjEwOiJhdXRob3JydWxlIjtzOjA6IiI7czoxMToi
bWVzc2FnZXJ1bGUiO3M6MDoiIjtzOjEzOiJtZXNzYWdlZmlsdG
VyIjtzOjA6IiI7czoxNToibWVzc2FnZXBhZ2V0eXBlIjtzOjQ6
InBhZ2UiO3M6MTU6Im1lc3NhZ2VwYWdlcnVsZSI7czowOiIiO3
M6MTg6Im1lc3NhZ2VwYWdldXJscnVsZSI7czowOiIiO3M6MjE6
Im1lc3NhZ2VwYWdldXJsbGlua3ByZSI7czowOiIiO3M6MTQ6Im
1lc3NhZ2VyZXBsYWNlIjtzOjA6IiI7czoxNjoibWVzc2FnZXJl
cGxhY2V0byI7czowOiIiO3M6NzoidmVyc2lvbiI7czo1OiI1Lj
UuMiI7fQ==




谢谢楼主帮我看看,我的怎么采集不了呢?
我想采集我论坛的帖子呢,不知道那里错了!?
dingzi at 2007-9-16 10:42:46
回楼上:

论坛的采集我一直没大研究过,因为论坛你是采第一楼还是全采呢?全采怕是不太现实,一般是采第一楼的吧。感觉用处不大,且,规则不太好搞似的。

观你的采集器,说明还没有理解采集器各参数的内涵。建议你先仔细阅读下上面全部贴子的内容,有点了解才好。
就你的采集器说几句:
采集你用的地址是自动增长的,从3000到5000,且不说你的3000贴根本不存在,且你这3000到5000的地址根本就是具体的文章地址,不是列表,列表,应当是这样子的http://www.ty68.cn/forumdisplay.php?fid=17&page=48

另,再往下,全是空的,两个基本条件:文章标题和文章内容都没有规则,你说这儿是空的,能采回内容来么?