当前位置:首页 > 新手教程 >

定向采集设置方法

淘泥巴 淘模板 2017-03-14 浏览:

1、设置定向采集


1)、登录您网站后台,模块->采集侠->采集任务,如果您的网站还没有添加栏目,你需要先到织梦的栏目管理里先添加栏目,如果已经添加了栏目,你可能可以看到如下界面



2)、在弹出的页面里选择定向采集,如图所示




3)、点击添加采集规则,这就是添加定向采集规则的页面了,这里我们要详细说下



2、设置 目标页面编码

  打开您要采集的网页,点击鼠标右键,点击查看网站源码,搜索charset,查看charset后面紧跟的是utf-8还是gb2312,如图所示即为utf-8




3、设置 列表网址

  列表网址就是您要采集的网站的栏目列表地址
  如果只是单纯采集列表页的第一页,直接输入该列表URL就行,如我要采集站长之家的优化栏目的第一页,那列表URL就输入:http://www.chinaz.com/web/seo/,即可。采集第一页的内容的好处就是可以不用采集老旧的新闻,而且有新更新也可以及时采集到,如果需要采集该栏目的所有内容,那也可以通过设置通配符的方式,匹配所有列表URL规则。

  匹配URL规则的方法也很简单,你只需要查看列表分页的不同,加个通配符即可,如站长之家的优化栏目:

  第一页的URL是:http://www.chinaz.com/web/seo/1.shtml
  第二页的URL是:http://www.chinaz.com/web/seo/2.shtml
  第三页的URL是:http://www.chinaz.com/web/seo/3.shtml

  通过观察列表URL的变化,可以看出第一页就是1.shtml,第二页就是2.shtml,第三页就是3.shtml,变换的就是页码而已,列表页的URL通配符是 [开始页-结束页] ,假如你要采集栏目前二十页的,那么列表URL规则就是:http://www.chinaz.com/web/seo/[1-20].shtml,看到其中的区别了吧,就是在变换的部分加入通配符,从开始页到结束页即可。


4、设置 文章网址

  文章URL规则和列表URL规则设置差不多,也是通配变换的部分,只是通配符不一样而已,文章URL使用通配符 (*) 来匹配,有采集规则编写经验的用户可以很容易理解,通配符可以代替一个或多个真正的字符,通过下面例子更加直观的了解通配符的使用方法。

  例:

  比如我要采集站长之家优化栏目里面的文章,他们的文章URL是
  http://www.chinaz.com/web/2011/0926/211708.shtml
  http://www.chinaz.com/web/2011/0926/211705.shtml
  http://www.chinaz.com/web/2011/0926/211694.shtml
  通配后的URL就是:http://www.chinaz.com/web/(*)/(*)/(*).shtml

  也就是说数字部分是变换的部分,可以看得出他的URL结构是年/月日/文章ID的形式,年月日和文章ID是会变换的,所以就通配这三部分内容就行。

  我们可以输入列表URL规则和文章URL规则,然后点击测试,会看到下图的测试结果,也就是匹配成功了,已经列出成功匹配的列表URL和文章URL,测试的时候只显示前十条结果以供观察是否已经匹配成功。


5、设置 标题、作者、来源、内容、分页规则

  首先这个规则采集侠默认都是自动识别的,但是自动识别的效果有可能没有自己设置的好,也有可能有的网站采集侠识别不了,如果标题和内容采集侠识别不到那么就什么都采集不到了!所以这里建议是内容规则最好手工设置,而作者和来源规则可以不设置,也可以到采集侠的高级设置菜单里设置成固定的作者以及来源。
  标题、作者、来源、内容和分页规则的写法都是一样的,懂得其中一项的写法,其他几项都懂得了,所以这里就以内容规则来举例说明。

  采集侠是怎么根据你的规则找到文章内容的呢,其实就是你写个规则告诉它文章从哪里开始,从哪里结束,最后写成规则就是   开始的地方的代码[内容]结束的地方的代码

  比如我要采集站长之家优化栏目里面的文章,打开文章列表中其中一篇,
  如:
  http://www.chinaz.com/web/2015/0702/418785.shtml
  打开后,右键查看源码,通过查看源码找到文章处,你可以通过搜索文章中的句子去找文章所在的大概位置

  


最后我们把前后的代码做成规则,就是

<div id="ctrlfscont">[内容]</div>

最后点击测试,如果测试成功了点击保存即可采集