先说废话:要用好采集,务必准备好DW、UltraEdit软件,要有足够耐心分析HTML代码,坚持不懈的采集测试优化采集设置。
采集目标:康易网 > 女性频道 > 美容 > 彩妆
目标URL:http://health.511511.com/lady/titivatelist.shtml
基础知识:采集任何目标,都需要先找到频道更新索引文件,通过该文件分析最终文章页的链接地址,然后才能进入文章页分析内容。
采集规则定义操作:
1、添加站点
登录小蜜蜂以后,点“添加站点”,设置网站名称处输入内容后提交;如本范例为:康易网。定义站点是方便管理,将来您要采集该站点的其他频道内容,就可以统一设置到该站点名下;也就是说同一网站只需要设置一次站点名称就可以。
2、设置频道名称
点“添加站点”,设置频道名称处输入内容后提交;如本范例为:彩妆
3、定义规则
点“站点列表”—“添加规则”功能,选择对应栏目名称;
以下规则内容说明:
1)URL—一条特殊的链接:这里就是您要采集目标的更新索引文件地址;本文对应值为:http://health.511511.com/lady/titivatelist.shtml。
URL—多条特殊的链接:这里指一些特殊链接,比如某些网站更新索引页有多页,地址形式为:
http://www.123.com/suoyin_01.html
…….
http://www.123.com/suoyin_09.html
http://www.123.com/suoyin_10.html
….
http://www.123.com/suoyin_21.html
前面的01~09就是特殊链接
URL—有规律的链接:对应上述例子就是10~21顺序增加的,那么有规律的链接这里输入:http://www.123.com/suoyin_10.html,将10替换为[variable]变量标签,参数设置为10~21就可以。
2)链接 这里是设置索引页上文章链接的规则
查看本例索引页HTML源代码,对照网页上的标题链接查询后可以看见以下代码:
———————
———————
分析出规律
,分别用链接、标题标签替换为
。
保存以后点“采集测试”可以测试规则是否正确,如果出现测试链接列表结果,就证明前面定义的文章链接规则正确,可以进入后面的文章内容采集规则定义了。
3)内容 这里是设置识别目标文章内容的规则
制作规则首先是要分析目标文章HTML代码中的规律,为了验证规律是否查找正确,建议至少打开三个目标文章查看html代码分析。
页面1:http://health.511511.com/lady/20065/titivate41885.shtml,开始内容为“用什么颜色才可以控制好自己的肌肤呢”;
页面2:http://health.511511.com/lady/20065/titivate41882.shtml,开始内容为“任何国际化的时尚聚会中”;
页面3:http://health.511511.com/lady/20064/titivate40285.shtml,开始内容为“图片 200642912785.jpg”。
定位文章内容开始处位置分析html代码,找到该站文章正文开始出代码规律:
———————
strong>
