1.采集任务
这里可以先添加一个任务,包含名称和域名。//当然这步也可以省略,这里目的只是为了方便保存采集规则。
2.链接采集器
如果你执行了第一步,那么这里就可以选择任务了,任务中保留有采集规则,就可以选择是否载入。
![]()
采集链接分为两种,一是只采集一页里面的,反之采集多页的。
填写好WebUrl,您可以先测试采集本页连接,检测你写的采集链接规则是否正确。
注意 [链接规则]必须写正则表达式 例如:Article/(\d{1,20}).htm //括号里面的你实在不懂写就这样吧(.*?)不过也许会找到很多你不想要的效率也会差点。您也可以参考 常用正则表达式总结 。
批量规则嘛,类似网际快车那样 例如: http://www.xxxxxxxxxx.com/sort2_(*).html *就要看一下采集的大概是从多少到多少了。
其余的功能可以一个个测试一下,应该不会黑屏。
执行动作:蓝色字体按钮。
3.内容采集器
比较关键的一步了,如果你设置错了,可能采集到一些垃圾,呵呵。
这里就要写内容采集规则了,一般来说标题就是 <title>开头</title>结束了,如果你采集的网站制作者是个新手,标题都懒得写那也没办法了,只能再看看文章标题前后规则。
内容规则前面说好了不用写正则,所以你甚至可以这样写
开头 <script type='text/javascript' src="/Ad_Js/Article/Ad1.js
结尾 </div><script src="/ad/sss.js
内容包含规则是什么意思? 假设: 开头 <div id="content" 结尾 xxx</div>, 如果不包含规则,那么在页面显示的时候页面肯定乱了。
采集完后有个 [保存到数据库] 不建议使用,因为是保存到跟任务表同一个数据库,如果数据太多,可能造成软件反映慢。
执行动作:蓝色字体按钮。
4.分类设置
一看就懂了,不看也关系,可以忽略。
5.采集成果
同上。
6.数据导出
这里你可以把 内容采集器 里面的数据导出来,目前只支持ACCESS数据库,主要有3个字段,分别为:标题,内容,分类ID。
只要连接地址正确,应该不会有什么问题了。往后版本再加其他常用数据库的支持。
7.软件更新讨论
QQ群:7744200 加入请写GGX
软件下载地址:
http://v.vr178.com/etao8studio/download/ggx1.0.rar
http://www.etao8.cn/etao8studio/download/ggx1.0.rar
