联系QQ:3490313997
网站建设

火车采集器网站分页网址不变获取规则

时间:2021-12-01 09:21:41

  在采集列表分页内容的时候,会发现有的列表分页,点击第二页、第三页(或下一页)时,列表的页面信息有变化,但是浏览器上网址却不变。这种信息在页面是看不到的,一般要通过fiddler抓包工具抓包分析,即通过火车采集器post方式分页采集。

  以下用这个网址来测试http://www.yidianda.com/category/three/1-7-24.html 这个网址有3页,链接都是相同的。

  1、先通过源代码找到这个页面的开始标签和结束标签,页面开始是1/3页,结束是下一页>到第页。如下通过源代码可找到:

文章开始

 

  

结束文章

 

  

规则设置

 

  2、打开fiddler抓包工具,分别点击第2页和第3页,看看分别获取了哪些信息。当获取完一个页面后,先按下键盘F12暂停,提取信息。不然的话fiddler会继续抓取信息、信息多的话不好查找。

fiddler抓包1

 

  

fiddler抓包2

 

  由于图片比较不好查找,通过点击fiddler上的“View in Notepad”提取出来进行比较如下:

  ec_p=2&url=&flag=1&sortType=&s_keyword=&s_minprice=&s_maxprice=

  ec_p=3&url=&flag=1&sortType=&s_keyword=&s_minprice=&s_maxprice=

  从上可以知道ec_p的值就是分页。火车采集设置如下:

post设置分页

 

  注:以上规则设置完,记得点击保存哦。有的页面有id=这样的参数(有的会变,通过源代码查看),一般是[POST随机值x],这里不需要填也可以。

  fiddler下载地址http://pan.baidu.com/s/1gfPOgrL(中文版不用升级)最后链接测试采集如下

链接采集测试
最新收录
  • 叮当音乐网

    超好听的新歌,最红的网络歌曲试听下载,尽在叮当音乐网。经典歌曲、流行歌曲、英文歌曲一网打尽,做最好的在线音乐网站

  • 荔枝FM

    荔枝是专业的音频分享平台,汇集了听音乐,英语,睡前故事,儿童故事,有声小说,相声段子,历史人文,有声书等数亿条音频,超过2亿用户选择的网络FM,随时随地,想听就听,你喜爱的音频尽在荔枝。

  • 5nd音乐网

    歌曲,音乐,提供MP3歌曲免费下载,歌曲下载,在线试听流行歌曲和好听的歌,经典老歌大全,伤感歌曲,非主流音乐,好听的英文歌曲,儿童歌曲,网络歌曲,最新歌曲下载,下歌曲听音乐,在线听歌曲尽在5nd音乐网。

  • 网易娱乐

    网易娱乐是最全面最专业的娱乐资讯平台,提供娱乐八卦新闻和专题报道,集明星、女星、电影、电视、音乐、视频等娱乐资讯

  • 河北招生考试信息服务网

    河北招生考试信息服务网是河北省教育厅主办的官方网站,提供高考、自考、成考等各类招生考试的报名、咨询、公示、成绩等信息。

  • 山东省教育招生考试院

    山东省教育招生考试院提供高考、研究生、自学考试等各类教育考试的报名、成绩、录取、政策等信息。