加入收藏 | 设为首页 | 会员中心 | 我要投稿 拼字网 (https://www.pinziwang.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长学院 > PHP教程 > 正文

PHP snoopy采集类怎样采集我想要的内容

发布时间:2022-10-12 12:49:52 所属栏目:PHP教程 来源:
导读:  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,本文章详细介绍snoopy的使用教程。

  Snoopy的一些特点:

  抓取网页的内容 fetch
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,本文章详细介绍snoopy的使用教程。
 
  Snoopy的一些特点:
 
  抓取网页的内容 fetch
 
  抓取网页的文本内容 (去除HTML标签) fetchtext
 
  抓取网页的链接,表单 fetchlinks fetchform
 
  支持代理主机
 
  支持基本的用户名/密码验证
 
  支持设置 user_agent, referer(来路), cookies 和 header content(头文件)
 
  支持浏览器重定向,并能控制重定向深度
 
  能把网页中的链接扩展成高质量的url(默认)
 
  提交数据并且获取返回值
 
  支持跟踪HTML框架
 
  支持重定向的时候传递cookies
 
  要求php4以上就可以了 由于本身是php一个类 无需扩支持 服务器不支持curl时候的最好选择,
 
  Snoopy类方法及示例:
 
  fetch($URI)
 
  这是为了抓取网页的内容而使用的方法。
 
  $URI参数是被抓取网页的URL地址。
 
  抓取的结果被存储在 $this->results 中。
 
  如果你正在抓取的是一个框架,Snoopy将会将每个框架追踪后存入数组中,然后存入 $this->results。
 
  fetchtext($URI)
 
  本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中的文字内容。
 
  fetchform($URI)
 
  本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中表单内容(form)。
 
  fetchlinks($URI)
 
  本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
 
  默认情况下,相对链接将自动补全php采集类,转换成完整的URL。
 
  submit($URI,$formvars)
 
  本方法向$URL指定的链接地址发送确认表单。$formvars是一个存储表单参数的数组。
 
  submittext($URI,$formvars)
 
  本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回登陆后网页中的文字内容。
 
  submitlinks($URI)
 
  本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
 
  默认情况下,相对链接将自动补全,转换成完整的URL。
 

(编辑:拼字网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!