CURL抓取网页内容并用正则提取。

本文介绍了一种使用PHP实现的CURL网页抓取方法,并展示了如何利用正则表达式从抓取的网页中提取特定信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

<?php
header("Content-Type:text/html;charset=UTF-8");
/*
 * CURL网页抓取
 * */
class Curl{
    var $setopt;
    var $data;
    function __construct($url){
        $this->setopt =array(
    CURLOPT_URL => "$url",
    CURLOPT_RETURNTRANSFER => true,
    CURLOPT_FOLLOWLOCATION => true,
);
    }
    function exec(){
        $ch = curl_init();
        curl_setopt_array($ch,$this->setopt);
        $this->data = curl_exec($ch);
        curl_close($ch);
        return $this->data;
    }
};
/*
 * 抓取回来的网页进行正则查找
 * id是按ID查找内容
 * tagName是标签查找
 * className按类名查找*/
class Preg{
    function id($data,$id){
        preg_match('/<(.*)\s*id=.*('.$id.').*>\s*(.*)\s*<\/(.*)>/',$data,$str);
        return $str[0];
    }
    
    function tagName($data,$tag){
        preg_match('/<'.$tag.'.*>\s*(.*)\s*<\/'.$tag.'>/',$data,$str);
        return $str[1];
    }
    
    function className($data,$class){
        preg_match('/<(.*)\s*class=.*('.$class.').*>\s*(.*)\s*<\/(.*)>/',$data,$str);
        return $str[0];
    }
    
}

$c = new Curl('www.corker.cc');
$data = $c->exec();
$data = @iconv("gb2312", "utf-8",$data);
$preg = new Preg();
echo $preg->tagName($data,'title');

?>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值