如何用PHP和CURL高效采集新闻列表及详情?(高效.如何用.采集.详情.列表...)

wufei123 发布于 2025-03-14 阅读(8)

如何用php和curl高效采集新闻列表及详情?

本文将阐述如何利用PHP和cURL高效抓取目标网站的新闻列表和新闻详情,并展示最终结果。 关键在于高效运用cURL获取数据,处理相对路径并提取所需信息。

首先,解决第一个挑战:从列表页(例如,页面1)提取新闻标题和完整URL。 代码示例如下:

<?php
$url = 'http://www.xx.com/news'; // 请替换为实际列表页URL

$ch = curl_init($url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36");
$html = curl_exec($ch);
curl_close($ch);

// 使用正则表达式提取新闻标题和链接
preg_match_all('/<a href="https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c" title=".+?"?>https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c</a>/i', $html, $matches);

$newslist = [];
foreach ($matches[1] as $key => $href) {
    $title = $matches[2][$key];
    // 处理相对路径
    $completeurl = 'http://www.xx.com' . $href; // 将相对路径转换为完整路径
    $newslist[] = ['title' => $title, 'url' => $completeurl];
}

// 打印新闻列表
print_r($newslist);
?>

这段代码首先使用cURL获取列表页的HTML内容。然后,运用正则表达式/https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c/i 提取标签中的href属性(链接)和文本内容(标题)。 关键在于将提取到的相对路径与网站根域名拼接成完整的URL。

接下来,解决第二个挑战:对每个新闻链接进行二次抓取,提取新闻内容。 我们可以改进上述代码:

<?php
// ... (前面代码不变) ...

foreach ($newslist as $news) {
    $ch = curl_init($news['url']);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36");
    $detailHtml = curl_exec($ch);
    curl_close($ch);

    // 使用正则表达式提取新闻内容 (根据实际HTML结构调整)
    preg_match('/<div class="content text-xs">(.*?)</div>/is', $detailHtml, $contentMatch);
    $content = isset($contentMatch[1]) ? strip_tags($contentMatch[1]) : ''; // 处理内容可能不存在的情况,并去除HTML标签

    // 展示结果
    echo "标题: " . $news['title'] . "<br><br>";
    echo "链接: " . $news['url'] . "<br><br>";
    echo "内容: " . $content . "<br><br><br>";
}
?>

这段代码遍历$newslist,对每个新闻链接再次使用cURL获取详情页HTML,并使用正则表达式/

(.*?)/is 提取新闻内容(请根据目标网站的实际HTML结构调整正则表达式)。isset($contentMatch[1]) ? strip_tags($contentMatch[1]) : '' 确保即使没有匹配到内容也不会报错,并且使用strip_tags()函数去除HTML标签,只保留文本内容。 最后,代码将标题、链接和内容打印出来。

请注意,http://www.xx.com/news 需要替换为实际的列表页URL,并且正则表达式需要根据目标网站的HTML结构进行调整。 为了提高效率和健壮性,建议使用更高级的HTML解析库,例如DOMDocument。

以上就是如何用PHP和CURL高效采集新闻列表及详情?的详细内容,更多请关注知识资源分享宝库其它相关文章!

标签:  高效 如何用 采集 

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。