如何用PHP和CURL高效采集新闻列表及详情？（高效.如何用.采集.详情.列表...）

如何用php和curl高效采集新闻列表及详情？

本文将阐述如何利用PHP和cURL高效抓取目标网站的新闻列表和新闻详情，并展示最终结果。关键在于高效运用cURL获取数据，处理相对路径并提取所需信息。

首先，解决第一个挑战：从列表页（例如，页面1）提取新闻标题和完整URL。代码示例如下：

<?php
$url = 'http://www.xx.com/news'; // 请替换为实际列表页URL

$ch = curl_init($url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36");
$html = curl_exec($ch);
curl_close($ch);

// 使用正则表达式提取新闻标题和链接
preg_match_all('/<a href="https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c" title=".+?"?>https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c</a>/i', $html, $matches);

$newslist = [];
foreach ($matches[1] as $key => $href) {
    $title = $matches[2][$key];
    // 处理相对路径
    $completeurl = 'http://www.xx.com' . $href; // 将相对路径转换为完整路径
    $newslist[] = ['title' => $title, 'url' => $completeurl];
}

// 打印新闻列表
print_r($newslist);
?>

这段代码首先使用cURL获取列表页的HTML内容。然后，运用正则表达式/https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c/i 提取标签中的href属性（链接）和文本内容（标题）。关键在于将提取到的相对路径与网站根域名拼接成完整的URL。

接下来，解决第二个挑战：对每个新闻链接进行二次抓取，提取新闻内容。我们可以改进上述代码：

<?php
// ... (前面代码不变) ...

foreach ($newslist as $news) {
    $ch = curl_init($news['url']);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36");
    $detailHtml = curl_exec($ch);
    curl_close($ch);

    // 使用正则表达式提取新闻内容 (根据实际HTML结构调整)
    preg_match('/<div class="content text-xs">(.*?)</div>/is', $detailHtml, $contentMatch);
    $content = isset($contentMatch[1]) ? strip_tags($contentMatch[1]) : ''; // 处理内容可能不存在的情况，并去除HTML标签

    // 展示结果
    echo "标题: " . $news['title'] . "<br><br>";
    echo "链接: " . $news['url'] . "<br><br>";
    echo "内容: " . $content . "<br><br><br>";
}
?>

这段代码遍历$newslist，对每个新闻链接再次使用cURL获取详情页HTML，并使用正则表达式/

(.*?)/is 提取新闻内容（请根据目标网站的实际HTML结构调整正则表达式）。isset($contentMatch[1]) ? strip_tags($contentMatch[1]) : '' 确保即使没有匹配到内容也不会报错，并且使用strip_tags()函数去除HTML标签，只保留文本内容。最后，代码将标题、链接和内容打印出来。

请注意，http://www.xx.com/news 需要替换为实际的列表页URL，并且正则表达式需要根据目标网站的HTML结构进行调整。为了提高效率和健壮性，建议使用更高级的HTML解析库，例如DOMDocument。

以上就是如何用PHP和CURL高效采集新闻列表及详情？的详细内容，更多请关注知识资源分享宝库其它相关文章！