本文将阐述如何利用PHP和cURL高效抓取目标网站的新闻列表和新闻详情,并展示最终结果。 关键在于高效运用cURL获取数据,处理相对路径并提取所需信息。
首先,解决第一个挑战:从列表页(例如,页面1)提取新闻标题和完整URL。 代码示例如下:
<?php $url = 'http://www.xx.com/news'; // 请替换为实际列表页URL $ch = curl_init($url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"); $html = curl_exec($ch); curl_close($ch); // 使用正则表达式提取新闻标题和链接 preg_match_all('/<a href="https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c" title=".+?"?>https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c</a>/i', $html, $matches); $newslist = []; foreach ($matches[1] as $key => $href) { $title = $matches[2][$key]; // 处理相对路径 $completeurl = 'http://www.xx.com' . $href; // 将相对路径转换为完整路径 $newslist[] = ['title' => $title, 'url' => $completeurl]; } // 打印新闻列表 print_r($newslist); ?>
这段代码首先使用cURL获取列表页的HTML内容。然后,运用正则表达式/https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c/i 提取标签中的href属性(链接)和文本内容(标题)。 关键在于将提取到的相对路径与网站根域名拼接成完整的URL。
接下来,解决第二个挑战:对每个新闻链接进行二次抓取,提取新闻内容。 我们可以改进上述代码:
<?php // ... (前面代码不变) ... foreach ($newslist as $news) { $ch = curl_init($news['url']); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"); $detailHtml = curl_exec($ch); curl_close($ch); // 使用正则表达式提取新闻内容 (根据实际HTML结构调整) preg_match('/<div class="content text-xs">(.*?)</div>/is', $detailHtml, $contentMatch); $content = isset($contentMatch[1]) ? strip_tags($contentMatch[1]) : ''; // 处理内容可能不存在的情况,并去除HTML标签 // 展示结果 echo "标题: " . $news['title'] . "<br><br>"; echo "链接: " . $news['url'] . "<br><br>"; echo "内容: " . $content . "<br><br><br>"; } ?>
这段代码遍历$newslist,对每个新闻链接再次使用cURL获取详情页HTML,并使用正则表达式/
(.*?)/is 提取新闻内容(请根据目标网站的实际HTML结构调整正则表达式)。isset($contentMatch[1]) ? strip_tags($contentMatch[1]) : '' 确保即使没有匹配到内容也不会报错,并且使用strip_tags()函数去除HTML标签,只保留文本内容。 最后,代码将标题、链接和内容打印出来。请注意,http://www.xx.com/news 需要替换为实际的列表页URL,并且正则表达式需要根据目标网站的HTML结构进行调整。 为了提高效率和健壮性,建议使用更高级的HTML解析库,例如DOMDocument。
以上就是如何用PHP和CURL高效采集新闻列表及详情?的详细内容,更多请关注知识资源分享宝库其它相关文章!
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。