php正则匹配获取指定url网页页面超级链接地址

  次阅读 来源:互联网(转载协议) 2016-03-02 15:35 我要评论(0)

在数据采集与页面分析中,常需要抓取给定url页面的内容,或者第二、第三层次深度页面内容。

这里是一个测试例子的实现,仅供参考。

代码如下:

/*

匹配给定页面链接

return:array match[link,content,all]

*/

function match_links($host, $document) {

$pattern = '/<a(.*?)href="(.*?)"(.*?)>(.*?)</a>/i';

preg_match_all($pattern, $document, $m);

return $m;

preg_match_all("'<s*as.*?hrefs*=s*(["'])?(?(1)(.*?)1|([^s>]+))[^>]*>?(.*?)</a>'isx",$document,$links);

while(list($key,$val) = each($links[2])) {

if(!empty($val))

if(preg_match("/http/",$val)){

$match['link'][] = $val;

}

else {

$match['link'][] = $host . $val;

}

}

while(list($key,$val) = each($links[3])) {

if(!empty($val))

if(preg_match("/http/",$val)){

$match['link'][] = $val;

}

else {

$match['link'][] = $host . $val;

}

}

while(list($key,$val) = each($links[4])) {

if(!empty($val))

$match['content'][] = $val;

}

while(list($key,$val) = each($links[0])) {

if(!empty($val))

$match['all'][] = $val;

}

return $match['link'];

}

/*

从给定url中获取页面文本内容

*/

function get_content_from_url($url) {

$str = @file_get_contents($url);

if(mb_check_encoding($str, "GBK"))

$str = iconv("GBK","UTF-8", $str);

$str = strip_tags($str); // 过滤html标签

/*

$str = preg_replace( "@<script(.*?)</script>@is", "", $str );

$str = preg_replace( "@<iframe(.*?)</iframe>@is", "", $str );

$str = preg_replace( "@<style(.*?)</style>@is", "", $str );

$str = preg_replace( "@<(.*?)>@is", "", $str );

*/

//过滤非汉字字符

preg_match_all('/[x{4e00}-x{9fff}]+/u', $str, $matches);

$str = join(',', $matches[0]);

if(!$str)

本站文章信息来源于网络以及网友投稿,本站只负责对文章进行整理、排版、编辑,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。如果您有什么意见或建议,请联系QQ28-1688-302!

人工智能实验室
相关文章相关文章
  • 汤晓鸥:人工智能的中国式文艺复兴

    汤晓鸥:人工智能的中国式文艺复兴

  • 全球陷入"区块链狂热"潮,大规模应用还需等待

    全球陷入"区块链狂热"潮,大规模应用还需等待

  • 区块链最近太火,但A股多家公司明确表态不考虑涉足

    区块链最近太火,但A股多家公司明确表态不考虑涉足

  • 马云的新零售?张近东的智慧零售?抑或是刘强东的第四次零售革命?

    马云的新零售?张近东的智慧零售?抑或是刘强东的第四次零售革命?

网友点评网友点评
阅读推荐阅读推荐

算法 任何一个入门的软件开发人员都会听到这句话:算法是软件的灵魂!近年来大火的机器学习即是在算法在人工智能上的集中体现。今日头条通...

据《日本经济新闻》报道,日本东京大学教授稻叶雅幸等人开发出再现日本人骨骼肌肉构造的机器人。机器人各部位的肌肉和骨骼长度与日本人的平...

以奥黛丽-赫本为原型打造的人形机器人索菲娅首次拜访了印度。索菲娅是世界上首位获得公民身份的机器人,她在12月30日出现在了印度理工学院...

在查获现场,代售点电脑旁的一台机器人通过敲击电脑键盘抢票。 广州日报惠州讯 (全媒体记者秦仲阳 通讯员张中铃摄影报道)2018年春运售票已...