注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

和申的个人主页

专注于java开发,1985wanggang

 
 
 

日志

 
 

使用httpParser提取HTML中的HyperLink  

2008-10-24 19:59:45|  分类: Java |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
//对给定的Html字符串解析
public static NodeList getLinks(String s) {
        Parser parser = new Parser();
        NodeList links = new NodeList();
        try {
            parser.setInputHTML(s);
            System.out.println("getLinks");

            NodeFilter filter = new NodeClassFilter(LinkTag.class);

            for (NodeIterator e = parser.elements(); e.hasMoreNodes();) {
                e.nextNode().collectInto(links, filter);
            }
        } catch (ParserException e1) {
            // TODO Auto-generated catch block
            e1.printStackTrace();
        }
        for (int i = 0; i < links.size(); i++) {
            LinkTag linkTag = (LinkTag) links.elementAt(i);
            System.out.println(linkTag.getLink());
        }
        return links;

    }
//查找符合条件的链接
    public static NodeList findNode(NodeList linklist, String matchStr) {
        System.out.println("findNode");
        NodeList links = new NodeList();
        for (int i = 0; i < linklist.size(); i++) {
            LinkTag linkTag = (LinkTag) linklist.elementAt(i);
            if (linkTag.getLink().matches(matchStr)) {
                links.add(linkTag);
                System.out.println("match Link" + linkTag.getLinkText() + ":"
                        + linkTag.getLink());
            }
        }

        return links;
    }



另外连接Http 采用HttpClient也不错
  评论这张
 
阅读(1701)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016