博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫学习-入门
阅读量:5261 次
发布时间:2019-06-14

本文共 2622 字,大约阅读时间需要 8 分钟。

语言:JAVA

软件:eclipse

首先需要到网上下载Jsoup的jar包。

下载地址:http://www.pc6.com/softview/SoftView_541368.html

之后是在eclipse中创建项目,把jar包导入lib文件夹中

提取网页中的链接:

import java.io.IOException;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;/* *  * 提取链接 */public class Text_211 {    public static void main(String args[])    {        String url="http://www.lietu.com";        try {            Document doc=Jsoup.connect(url).get();            Elements links=doc.select("a[href]");            for(Element link:links)            {                String linkHref=link.attr("href");                System.out.println(linkHref);            }        } catch (IOException e) {            // TODO Auto-generated catch block            e.printStackTrace();        }    }}

提取标题和详细页链接的完整代码

得到网页的所有的标题和链接

import java.io.IOException;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;/* *  * 采集新闻 */public class Text_212 {    public static void main(String args[])    {        //text_first("http://politics.people.com.cn/GB/1024/");        text_second("http://china.cnr.cn/yaowen/");    }    //提取标题和详细页链接的完整代码    public static void text_first(String address)    {        try {            Document document=Jsoup.connect(address).get();            Elements es=document.getElementsByClass("list_16");            Elements links=es.select("a[href]");            for(Element link:links)            {                String title=link.text();                System.out.println(title);                String linkHref=link.attr("href");                System.out.println(linkHref);            }        } catch (IOException e) {            // TODO Auto-generated catch block            e.printStackTrace();        }            }    //得到网页的所有的标题和链接    public static void text_second(String address)    {        try {            Document document=Jsoup.connect(address).timeout(5000).get();            Element content=document.getElementById("subNav_menu");            Elements es=document.getElementsByClass("text");            for(Element linck:es)            {                Element alink=linck.getElementsByTag("a").first();                if(alink!=null)                {                    System.out.println(alink.attr("href"));                    System.out.println(alink.text());                }            }                                            } catch (IOException e) {            // TODO Auto-generated catch block            e.printStackTrace();        }    }}

 

转载于:https://www.cnblogs.com/liujinxin123/p/11552704.html

你可能感兴趣的文章
03 线程池
查看>>
设计模式课程 设计模式精讲 2-2 UML类图讲解
查看>>
Silverlight 的菜单控件。(不是 Toolkit的)
查看>>
jquery的contains方法
查看>>
linux后台运行和关闭SSH运行,查看后台任务
查看>>
桥接模式-Bridge(Java实现)
查看>>
303. Range Sum Query - Immutable
查看>>
C# Dynamic通用反序列化Json类型并遍历属性比较
查看>>
前台freemark获取后台的值
查看>>
Spring-hibernate整合
查看>>
exit和return的区别
查看>>
Django 相关
查看>>
Python(软件目录结构规范)
查看>>
codeforces水题100道 第二十二题 Codeforces Beta Round #89 (Div. 2) A. String Task (strings)
查看>>
c++||template
查看>>
条件断点 符号断点
查看>>
连接Oracle需要jar包和javadoc文档的下载
查看>>
Dreamweaver cc新版本css单行显示
查看>>
【android】安卓的权限提示及版本相关
查看>>
Java基础教程——网络基础知识
查看>>