该程序仅对单个URL所对应的page网页信息进行抓取(pageSpider.java)。程序流程图如下:
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.ProtocolException;
import java.net.URL;
public class pageSpider implements Runnable {
HttpURLConnection httpUrlConnection;
InputStream inputStream;
BufferedReader bufferedReader;
String url;
public pageSpider() {
try {url="http://www.baidu.com"; } catch (Exception e) {e.printStackTrace();}
try {
httpUrlConnection = (HttpURLConnection) new URL(url).openConnection(); //创建连接
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
System.out.println("---------start-----------");
Thread thread = new Thread(this);
thread.start();
try {thread.join();} catch (InterruptedException e) {e.printStackTrace();}
System.out.println("----------end------------");
}
public void run() {
// TODO Auto-generated method stub
try {
httpUrlConnection.setRequestMethod("GET");
} catch (ProtocolException e) {
e.printStackTrace();
}
try {
httpUrlConnection.setUseCaches(true); //使用缓存
httpUrlConnection.connect(); //建立连接
} catch (IOException e) {
e.printStackTrace();
}
try {
inputStream = httpUrlConnection.getInputStream(); //读取输入流
bufferedReader = new BufferedReader(new InputStreamReader(inputStream, "gb2312"));
String string;
while ((string = bufferedReader.readLine()) != null) {
System.out.println(string); //打印输出
}
} catch (IOException e) {
e.printStackTrace();
} finally {
try {
bufferedReader.close();
inputStream.close();
httpUrlConnection.disconnect();
} catch (IOException e) {
e.printStackTrace();
}
}
}
public static void main(String[] args) {
new pageSpider();
}
}
相关推荐
Python网页爬虫程序框架 常用的Python网页爬虫程序框架包括: Scrapy:Scrapy是一个强大的开源网络爬虫框架,提供了完整的爬虫流程管理,包括异步IO操作、多线程管理、反爬虫策略等功能。它支持XPath和CSS选择器...
网络爬虫程序-网络爬虫程序-网络爬虫程序
python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 python 爬虫程序链家 ...
可以爬取网页上热门景点的爬虫程序,有兴趣的可以借鉴一下
该项目是一个爬虫程序,采用python语言,同时运用Orcle数据库及Flask框架共同搭建图片及视屏下载的前端网页,适合新手学习。
爬虫程序 java爬虫程序 java 数据挖掘爬虫程序 java 数据挖掘爬虫程序 java 数据挖掘
Android 调试网页爬虫的小程序,用来做安卓获取网页信息的小程序,具体步骤参考网页http://blog.csdn.net/a289973483/article/details/78447926
网页爬虫算法研究的初步成果 能抓取大概100多个网页
基于Linux的python多线程爬虫程序设计.pdf
想要使用asp.net 或者C#实现网页爬虫程序,抓取其他站点网页内的数据,可以使用这个类来抓取。调用方式: string str = HTMLReader.GetHtml("http://www.dyhjw.com/hjtd/ "); string goldprice = HTMLReader....
一个经典的网页爬虫工具,可以用来动态抓取网页!
电影评论爬虫程序,从豆瓣网爬取电影评论。欢迎大家使用。
简易网页爬虫是一款方便易用的网页爬虫软件。网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。用户可以通过软件来分析网页中的所有链接。
asp.net 网页爬虫 网页 爬虫 定时 抓取 网页
这是个完整的java爬虫程序,可以从一个指定的种子url开始以b广度优先的原则趴下相关的网页,保存在硬盘上
描述:由C#编写的多线程异步抓取网页的网络爬虫控制台程序 功能:目前只能提取网络链接,所用的两个记录文件并不需要很大。网页文本、图片、视频和html代码暂时不能抓取,请见谅。 但需要注意,网页的数目是非常...
java实现一个简单的网络爬虫程序,可以抓取网页,并输出网页源代码
pclawer3最新网页爬虫工具,能够趴下固定格式的网页文件,和数据。