《简单的网页爬虫小程序》-即速应用

《简单的网页爬虫小程序》

浏览量：1950 时间：2020-01-10 来源：太自由

这是一个简单的网页爬虫程序。其主要功能是获取指定网页中的邮箱地址。

import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.net.URL;import java.net.URLConnection;import java.util.HashSet;import java.util.Set;import java.util.regex.Matcher;import java.util.regex.Pattern;public class NetSpider {public static void main(String[] args) throws IOException {String str_url = "https://bbs.hcbbs.com/thread-1259140-1-1.html";// 提供网络地址的URLString regex = "\w+@\w+(\.\w+)+";// 匹配规则（使用正则表达式）（这个匹配邮箱的正则表达式只是一个宽泛的匹配模式）SetString set = getMailsByNet(str_url, regex);// getMailsByNet(str_url,regex)方法返回获得的邮件地址for (String string : set) {// 遍历set集合，打印遍历到的邮箱地址System.out.println(string);}}// 基于网络的获取邮件地址public static SetString getMailsByNet(String str_url, String regex)throws IOException {SetString set = new HashSetString();// 创建list集合URL url = new URL(str_url);// 将str_url封装成URL对象URLConnection conn = url.openConnection();// 打开连接InputStream in = conn.getInputStream();// 获取读取流BufferedReader bufIn = new BufferedReader(new InputStreamReader(in));Pattern p = Pattern.compile(regex);// 将正则表达式编译成对象String line = null;// 频繁读写操作while ((line = bufIn.readLine()) != null) {Matcher m = p.matcher(line);// 通过正则表达式对象获取匹配器while (m.find()) {// 把得到的邮箱存储到list集合中set.add(m.group());}}bufIn.close();// 关闭资源return set;}}

小程序

即速应用倡导尊重与保护知识产权。如发现本站文章存在版权问题，烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至197452366@qq.com ，我们将及时处理。本站文章仅作分享交流用途，作者观点不等同于即速应用观点。用户与作者的任何交易与本站无关，请知悉。