微信小程序> 《简单的网页爬虫小程序》

《简单的网页爬虫小程序》

浏览量:1913 时间: 来源:太自由

这是一个简单的网页爬虫程序。其主要功能是获取指定网页中的邮箱地址。

import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.net.URL;import java.net.URLConnection;import java.util.HashSet;import java.util.Set;import java.util.regex.Matcher;import java.util.regex.Pattern;public class NetSpider {public static void main(String[] args) throws IOException {String str_url = "https://bbs.hcbbs.com/thread-1259140-1-1.html";// 提供网络地址的URLString regex = "\w+@\w+(\.\w+)+";// 匹配规则(使用正则表达式)(这个匹配邮箱的正则表达式只是一个宽泛的匹配模式)SetString set = getMailsByNet(str_url, regex);// getMailsByNet(str_url,regex)方法返回获得的邮件地址for (String string : set) {// 遍历set集合,打印遍历到的邮箱地址System.out.println(string);}}// 基于网络的获取邮件地址public static SetString getMailsByNet(String str_url, String regex)throws IOException {SetString set = new HashSetString();// 创建list集合URL url = new URL(str_url);// 将str_url封装成URL对象URLConnection conn = url.openConnection();// 打开连接InputStream in = conn.getInputStream();// 获取读取流BufferedReader bufIn = new BufferedReader(new InputStreamReader(in));Pattern p = Pattern.compile(regex);// 将正则表达式编译成对象String line = null;// 频繁读写操作while ((line = bufIn.readLine()) != null) {Matcher m = p.matcher(line);// 通过正则表达式对象获取匹配器while (m.find()) {// 把得到的邮箱存储到list集合中set.add(m.group());}}bufIn.close();// 关闭资源return set;}}

 

小程序

版权声明

即速应用倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至197452366@qq.com ,我们将及时处理。本站文章仅作分享交流用途,作者观点不等同于即速应用观点。用户与作者的任何交易与本站无关,请知悉。

产品经理

手机 : 13312967497

擅长 : 小程序流量变现

扫码领取礼包

最新资讯

热门模板

  • 头条
  • 搜狐
  • 微博
  • 百家
  • 一点资讯
  • 知乎