#CrawlSpider需要使用:规则提取器和解析器#1.allow设置规则的方法:要能够限制在目标url上面,不要跟其他的url产生相同的正则即可#2.什么情况下使用follow:如果在爬取页面的时候,需要将满足条件的url再进行跟进,那么就设置为True,否则是False#3.什么情况下使用callack:如果这个url对应的页面只是为了获取更多的url,并不需要里面的数据,那么可以不指定callback.如果想要获取url对应页面里的数据,那么就需要指定callback#spider文件importscrapyfromscrapy.linkextractorsimportLinkExtractorfromscrapy.spidersimportCrawlSpider,Rulefromwxapp.itemsimportWxappItemclassWxappspiderSpider(CrawlSpider):name='wxappSpider'allowed_domains=['wxapp-union.com']start_urls=['http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1']rules=(Rule(LinkExtractor(allow=r'http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=d'),follow=True),Rule(LinkExtractor(allow=r'.+article-.+.html'),callback='parse_detail',follow=False),)defparse_detail(self,response):#解析详情页#print(response)#200http://www.wxapp-union.com/article-5137-1.html详情页title=response.xpath('//h1[@]/text()').extract_first()author=response.xpath('//p[@]/a/text()').extract_first()content=response.xpath('//td[@id="article_content"]//text()').extract()content="".join(content).strip()print(content)print("=="20)item=WxappItem(title=title,author=author,content=content)yielditem#管道文件保存在json文件里fromscrapy.exportersimportJsonItemExporterfromscrapy.exportersimportJsonLinesItemExporter#要存的数据量大的时候用这个classWxappPipeline(object):def__init__(self):self.fp=open("weixinjiaocheng.json","wb")self.exporter=JsonLinesItemExporter(self.fp,ensure_ascii=False,encoding='utf-8')defprocess_item(self,item,spider):self.exporter.export_item(item)returnitemdefclose_spider(self,spider):self.fp.close()
最新资讯
-

小程序制作平台选型踩坑记录:2026年五大主流方案横向对比
2026 年微信小程序月活达 10.7 亿、覆盖 108 个行业,本次横向对比即速应用、乔拓云、凡科、有赞、微盟五大主流平台,分三阶段给出选型结论,核心聚焦成本、扩展性、运营能力三大维度。 -

即速应用,赋能企业玩转微信小程序智慧经营
作为国内领军的智慧商业经营服务商,即速应用始终秉承“让每个企业都拥有自己的智慧店铺”的愿景,持续赋能更多企业玩转智慧经营。即速应用旗下拥有“小程序搭建工具-即速应用”、“私域流量专家-即客云”等产品,帮助商家打通互联网全生态营销闭环。 -

即客云2.0重磅更新,让微信小程序运营更简单!
即客云作为一款基于企业微信的第三方工具,现从多维度提供超过30种功能,自上线以来,已服务多家企业,受到一致好评。近期,我们根据客户反馈和市场调研正式推出升级版 即客云2.0!更新了私域运营SOP,群日历功能,批量拓客,客户雷达,消息推送,个人欢迎语,帮助企业更好运用企业微信;同时提升了社群运营工作标准化,提升运营效率,帮助企业实现客户增长,玩转私域流量。










