广州都市报

您现在的位置: 三秦都市报_都市报理念 > 都市报历史 > Python爬虫实现爬取百度百科词条功能

Python爬虫实现爬取百度百科词条功能

发布时间:2021-9-1 12:40:30   点击数:
白癜风能光疗吗 http://baidianfeng.39.net/a_zzzl/130930/4266172.html

本文实例讲述了Python爬虫实现爬取百度百科词条功能。分享给大家供大家参考,具体如下:

以下我写了一个爬取百度百科词条的实例。

爬虫主程序入口

fromcrawler_test.html_downloaderimportUrlDownLoaderfromcrawler_test.html_outerimportHtmlOuterfromcrawler_test.html_parserimportHtmlParserfromcrawler_test.url_managerimportUrlManager#爬虫主程序入口classMainCrawler():def__init__(self):#初始值,实例化四大处理器:url管理器,下载器,解析器,输出器self.urls=UrlManager()self.downloader=UrlDownLoader()self.parser=HtmlParser()self.outer=HtmlOuter()#开始爬虫方法defstart_craw(self,main_url):print(爬虫开始...)count=1self.urls.add_new_url(main_url)whileself.urls.has_new_url():try:new_url=self.urls.get_new_url()print(爬虫%d,%s%(count,new_url))html_cont=self.downloader.down_load(new_url)new_urls,new_data=self.parser.parse(new_url,html_cont)#将解析出的url放入url管理器,解析出的数据放入输出器中self.urls.add_new_urls(new_urls)self.outer.conllect_data(new_data)ifcount=10:#控制爬取的数量breakcount+=1except:print(爬虫失败一条)self.outer.output()print(爬虫结束。)if__name__==__main__:main_url=

转载请注明:http://www.bbyubao.com/dsbls/13072.html

网站简介 | 发布优势 | 服务条款 | 隐私保护 | 广告合作 | 合作伙伴 | 版权申明 | 网站地图

当前时间: