本文实例讲述了Python爬虫实现爬取百度百科词条功能。分享给大家供大家参考,具体如下:
以下我写了一个爬取百度百科词条的实例。
爬虫主程序入口
fromcrawler_test.html_downloaderimportUrlDownLoaderfromcrawler_test.html_outerimportHtmlOuterfromcrawler_test.html_parserimportHtmlParserfromcrawler_test.url_managerimportUrlManager#爬虫主程序入口classMainCrawler():def__init__(self):#初始值,实例化四大处理器:url管理器,下载器,解析器,输出器self.urls=UrlManager()self.downloader=UrlDownLoader()self.parser=HtmlParser()self.outer=HtmlOuter()#开始爬虫方法defstart_craw(self,main_url):print(爬虫开始...)count=1self.urls.add_new_url(main_url)whileself.urls.has_new_url():try:new_url=self.urls.get_new_url()print(爬虫%d,%s%(count,new_url))html_cont=self.downloader.down_load(new_url)new_urls,new_data=self.parser.parse(new_url,html_cont)#将解析出的url放入url管理器,解析出的数据放入输出器中self.urls.add_new_urls(new_urls)self.outer.conllect_data(new_data)ifcount=10:#控制爬取的数量breakcount+=1except:print(爬虫失败一条)self.outer.output()print(爬虫结束。)if__name__==__main__:main_url=