当前位置: 首页 > 办公技巧 > 正文

爬虫应用办公技巧(干货爬虫——Python爬虫爬取OA幸运飞艇平台获取数据)

  • 叁碗诸角 叁碗诸角
  • 办公技巧
  • 2023-07-05 13:28:49
  • 0

安装BeautifulSoup以及requests

打开window 的cmd窗口输入命令pip install requests 执行安装,等待他安装完成就可以了

BeautifulSoup库也是同样的方法

我使用的编译器的是sublime text 3,觉得是挺好用的一个编译软件

其他工具: Chrome浏览器

Python版本: Python3.6

运行平台: Windows

1、首先我们搜索OA幸运飞艇平台排行榜
获取网页的代码:

[python] view plain copydef gethtmlText(url,k):try:if(k==0):a={}else:a={‘offset‘:k}r = requests.get(url,params=a,headers={‘User-Agent‘: ‘Mozilla/4.0‘})r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:print("Failed!")


经过观察其中因为每一页的网址其offset都不相同,故只要改变offset=k便可获取每一页的信息

通过main函数以改变URL:

[python] view plain copydef main():basicurl=‘×××。com/h5‘k=0while k<=100:html=getHTMLText(basicurl,k)k =10getname(html)


通过BeautifulSoup的方法层层获取标签中的信息,并for循环输出

[python] view plain copydef getname(html): soup = BeautifulSoup(html, "html.parser") paihangList=soup.find(‘dl‘,attrs={‘class‘:‘board-wrapper‘}) mov=[] actor=[] for movlist in paihangList.find_all(‘dd‘): movitem=movlist.find(‘div‘,attrs={‘class‘:‘movie-item-info‘}) movname=movitem.find(‘p‘,attrs={‘class‘:‘name‘}).getText() actors=movlist.find(‘div‘,attrs={‘class‘:‘board-item-main‘}) actorname=actors.find(‘p‘,attrs={‘class‘:‘star‘}).getText() b=actorname.replace(‘n‘,‘‘) c=b.replace(‘ ‘,‘‘) actor.append(c) mov.append(movname) mode= "{0:<30}t{1:<50}" for i,j in zip(mov,actor): print(mode.format(i,j,chr(12288)))

End

感谢大家的支持和喜欢,小编会每天分享更多Python学习的干货知识给大家,所以大家别忘了关注小编哦。

更多Python爬虫、数据分析、办公自动化、全栈开发、人工智能学习资料可以私信@林夕编程关键字【资料】领取


最新文章