首页 » 开发 » python » python抓取一个页面的目标网址,然后抓取目标网址里的内容

python抓取一个页面的目标网址,然后抓取目标网址里的内容

 

这次测试的是招聘页面
https://www.liepin.com/zhaopin/?key=python
目标是先抓取到里面各个公司职位介绍的链接,然后在根据链接抓取到里面根据职位的介绍。

代码如下:正则匹配见注释。

#coding=utf-8
'''流程 先抓目标网页,然后抓取和匹配目标网址,然后把目标网址变成要抓的网页,然后进行抓取和匹配'''
import re,requests,time
diyihtml = requests.get("https://www.liepin.com/zhaopin/?key=python").text
for urllist1 in re.findall(r'见注释-正则1',diyihtml,re.S):
    urllist1 = urllist1.replace("https://www.liepin.com","")#发现有部分不是标准的链接,这里就先删掉前面的,然后统一添加。
    urllist1 = "https://www.liepin.com"+urllist1
    print(urllist1)
    time.sleep(10)
    zhaopinhtml = requests.get(urllist1).text
    for title,daiyu,diqu,nianxian,miaoshu in re.findall(r'见注释-正则2',zhaopinhtml,re.S):
        jieguo = title+"&"+daiyu+"&"+diqu+"&"+nianxian+"&"+miaoshu
        print(jieguo)

.*?

(.*?)

-->

原文链接:python抓取一个页面的目标网址,然后抓取目标网址里的内容,转载请注明来源!

0