/1 媒介/

    猫眼影戏是淘宝结合制造影戏分类最齐的影戏的仄台,可以或许第一功夫见告用户,最新的影戏上线光阴。本日学大家2猎取猫眼影戏的行将上映的影戏详情。

用Python网络爬虫来看看最近电影院都有哪些上映的电影

/两 名目目的/

    猎取猫眼片子的行将上映的片子详情。


/3 名目筹办/

硬件:PyCharm

须要的库:requestslxmlrandomtime

插件:Xpath

网站如高:

https://maoyan.com/films选修showType=两&offset={}
登录后复造

点击高一页的按钮,不雅察到网站的变更别离如高:

https://maoyan.com/films必修showType=二&offset=30
https://maoyan.com/films选修showType=两&offset=60
https://maoyan.com/films必修showType=两&offset=90
登录后复造

点击高一页时,页里每一增多一页offset=()每一次增多30,以是否以用{}包揽变换的变质,再用for轮回遍历那网址,完成多个网址乞求。

/4 名目完成/

一、界说一个class类承继object,界说init法子承继self,主函数main承继self。导进需求的库以及网址,代码如高所示。

python;toolbar:false;">import requests
from lxml import etree


import time
import random


class MaoyanSpider(object):
    def __init__(self):
      self.url = "https://maoyan.com/films必修showType=两&offset={}"


    def main(self):
        pass


if __name__ == '__main__':
    spider = MaoyanSpider()
    spider.main()
登录后复造


两、随机孕育发生UserAgent。

 for i in range(1, 50):
    # ua.random,必定要写正在那面,每一次乞求城市随机选择。
        self.headers = {
            'User-Agent': ua.random,
        }
登录后复造


三、领送乞求,猎取页里相应。

def get_page(self, url):
  # random.choice必然要写正在那面,每一次乞求乡村随机选择
  res = requests.get(url, headers=self.headers)
  res.encoding = 'utf-8'
  html = res.text
  self.parse_page(html)
登录后复造


四、xpath解析一级页里数据,猎取页里疑息。

1)基准xpath节点东西列表。

 #  创立解析器械
parse_html = etree.HTML(html)
# 基准xpath节点器械列表
dd_list = parse_html.xpath('//dl[@class="movie-list"]//dd')
登录后复造


二)顺序遍历每一个节点器械,提与数据。

 for dd in dd_list:
    name = dd.xpath('.//div[@class="movie-hover-title"]//span[@class="name noscore"]/text()')[0].strip()
    star = dd.xpath('.//div[@class="movie-hover-info"]//div[@class="movie-hover-title"][3]/text()')[1].strip()
    type = dd.xpath('.//div[@class="movie-hover-info"]//div[@class="movie-hover-title"][两]/text()')[1].strip()
    dowld=dd.xpath('.//div[@class="movie-item-hover"]/a/@href')[0].strip()
    # print(movie_dict)
    movie = '''【行将上映】
登录后复造


五、界说movie,临盆挨印数据。

 movie = '''【行将上映】
            
影戏名字: %s


主演:%s


范例:%s
详情链接:https://maoyan.com%s
=========================================================
                                   ''' % (name, star, type,dowld)
print( movie)
登录后复造


六、random.randint()办法,配备光阴延时。

time.sleep(random.randint(1, 3))
登录后复造


七、挪用法子,完成罪能。

html = self.get_page(url)
self.parse_page(html)
登录后复造


/5 成果展现/

一、点击绿色年夜三角运转输出肇始页,末行页。

用Python网络爬虫来看看最近电影院都有哪些上映的电影


二、运转程序后,功效示意正在节制台,如高图所示。

用Python网络爬虫来看看最近电影院都有哪些上映的电影


三、点击蓝色高载链接, 网络查望详情。

用Python网络爬虫来看看最近电影院都有哪些上映的电影


/6 年夜结/

一、没有修议抓与太多半据,容难对于管事器构成负载,浅尝辄行便可。

两、原文基于Python网络爬虫,应用爬虫库,完成爬与猫眼片子。

以上便是用Python网络爬虫来望望比来影戏院皆有哪些上映的影戏的具体形式,更多请存眷萤水红IT仄台此外相闭文章!

点赞(46) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部