【0基础学爬虫】爬虫基础之自动化工具 Selenium 的使用

爲家爾戦 发表于 2023-4-20 18:21:58

大数据时代，各行各业对数据采集的需求日益增多，网络爬虫的运用也更为广泛，越来越多的人开始学习网络爬虫这项技术，K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章，为实现从易到难全方位覆盖，特设【0基础学爬虫】专栏，帮助小白快速入门爬虫，本期为自动化工具 Selenium 的使用。
概述

目前，很多网站都采用 Ajax 等技术进行动态加载数据，想要采集这类网站的数据，需要通过抓包对网站的数据接口进行分析，去寻找想要采集的数据由哪个接口传输。而且，就算找到了数据接口，这些接口可能也是被加密过的，想要通过接口获取数据，需要对加密参数进行逆向分析，这个过程对于初学者来说非常复杂。
为了解决这些问题，能够更加简单的进行爬取数据，我们可以使用到一些自动化工具，如 Selenium、playwright、pyppeteer 等，这些工具可以模拟浏览器运行，直接获取到数据加载完成后的网页源码，这样我们就可以省去复杂的抓包、逆向流程，直接拿到数据。
Selenium 的使用

介绍

Selenium 是一个流行的自动化测试框架，可用于测试 Web 应用程序的用户界面。它支持多种编程语言，如Java、Python、Ruby等，并提供了一系列 API，可以直接操作浏览器进行测试。
安装

使用 selenium 首先需要下载浏览器驱动文件，这里以谷歌浏览器为例。在驱动下载页面找到与自己浏览器版本最为接近的文件，如我的谷歌浏览器版本为 112.0.5615.86，最接近的文件为 112.0.5615.49，选择此文件，下载对应系统版本的压缩包，将压缩包中的chromedriver.exe程序放到python目录中。因为正常情况下Python在安装时就会被添加到系统环境变量之中，将chromedriver.exe放到Python目录下它就可以在任意位置被执行。

添加好驱动文件后需要安装 Python 的第三方库 selenium。
pip install selenium
使用

Selenium 支持多种浏览器，如谷歌、火狐、Edge、Safari等，这里我们以谷歌浏览器为例。
from selenium import webdriver

# 初始化浏览器对象
driver = webdriver.Chrome()
# 驱动浏览器打开目标网址
driver.get('https://www.baidu.com/')
# 打印当前页面的源代码
print(driver.page_source)
# 关闭浏览器
driver.quit()运行代码后我们会发现自动打开了一个浏览器，访问了目标网址，在控制台输出了页面的源代码，然后自动关闭。
Selenium 提供了一系列实用的 Api，通过它我们可以实现更多操作。
元素查找

在之前的文章《解析库的使用》中，我们已经讲到了 Xpath、bs4 这两个库的使用方法，讲到了 Xpath 的路径表达式和 CSS 选择器，因此这里主要讲解定位方法，路径表达式与 CSS 选择器的使用可以去前文中了解。
以京东首页为例，想要获取秒杀栏目的商品信息，我们可以通过多种方法来进行定位。

from selenium import webdriverfrom selenium.webdriver.common.by import Bydriver = webdriver.Chrome()driver.get('https://www.jd.com/')# 根据 Xpath 定位goods_xpath = driver.find_elements(By.XPATH, '//div[@]/div/a[@]')# 根据 Css 选择器定位goods_css = driver.find_elements(By.CSS_SELECTOR, 'a[]')# 根据类名定位goods_class_name = driver.find_elements(By.CLASS_NAME,'seckill-item')print(goods_xpath)for goods in goods_xpath: # 输出节点的文本信息 print(goods.text) driver.quit()# [

页: [1]

翼度科技's Archiver

【0基础学爬虫】爬虫基础之自动化工具 Selenium 的使用