您的当前位置:首页正文

【小白学爬虫连载(6)】--Selenium库详解

来源:花图问答
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径

print(browser.page_source)
browser.close() 

查找元素

1.查找单个元素

selenium查找元素的方法有很多:

find_element_by_name
find_element_by_id
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector

下面举一个例子:


from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径

input_first = browser.find_element_by_id("q")
input_second = browser.find_element_by_css_selector("#q")
input_third = browser.find_element_by_xpath('//*[@id="q"]')
print(input_first)
print(input_second)
print(input_third)
browser.close()

例子中通过三种不同的方式去获取响应的元素,第一种是通过id的方式,第二个中是CSS选择器,第三种是xpath选择器,结果都是相同的

2.查找多个元素

查找多元素与查找单个元素的区别不大,在函数名上多加了一个s例如:find_elements_by_name。查找大哥元素返回的是符合查找条件的第一个标签,查找多个元素返回的是符合条件的所有标签。

3.获取元素属性

在查找到相应元素后可以利用get_attribute(属性名称)函数获取属性值

举一个简单的例子如下:


from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径

input_str = driver.find_element_by_id('q')
print(input_str.get_attribute('aria-label'))

得到的结果是:"请输入搜索文字"

4.获取文本值

与获取元素属性类似,不过更简单,直接在查找到元素后利用其text方法

5.获取标签位置及大小

与获取文本值一样,获取位置的方法为location,获取大小的方法为size


from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径

input_str = driver.find_element_by_id('q')
print(input_str.location)
print(input_str.size)

模拟操作

1.元素交互操作

元素交互操作是指咱们经常用到的如查询操作,登陆操作等

下面举一个查询操作的例子:


from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径

# print('cookies:', driver.get_cookies())
browser.find_element_by_name("postid").clear() # 清空输入框内容
browser.find_element_by_name("postid").send_keys('3346535929281') # 输入订单号
browser.find_element_by_id("query").click() # 点击搜索按钮

该例是在快递100中查询一个订单的物流信息。

2.执行JavaScript操作

这是一个非常有用的方法,这里就可以直接调用js方法来实现一些操作,下面的例子是打开快递100通过js翻到页面底部


from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径

browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')

切换Frame

frame标签是比较特殊的,定位该标签内部的元素时必须先切换到对应的frame内,通过下面的例子演示这里常用的是switch_to.frame()和switch_to.parent_frame():

from selenium import webdriver
from  import NoSuchElementExceptionbrowser = webdriver.Chrome()

browser.switch_to.frame('ueditor_1')
source = browser.find_element_by_class_name('view')
print(source)
try: 
logo = browser.find_element_by_xpath('//*[@id="main"]/div[1]/div/div/div[1]/a/h1/img')except NoSuchElementException: print('NO LOGO')browser.switch_to.parent_frame()logo = browser.find_element_by_xpath('//*[@id="main"]/div[1]/div/div/div[1]/a/h1/img')
print(logo)print(logo.get_attribute('src'))

很多时候网页中要获取的内容显示其在一个框框里面,大家就要查看其是不是在各个框架内,避免出错。

等待

网页中很多内容是通过Ajax加载,需要一定时间才能加载出来,但selenium默认的是打开网页后变开始定位元素,这样容易出现找不到元素这样的问题,不过selenium提供了两种等待元素出现的方式:显示等待和隐式等待

1.显示等待

指定一个等待条件,并且指定一个最长等待时间,会在这个时间内进行判断是否满足等待条件,如果成立就会立即返回,如果不成立,就会一直等待,直到等待你指定的最长等待时间,如果还是不满足,就会抛出异常,如果满足了就会正常返回。


from selenium import webdriver
from  import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
browser = webdriver.Chrome()

wait = WebDriverWait(browser, 10)
input = wait.until(EC.presence_of_element_located((By.ID, 'q')))
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))
print(input, button)

上述的例子中的条件:EC.presence_of_element_located()是确认元素是否已经出现了EC.element_to_be_clickable()是确认元素是否是可点击的

常用的判断条件:

title_is 标题是某内容
title_contains 标题包含某内容
presence_of_element_located 元素加载出,传入定位元组,如(By.ID, 'p')
visibility_of_element_located 元素可见,传入定位元组
visibility_of 可见,传入元素对象
presence_of_all_elements_located 所有元素加载出
text_to_be_present_in_element 某个元素文本包含某文字
text_to_be_present_in_element_value 某个元素值包含某文字
frame_to_be_available_and_switch_to_it frame加载并切换
invisibility_of_element_located 元素不可见
element_to_be_clickable 元素可点击
staleness_of 判断一个元素是否仍在DOM,可判断页面是否已经刷新
element_to_be_ 元素可选择,传元素对象
element_located_to_be_selected 元素可选择,传入定位元组
element_selection_state_to_be 传入元素对象以及状态,相等返回True,否则返回False
element_located_selection_state_to_be 传入定位元组以及状态,相等返回True,否则返回False
alert_is_present 是否出现Alert

2.隐式等待

到了一定的时间发现元素还没有加载,则继续等待我们指定的时间,如果超过了我们指定的时间还没有加载就会抛出异常,如果没有需要等待的时候就已经加载完毕就会立即执行。


from selenium import webdriver
browser = webdriver.Chrome()
browser.implicitly_wait(10)

input = browser.find_element_by_class_name('zu-top-add-question')
print(input)

选项卡管理

通过执行window.open()实现新开选项卡
通过browser.window_handles函数可以获得选项卡列表
通过browser.window_handles[n]就可以操作第n个选项卡
通过browser.close()关闭当前选项卡

from selenium import webdriver
browser = 
browser.execute_script('window.open()')# 打开一个新的选项卡print(browser.window_handles)
browser.switch_to_window(browser.window_handles[1])#切换到第二个选项卡,注意这里0为第一个

browser.switch_to_window(browser.window_handles[0])
browser.get('https://python.org')