browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
print(browser.page_source)
browser.close()
查找元素
1.查找单个元素
selenium查找元素的方法有很多:
find_element_by_name
find_element_by_id
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector
下面举一个例子:
from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
input_first = browser.find_element_by_id("q")
input_second = browser.find_element_by_css_selector("#q")
input_third = browser.find_element_by_xpath('//*[@id="q"]')
print(input_first)
print(input_second)
print(input_third)
browser.close()
例子中通过三种不同的方式去获取响应的元素,第一种是通过id的方式,第二个中是CSS选择器,第三种是xpath选择器,结果都是相同的
2.查找多个元素
查找多元素与查找单个元素的区别不大,在函数名上多加了一个s例如:find_elements_by_name。查找大哥元素返回的是符合查找条件的第一个标签,查找多个元素返回的是符合条件的所有标签。
3.获取元素属性
在查找到相应元素后可以利用get_attribute(属性名称)函数获取属性值
举一个简单的例子如下:
from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
input_str = driver.find_element_by_id('q')
print(input_str.get_attribute('aria-label'))
得到的结果是:"请输入搜索文字"
4.获取文本值
与获取元素属性类似,不过更简单,直接在查找到元素后利用其text方法
5.获取标签位置及大小
与获取文本值一样,获取位置的方法为location,获取大小的方法为size
from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
input_str = driver.find_element_by_id('q')
print(input_str.location)
print(input_str.size)
模拟操作
1.元素交互操作
元素交互操作是指咱们经常用到的如查询操作,登陆操作等
下面举一个查询操作的例子:
from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
# print('cookies:', driver.get_cookies())
browser.find_element_by_name("postid").clear() # 清空输入框内容
browser.find_element_by_name("postid").send_keys('3346535929281') # 输入订单号
browser.find_element_by_id("query").click() # 点击搜索按钮
该例是在快递100中查询一个订单的物流信息。
2.执行JavaScript操作
这是一个非常有用的方法,这里就可以直接调用js方法来实现一些操作,下面的例子是打开快递100通过js翻到页面底部
from selenium import webdriver
browser = webdriver.Chrome(executable_path=r'E:\EXE\chromedriver_win32\chromedriver')# executable_path后面跟的是chromedriver的绝对路径
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
切换Frame
frame标签是比较特殊的,定位该标签内部的元素时必须先切换到对应的frame内,通过下面的例子演示这里常用的是switch_to.frame()和switch_to.parent_frame():
from selenium import webdriver
from import NoSuchElementExceptionbrowser = webdriver.Chrome()
browser.switch_to.frame('ueditor_1')
source = browser.find_element_by_class_name('view')
print(source)
try:
logo = browser.find_element_by_xpath('//*[@id="main"]/div[1]/div/div/div[1]/a/h1/img')except NoSuchElementException: print('NO LOGO')browser.switch_to.parent_frame()logo = browser.find_element_by_xpath('//*[@id="main"]/div[1]/div/div/div[1]/a/h1/img')
print(logo)print(logo.get_attribute('src'))
很多时候网页中要获取的内容显示其在一个框框里面,大家就要查看其是不是在各个框架内,避免出错。
等待
网页中很多内容是通过Ajax加载,需要一定时间才能加载出来,但selenium默认的是打开网页后变开始定位元素,这样容易出现找不到元素这样的问题,不过selenium提供了两种等待元素出现的方式:显示等待和隐式等待。
1.显示等待
指定一个等待条件,并且指定一个最长等待时间,会在这个时间内进行判断是否满足等待条件,如果成立就会立即返回,如果不成立,就会一直等待,直到等待你指定的最长等待时间,如果还是不满足,就会抛出异常,如果满足了就会正常返回。
from selenium import webdriver
from import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
browser = webdriver.Chrome()
wait = WebDriverWait(browser, 10)
input = wait.until(EC.presence_of_element_located((By.ID, 'q')))
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))
print(input, button)
上述的例子中的条件:EC.presence_of_element_located()是确认元素是否已经出现了EC.element_to_be_clickable()是确认元素是否是可点击的
常用的判断条件:
title_is 标题是某内容
title_contains 标题包含某内容
presence_of_element_located 元素加载出,传入定位元组,如(By.ID, 'p')
visibility_of_element_located 元素可见,传入定位元组
visibility_of 可见,传入元素对象
presence_of_all_elements_located 所有元素加载出
text_to_be_present_in_element 某个元素文本包含某文字
text_to_be_present_in_element_value 某个元素值包含某文字
frame_to_be_available_and_switch_to_it frame加载并切换
invisibility_of_element_located 元素不可见
element_to_be_clickable 元素可点击
staleness_of 判断一个元素是否仍在DOM,可判断页面是否已经刷新
element_to_be_ 元素可选择,传元素对象
element_located_to_be_selected 元素可选择,传入定位元组
element_selection_state_to_be 传入元素对象以及状态,相等返回True,否则返回False
element_located_selection_state_to_be 传入定位元组以及状态,相等返回True,否则返回False
alert_is_present 是否出现Alert
2.隐式等待
到了一定的时间发现元素还没有加载,则继续等待我们指定的时间,如果超过了我们指定的时间还没有加载就会抛出异常,如果没有需要等待的时候就已经加载完毕就会立即执行。
from selenium import webdriver
browser = webdriver.Chrome()
browser.implicitly_wait(10)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input)
选项卡管理
通过执行window.open()实现新开选项卡
通过browser.window_handles函数可以获得选项卡列表
通过browser.window_handles[n]就可以操作第n个选项卡
通过browser.close()关闭当前选项卡
from selenium import webdriver
browser =
browser.execute_script('window.open()')# 打开一个新的选项卡print(browser.window_handles)
browser.switch_to_window(browser.window_handles[1])#切换到第二个选项卡,注意这里0为第一个
browser.switch_to_window(browser.window_handles[0])
browser.get('https://python.org')