网站首页 > 技术文章 正文
当我们了解了前面讲过的不同库的网页爬取后,在实践当中会发现有的时候代码检查没有问题,就是爬取不到数据,这是因为碰到了使用异步加载技术的网页。
何为异步加载?
想理解异步加载技术,先要知道传统的网页是如何加载的,首先,传统的网页更新内容需要对整个页面进行刷新更新,资源浪费较大,但是现在常用的异步加载技术(AJAX:JavaScript和XML)指的就是一种交互式网页应用技术,如没有翻页,一致下滑可以不断更新网页部分数据信息,同时当前网页基础框架和网址等信息都不变指的就是异步加载技术,大大的节约了网络资源。
还有一种判断是否使用了异步加载的方法,就是通过查看数据是否在网页源代码中。
使用了异步加载的网页后,网页中的内容在HTML中是找不到文本信息的,这时候通过常规三大爬取库是抓不到信息的,因此需要逆向去寻找推导出来网页是如何加载数据的过程,这个过程就叫做逆向工程。
如何实现逆向工程?
以Pexels网站为例,我们来看一下如何实现逆向工程:
- 打开Chrome浏览器对应Pexels网站,右键检查,打开网页源代码,选择Network选项卡。
- 继续手动下滑网页,会发现XHR文件在不断加载更新,通过上图红框可以发现在固定变化的URL:
https://www.pexels.com/search/book/?format=js&seed=&page=2&type=
https://www.pexels.com/search/book/?format=js&seed=&page=3&type=
https://www.pexels.com/search/book/?format=js&seed=&page=4&type=
尝试删除上述URL中的部分,得到
https://www.pexels.com/search/book/? page=2发现也可以返回正常的网页
这样就逆向推导出来了真实的网页URL,也知道了网页的变化规律,可以开始进行数据爬取了。
由于Pexels图片网站设置了比较严格的反扒机制,后续我们来讲如何破解,我们用hippopx图片网站来进行实践练习,此网站也有大量精美免费无版权图片,大家可尝试看看。
详细代码如下:
import requests
from lxml import etree
import os
headers={
"accept": "xxxx",
"cookie": "xxxx",
"User-Agent": "xxxx",
"referer": "xxxx"
}
list=[]
file='存储路径'
url='https://www.hippopx.com/'
html=requests.get(url,headers=headers)
selector=etree.HTML(html.text)
imgs=selector.xpath('//*[@id="flow"]/li/figure/a/img')
for img in imgs:
photo=img.get('src')
list.append(photo)
for item in list:
print(item)
data=requests.get(item,headers=headers)
fp= open(file+'/'+item.split('/')[-1],'wb')
fp.write(data.content)
fp.close()
运行结果如下:
存储图片如下:
以上就是异步加载的内容,大家有任何疑问欢迎随时交流!
--每天一小步,未来一大步!
猜你喜欢
- 2025-05-08 使用Python爬取给定网页的所有链接(附完整代码)
- 2025-05-08 python爬取电子课本,送给居家上课的孩子们
- 2025-05-08 Python爬虫实战,selenium模拟登录,Python实现抓取某东商品数据
- 2025-05-08 「2022 年」崔庆才 Python3 爬虫教程 - aiohttp 的基本使用
- 2025-05-08 Python爬虫实战:爬取动态网页数据
- 2025-05-08 python爬虫怎么副业接单(python爬虫在哪接单)
- 2025-05-08 「2022 年」崔庆才 Python3 爬虫教程 - 网页解析利器 XPath 初体验
- 2025-05-08 惊呆了!Python还能这样用?爬取网页数据并存储至本地数据库
- 2025-05-08 使用ChatGPT编码抓取网页数据成功
- 2025-05-08 python爬虫09 | 上来,自己动!这就是 selenium 的牛逼之处
- 263℃Python短文,Python中的嵌套条件语句(六)
- 262℃python笔记:for循环嵌套。end=""的作用,图形打印
- 261℃PythonNet:实现Python与.Net代码相互调用!
- 255℃Python操作Sqlserver数据库(多库同时异步执行:增删改查)
- 255℃Python实现字符串小写转大写并写入文件
- 113℃原来2025是完美的平方年,一起探索六种平方的算吧
- 94℃Python 和 JavaScript 终于联姻了!PythonMonkey 要火?
- 87℃Ollama v0.4.5-v0.4.7 更新集合:Ollama Python 库改进、新模型支持
- 最近发表
- 标签列表
-
- python中类 (31)
- python 迭代 (34)
- python 小写 (35)
- python怎么输出 (33)
- python 日志 (35)
- python语音 (31)
- python 工程师 (34)
- python3 安装 (31)
- python音乐 (31)
- 安卓 python (32)
- python 小游戏 (32)
- python 安卓 (31)
- python聚类 (34)
- python向量 (31)
- python大全 (31)
- python次方 (33)
- python桌面 (32)
- python总结 (34)
- python浏览器 (32)
- python 请求 (32)
- python 前端 (32)
- python验证码 (33)
- python 题目 (32)
- python 文件写 (33)
- python中的用法 (32)