程序员文章、书籍推荐和程序员创业信息与资源分享平台

网站首页 > 技术文章 正文

python爬虫中你不得不了解的网页分类

hfteth 2025-01-06 21:45:41 技术文章 24 ℃

我们在爬虫前需要对网站页面进行分类处理,这就需要你了解页面的分类情况。如下动静之分:

静态页面的数据不会变动。动态页面数据会随时变动,数据是js生成的。另外需要注意的是需要登录的静态/动态页面,以及需要的各种验证码的网页。

1、静态网页:纯粹HTML格式的网页通常被称为"静态网页",没有后台数据库、不含程序和不可交互的网页。更新起来比较麻烦,适用于一般更新较少的展示型网站。

2、动态网页:相对于静态页面而言,动态页面代码虽然没有变,但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变的。值得强调的是,不要将动态网页和页面内容是否有动感混为一谈。这里说的动态网页,与网页上的各种动画、滚动字幕等视觉上的动态效果没有直接关系,动态网页也可以是纯文字内容的,也可以是包含各种动画的内容,这些只是网页具体内容的表现形式,无论网页是否具有动态效果,只要是采用了动态网站技术生成的网页都可以称为动态网页。


一般情况你遇到的都是动态页面了。

Tags:

最近发表
标签列表