网站首页 > 技术文章 正文
我们这个之前应该先看代码为主吧,很多网站不喜欢去爬的,并且很多是禁止爬的。这方面的都不怎么拿来讲。
爬虫不好随便玩,写个简单的就好了,练习下爬虫代码说明下就好了。不要涉及的太深,人家不允许的你千万不要去弄,还要控制好爬取方式,不要一天到晚的弄,那样会弄来麻烦的。重点不要爬涉及个人隐私及保护的数据,违反规定的事情,学下就可以了 。
先导入request、bs4。
import requests
from bs4 import BeautifulSoup #解析HTML/XML文档
response = requests.get("https://***.***.com")#发送get请求
soup = BeautifulSoup(response.text, 'html.parser')#响应内容和指定解析简单页面
for news in soup.select(".hotnews a"):#hotnews <a>标签
print(news.text.strip())#测试看看文本,优化下去掉空白字符
我们选择一些允许的信息爬爬练习下就好了,不要什么都去爬。
爬的不仅要技术,还需要懂一些协议,人家已经禁止的东西,一定要遵守,不要试图跳过这些;没经许可,不要侵犯人加的版权,还有遵守国家的法律法规。
要查看是否允许
import urllib.robotparser
rp = urllib.robotparser.RobotFileParser()
rp.set_url("https://www.***.com/robots.txt")
rp.read()
print(rp.can_fetch("*", "/news"))
如果返回false就不要去玩了。看到true,也不要频繁去,人家也会封你IP。
猜你喜欢
- 2025-05-05 一篇文章教会你利用Python网络爬虫成为斗图达人
- 2025-05-05 豆瓣9.4,Python网络爬虫实战,助你快速精通爬虫,PDF拿走不谢
- 2025-05-05 盘点一个使用playwright实现网络爬虫的实战案例
- 2025-05-05 别再用手敲了,这个工具可以自动生成python爬虫代码
- 2025-05-05 Python应用短文,如何自制一个简易的网络爬虫
- 2025-05-05 你们想要的Python爬虫教程来了:从原理到实践
- 263℃Python短文,Python中的嵌套条件语句(六)
- 262℃python笔记:for循环嵌套。end=""的作用,图形打印
- 261℃PythonNet:实现Python与.Net代码相互调用!
- 256℃Python实现字符串小写转大写并写入文件
- 255℃Python操作Sqlserver数据库(多库同时异步执行:增删改查)
- 113℃原来2025是完美的平方年,一起探索六种平方的算吧
- 96℃Python 和 JavaScript 终于联姻了!PythonMonkey 要火?
- 87℃Ollama v0.4.5-v0.4.7 更新集合:Ollama Python 库改进、新模型支持
- 最近发表
- 标签列表
-
- python中类 (31)
- python 迭代 (34)
- python 小写 (35)
- python怎么输出 (33)
- python 日志 (35)
- python语音 (31)
- python 工程师 (34)
- python3 安装 (31)
- python音乐 (31)
- 安卓 python (32)
- python 小游戏 (32)
- python 安卓 (31)
- python聚类 (34)
- python向量 (31)
- python大全 (31)
- python次方 (33)
- python桌面 (32)
- python总结 (34)
- python浏览器 (32)
- python 请求 (32)
- python 前端 (32)
- python验证码 (33)
- python 题目 (32)
- python 文件写 (33)
- python中的用法 (32)