程序员文章、书籍推荐和程序员创业信息与资源分享平台

网站首页 > 技术文章 正文

如何用Python玩转爬虫(怎么利用python爬虫爬数据)

hfteth 2025-05-05 15:57:29 技术文章 10 ℃

我们这个之前应该先看代码为主吧,很多网站不喜欢去爬的,并且很多是禁止爬的。这方面的都不怎么拿来讲。

爬虫不好随便玩,写个简单的就好了,练习下爬虫代码说明下就好了。不要涉及的太深,人家不允许的你千万不要去弄,还要控制好爬取方式,不要一天到晚的弄,那样会弄来麻烦的。重点不要爬涉及个人隐私及保护的数据,违反规定的事情,学下就可以了 。


先导入request、bs4。


import requests
from bs4 import BeautifulSoup #解析HTML/XML文档
response = requests.get("https://***.***.com")#发送get请求
soup = BeautifulSoup(response.text, 'html.parser')#响应内容和指定解析简单页面
for news in soup.select(".hotnews a"):#hotnews <a>标签
print(news.text.strip())#测试看看文本,优化下去掉空白字符


我们选择一些允许的信息爬爬练习下就好了,不要什么都去爬。


爬的不仅要技术,还需要懂一些协议,人家已经禁止的东西,一定要遵守,不要试图跳过这些;没经许可,不要侵犯人加的版权,还有遵守国家的法律法规。

要查看是否允许

import urllib.robotparser
rp = urllib.robotparser.RobotFileParser()
rp.set_url("https://www.***.com/robots.txt")
rp.read()
print(rp.can_fetch("*", "/news"))

如果返回false就不要去玩了。看到true,也不要频繁去,人家也会封你IP。

最近发表
标签列表