程序员文章、书籍推荐和程序员创业信息与资源分享平台

网站首页 > 技术文章 正文

5分钟学会Python爬虫,小白也能轻松上手!

hfteth 2025-04-06 16:19:00 技术文章 6 ℃

你是不是经常听到“爬虫”这个词,觉得它很高大上,甚至有点神秘?其实,爬虫并没有那么复杂,只要你会一点Python,5分钟就能上手!今天,咱们就来手把手教你写一个简单的Python爬虫,让你也能轻松抓取网页数据。


第一步:安装Python和必备库

在开始之前,你需要确保电脑上安装了Python。如果还没安装,可以去Python官网下载最新版本。

安装完成后,打开命令行(Windows用户按Win+R,输入cmd;Mac用户打开终端),输入以下命令安装必备库:

pip install requests
pip install beautifulsoup4
  • requests:用来发送网络请求,获取网页内容。
  • beautifulsoup4:用来解析网页,提取你需要的数据。

第二步:写一个简单的爬虫

接下来,我们以抓取豆瓣电影Top250为例,写一个简单的爬虫。

import requests
from bs4 import BeautifulSoup

# 目标网址
url = "https://movie.douban.com/top250"

# 发送请求,获取网页内容
response = requests.get(url)
html = response.text

# 解析网页
soup = BeautifulSoup(html, "html.parser")

# 提取电影标题
movies = soup.find_all("span", class_="title")
for movie in movies:
    print(movie.text)

第三步:运行代码

将上面的代码复制到一个Python文件(比如douban_spider.py),然后在命令行运行:

python douban_spider.py

如果一切顺利,你会看到控制台输出了豆瓣电影Top250的标题,比如:

肖申克的救赎
霸王别姬
阿甘正传
...

第四步:代码解析

  • requests.get(url):发送一个GET请求,获取网页的HTML内容。
  • BeautifulSoup(html, "html.parser"):用BeautifulSoup解析HTML。
  • soup.find_all("span", class_="title"):查找所有标签,且class为title的元素,这些元素就是电影标题。

第五步:扩展功能

如果你想抓取更多信息,比如电影的评分、导演、年份等,可以继续解析其他标签。比如:

# 提取电影评分
ratings = soup.find_all("span", class_="rating_num")
for rating in ratings:
    print(rating.text)

小提示

  1. 遵守规则:爬虫虽然强大,但一定要遵守网站的robots.txt规则,不要过度抓取,以免给服务器造成压力。
  2. 反爬虫机制:有些网站会设置反爬虫机制,比如验证码、IP封禁等。这时候可以尝试设置请求头、使用代理IP等方式绕过。

总结

你看,写一个简单的Python爬虫并没有想象中那么难吧?只要5分钟,你就能抓取网页数据,是不是很有成就感?当然,爬虫的世界远不止这些,还有更多高级技巧等着你去探索。

如果你对爬虫感兴趣,或者在学习过程中遇到问题,欢迎在评论区留言,咱们一起讨论!你也可以关注我,后续会分享更多实用的Python教程哦!

互动环节
你学会了吗?试着用这个爬虫抓取你感兴趣的网站数据吧!如果成功了,记得回来告诉我哦!

最近发表
标签列表