程序员文章、书籍推荐和程序员创业信息与资源分享平台

网站首页 > 技术文章 正文

使用Python进行网页抓取

hfteth 2025-03-11 16:19:52 技术文章 27 ℃

使用Python进行网页抓取

从网站提取数据

import requests
from bs4 import BeautifulSoup

def get_html(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    return soup

if __name__ == '__main__':
    url = 'http://python.org'
    html = get_html(url)
    print(html)

说明:此脚本利用requests和BeautifulSoup库从网站上抓取数据,可以用于提取网页中的特定信息。

批量下载网站图片

import requests
from bs4 import BeautifulSoup

def get_image_urls(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    images = soup.find_all('img')
    image_urls = [img['src'] for img in images]
    print(image_urls)
    return image_urls

if __name__ == '__main__':
    url = 'http://www.baidu.com'
    get_image_urls(url)

说明:此脚本从网站批量下载图像,适用于从API获取图像URL数组的场景。

自动提交表单

import requests

def submit_form(url, form_data):
    response = requests.post(url, data=form_data)
    if response.status_code == 200:
        # 在这里处理表单提交后的响应
        pass

说明:此脚本通过发送带有表单数据的POST请求自动在网站上提交表单,适用于自动化表单提交任务。


Tags:

最近发表
标签列表