程序员文章、书籍推荐和程序员创业信息与资源分享平台

网站首页 > 技术文章 正文

超有趣!用 Python 爬取抖音热门视频数据,探索爆款密码

hfteth 2025-03-25 13:37:37 技术文章 17 ℃

在当今的社交媒体时代,抖音无疑是最热门的平台之一。每天都有海量的视频被上传,其中一些视频迅速走红,成为爆款。你是否好奇这些热门视频背后有什么规律?今天,我们就用 Python 来爬取抖音热门视频数据,一探究竟。




一、前期准备



  1. 安装必要的库:我们需要用到 requests 库来发送 HTTP 请求,BeautifulSoup 库来解析 HTML 页面,以及 pandas 库来处理和存储数据。可以使用 pip 命令进行安装,在命令行中输入 “pip install requests beautifulsoup4 pandas”。
  2. 分析抖音页面:打开抖音网站,进入热门视频页面,通过浏览器的开发者工具(通常是按 F12),查看页面的 HTML 结构和请求数据的接口。了解如何获取视频的标题、点赞数、评论数等信息。




二、编写爬虫代码



python

import requests
from bs4 import BeautifulSoup
import pandas as pd


def get_douyin_hot_videos():
    url = "https://www.douyin.com/hot"
    headers = {
        "User - Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
    }
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')

    video_list = []
    video_items = soup.find_all('div', class_='video-item')
    for item in video_items:
        title = item.find('span', class_='video-title').text.strip()
        like_count = item.find('span', class_='like-count').text.strip()
        comment_count = item.find('span', class_='comment-count').text.strip()

        video = {
            '标题': title,
            '点赞数': like_count,
            '评论数': comment_count
        }
        video_list.append(video)

    return video_list


if __name__ == "__main__":
    videos = get_douyin_hot_videos()
    df = pd.DataFrame(videos)
    df.to_csv('douyin_hot_videos.csv', index=False, encoding='utf-8')



这段代码首先发送请求获取抖音热门视频页面的 HTML 内容,然后使用 BeautifulSoup 解析页面,提取每个视频的标题、点赞数和评论数,并将这些信息存储在一个列表中,最后使用 pandas 将数据保存到 CSV 文件中。




三、数据分析与探索



  1. 读取数据:使用 pandas 读取保存的 CSV 文件,“df = pd.read_csv ('douyin_hot_videos.csv')”。
  2. 简单分析:查看数据的基本信息,如 “df.info()”,可以了解数据的行数、列的数据类型等。计算热门视频的平均点赞数和评论数,“average_like = df [' 点赞数 '].astype (int).mean ()”,“average_comment = df [' 评论数 '].astype (int).mean ()”。
  3. 相关性分析:可以进一步分析点赞数和评论数之间的相关性,看是否存在某种规律。使用 “correlation = df [[' 点赞数 ', ' 评论数 ']].corr ()” 来计算相关性矩阵。



通过对爬取到的数据进行分析,我们发现点赞数高的视频通常评论数也较高,而且视频的标题往往具有吸引力,包含热门话题或有趣的关键词。当然,这只是初步的分析,抖音热门视频的爆款密码还有很多因素值得深入探索。通过 Python 爬虫和数据分析,我们可以从数据的角度更好地理解抖音的热门视频现象,为内容创作者提供一些参考和思路。 随着技术的不断发展,我们还可以进一步优化爬虫,获取更多维度的数据,进行更深入的分析。

最近发表
标签列表