【爬虫数据集】李子柒YouTube频道TOP10热门视频的TOP2000热门评论,共计2W条

发布时间 2023-05-20 09:54:57作者: 马哥python说

一、背景

这段时间,有超多小伙伴找我要YouTube数据,做数据分析、情感分析之类的研究工作,但很多人并不是计算机软件相关专业,不具备爬虫开发技术,但又有数据需求,可能是新闻传播学、社会学等相关学科,旨在分析社会热点现象下各国网友的评论关键词、舆论舆情导向、评论感情色彩等研究内容,缺少数据源分析对象。
基于此研究目的,所以我的采集对象,无论是视频,还是评论,都选择按热门排序。这样的数据才最具代表性,最能体现网友的核心关注点和舆论倾向!
由此确定以下爬取目标。

二、爬取目标

爬取目标:李子柒频道TOP10热门视频的TOP2000热门评论(共计2w条)
李子柒是国内有代表性的youtuber之一,我用爬虫爬取的TOP10热门视频的评论:

每个视频下方的TOP2000评论,同样按热门排序。比如TOP1视频的评论如下:

也就是李子柒频道的10个视频,每个视频2000条评论,共2w条评论,爬取完成。(10*2000=2w)

三、结果展示

先看下我整理的李子柒TOP10热门视频列表:

下面看爬取到的评论数据。
共10个评论数据文件,每个文件对应一个视频,每个文件内含2000条评论。
(文件名并不是乱码,而是YouTube视频id号哦)

随便打开一个文件,比如TOP1热门视频的评论,看下内容:
包含字段:评论id、评论内容、评论时间、评论作者、作者频道、点赞数。

四、演示视频

https://www.zhihu.com/zvideo/1542810103975407616

五、附完整数据

完整数据: 【爬虫数据分享】李子柒YouTube频道TOP10热门视频的TOP2000热门评论