python爬虫_爬取B站视频标题开发者社区

python爬虫_爬取B站视频标题

#HTTP请求
import urllib
import urllib.request
#正则表达式
import re
import os

#发送请求并返回获取到的HTML数据(字符串)
def GetHTML(url):
    #伪装浏览器请求头
    header = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36 Edg/87.0.664.75'}
    #使用传入的url创建一个请求
    request = urllib.request.Request(url, headers = header)
    #发送请求并得到响应
    response = urllib.request.urlopen(request)
    #获取通过utf-8格式解码后的HTML数据
    HTML = response.read().decode('utf-8')
    #返回HTML数据
    return HTML

#从HTML数据中匹配出所有标题
def GetTitles(HTML):
    #通过正则表达式创建一个正则匹配模式
    pattern = re.compile('<p.*?class="title">(.*?)</p>')
    #得到所有匹配结果，findall的返回值类型为列表
    titles = re.findall(pattern, HTML)
    #返回所有标题内容
    return titles

#将数据保存到文件
def SaveData(data):
    #判断一个文件夹是否存在
    flag = os.path.exists('title')
    if not flag:
        #不存在则新建一个文件夹
        os.mkdir('title')
        print('文件夹','title','创建成功')
    else:
        print('文件夹','title','已存在')
    #将列表中的数据写入文件并保存在文件夹中
    i = 0
    for title in data:
        #打开文件时在文件名前加上文件夹路径
        file = open('title/'+'标题'+str(i)+'.txt', 'w')
        file.write(title)
        file.close()
        print('标题',str(i),'写入成功！')
        i += 1

#发送请求并获取数据
HTML = GetHTML('https://www.bilibili.com/')
#匹配出我们需要的数据