尝试使用爬虫技术下载视频

打开开发者工具看了html，对应播放器上的链接不是视频格式的。

而是一个blob链接，那用常规的方法肯定是拿不到这个视频的数据流了。

这时候我看到视频的下载进度条一直在走：

而且XHR页面，一直有ts文件在异步加载：

我怀疑这两者有啥关联，于是我拿了一个ts文件的链接对其进行下载：

用视频播放器打开下载完的ts文件，发现这是只有一秒钟的视频。

于是我想，能不能把所有的ts文件下载下来并合并成一个文件，这不就是一整个视频文件了吗？

但是，我怎么拿到所有ts文件的下载链接呢？

于是我们分析了，网页资源加载的包，我发现所有的链接竟然藏到一个m3u8的文件中。

这就太棒了，我直接下载这个文件，然后用正则把链接提取出来，进行批量下载。

下载到本地之后，再用cmd命令把它拼成一个文件不就行了吗？

开干！

import reimport requestsfrom multiprocessing.dummy import Pool# m3u8源文件链接m3u8_link = 'https://v5.cdtlas.com/20220619/F5xDKKMI/hls/index.m3u8'# 获取所有的ts文件下载链接def get_ts_links(url):    r = requests.get(url=url).text    ts_links = re.findall("(https://.*?\.ts)", r)    return list(enumerate(ts_links, start=1))# 通过链接下载ts文件def download(ts_link):    num, link = ts_link    r = requests.get(url=link)    print(f"开始下载 -- {link}")    file_name = f'{num}-{link.split("/")[-1]}'     with open(file_name,"wb")as fp:        fp.write(r.content)    print(f"{link} -- 下载完成！")    # 使用进程池提高下载效率def main():    tasks = get_ts_links(m3u8_link)    with Pool(8) as pool:        pool.map(download,tasks)main()