spider

category
Python
date
Apr 10, 2026
icon
password
slug
spider
status
Published
summary
一些爬虫相关的场景
tags
type
Post

爬取B站视频

总结

  • 登录后才能爬取到高码率的视频,因此get请求需要调用cookie
  • 需要获取登录状态的cookie才有效
  • 爬取下来的视频可能不支持预览,可能原因是播放器解码失败,选用KMPlayer播放视频
  • ffmpeg的视频合成效率远高于moviepy
  • 现如今只适配了电影和短视频,只保证了测试数据能正常运行,关键的问题还是在 check_video_type 这一个函数上面
 

解析JS渲染页面

解析:
  • 关键代码:a_tags = data.xpath("//a[@onclick]") 匹配所有a标签的onclick属性
  • 取到的数据是一个列表,遍历可以模糊匹配
  • 输出text需要用a.xpath("string()") 输出
  • 模糊匹配后需要用match.group(1) 提取出值
 
 
上一篇
openCv
下一篇
CDH安装
Loading...
目录