spider
爬取B站视频
总结
- 登录后才能爬取到高码率的视频,因此get请求需要调用cookie
- 爬取下来的视频可能不支持预览,可能原因是播放器解码失败,选用KMPlayer播放视频
- 现如今只适配了电影和短视频,只保证了测试数据能正常运行,关键的问题还是在
check_video_type 这一个函数上面
解析JS渲染页面
解析:
- 关键代码:
a_tags = data.xpath("//a[@onclick]") 匹配所有a标签的onclick属性
- 输出text需要用
a.xpath("string()") 输出
- 模糊匹配后需要用
match.group(1) 提取出值