请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册

452

主题

454

帖子

2085

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
2085

成人网站PornHub爬虫分享(一天可爬取500万以上的视频)

[复制链接]
成人网站PornHub Python爬虫分享(一天可爬取500万以上的视频) 学习Scrapy爬虫框架和MongoDB数据库

PornHubBot介绍:

  • PornHubBot项目主要是爬取全球最大成人网站PornHub的视频标题、时长、mp4链接、封面URL和具体的PornHub链接
  • 项目爬的是PornHub,结构简单,速度飞快
  • 爬取PornHub视频的速度可以达到500万/天以上。具体视个人网络情况,因为我是家庭网络,所以相对慢一点。
  • 10个线程同时请求,可达到如上速度。若个人网络环境更好,可启动更多线程来请求,具体配置方法见 [启动前配置]

环境、架构

  • 开发语言: Python2.7
  • 开发环境: MacOS系统、4G内存
  • 数据库: MongoDB
  • 主要使用 scrapy 爬虫框架
  • 从Cookie池和UA池中随机抽取一个加入到Spider
  • start_requests 根据 PorbHub 的分类,启动了5个Request,同时对五个分类进行爬取。
  • 并支持分页爬取数据,并加入到待爬队列。

启动前配置

  • 安装MongoDB,并启动,不需要配置
  • 安装Scrapy
  • 安装Python的依赖模块:pymongo、json、requests
  • 根据自己需要修改 Scrapy 中关于 间隔时间、启动Requests线程数等得配置
游客,如果您要查看本帖隐藏内容请回复



回复

使用道具 举报

道具体验具体乐坛
回复

使用道具 举报

来自手机
成人网站PornHub爬虫分享(一天可爬取500万以上的视频)
回复

使用道具 举报

来自手机
23333333 感謝
回复

使用道具 举报

工程成功就没错没错
回复

使用道具 举报

来自手机
楼主分享一下呗666666
回复

使用道具 举报

来自手机
这波操作很⑥啊。。。
回复

使用道具 举报

来自手机
我也说一句谢谢
回复

使用道具 举报

感谢!~~~~~
回复

使用道具 举报

成人网站PornHub爬虫分享(一天可爬取500万以上的视频)
https://www.jishu5.com/forum.php ... 380&fromuid=237
(出处: 技术屋  - IT技术学习资源分享社区)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

技术屋 - IT技术学习资源分享社区X

购买终生会员

购买终生会员,免费下载整站所有内容【https://www.jishu5.com/rjyfk_url-url.html】

...

点击查看详情