媒体数据采集引擎 Media Grabber Engine

Media Grabber Engine
媒体资源采集引擎

使用php mysql python开发
全基于Web操作
已完整实现智能化数据采集 下载 入库
可整合任意视频网站系统

支持取得视频时间
支持生成视频缩略图 (使用mplayer 速度好)
支持生成视频大图 (使用mplayer 速度好)
支持生成视频聚合图 (就是将整个视频文件 时间段图片整合在一个图片里 使用ffmpeg 速度慢)
支持视频无序水印 (Pass2处理 因为需要做重新编码处理 非常耗费时间)

运行流程
===================================================
登录MGE
1. 添加分类
例如 1-tudou

选择 或者添加 需要采集的网站
输入名称 分类 域名 URL链接规则
例如 土豆 娱乐 tudou.com
url 规则
http://www.tudou.com/albumplay/{*}/{*}.html

点击测试
输入 测试列表页
可以列出所有视频

添加成功后

然后 采集
Mode1 全站扫描 适合无分类的网站 扫描全站url 提取符合规则的url入库
Mode2 置顶有序列表 例如page=1 p=1

最后就是下载了
选择 视频数据库 – 未下载
点击 下载
输入最大线程数量 一般为1-5
一般建议设置为5并发 如果对方返回错误 会自动降低线程-1
然后恢复错误的任务,

就开始下载了
自动扫描媒体资源文件 包含mp4 flv webm等媒体资源文件
如果一个页面有多个文件 会自动选择最大的文件作为主文件
其他文件会单存表 后续检查
下载的视频名称为数字型 和你采集库的自增ID一致

下载调用python文件传参数 然后给wget执行 已内置智能模式
可解决大部分禁止盗链 禁止下载 有来源检查的网站

已测试采集多个网站 总计下载超2万部视频文件 无错
修正N次

有兴趣的找我!

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注