Google现在的权重比例算法更新以后比较复杂
目前测试后知道的
==============================================
1. 有安装SSL证书的站 大约 +7%权重
2. 同服务器IP网站 数量不超过30个 +2%权重 10-20个最佳 大约加6.5%
3. 页面载入速度 评级65%以上 +8.2%权重
4. 页面请求 这个应该是和载入速度合并了 + 3.2%
STD内容方面 (级别未知 这个是测试最佳效果的)
==============================================
文本内容 长度650字符+
图文混合 长度1250字符+
多图文混合 长度5000字符以内 如果超了 使用分页的插件 Part 1 2 3 这种模式
文章内容 链接包含1-3外链 不超5个 其中至少1个加nofollow标签
特别注意文章内容的DNA基因问题
所谓的DNA基因 包含的因素比较多
通常我们一种内容模型 生成10-20个站 可能无问题
如果40个 50个 100个 1000个 都是一种内容模式 就有问题了
Google的新算法 包含对站群的处理判断和降权
这个主要判断方式 就是内容DNA
只能说根据经验 应该是这么个情况 (只作为参考)
在一个更新周期内 内容的分析
N个站的内容 其中
文章格式一样 (包含HTML标签)
访问的目录一样 (关键词/文章标题目录)
URL的变量ID一样 (包括URL访问的id关联差不多 内容不一样)
博客Ping搜索引擎时间段一样 (WordPress最好关闭这个ping 如果生成发布时设置了自动ping 会导致域名被搜索引擎拔毛屏蔽)
上线周期在同一个时间段 (这个判断有些复杂 一般爬虫)
内容格式相似度80% (包含HTML标签以及使用的插件生成伪内容)
外链出现在同一个更新周期内 包括交叉外链
Google主要还是解决内容模型的问题
让文章 尽可能的保持可读性
并且让搜索引擎认为是人在更新 而不是机器
对于部分长效的WebShell
可以参考一下这种方式 做长期流量
1. 先将文章生成在数据库里 释放10-20个文章
2. 然后设置一个远程的更新脚本 抽取10-15个文章 随机时间段释放
这个样子
http://www.shell.com/blog2/update.php
代码可以参考
< ?php
error_reporting(0); //容错
header('Content-Type: text/html; charset=utf-8'); //固定编码
date_default_timezone_set('Asia/Hong_Kong'); //定义时区
$updatetime = array('20','21','22','23','00','01','08','10','11','12','14','18'); //定义更新时间段
$currenttime = date("H",time());
if(!in_array($currenttime,$updatetime)){
$num = rand(7,11); //文章数字
//查询未发布文章
//SQL数据库更新语句
print "已释放";
} else {
die('非更新时间段,未处理!');
}
然后将
这个脚本 设置一个定时任务 每N小时运行一次
这样就实现了 每天晚上8点 9点 10点 11点 12点 1点 早上8点 10点 11点 12点 下午2点 6点
各更新7-11个文章出来让爬虫爬取
这个方式当前测试 还是可以实现不被搜索引擎判断为自动更新
当前有效 以最上面的内容模型测试 收录和关键词排名都OK的
在带宽足够的情况
我能用爬虫集群 把Wikipedia整个爬回来做站 但是直接被搜索引擎拔毛
根本毫无意义的事
这个可以参考 多尝试下各种内容模型 哪种最稳定 就多使用哪种
不要死抱着提高效率和自动化 技术是死的 人才是活的
说到底还是内容的问题 慢慢优化内容模型