【分享】一个不算成功的数据网站的开发和运营和流量数据的案例 包括原理和想法介绍

分享个不算成功的数据网站制作案例 包括原理和介绍

很早以前 打算利用信息差 尝试下数据网站的存活率
所以设计了这个网站

这个例子算比较早 好几年了 网站现在还存活着
域名使用的是 www.91r.net 很简陋 主要是编程相关的内容
这个内容是来源于 stackoverflow.com

收录可以查看 2017-07-02 更新

百度 8月3日 收录过千万了
该网站共有 10,454,575 个网页被百度收录

百度: https://www.baidu.com/s?wd=site%3A91r.net

Google: https://www.google.com/search?q=site%3A91r.net

当初最早设计的时候
姑且叫第一个版本吧 直接使用小偷程序的原理 就是抓数据 返回
后来发现英文内容 搜索对英文重复内容的判断过于强大 基本无法带来什么流量
数据在多也没用

所以换个思路 就弄了第二个版本
第二个版本的设计 小偷还是小偷 但是利用翻译 把内容翻译为中文
这里的信息差 就是内容唯一性,以及使用百度翻译结果给google抓取
结果是成功的 很短的时间 流量上升到5000IP/天

这里出现的问题 由于翻译问题的标题和内容 效率低
改为只翻译标题 而内容就不翻译了
翻译效率上去了 流量升到2万多IP的时候
新问题出现了 就是 stackoverflow 限制访问频率
然后抓不到数据
才开始解决的解决方案 使用sqlite进行热点数据缓存
但是数据量过大 几天到30G 50G 100G 又出现数据库瓶颈

然后就改良了第三个版本 这个版本应该算最终版本
主要是改变了缓存系统 改为NOSQL进行缓存, 使用SSDB
翻译接口改为Web模拟提交,多倍数据缓存,内容持久缓存
这样100G的缓存数据 查询起来比较快

现在其实没什么流量了 只是放着而已
数据网站的时代过去了 靠数据量 在大也没什么用
现在缓存的数据有110G左右
20160926191900

未做但是当初应该做的事
1. 将翻译的标题 使用分词工具 进行分词 作为网页的keyword标签
2. 应该设计一个数据结构完成一致的网站 将对方的数据 缓存至本地 做一个一样的 功能完整的网站
这样可以带来持久的流量 降低跳出率 提高用户黏性 积累自有的问答数据
3. 应该使用自有的评论系统 作为回复数据 而不应该使用disq

现在也不太有心情搞这个
这个最早是为测试 后来发现数据网站的趋势不是很好 就没太在意

3 thoughts on “【分享】一个不算成功的数据网站的开发和运营和流量数据的案例 包括原理和想法介绍

  1. 博主你的这个思路真的是太牛了,如果网站结构合理规划一下,现在你躺着赚钱就够了

  2. 博主 你自己有主机吗?

  3. 58.218.199.47:27086
    这是你的主机地址吗?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注