修改 nginx access.log日志的时间格式

因为要获取nginx访问信息,作为开发的数据使用,但是nginx的access.log文件中的默认的时间格式是这样的:

  [02/Nov/2017:20:48:25 +0800]

  而要求的格式类似如下:

  [2017-11-02 20:52:06]

方法都几种,但是修改源码的方法看上去麻烦,做起来也简单,我这边修改了源码(把原来的删了,复制新的),重新编译

  1.修改src/http/modules/ngx_http_log_module.c  

{ ngx_string("time_local"), sizeof("28/Sep/1970:12:00:00 +0600") - 1,
ngx_http_log_time },

修改后:
{ ngx_string("time_local"), sizeof("1970-09-28 12:00:00 +0600") - 1,
ngx_http_log_time },

return ngx_cpymem(buf, ngx_cached_http_log_time.data,
ngx_cached_http_log_time.len);

修改后:
return ngx_cpymem(buf, ngx_cached_err_log_time.data,
ngx_cached_err_log_time.len);

2、修改 src/core/ngx_times.c 140行

(void) ngx_sprintf(p1, "%4d/%02d/%02d %02d:%02d:%02d",
tm.ngx_tm_year, tm.ngx_tm_mon,
tm.ngx_tm_mday, tm.ngx_tm_hour,
tm.ngx_tm_min, tm.ngx_tm_sec);

修改后
(void) ngx_sprintf(p1, "%4d-%02d-%02d %02d:%02d:%02d",
tm.ngx_tm_year, tm.ngx_tm_mon,
tm.ngx_tm_mday, tm.ngx_tm_hour,
tm.ngx_tm_min, tm.ngx_tm_sec);

  3.备份一下配置文件(小心一些好)

  4.重新编译,参数还是用原来的吧

5. make && make install 之后重启nginx就行了

Vimeo 如何赚钱? 如何活下来的?

看到有人问这个?

Vimeo这类视频网站 如何盈利?

尤其是那些比油土鳖次一级的视频网站,有一些在国内可以直接观看,有些需要 dnscrypt,最近在其中一个看旅游类的视频,我的天,那些视频的质量,简直可以跟著名纪录片《 HOME 》媲美,而片头片尾都没任何广告,就连网页两侧的广告都没有,而且只需要一个邮箱就能注册,不需要任何客户隐私信息,不注册也可以直接观看。

更惊人的是,视频基本都是 1080p 以上的质量,这么高的带宽和存贮、运营费用,这家公司是怎么活下来的,我能发现的就是上传视频存贮的话,需要购买付费计划。

对比起我们特色国的视频网站,连 CNTV 都是各种广告,侧栏、片头片尾、视频叠加,能挤广告的都挤满了,更不用说其它公司的了。而且还强制 Flash,Flash 还不够,更强推客户端。。。

然后我回答下
继续阅读Vimeo 如何赚钱? 如何活下来的?

最近通过搜索访问本文章的关键词:

【分享】一个不算成功的数据网站的开发和运营和流量数据的案例 包括原理和想法介绍

分享个不算成功的数据网站制作案例 包括原理和介绍

很早以前 打算利用信息差 尝试下数据网站的存活率
所以设计了这个网站

这个例子算比较早 好几年了 网站现在还存活着
域名使用的是 www.91r.net 很简陋 主要是编程相关的内容
这个内容是来源于 stackoverflow.com

收录可以查看 2017-07-02 更新

百度 8月3日 收录过千万了
该网站共有 10,454,575 个网页被百度收录

百度: https://www.baidu.com/s?wd=site%3A91r.net

Google: https://www.google.com/search?q=site%3A91r.net

当初最早设计的时候
姑且叫第一个版本吧 直接使用小偷程序的原理 就是抓数据 返回
后来发现英文内容 搜索对英文重复内容的判断过于强大 基本无法带来什么流量
数据在多也没用

所以换个思路 就弄了第二个版本
第二个版本的设计 小偷还是小偷 但是利用翻译 把内容翻译为中文
这里的信息差 就是内容唯一性,以及使用百度翻译结果给google抓取
结果是成功的 很短的时间 流量上升到5000IP/天

继续阅读【分享】一个不算成功的数据网站的开发和运营和流量数据的案例 包括原理和想法介绍

最近通过搜索访问本文章的关键词:

数据惊魂

昨天手快
有个实例需要rebuild做开发测试
结果不小心点到排序 那个机器跑下面去了 然后我也没注意 继续点下去了

重新安装系统
1. 是需要勾选同意 I agree that this will immediately DESTROY my server and all data
2. 在输入一次账户密码进行确认
如图

继续阅读数据惊魂

【分享】在抖个机灵………. 少年我们造个繁体百度吧?

在抖个机灵……….

起因是偶然发现这个东西
https://www.google.com/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=site:www.baidu.com.27f8d94bd0b249a6a9168b1e26efbee7.kaweiso.com&*
我以为这个没什么流量

BUT你看Alexa的排名

地址
http://www.alexa.com/siteinfo/kaweiso.com
做这个的真心觉得的油菜花….
他拿百度的内容喂谷歌,获得谷歌来源的流量在卖百度的广告………
把百度原页的推广 替换为自己的…卖别人…卖别人…

这个原理 就是利用百度的搜索结果 满屏关键词 去喂谷歌
百度的搜索结果页面SEO还是不错的 因为关键词高亮/长尾和相关关键词的原因
结果就是谷歌出现了很多百度的搜索结果 而域名只是看起来是百度的…
这种其实就是反向代理的模式 没什么技术含量

然后我建了个一样的 一样的 一样的
包括域名结构等等
发现个问题 谷歌收录结果太慢,而域名没权重
现在也不太可能专心致志去搞什么外链…
而且内容也是一致重复的 收录会很正常 但是流量可能需要养个几个月..

以我的性格不可以等那么长 老早忘了
更不太可能放着这玩意不用 是吧?
怎么干?

嗯 我抖了个机灵 换了个思路 在编码上做文章
把百度的搜索结果 在NGINX的内容处理 进行一级编码转换
简体变繁体 造了个繁体百度

开发的版本 看起来这样的 【图片不显示是因为我使用IP测试,域名测试无问题都可以正常显示】

线上的版本是这个样子的

这样在去喂谷歌 会产生什么?
等出测试数据在更新

在说到遇到的技术坑
nginx+lua就不说太多 都知道
坑在那个简繁转换, lua没好的转换类
以前php有这个需求 都是使用的opencc
然后查了下 opencc没lua的封装, 官方也有人问过了 开发者建议lua调用c接口
嗯 那就调用吧….. 写完巴拉巴拉调了很久 反正大问题没小bug一堆….
测试了很久 搞定这个问题

现在的问题就是性能问题…
考虑问题还是先考虑到 不能如果有效而且流量巨大在去解决
那损失的都是收益…….

### 更新1
关键词引导页已完成
引导蜘蛛爬 红色区域是超链接关键词 链接到自己域名的繁体百度搜索结果

3月23上线 等待收录和流量结果 下次检查估计4月5号的样子

### 持续更新
03/27 Google进索引 收录2 x 引导页 + 单关键词
*其中的引导页可能出问题了 收录错了域名

最近通过搜索访问本文章的关键词:

升级

因为发现有个域名好像收录很多

该网站共有 14,495,764 个网页被百度收录
该网站共有 14,495,770 个网页被百度收录 03-13
该网站共有 14,543,382 个网页被百度收录 03-23
该网站共有 14,578,022 个网页被百度收录 03-28
该网站共有 14,418,475 个网页被百度收录 04-07

About 508,000 results (0.22 seconds)
About 509,000 results (0.53 seconds) 03-13
About 483,000 results (0.18 seconds) 03-23 [升级改版的后遗症]
About 481,000 results (0.41 seconds) 03-28
About 477,000 results (0.50 seconds) 04-07

一直没关注过,然后问题来了
因为是非本地数据站,所以有大量的缓存开销
结果性能问题出现问题 总量大概有4000万数据

我使用的SSDB缓存,因为很久以前开发的 设置的过期时间是86400一天
结果硬盘使用 变这个样子

是的 你没看错 SSDB缓存了457G的数据
在加上20G的日志 感觉炸了….
在加上以前写的首页缓存类失效了
现在访问首页巨卡

一狠心,决心重写 继续阅读升级