高性能 實時全文檢索

使用 Xapian
測試了一下 不錯的方案

準備弄個爬蟲 做行業搜索
多線程 實時採集數據 指定規則 進行入庫

G DB
-------------------------------------------
UUID 全局唯一ID
SID    全局網站ID
CID    全局分類ID
URL   多節點點 散列 不重複 URL
VURL 散列
TMB  縮略圖  由API提交到集群存儲後分配唯一KEY 程序層調用返回圖片
adddate  時間戳 添加時間
lastupdate 時間戳 最後更新

Addon ADB
----------------------
title  標題
author 作者
body 主體內容

Addon VDB
----------------------
Legend  長度
rate       評分
tags      標籤

Addon IDB 
----------------------
高度
關度
標籤
大小

One thought on “高性能 實時全文檢索

  1. yuxiong

    棋子,你好:
    我看了你的帖子:http://bbs.cnlabs.net/forum.php? … d=269290&extra=

    我自己开了个联盟,里面有个下载类型的任务,支持全球流量的。

    最高2刀一个leads,请问有没兴趣合作。

    多谢。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注