发表回复 
 
主题评价:
  • 0 次(票) - 平均星级: 0
  • 1
  • 2
  • 3
  • 4
  • 5
xunsearch-1.4.6 (基于 xapian 和 scws开源中文搜索引擎,高扛压不再死锁)
2013年03月21日, 15:24 (这个帖子最后修改于: 2013年03月27日 13:45 by hightman.)
xunsearch-1.4.6 (基于 xapian 和 scws开源中文搜索引擎,高扛压不再死锁)
经过我们和用户的齐心努力,消除了迄今发现的所有异常退出、死锁、内存泄露等BUG,迫不及待地在今天发布 xunsearch-1.4.6 正式稳定版,以便让大家立即享受最畅快稳定的 xunsearch 搜索。

这是一个主要的 bugfix 版本,整合升级了最新的 xapian-1.2.14,还有少量上美化和小功能增加,在此[color=#FF0000][b]强烈强烈地建议所有用户升级到这个最新稳定版!![/b][/color]

小提示,由于升级了 xapian-core,因此升级过程可能会稍显漫长,请不必担忧,耐心等候即可。

[b]主要更新如下:[/b]

1. 修订改进内存 BUG,使之极其稳定,并取消原有的定时定量重生机制
2. 升级整合最新的 xapian-1.2.14,更节省内存
3. 加强锁机制,完善线程池大压力下的死锁问题
4. 改进优化 yii-xunsearch 扩展,使之兼容性更好功能更强
5. 修改 XSTokenizerScws 以支持项目级自定义词典的
6. 自定义分词器的字段也能参与权重计算了,在 ini 指定 `non_bool = yes`
7. 采用 bootstrap 框架美化 util.SearchSkel 生成页面效果

官方网站:[url]http://www.xunsearch.com[/url]
下载地址:[url]http://www.xunsearch.com/download/xunsearch-full-latest.tar.bz2[/url]
代码仓库:[url]https://github.com/hightman/xunsearch[/url]
修改日志:[url]https://github.com/hightman/xunsearch/commits/1.4.6[/url]
CHM手册:[url]http://www.xunsearch.com/download/xs_php_manual.chm[/url]

Xunsearch 是免费开源的专业全文检索解决方案,旨在帮助一般开发者针对既有的海量数据,快速而方便地建立自己的全文搜索引擎。全文检索可以帮助您降低服务器搜索负荷、极大程度的提高​​搜索速度和用户体验。

[b]高性能:[/b]后端是采用 C/C++ 开发多线程服务端,索引设计基于 Xapian 和 scws 中文分词。单库最多支持 40 亿条数据,在 5 亿网页大约 1.5TB 的数据中检索时间不超过 1 秒(非缓存)。

[b]简单易用:[/b]前端是使用脚本语言编写的开发工具 (SDK),目前仅支持 PHP 语言。API 简单清晰,开发难度极低,提供全中文的示例代码、文档、辅助脚本工具等。

[b]全功能:[/b]除支持基础的自定义分词、字段检索、布尔搜索外,还直接支持用户急需的相关搜索、拼音搜索、搜索建议等专业功能。

   

某次扛压实验结果:
---------- SERVER INFO BEGIN ----------
{
id:worker3, uptime:3623, num_burst:1, max_burst:132,
num_accept:194989(53.8/s), num_task:1083121(299.0/s),
sock:7, name:"demo", home:"data/demo", rcv_size:8,
flag:0x0000, version:"1.4.5-dev"
}

---------- SERVER INFO BEGIN ----------
{
id:"worker1", uptime:157312, num_burst:0, max_burst:56,
num_accept:436479, aps:2.8, num_task:1213522, tps:7.7,
sock:7, name:"demo", home:"data/demo", rcv_size:8,
flag:0x0000, version:"1.4.6-dev"
}
查找这个用户的全部帖子
引用并回复
2013年03月26日, 16:12
RE: xunsearch-1.4.5 (基于 xapian 和 scws开源中文搜索引擎,高扛压不死锁)
hightman 辛苦~

第一时间升级到最新版了。我有一个疑问,找了一些文档,没有找到相当的说明,希望你有时间能帮我解答一下。

现在自定义分词,是不是只能在索引的时候进行,我的项目中需要对内容进行自动分词,用于生成文章的tag,我自己给定了一个用户自定义词库,在$tokenizer->getTops()时,不能找出我想要的语词,$tokenizer->getResult能获取到所有分词的结果,不知道这个问题的原因是怎么产生的。请指点一下。

以下是我的字典定义

# WORD TF IDF ATTR
# ——————————————————
2d 50.0 50.0 n
3d 50.0 50.0 n
3G 50.0 50.0 n
查找这个用户的全部帖子
引用并回复
2013年03月27日, 12:56
RE: xunsearch-1.4.5 (基于 xapian 和 scws开源中文搜索引擎,高扛压不死锁)
你这个词典是在 etc/dict_user.txt 还是项目目录下的 data/app/dict_user.txt ?

如果是后者需要升级到 1.4.6-dev 才支持,前者必须在改词典后重启 xs-searchd
查找这个用户的全部帖子
引用并回复
2013年03月28日, 12:39
RE: xunsearch-1.4.5 (基于 xapian 和 scws开源中文搜索引擎,高扛压不死锁)
[quote='hightman' pid='3722' dateline='1364360180']
你这个词典是在 etc/dict_user.txt 还是项目目录下的 data/app/dict_user.txt ?

如果是后者需要升级到 1.4.6-dev 才支持,前者必须在改词典后重启 xs-searchd
[/quote]

我今天升级到1.4.6了,词典在etc/dict_user.txt和data/app/dict_user.txt下都放了一下份,并重启了服务。

我现在的问题是想通过XSTokenizerScws来获取指定文本的自定义分词结果。sdk使用了github里最新的版本,词典格式由一楼所示,现在取出来的结果并不​包含任何自定义词典的关键词,求解。[/code]

PHP 代码:
        $text = <<<EEE
  1 Using the Location Manager
  2 只需要进行一些简单的设置,你的应用程序就可以接受位置更新,在这次教程里你将详细的学习这些步骤。
  3 在Manifest里声明合适的权限
  4 要想获取位置更新,第一步需要在manifest里声明合适的权限。如果忘了声明相应的权限,那么你的应用在运行时会报安全异常。当你使用LocationMa​nagement方法
    的时候,需要设置权限ACCESS_CORASE_LOCATION或者 ACCESS_FINE_LOCATION,例如,如果你的应用使用了基于网络的信息服务,你需要声明N ACCESS_CORASE_LOATI    ON权限,要想获取GPS请求你需要声明ACCESS_FINE_LOCATION权限。值得注意的是如果你声明了ACCESS_FINE_LOCATION权​限隐含着你也声明了ACCESS_CORASE_LOCATIO    N权限。 假如一个应用使用了基于网络的位置的信息服务,你需要声明因特网权限。
  5 <uses-permission android:name="android.permission.ACCESS_COARSE_LOCATION" />
  6 <uses-permission android:name="android.permission.INTERNET" />
  7 获得一个位置管理的引用
  8 LocationManager是一个主类,在android里你通过这个类你可以使位置服务。使用方法类似于其他的服务,通过调用getSystemServ​ice方法可以获得相应的引用。如
    果你的应用想要在前台(在Activity里)获得位置更新,你应该在onCreate()里执行以下语句。
EEE;
        
$filename SITE_PATH '/Source/XS/sdk/php/lib/XS.php';
        
require_cache($filename);
        
$xs = new XS('demo');
        
$tokenizer = new XSTokenizerScws;
        
        
$tops $tokenizer->getTops($text100'n');
        
print_r($tops);
        exit; 
查找这个用户的全部帖子
引用并回复
2013年03月31日, 13:17
RE: xunsearch-1.4.6 (基于 xapian 和 scws开源中文搜索引擎,高扛压不再死锁)
你自定义的词库是什么样子,
查找这个用户的全部帖子
引用并回复
发表回复 


论坛跳转:


正在浏览该主题的用户: 1 个游客