发表回复 
 
主题评价:
  • 6 次(票) - 平均星级: 4.5
  • 1
  • 2
  • 3
  • 4
  • 5
[2013] SCWS-1.2.2 发布,BSD协议、支持自定义词库、PHP5.4
2012年03月29日, 15:11 (这个帖子最后修改于: 2012年03月29日 15:23 by ElizaRemer.)
RE: [2012] SCWS-1.2.0 发布,BSD协议、支持自定义词库、PHP5.4
$so->set_dict('D:\php\scws\etc\dict.utf8.xdb');
$so->set_rule('D:\php\scws\etc\rules.utf8.ini');
$so->add_dict('D:\php\www\htdocs\dict_extra.txt', SCWS_XDICT_TXT);

hm你好。
上边的代码的确可以自定义词库,现在的scws能否直接把词加入核心词库了啊?比如直接加进dict.utf8.xdb'?而不是这种方式
因为目前的词库比较大。用txt的话怕影响速度或性能一类的

Also visit my blog :: [url=http://telechargementvf.com/70081-hunger-games-telecharger-french-gratuit-dvdrip.html]télécharger hunger games hd[/url]
访问这个用户的网站 查找这个用户的全部帖子
引用并回复
2012年03月31日, 11:31 (这个帖子最后修改于: 2012年03月31日 11:31 by admin.)
RE: [2012] SCWS-1.2.0 发布,BSD协议、支持自定义词库、PHP5.4
txt词库其实也是转换成XDB再调用的,不用担心性能。

你合并词典很简单啊,把 dict.utf8.xdb 导出来嘛
查找这个用户的全部帖子
引用并回复
2012年04月01日, 14:12
RE: [2012] SCWS-1.2.0 发布,BSD协议、支持自定义词库、PHP5.4
[quote='hightman' pid='8876' dateline='1333164684']
txt词库其实也是转换成XDB再调用的,不用担心性能。

你合并词典很简单啊,把 dict.utf8.xdb 导出来嘛
[/quote]

谢谢hm。还是更加期望加上直接入字典库的功能。这样更加方便,就是不知道难度如何。因为目前我的词库可能每天都有新的加进去。

PS:我是个有洁癖的代码工人大笑大笑大笑

Also visit my blog :: [url=http://telechargementvf.com/70081-hunger-games-telecharger-french-gratuit-dvdrip.html]télécharger hunger games hd[/url]
访问这个用户的网站 查找这个用户的全部帖子
引用并回复
2012年05月01日, 12:06
RE: [2012] SCWS-1.2.0 发布,BSD协议、支持自定义词库、PHP5.4
求主! mac os下编译正常,但是无法运行。。。以下是错误日志:

PHP Warning: PHP Startup: Unable to load dynamic library '/Applications/AMPPS/php-5.3/lib/extensions/ext/scws.so' - dlopen(/Applications/AMPPS/php-5.3/lib/extensions/ext/scws.so, 9): no suitable image found. Did find:\n\t/Applications/AMPPS/php-5.3/lib/extensions/ext/scws.so: mach-o, but wrong architecture in Unknown on line 0
[Tue May 01 12:03:42 2012] [notice] Apache/2.2.22 (Unix) mod_wsgi/3.3 Python/2.7.2 mod_ssl/2.2.22 OpenSSL/0.9.8r PHP/5.3.10 configured -- resuming normal operations
[Tue May 01 12:03:57 2012] [error] [client ::1] PHP Fatal error: Call to undefined function scws_open() in /Applications/AMPPS/www/a.php on line 3, referer: http://localhost/

My blog [url=http://www.youtube.com/watch?v=HkCZVHFHRy8]increase youtube views[/url]
访问这个用户的网站 查找这个用户的全部帖子
引用并回复
2012年05月03日, 20:30
RE: [2012] SCWS-1.2.0 发布,BSD协议、支持自定义词库、PHP5.4
版主您好,我在自定义词表里加了一些数字+字母的词,如pm2.5,101大楼这样。

使用的时候发现无法正常分出来,我看到新版是加了一些强制拆分的功能,但是对自定义词表里的词,也是强制拆分的码?

Here is my web blog: [url=http://memilus.com/thiet-ke-album-anh-cuoi-chuyen-nghiep/]album ảnh cưới[/url]
访问这个用户的网站 查找这个用户的全部帖子
引用并回复
2012年08月27日, 16:41
RE: [2012] SCWS-1.2.0 发布,BSD协议、支持自定义词库、PHP5.4
HM,您好,我目前使用自定义词库实现分词,但是通过scws_get_top5()方法获取数据的时候(字母+数字大于等于3个的时候也会返回)。求过滤方案。
$sh = scws_open();
scws_set_charset($sh, 'utf8');
scws_set_dict($sh, './dict.txt', SCWS_XDICT_TXT);
scws_set_rule($sh, './rules.ini');//文件内容为空
$cutword = $_POST['cutword'];
scws_send_text($sh, $cutword);
$rs = scws_get_tops($sh, 5);

另:我使用工具把默认的.xdb转化成.txt后在使用scws_get_tops()方法(字母+数据要大于8个才返回)。
我的邮箱lee1984@qq.com


新手!求帮助啊

My page: [url=https://Www.Facebook.com/PokemonGOHackUnlimitedPokeCoinsMoney/]Pokemon Go[/url]
访问这个用户的网站 查找这个用户的全部帖子
引用并回复
2012年11月06日, 22:39
RE: [2010] SCWS-1.1.3 发布,支持文本词典实现自定义词库啦!!
[quote='snakeyasin' pid='3834' dateline='1289616234']
[quote='hightman' pid='3425' dateline='1264745243']
2010年,scws 长了一岁,加上了翘首以盼的删减词库功能,该功能通过变通的办法解决,并非直接修改核心词库。下面详细介绍一下 scws-1.1.0 的更新日志及用法举例(示例以PHP扩展语言为例)。

--
[b]scws-1.1.3 发布于 2010-09-15 [/b]
将 cli/ 下的工具程序命名下划线改成连接线(减号), gen_scws_dict 改为 gen-scws-dict
消除 php5.3 的警告信息, 重写 phpext/ 中的部分zend API, 统一采用 zend_parse_parameters()
--
[b]scws-1.1.2 发布于 2010-5-9[/b]
这是一个小bug修正版,修正在非内存模式词库时会导致人名识别失败的bug.

--
[b]scws-1.1.1 发布于 2010-3-4[/b]
这是一个bug修正版,1.1.0 中存在内存泄露的重大bug。
--
[b]scws-1.1.0 发布于 2010-1-29[/b]
项目主页:[url=http://www.ftphp.com/scws]http://www.ftphp.com/scws[/url]
项目演示:[url=http://www.ftphp.com/scws/demo/v4.php]http://www.ftphp.com/scws/demo/v4.php[/url](含自定词汇功能)
TF/IDF简易查询计算器:[url=http://www.ftphp.com/scws/demo/v4.php]http://www.ftphp.com/scws/demo/get_tfidf.php [/url](用于新词添加时不知怎么设tf,idf的话)
基于SCWS自动分类演示:[url=http://www.ftphp.com/scws/demo/a.php]http://www.ftphp.com/scws/demo/a.php[/url](输入一段文字系统自动给出最合适的分类建议)

[size=x-large]-- [color=#DAA520]新增或变动的 API [/color]--[/size]
1. [libscws] scws_set_dict(scws_t s, const char *fpath, int mode); scws_add_dict(scws_t s, const char *fpath, int mode);
scws_set_dict 为原有功能,scws_add_dict 是新增功能,2者功能相当接近,只是 scws_set_dict 会把 scws handler 现存的词库表
清空,并设为当前的词库,而 scws_add_dict 只是将该词库添加到 scws handler 的词库表中,并优先使用。

scws_add_dict 添加的词库,越后面添加的查询优先级越高,即相当于可以覆盖前面的词库。
参数 mode 包括三个值:SCWS_XDICT_XDB, SCWS_XDICT_MEM, SCWS_XDICT_TXT,
TXT意未着 fpath 指向的词库文件为纯文本文件, 可以通过按位与(|)与另2项链接表示是否强制将词库加载到内存.
除TXT外只支持XDB格式的词库了。

2个函数的返回值均为 int,成功为1 失败是0。此外,词库的字符集必须和 scws_set_charset()指定的相匹配,以免出错。

** 详解 TXT 词库的写法 (TXT词库目前已兼容 cli/scws_gen_dict 所用的文本词库) **
1) 每行一条记录,以 # 或 分号开头的相当于注释,忽略跳过。
2) 每行由4个字段组成,依次为“词语"(由中文字或3个以下的字母合成), "TF", "IDF", "词性", 字段时间用空格或制表符分开,数量不限,可自行对齐以美化。
3) 除“词语”外,其它字段可忽略不写。若忽略,TF和IDF默认值为 1.0 而 词性为 "@"
4) 由于 txt 库动态加载(内部监测文件修改时间自动转换成 xdb 存于系统临时目录),故建议TXT词库不要过大!
5) [b]删除词作法[/b],请将词性设为“!“,则表示该词设为无效,即使在其它核心库中存在该词也视为无效。

2. [libscws] 新增 int scws_has_word(const char *xattr); 和 scws_top_t scws_get_words(const char *xattr); 两个函数
1. 参数 xattr 和 scws_get_tops 的参数是一样的,指定词性,多个词性之间用逗号(,)分隔,若以 ~ 开头则表示不在该词性列表中即可。
2. 两个函数均应在 scws_send_text 之后调用,scws_has_word 用于判断文本中是否包含 xattr 词性的词汇,常用于脏词判断,将脏词统一设为一个词性。
3. scws_get_words 返回词性属于 xattr 的词汇列表,返回顺序为词出现的先后顺序,词的结构和 get_tops 一样,包含 weight, times 的统计。

3. 以后上新或改动的 api 同步反应在 php 扩展中,对应的原型如下:
函数调用形式:bool scws_set_dict(Resource scws_handler, string filepath[, int mode = SCWS_XDICT_XDB]);
bool scws_add_dict(Resource scws_handler, string filepath[, int mode = SCWS_XDICT_XDB]);
bool scws_has_word(Resource scws_handler, string xattr);
Array scws_get_words(Resource scws_handler, string xattr); 若不存在返回空数组,而不是 false

对象调用形式:bool scws->set_dict(string filepath[, int mode = SCWS_XDICT_XDB]);
bool scws->add_dict(string filepath[, int mode = SCWS_XDICT_XDB]);
bool scws->has_word(string xattr);
Array scws->get_words(string xattr); 若不存在返回空数组,而不是 false

特别注意,原 scws 在不指定任何词库的情况下会自动搜索 ini(scws.default.fpath) 底下的 dict.xdb/dict.utf8.xdb,如果调用过 add_dict 或 set_dict
则不会再触发该功能,故采用额外词库时原核心词库必须显式地调用才行。

-- [color]新功能用法示例[/color] (php为例) --
1. 自定义词库,含新增核心库不存在的词汇及删除核心库存在词汇的功能
1) 创建相应字符集的词库文件 dict_extra.txt
2) TF/IDF 参考值查询,为方便大家我作了一个工具自动查询!!( [url=http://www.ftphp.com/scws/demo/get_tfidf.php]http://www.ftphp.com/scws/demo/get_tfidf.php[/url])
3) 切记要删除的词用 ! 作为词性,比如以下文件:
代码:
; dict_extra.txt
我是新增词     2.0
再试一个       1.0       1.0    @
; 以下词为删除项
删除           1.0      1.0    !
4) 然后将 dict_extra.txt 在原核心库后加载,如:
$cws->add_dict(init_get("scws.default.fpath").'/dict.xdb');
$cws->add_dict("/path/to/dict_extra.txt", SCWS_XDICT_TXT);
...

2. 非法关键词的判断及获取(可用于过滤。。)
1) 将非法词汇收集整理,作成 txt 格式文件,统一将其属性设为 '*' 即可
2) 按步骤最后加载黑词词库
3) 在 $cws->send_text($text); 之后
调用 $cws->has_word("*"); 来判断是否包含黑词, 该函数效率较高, 只要判断到一个黑词即返回true
调用 $cws->get_words("*"); 则可以获取黑词清单,显式地告诉用户它的内容包含了哪些非法词汇。。。
[/quote][hr]
你好,请问你。utf8 的词库为什么用不上啊。还有 gbk 词库 和 utf8 的容量区别也很大。有没有跟gbk 编码的一样 utf8词库呢?
[/quote]



基于SCWS自动分类演示:http://www.ftphp.com/scws/demo/a.php 请问一下这个分类是根据什么原理来的呢?怎么分类这么离谱呢?

Feel free to visit my site ... [url=http://markets.financialcontent.com/stocks/news/read/32681532/palmate_gardening_meeting_demand_of_fairy_garden_statues]Palmate Gardening Meeting Demand Of Fairy Garden Statues[/url]
访问这个用户的网站 查找这个用户的全部帖子
引用并回复
发表回复 


论坛跳转:


正在浏览该主题的用户: 2 个游客