发表回复 
 
主题评价:
  • 0 次(票) - 平均星级: 0
  • 1
  • 2
  • 3
  • 4
  • 5
关于词典中的词性标注
2007年06月09日, 12:59
关于词典中的词性标注
由于词典条目多达26万条之巨,在整理的时候已经把很多明显不对的标注或词条清理了,但仍然肯定有很多错误的条目。

主要表现在不是词的列在词里,还有词性标注错误的。本词典中的标注使用的是北大版本的标注集(见附录),在使用中发现错误的请大家协助跟踪汇报。这是一个长期艰巨的任务,​希望本着有一纠一的原则。如有汇报,请遵守格式为:

词 原attr 正确attr
--------------------------
XXX - - (表示错误或不需要的词,应删除)不需要的词指能自动识别了的。
XXX n c (原来标注为n 实际应该为 c)

---- 附北大词性标注版本 ----
Ag
形语素
形容词性语素。形容词代码为a,语素代码g前面置以A。

a
形容词
取英语形容词adjective的第1个字母。

ad
副形词
直接作状语的形容词。形容词代码a和副词代码d并在一起。

an
名形词
具有名词功能的形容词。形容词代码a和名词代码n并在一起。

b
区别词
取汉字“别”的声母。

c
连词
取英语连词conjunction的第1个字母。

Dg
副语素
副词性语素。副词代码为d,语素代码g前面置以D。

d
副词
取adverb的第2个字母,因其第1个字母已用于形容词。

e
叹词
取英语叹词exclamation的第1个字母。

f
方位词
取汉字“方”

g
语素
绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。

h
前接成分
取英语head的第1个字母。

i
成语
取英语成语idiom的第1个字母。

j
简称略语
取汉字“简”的声母。

k
后接成分
 
l
习用语
习用语尚未成为成语,有点“临时性”,取“临”的声母。

m
数词
取英语numeral的第3个字母,n,u已有他用。

Ng
名语素
名词性语素。名词代码为n,语素代码g前面置以N。

n
名词
取英语名词noun的第1个字母。

nr
人名
名词代码n和“人(ren)”的声母并在一起。

ns
地名
名词代码n和处所词代码s并在一起。

nt
机构团体
“团”的声母为t,名词代码n和t并在一起。

nz
其他专名
“专”的声母的第1个字母为z,名词代码n和z并在一起。

o
拟声词
取英语拟声词onomatopoeia的第1个字母。

ba 介词 把、将  
bei 介词 被  
p
介词
取英语介词prepositional的第1个字母。

q
量词
取英语quantity的第1个字母。

r
代词
取英语代词pronoun的第2个字母,因p已用于介词。

s
处所词
取英语space的第1个字母。

Tg
时语素
时间词性语素。时间词代码为t,在语素的代码g前面置以T。

t
时间词
取英语time的第1个字母。

dec 助词 的、之  
deg 助词 得  
di 助词 地  
etc 助词 等、等等  
as 助词 了、着、过  
msp 助词 所  
u
其他助词
取英语助词auxiliary

Vg
动语素
动词性语素。动词代码为v。在语素的代码g前面置以V。

v
动词
取英语动词verb的第一个字母。

vd
副动词
直接作状语的动词。动词和副词的代码并在一起。

vn
名动词
指具有名词功能的动词。动词和名词的代码并在一起。

w
其他标点符号
 
x
非语素字
非语素字只是一个符号,字母x通常用于代表未知数、符号。

y
语气词
取汉字“语”的声母。

z
状态词
取汉字“状”的声母的前一个字母。
查找这个用户的全部帖子
引用并回复
2007年07月02日, 10:44
词典目前可以自己修改么?
词典目前可以自己修改么?
查找这个用户的全部帖子
引用并回复
2007年07月19日, 23:53
 
微笑 同问
查找这个用户的全部帖子
引用并回复
2007年07月23日, 11:58
 
数据字典怎么改的?网上查询结果是这个:
*.XDB文件是MSC.Nastran的计算结果数据库,可由MSC.Patran打开进行相应的结果后置处理

貌似很高深的降噪处理软件,不懂,向楼主求解!
查找这个用户的全部帖子
引用并回复
2009年08月04日, 12:55
RE: 关于词典中的词性标注
自己怎么增加 新的词呢,
请楼主解答,谢谢!
访问这个用户的网站 查找这个用户的全部帖子
引用并回复
2009年08月05日, 06:09
RE: 关于词典中的词性标注
得助於 xdb词典导入导出工具,已經完成 UTF8 chs + cht 的合併,也自己加了一些詞, 目前使用中,感覺很好。

想回應的是自己在合併過程中,碰到的情況。

在個別將 dict_chs(t).utf8.xdb 導出,倒入資料庫處理時發現,有重複的字詞,這部份不多:

chs 部份 :
禎, 银朱, 集科, 负电, 那霸, 无名肿毒, 燏, 无业, 安徽日报, 威兴我荣, 医疗器械, 一口吸尽西江水, 万乔

cht 部份:
那霸, 防禦率王, 超慢, 禎, 競爭者, 燏, 圖利案, 大坪頂, 大直, 塞迪, 併購, 加進來, 下氣

上述的字詞都有兩行

另外一個現象則是詞性標注為 '@', 這部份幾乎都是一個中文字
chs 有 15,785,cht 則有 15,861 個.

後續有其他發現再作回報。
查找这个用户的全部帖子
引用并回复
2009年08月06日, 00:39
RE: 关于词典中的词性标注
单字标为 @ 是以前遗留下来的, 未确定词性, 还有一部分被标为 un 了, 建议把 un 改为 '@' ,否则可能导致散字自动聚合成2元分词时会不聚合.
查找这个用户的全部帖子
引用并回复
2009年08月06日, 08:02
RE: 关于词典中的词性标注
感謝您的建議

最初合併字典後,用較長的內文 + IN BOOLEAN MODE 搜尋,會有 0 筆資料的情況,後來反覆縮短原文查詢發現,多數與 att = un 有關聯,只是不敢武斷就是了。
本週一,狠心將 un 完全調成 a (形容词),同時完全移除只有一個中文字的部份,發現 IN BOOLEAN MODE 搜尋 0 筆資料的不再出現,反倒是變得有點過份精確。老實說還真的把我嚇了一大跳!
查找这个用户的全部帖子
引用并回复
2015年07月18日, 10:25
RE: 关于词典中的词性标注
“每天”这个词词性有问题吧


每天 r t[/align]
查找这个用户的全部帖子
引用并回复
2015年10月05日, 16:39
RE: 关于词典中的词性标注
如果ATTR属性错误会不会影响分词结果 ?

[url=http://www.hitmaroc.net/]Programmers' notes[/url]
查找这个用户的全部帖子
引用并回复
发表回复 


论坛跳转:


正在浏览该主题的用户: 1 个游客