中文詞性

1、詞性 參考北大的詞性標注

b 區別詞 取漢字「別」的聲母。
c 連詞 取英語連詞conjunction的第1個字母。
e 歎詞 取英語歎詞exclamation的第1個字母。
f 方位詞 取漢字「方」 的聲母。
g 語素 絕大多數語素都能作為合成詞的「詞根」,取漢字「根」的聲母。
h 前接成分 取英語head的第1個字母。
i 成語 取英語成語idiom的第1個字母。
j 簡稱略語 取漢字「簡」的聲母。
k 後接成分
l 習用語 習用語尚未成為成語,有點「臨時性」,取「臨」的聲母。
m 數詞 取英語numeral的第3個字母,n,u已有他用。
nr 人名 名詞代碼n和「人(ren)」的聲母並在一起。
o 擬聲詞 取英語擬聲詞onomatopoeia的第1個字母。
p 介詞 取英語介詞prepositional的第1個字母。
q 量詞 取英語quantity的第1個字母。
r 代詞 取英語代詞pronoun的第2個字母,因p已用於介詞。
s 處所詞 取英語space的第1個字母。
Tg 時語素 時間詞性語素。時間詞代碼為t,在語素的代碼g前面置以T。
t 時間詞 取英語time的第1個字母。
u 助詞 取英語助詞auxiliary 的第2個字母,因a已用於形容詞。
w 標點符號
x 非語素字 非語素字只是一個符號,字母x通常用於代表未知數、符號。
y 語氣詞 取漢字「語」的聲母。
z 狀態詞
Ng 名語素 名詞性語素。名詞代碼為n,語素代碼g前面置以N。
n 名詞 取英語名詞noun的第1個字母。
Vg 動語素 動詞性語素。動詞代碼為v。在語素的代碼g前面置以V。
v 動詞 取英語動詞verb的第一個字母。
vd 副動詞 直接作狀語的動詞。動詞和副詞的代碼並在一起。
vn 名動詞 指具有名詞功能的動詞。動詞和名詞的代碼並在一起。
Ag 形語素 形容詞性語素。形容詞代碼為a,語素代碼g前面置以A。
a 形容詞 取英語形容詞adjective的第1個字母。
ad 副形詞 直接作狀語的形容詞。形容詞代碼a和副詞代碼d並在一起。
an 名形詞 具有名詞功能的形容詞。形容詞代碼a和名詞代碼n並在一起。
Dg 副語素 副詞性語素。副詞代碼為d,語素代碼g前面置以D。
d 副詞 取adverb的第2個字母,因其第1個字母已用於形容詞。

有幾個改動:添加了口語詞性expr(參考知網),nr指人名,sn指姓氏–兩者分開是我的想法,fname指姓+名—-又加上這個是因為畢業設計時,使用的中科院的分詞只能分出姓+名的姓氏

詞的語義meta是指知網定義的詞的義項(由一個或多個義原組成)

2、數據庫中表的結構

::基礎詞詞彙的基礎,類似字典
詞性posl {ID,名稱,代碼,說明} 例:動詞、名詞……
感情詞性WordEmotion {ID,名稱} 例:褒義,中性,貶義

關於詞的語義:
例,對於「過去」這個詞有4層意思:
過去 ADJ aValue|屬性值,time|時間,past|昔
過去 V die|死
過去 V go|去
過去 N time|時間,past|昔(用英文逗號)
在動詞表中的meta可以這樣表示:die|死,go|去(用中文逗號)

Ng 名語素 名詞性語素。名詞代碼為n,語素代碼g前面置以N。
n 名詞 取英語名詞noun的第1個字母。
ns 地名 名詞代碼n和處所詞代碼s並在一起。
nt 機構團體 「團」的聲母為t,名詞代碼n和t並在一起。
nz 其他專名 「專」的聲母的第1個字母為z,名詞代碼n和z並在一起。
名詞noun {ID,名稱,出現次數}
名詞詞性NounPosl {ID,名詞ID,詞性代碼} 詞性代碼:{Ng,n}
名詞感情 NounEmotion {ID,名詞ID,EmotionID}
名詞語義NounMeta {ID,名詞ID,meta}
名詞同義詞NounSynonymy {ID,名詞ID,(同義詞)名詞ID}
名詞反義詞NounAntonymy {ID,名詞ID,(反義詞)名詞ID}

Vg 動語素 動詞性語素。動詞代碼為v。在語素的代碼g前面置以V。
v 動詞 取英語動詞verb的第一個字母。
vd 副動詞 直接作狀語的動詞。動詞和副詞的代碼並在一起。
vn 名動詞 指具有名詞功能的動詞。動詞和名詞的代碼並在一起。
動詞verb {ID,名稱,出現次數}
動詞詞性VerbPosl {ID,動詞ID,詞性代碼} 詞性代碼:{Vg,v,vd,vn}
動詞感情 VerbEmotion{ID,動詞ID,EmotionID}
動詞語義VerbMeta {ID,動詞ID,meta}
動詞同義詞VerbSynonymy {ID,動詞ID,(同義詞)動詞ID}
動詞反義詞VerbAntonymy {ID,動詞ID,(反義詞)動詞ID }

Ag 形語素 形容詞性語素。形容詞代碼為a,語素代碼g前面置以A。
a 形容詞 取英語形容詞adjective的第1個字母。
ad 副形詞 直接作狀語的形容詞。形容詞代碼a和副詞代碼d並在一起。
an 名形詞 具有名詞功能的形容詞。形容詞代碼a和名詞代碼n並在一起。
形容詞adjective {ID,名稱,出現次數}
形容詞詞性AdjectivePosl {ID,形容詞ID,詞性代碼} 詞性代碼:{Ag,a,ad,an}
形容詞感情 AdjectiveEmotion {ID,形容詞ID,EmotionID}
形容詞語義 AdjectiveMeta {ID,形容詞ID,meta}
形容詞同義詞AdjSynonymy {ID,形容詞ID,(同義詞)形容詞ID }
形容詞反義詞AdjAntonymy {ID,形容詞ID,(反義詞)形容詞ID }

Dg 副語素 副詞性語素。副詞代碼為d,語素代碼g前面置以D。
d 副詞 取adverb的第2個字母,因其第1個字母已用於形容詞。
副詞adverb {ID,名稱,出現次數}
副詞詞性AdverbPosl {ID,副詞ID,詞性代碼} 詞性代碼:{Dg,d}
副詞感情AdverbEmotion {ID,副詞ID,EmotionID}
副詞語義AdverbMeta {ID,副詞ID,meta}
副詞同義詞AdvSynonymy {ID,副詞ID,(同義詞)副詞ID }
副詞反義詞AdvAntonymy {ID,副詞ID,(反義詞)副詞ID }

常用詞搭配庫:
形+名AdjNoun {ID,形容詞ID,名詞ID,出現次數}
副+動AdvVerb {ID,副詞ID,動詞ID,出現次數}
副+形AdvAdj {ID,副詞ID,形容詞ID,出現次數}
姓氏surname {ID,名稱,出現次數}
人名name {ID,名稱,出現次數}
姓+名 PersonName {ID,名稱,出現次數} 之所以出現這張表,是因為畢業設計時,使用的中科院的分詞只能分出姓+名的姓氏

地名location {ID,NounLexiconID }
機構團體公司組織corp {ID,NounLexiconID} 如何確定屬於哪個國家,同地名

成語idiom {ID,名稱,出現次數} 原義/古義
成語感情IdiomEmotin {ID,成語ID,EmotionID}

諺語類別ProverbCategory {ID,類別}
::氣象 農業 衛生 為人處世 學習 體育鍛煉 等
諺語proverb {ID,句子,類別ID } 通常意思是確定的;格式(一句話):xxxxxx,xxxxxx.
諺語感情 {ID,諺語ID,EmotionID}
歇後語parol {ID,句子,意義,拼音} 通常意思是確定的;格式:xxxxxx—xx.主要意思是破折號後面的內容
歇後語詞性 {ID,歇後語ID,詞性ID}
歇後語感情 {ID,歇後語ID,EmotionID}
*歇後語的同義詞/反義詞可以通過視圖查詢來實現,查詢條件:意義(破折號後的內容)+詞性(+感情詞性)
::其它詞,除了上面的外的其它詞性
其它詞 Sword {ID,詞,出現次數}
其它詞詞性 SwordPosl {ID,SwordID,poslID}
其它詞語義 SwordMeta {ID,SwordPoslID,meta}

單字 SingleWord {id,字,nameFreq,surnameFreq},後兩個是:作為名字出現的次數和作為姓氏出現的次數

中文分詞技術

什麽是中文分詞

眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子I am a student,用中文則為:“我是一個學生”。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白“學”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。我是一個學生,分詞的結果是:我 是 一個 學生。 Continue reading “中文分詞技術”