语句词性标注
字数 3787 2022-07-03 22:11:26
- 中文:
jieba普通分词用jieba.cut函数,分词并进行词性标注用jieba.posseg.cut函数
>>> import jieba.posseg as pseg
>>> words = pseg.cut("我爱北京天安门")
>>> for word, flag in words:
print('%s %s' % (word, flag))
我 r
爱 v
北京 ns
天安门 ns
jieba的词性标注表:
名词 (1个一类,7个二类,5个三类)
名词分为以下子类:
n 名词
nr 人名
nr1 汉语姓氏
nr2 汉语名字
nrj 日语人名
nrf 音译人名
ns 地名
nsf 音译地名
nt 机构团体名
nz 其它专名
nl 名词性惯用语
ng 名词性语素
时间词(1个一类,1个二类)
t 时间词
tg 时间词性语素
处所词(1个一类)
s 处所词
方位词(1个一类)
f 方位词
动词(1个一类,9个二类)
v 动词
vd 副动词
vn 名动词
vshi 动词“是”
vyou 动词“有”
vf 趋向动词
vx 形式动词
vi 不及物动词(内动词)
vl 动词性惯用语
vg 动词性语素
形容词(1个一类,4个二类)
a 形容词
ad 副形词
an 名形词
ag 形容词性语素
al 形容词性惯用语
区别词(1个一类,2个二类)
b 区别词
bl 区别词性惯用语
状态词(1个一类)
z 状态词
代词(1个一类,4个二类,6个三类)
r 代词
rr 人称代词
rz 指示代词
rzt 时间指示代词
rzs 处所指示代词
rzv 谓词性指示代词
ry 疑问代词
ryt 时间疑问代词
rys 处所疑问代词
ryv 谓词性疑问代词
rg 代词性语素
数词(1个一类,1个二类)
m 数词
mq 数量词
量词(1个一类,2个二类)
q 量词
qv 动量词
qt 时量词
副词(1个一类)
d 副词
介词(1个一类,2个二类)
p 介词
pba 介词“把”
pbei 介词“被”
连词(1个一类,1个二类)
c 连词
cc 并列连词
助词(1个一类,15个二类)
u 助词
uzhe 着
ule 了 喽
uguo 过
ude1 的 底
ude2 地
ude3 得
usuo 所
udeng 等 等等 云云
uyy 一样 一般 似的 般
udh 的话
uls 来讲 来说 而言 说来
uzhi 之
ulian 连 (“连小学生都会”)
叹词(1个一类)
e 叹词
语气词(1个一类)
y 语气词(delete yg)
拟声词(1个一类)
o 拟声词
前缀(1个一类)
h 前缀
后缀(1个一类)
k 后缀
字符串(1个一类,2个二类)
x 字符串
xx 非语素字
xu 网址URL
标点符号(1个一类,16个二类)
w 标点符号
wkz 左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <
wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
wyz 左引号,全角:“ ‘ 『
wyy 右引号,全角:” ’ 』
wj 句号,全角:。
ww 问号,全角:? 半角:?
wt 叹号,全角:! 半角:!
wd 逗号,全角:, 半角:,
wf 分号,全角:; 半角: ;
wn 顿号,全角:、
wm 冒号,全角:: 半角: :
ws 省略号,全角:…… …
wp 破折号,全角:—— -- ——- 半角:--- ----
wb 百分号千分号,全角:% ‰ 半角:%
wh 单位符号,全角:¥ $ £ ° ℃ 半角:$
- 英文:
nltk:
import nltkmsg = 'And now for something compltely different'
words = nltk.tokenize.word_tokenize(msg)
nltk.tag.pos_tag(words)
nltk.download('punkt')慢解决办法:
链接:https://pan.baidu.com/s/1LWM3o7iRZMF8XaD91vx9Dw;提取码:cnpf。(参考:https://blog.csdn.net/sky2line/article/details/125086530)
1)解压文件夹里面的packages,将其重命名为nltk_data,放在上面Download Directory路径里。
2)解压nltk_data文件夹里面对应的每个语料库的压缩文件,即zip文件解压才能用。逐个解压,虽然耗时,但是可以解决。
3)打开Anaconda Prompt,进入python解释器
import nltk
from nltk.book import *
或者:(参考:https://blog.csdn.net/weixin_43896318/article/details/106191856)
http://www.nltk.org/nltk_data/
词性表:
CC Coordinating conjunction 连接词
CD Cardinal number 基数词
DT Determiner 限定词(如this,that,these,those,such,不定限定词:no,some,any,each,every,enough,either,neither,all,both,half,several,many,much,(a) few,(a) little,other,another.
EX Existential there 存在句
FW Foreign word 外来词
IN Preposition or subordinating conjunction 介词或从属连词
JJ Adjective 形容词或序数词
JJR Adjective, comparative 形容词比较级
JJS Adjective, superlative 形容词最高级
LS List item marker 列表标示
MD Modal 情态助动词
NN Noun, singular or mass 常用名词 单数形式
NNS Noun, plural 常用名词 复数形式
NNP Proper noun, singular 专有名词,单数形式
NNPS Proper noun, plural 专有名词,复数形式
PDT Predeterminer 前位限定词
POS Possessive ending 所有格结束词
PRP Personal pronoun 人称代词
PRP\( Possessive pronoun 所有格代名词 RB Adverb 副词 RBR Adverb, comparative 副词比较级 RBS Adverb, superlative 副词最高级 RP Particle 小品词 SYM Symbol 符号 TO to 作为介词或不定式格式 UH Interjection 感叹词 VB Verb, base form 动词基本形式 VBD Verb, past tense 动词过去式 VBG Verb, gerund or present participle 动名词和现在分词 VBN Verb, past participle 过去分词 VBP Verb, non-3rd person singular present 动词非第三人称单数 VBZ Verb, 3rd person singular present 动词第三人称单数 WDT Wh-determiner 限定词(如关系限定词:whose,which.疑问限定词:what,which,whose.) WP Wh-pronoun 代词(who whose which) WP\) Possessive wh-pronoun 所有格代词
WRB Wh-adverb 疑问代词(how where when)