自然语言处理 2.形态分析
形态分析 Morphological Analysis 译为形态分析,又译为词汇分析,其中形态学Morphological是语言学的一个分支,研究词的内部结构,包括屈折变化和构词法两个部分。词的构成词素词是基于最小的语义单元-词素而构成的。词素可以分成两种:词干:play cat friend词缀:-ed -s un- -ly词缀又可以分为两种:前缀:un-后缀:-ed -s un- -ly变形
·
形态分析
Morphological Analysis 译为形态分析,又译为词汇分析,其中形态学Morphological是语言学的一个分支,研究词的内部结构,包括屈折变化和构词法两个部分。
词的构成
词素
词是基于最小的语义单元-词素而构成的。
词素可以分成两种:
- 词干:play cat friend
- 词缀:-ed -s un- -ly
词缀又可以分为两种:
- 前缀:un-
- 后缀:-ed -s un- -ly
变形
变形是同一个单词的不同形式。
原形 | 单数 | 复数 |
---|---|---|
cat | cat | cats |
dog | dog | dog |
knife | knife | knives |
sheep | sheep | sheep |
mouse | mouse | mice |
词的构成
形态变换(morphological process)可以用来形成新词
- 衍生 = 词干 + 词缀
- friend + -ly = friendly
- un- + friendly = unfriendly
- unfriendly + -ness = unfriendlyness
- 组合 = 词干 + 词干
- rail + way = railway
分词 tokenize
分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。
词形还原 Steam&Lemmatize
词干化Steamming和原形化Lemmatizing不是完全相同的,stemming是去掉词缀,比如:
- play -> play
- replayed -> re-play-ed
- computerized -> comput-er-ize-d
但是Lemmatizing是找到原形,其实也就是基于变形或衍生的不同,但是很多时候,这两种还原方式是一致的。
Word | Stem | Lemma |
---|---|---|
played | play | play |
replayed | play | replay |
unfriendly | friend | unfriendly |
词形标记(POS tagging)
以句子为单位,而不是单词为单位,为每一个词标上词形。词形标记通常被用于下游的任务:命名实体识别、依赖解析。
- 默认标注器
- 正则表达式标注器
- 查询标注器
- N-Gram标注器
命名实体识别(Named Entity Recognition)
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
更多推荐
所有评论(0)