形态分析

  Morphological Analysis 译为形态分析,又译为词汇分析,其中形态学Morphological是语言学的一个分支,研究词的内部结构,包括屈折变化和构词法两个部分。

词的构成

词素

词是基于最小的语义单元-词素而构成的。

词素可以分成两种:

  1. 词干:play cat friend
  2. 词缀:-ed -s un- -ly

词缀又可以分为两种:

  1. 前缀:un-
  2. 后缀:-ed -s un- -ly
变形

变形是同一个单词的不同形式。

原形 单数 复数
cat cat cats
dog dog dog
knife knife knives
sheep sheep sheep
mouse mouse mice
词的构成

形态变换(morphological process)可以用来形成新词

  1. 衍生 = 词干 + 词缀
  • friend + -ly = friendly
  • un- + friendly = unfriendly
  • unfriendly + -ness = unfriendlyness
  1. 组合 = 词干 + 词干
  • rail + way = railway
分词 tokenize

  分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。

词形还原 Steam&Lemmatize

  词干化Steamming和原形化Lemmatizing不是完全相同的,stemming是去掉词缀,比如:

  • play -> play
  • replayed -> re-play-ed
  • computerized -> comput-er-ize-d

  但是Lemmatizing是找到原形,其实也就是基于变形或衍生的不同,但是很多时候,这两种还原方式是一致的。

Word Stem Lemma
played play play
replayed play replay
unfriendly friend unfriendly
词形标记(POS tagging)

  以句子为单位,而不是单词为单位,为每一个词标上词形。词形标记通常被用于下游的任务:命名实体识别、依赖解析。

  • 默认标注器
  • 正则表达式标注器
  • 查询标注器
  • N-Gram标注器
命名实体识别(Named Entity Recognition)

命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐