Analiza morfologiczna – identyfikacja wszystkich form wyrazowych danego tokena w językach aglutynacyjnych i fleksyjnych (polski)

Ujednoznacznienie fleksyjne – wybór jednej formy wyrazowej na podstawie kontekstu

Forma wyrazowa – wykładnik + cechy gramatyczne
Tag – znacznik fleksyjny (Tagset to zbiór tagów)
Leksem – zbiór form wyrazowych
Segment – token
Lemat – kanoniczna forma leksemu (rzeczownik ->mianownik, l.poj.; przymiotnik -> mianownik, l.poj, r.m; czasownik => bezokolicznik)

Kategorie gramatyczne (określają przez co odmieniają się części mowy. Rzeczownik: liczba, przypadek, rodzaj. Przymiotnik: liczba, przypadek, rodzaj, stopień)

Uniwersalne części mowy UPOS – klasa gramatyczna

ADJ: adjective – przymiotnik (np. nowy, stary)

ADP: adposition – przyimek (np. na, do )

ADV: adverb – przysłówek (np. szybko, wolno)

AUX: auxiliary verb – czasownik posiłkowy (np. będę, będziesz)

CCONJ: coordinating conjunction – spójnik współrzędny (np. i, lub)

DET: determiner – przedimek (np. w (każdy, który))

INTJ: interjection – wykrzyknik (np. o, eh)

NOUN: noun – rzeczownik (np. krzesło, stół)

NUM: numeral – liczebnik (np. pięć, pięcioro)

PART: particle – partykuła (np. również, także)

PRON: pronoun – zaimek (np. wy, ich)

PROPN: proper noun – nazwa własna (np. Polska, Warszawa)

PUNCT: punctuation – interpunkcja (np. ., ,)

SCONJ: subordinating conjunction – spójnik podrzędny (np. że, skoro)

SYM: symbol – symbol/emotikona (np. :), $)

VERB: verb – czasownik (np. idzie, biegnie)

X: other – inne/skróty/wyrazy obcojęzyczne (np. ul., mgr.)