Analiza morfologiczna – identyfikacja wszystkich form wyrazowych danego tokena w językach aglutynacyjnych i fleksyjnych (polski)
Ujednoznacznienie fleksyjne – wybór jednej formy wyrazowej na podstawie kontekstu
Forma wyrazowa – wykładnik + cechy gramatyczne
Tag – znacznik fleksyjny (Tagset to zbiór tagów)
Leksem – zbiór form wyrazowych
Segment – token
Lemat – kanoniczna forma leksemu (rzeczownik ->mianownik, l.poj.; przymiotnik -> mianownik, l.poj, r.m; czasownik => bezokolicznik)
Kategorie gramatyczne (określają przez co odmieniają się części mowy. Rzeczownik: liczba, przypadek, rodzaj. Przymiotnik: liczba, przypadek, rodzaj, stopień)
Uniwersalne części mowy UPOS – klasa gramatyczna
ADJ: adjective – przymiotnik (np. nowy, stary)
ADP: adposition – przyimek (np. na, do )
ADV: adverb – przysłówek (np. szybko, wolno)
AUX: auxiliary verb – czasownik posiłkowy (np. będę, będziesz)
CCONJ: coordinating conjunction – spójnik współrzędny (np. i, lub)
DET: determiner – przedimek (np. w (każdy, który))
INTJ: interjection – wykrzyknik (np. o, eh)
NOUN: noun – rzeczownik (np. krzesło, stół)
NUM: numeral – liczebnik (np. pięć, pięcioro)
PART: particle – partykuła (np. również, także)
PRON: pronoun – zaimek (np. wy, ich)
PROPN: proper noun – nazwa własna (np. Polska, Warszawa)
PUNCT: punctuation – interpunkcja (np. ., ,)
SCONJ: subordinating conjunction – spójnik podrzędny (np. że, skoro)
SYM: symbol – symbol/emotikona (np. :), $)
VERB: verb – czasownik (np. idzie, biegnie)
X: other – inne/skróty/wyrazy obcojęzyczne (np. ul., mgr.)