NLTK: N-gramy
nltk-n-gramy N-gramy to sekwencje następujących po sobie elementów. N = ilość elementów występujacych w sekwencji: 1-gram — unigram, 2-gram — bigram, 3-gram — trigram, 4-gram, 5-gram, itd. In [1]: tokens = "W tym zdaniu jest kilka wyrazów o różnej długości".split(" ")...NLTK: tokenizacja i steaming
nltk-tokenizacja_i_steaming 3 najbardziej popularne tokenizatory z biblioteki NLTK SpaceTokenizer¶ w odróżnieniu od spaCy dzieli wyłącznie po spacji In [1]: from nltk.tokenize import SpaceTokenizer space_tokenizer = SpaceTokenizer() text = "Budynek powstawał w latach...Analiza morfologiczna
Analiza morfologiczna – identyfikacja wszystkich form wyrazowych danego tokena w językach aglutynacyjnych i fleksyjnych (polski) Ujednoznacznienie fleksyjne – wybór jednej formy wyrazowej na podstawie kontekstu Forma wyrazowa – wykładnik + cechy...Zabezpieczone: Zasoby językowe w NLP
Strona chroniona hasłem
Aby zobaczyć chroniony post, wprowadź hasło poniżej: