NLTK: N-gramy

nltk-n-gramy N-gramy to sekwencje następujących po sobie elementów. N = ilość elementów występujacych w sekwencji: 1-gram — unigram, 2-gram — bigram, 3-gram — trigram, 4-gram, 5-gram, itd. In [1]: tokens = "W tym zdaniu jest kilka wyrazów o różnej długości".split(" ")...

NLTK: tokenizacja i steaming

nltk-tokenizacja_i_steaming 3 najbardziej popularne tokenizatory z biblioteki NLTK SpaceTokenizer¶ w odróżnieniu od spaCy dzieli wyłącznie po spacji In [1]: from nltk.tokenize import SpaceTokenizer space_tokenizer = SpaceTokenizer() text = "Budynek powstawał w latach...

SpaCy po polsku – Bag Of Words

spaCy_po_polsku-bag-of-words Bag-of-words (BoW) – technika uproszczonej reprezentacji tekstu. Polega na przekształeceniu sekwencji segmentów do policzonego zbioru segmentów. Kolejność segmentów nie ma znaczenia. Głównym zastosowaniem jest odwzorowanie...

NLTK: Bag Of Words

nltk-bag-of-words Bag-of-words (BoW) – technika uproszczonej reprezentacji tekstu. Polega na przekształeceniu sekwencji segmentów do policzonego zbioru segmentów. Kolejność segmentów nie ma znaczenia. Głównym zastosowaniem jest odwzorowanie podobieństwa...