Scikit-Learn: TF-IDF

utworzone przez Przemek | sty 28, 2021 | NLP

sklearn-TF-IDF Tf-idf — metoda liczenia wagi terminów w oparciu o ich częstość w dokumencie (tf, term frequency) oraz ich rozkład w całym korpusie (idf, inverse document frequency). Wagi Tf-idf faworyzują słowa występujące w niewielu dokumentach, ponieważ mają większą...

NLTK: N-gramy

utworzone przez Przemek | sty 26, 2021 | NLP

nltk-n-gramy N-gramy to sekwencje następujących po sobie elementów. N = ilość elementów występujacych w sekwencji: 1-gram — unigram, 2-gram — bigram, 3-gram — trigram, 4-gram, 5-gram, itd. In [1]: tokens = "W tym zdaniu jest kilka wyrazów o różnej długości".split(" ")...

NLTK: tokenizacja i steaming

utworzone przez Przemek | sty 3, 2021 | NLP

nltk-tokenizacja_i_steaming 3 najbardziej popularne tokenizatory z biblioteki NLTK SpaceTokenizer¶ w odróżnieniu od spaCy dzieli wyłącznie po spacji In [1]: from nltk.tokenize import SpaceTokenizer space_tokenizer = SpaceTokenizer() text = "Budynek powstawał w latach...

Analiza morfologiczna

utworzone przez Przemek | gru 29, 2020 | NLP

Analiza morfologiczna – identyfikacja wszystkich form wyrazowych danego tokena w językach aglutynacyjnych i fleksyjnych (polski) Ujednoznacznienie fleksyjne – wybór jednej formy wyrazowej na podstawie kontekstu Forma wyrazowa – wykładnik + cechy...

Zabezpieczone: Zasoby językowe w NLP

utworzone przez Przemek | gru 29, 2020 | NLP

Strona chroniona hasłem

Aby zobaczyć chroniony post, wprowadź hasło poniżej:

Scikit-learn: wektoryzacja

utworzone przez Przemek | gru 27, 2020 | NLP

sklearn-wektoryzacja Technika reprezentująca kolekcję dokumentów w postaci wektorów o stałej długości¶ In [4]: from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer() import spacy nlp = spacy.load('pl_core_news_sm') In [5]:...

« Starsze wpisy

Blog prywatny, mający na celu usystematyzowanie wiedzy.

Analiza danych w Python: Fanpage na FB

E-mail: kontakt@gatak.pl

P	W	Ś	C	P	S	N
« sty
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31