Archiwa | Data Science

Scikit-learn: wektoryzacja

utworzone przez Przemek | gru 27, 2020 | NLP

sklearn-wektoryzacja Technika reprezentująca kolekcję dokumentów w postaci wektorów o stałej długości¶ In [4]: from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer() import spacy nlp = spacy.load('pl_core_news_sm') In [5]:...

SpaCy po polsku – Bag Of Words

utworzone przez Przemek | gru 27, 2020 | NLP

spaCy_po_polsku-bag-of-words Bag-of-words (BoW) – technika uproszczonej reprezentacji tekstu. Polega na przekształeceniu sekwencji segmentów do policzonego zbioru segmentów. Kolejność segmentów nie ma znaczenia. Głównym zastosowaniem jest odwzorowanie...

NLTK: Bag Of Words

utworzone przez Przemek | gru 27, 2020 | NLP

nltk-bag-of-words Bag-of-words (BoW) – technika uproszczonej reprezentacji tekstu. Polega na przekształeceniu sekwencji segmentów do policzonego zbioru segmentów. Kolejność segmentów nie ma znaczenia. Głównym zastosowaniem jest odwzorowanie podobieństwa...

SpaCy po polsku – lematyzacja

utworzone przez Przemek | gru 27, 2020 | NLP

spaCy_po_polsku-lematyzacja In [1]: import spacy nlp = spacy.load("pl_core_news_sm") lematyzacja polega na sprowadzeniu słowa do formy bazowej¶ In [2]: doc = nlp("jem jemy jedzcie") for t in doc: print(f"{t.text:...

SpaCy po polsku – model statystyczny

utworzone przez Przemek | gru 27, 2020 | NLP

spaCy_po_polsku-model_statystyczny In [2]: import spacy In [19]: nlp = spacy.load("pl_core_news_lg") In [20]: doc = nlp("Czarny kot zjadł rybę spod stołu i poszedł spać!") części mowy¶ In [21]: for token in doc:...

P	W	Ś	C	P	S	N
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Scikit-learn: wektoryzacja

SpaCy po polsku – Bag Of Words

NLTK: Bag Of Words

SpaCy po polsku – lematyzacja

SpaCy po polsku – model statystyczny

Ostatnie wpisy

Tagi