I migliori 10 algoritmi nel data mining

Alberi decisionali

Gli algoritmi dell'albero delle decisioni consistono nell'organizzare i dati in elezioni concorrenti che formano rami di influenza dopo una decisione iniziale. Il tronco d'albero rappresenta la decisione iniziale e inizia con una domanda sì o no, come fare colazione o no. Fare colazione e non fare colazione sarebbero i due rami divergenti dell'albero, e ogni scelta successiva avrebbe i suoi rami divergenti che porterebbero a un punto finale.

L'algoritmo K-significa

L'algoritmo K-mean si basa sull'analisi di gruppo. Prova a dividere i dati raccolti in "blocchi" separati (cluster) raggruppati per caratteristiche comuni.

Supporta macchine vettoriali

Gli algoritmi di macchine vettoriali di supporto accettano dati di input e prevedono quale delle due possibili categorie include i dati di input. Un esempio potrebbe essere quello di raccogliere i codici postali di un gruppo di elettori e provare a prevedere se un elettore è un democratico o un repubblicano.

L'algoritmo apriori

L'algoritmo apriori normalmente controlla i dati di transazione. Ad esempio, in un negozio di abbigliamento, l'algoritmo potrebbe controllare quali camicie i clienti acquistano solitamente insieme.

Algoritmo EM

Questo algoritmo definisce i parametri analizzando i dati e prevede la possibilità di una futura uscita o evento casuale all'interno dei parametri dei dati. Ad esempio, l'algoritmo EM potrebbe tentare di prevedere il momento della prossima eruzione di un geyser in base ai dati temporali delle eruzioni passate.

Algoritmo PageRank

L'algoritmo PageRank è un algoritmo di base per i motori di ricerca. Valutare e stimare la pertinenza di un particolare dato all'interno di un set di grandi dimensioni, ad esempio un singolo sito Web all'interno di un set più ampio di tutti i siti Web Internet.

Ala algoritmo di AdaBoost

L'algoritmo AdaBoost funziona all'interno di altri algoritmi di apprendimento che anticipano un comportamento in base ai dati osservati in modo che siano sensibili agli estremi statistici. Sebbene l'algoritmo EM possa essere distorto a causa di un geyser che ha due eruzioni in meno di un minuto quando normalmente ha un'eruzione una volta al giorno, l'algoritmo AdaBoost modifica l'output dell'algoritmo EM analizzando la pertinenza della fine.

Algoritmo k più vicino

Questo algoritmo riconosce i modelli nella posizione dei dati e li associa ai dati con un identificatore più grande. Ad esempio, se si desidera assegnare un ufficio postale a ciascuna posizione geografica della casa e si dispone di una serie di dati per ciascuna posizione geografica della casa, l'algoritmo del vicino k più vicino assegnerà le case all'ufficio postale più vicino in base alla loro vicinanza.

Naive Baye

L'algoritmo Naive Baye prevede l'output di un'identità in base ai dati di osservazioni note. Ad esempio, se una persona è alta 6 piedi e 6 pollici (1, 97 m) e indossa una taglia 14 di scarpe, l'algoritmo Naive Baye potrebbe prevedere con una certa probabilità che la persona è un uomo.

Algoritmo CART

"CARRELLO" è un acronimo in inglese che significa analisi regressiva e classificazione dell'albero. Come le analisi dell'albero decisionale, organizza i dati in base alle opzioni concorrenti, come se una persona fosse sopravvissuta a un terremoto. A differenza degli algoritmi dell'albero delle decisioni, che possono classificare solo un output o un output numerico in base alla regressione, l'algoritmo CART può utilizzare entrambi per prevedere la probabilità di un evento.

Articoli Interessanti