Posts

Showing posts from August, 2015

Hugo Steinhaus, or K-means clustering in French

Image
Kernel clustering [Modern transcription of the Hugo Steinhaus paper in 1956 (in French) , at the source of k-means clustering algorithms, published first in a french-written post ] Data clustering or clustering analysis belongs to statistical data analysis methods. It aims at forming groups of objects that are similar in some way. Those groups are named clusters. The word cluster is related to clot , for thick mass of coagulated liquid or of material stuck together The whole set of objects contains heterogeneous data, that ought to be grouped into subsets possessing a greater inner homogeneity. Such methods rely on similarity criteria or proximity measures. They are related to classification, machine learning, segmentation, pattern recognition, and have applications ranging from image processing to bioinformatics. One of the most popular clustering method is known as K-means ( k-moyennes in French). with a variation called dynamic clustering (beautifully called nuée

Hugo Steinhaus : classification par k-moyennes, nuées dynamiques

Image
Partitionnement à noyau [Mise à disposition de l' article de Hugo Steinhaus de 1956 , à l'origine de l'algorithme de partitionnement par les k-moyennes ( available in English )] Le partitionnement des données ( data clustering ou clustering analysis ) est une méthode "statistique" d'analyse de données visant à regrouper, dans un ensemble de données hétérogènes, des sous-ensembles de ces données en amas ou paquets plus homogènes. Chaque sous-ensemble doit ainsi présenter des caractéristiques similaires, quantifiée par des critères de similarité ou différentes mesures de proximité. Ces techniques appartiennent aux familles de classification, d'apprentissage automatique ou de segmentation, employées dans un nombre phénoménal d'applications, du traitement d'image à la bio-informatique. L'une des méthodes de partitionnement ou d’agrégation les plus populaires est celle des k-moyennes (ou K-means ), un problème d'optimisation com