使用Kmeans算法进行客户分类_[#第一枪]

发布时间：2021-06-07 18:36:03 阅读：次来源：齿轮厂家

K-Means目标K均值的目的是使每个点到其对应的聚类质心的距离的平方和最小。给定一组观测值（x1,x2,...,xn），其中每一个观测值都是d维实数向量，K均值聚类旨在将n个观测值划分为k（k≤n）个集合S={S1,S2,...,Sk}以最小化聚类内的平方和，其中μi是Si中的点的平均值。

保证K-Means算法收敛到局部最优。

业务用途这是一种通用算法，可用于任何类型的分组。部分使用案例如下：

行为细分：按购买历史记录细分，按应用程序、网站或者购买平台上的活动细分。

库存分类：按照销售活动分组存货（准备库存）。

传感器测量：检测运动传感器中的活动类型，并分组图像。

检测机器人或异常：从机器人中分离出有效地活动组。

k - means聚类算法步骤1:选择集群的数量K。

步骤2:随机选择K个点，作为质心。(不一定要从你的数据集中选择)

步骤3:将每个数据点分配到->构成K簇的最近的质心。

步骤4:计算并重新放置每个集群的新质心。

步骤5:将每个数据点重新分配到最近的质心。如果有任何重置发生，转到步骤4，否则转到FIN。

示例:在python中对客户费用和发票数据应用K-Means集群。对于python，我使用的是Spyder Editor。

下面，我们将展示K-means算法如何处理客户费用和发票数据的例子。

我们有500个客户数据，我们关注两个客户特征: 客户发票，客户费用。

一般来说，只要数据样本的数量远远大于特征的数量，该算法可以用于任意数量的特征。

步骤1:清理和转换数据对于这个示例，我们已经清理和做了一些简单的数据转换。下面是pandas DataFrame的数据样本。

导入库，

1、numpy即用于数学工具的，以在我们的代码中包含任何类型的数学

2、matplotlib 绘制漂亮的图表

3、pandas用于导入数据集和管理数据集