使用的包:
import math import random import numpy as np from datetime import datetime from pprint import pprint as p import matplotlib.pyplot as plt
1.首先我在算法中预设了一个二维(为了方便后期画图呈现在二维平面上)数据dataset。
当然也可以使用高纬度的数据,并且我将canopy核心算法写入了类中,后期可以通过直接调用的方式对任何维度的数据进行处理,当然只是小批量的,大批量的数据可以移步Mahout和Hadoop了。
# 随机生成500个二维[0,1)平面点 dataset = np.random.rand(500, 2)