pyspark报错,'DataFrame' object has no attribute '_jdf'
dataZscore:
dataZscore = (dataTransformed - dataTransformed.mean(axis=0)) /dataTransformed.std(axis=0)
dataZscore.columns = ['Z' + i for i in dataTransformed.columns]
dataZscore.head()
ZL ZR ZF ZM ZC
0 1.435707 -0.944948 14.034016 26.761154 0.315041
1 1.307152 -0.911894 9.073213 13.126864 0.315041
2 1.328381 -0.889859 8.718869 12.653481 0.315041
3 0.658476 -0.416098 0.781585 12.540622 0.315041
4 0.386032 -0.922912 9.923636 13.898736 0.315041
#Kmeans
#导入工具包
import time
import pyspark.ml.clustering as clu
# 获取程序运行前时间
start = time.time()
#通过上图观察可知最好的簇数量为5
#初始化Kmeans模型
kmodel = clu.KMeans(k=5, initMode='k-means||', initSteps=10,maxIter=300, seed=0)
kmodel.fit(dataZscore)
# # 获取程序运行结束后时间
# end = time.time()
# print(f"使用K-means聚类算法的运行时间为:%.3fs" % (end-start))
# # 聚类算法的评价指标CH值的计算:
# score = calinski_harabaz_score(dataZscore, labels) # 至越大表示聚类效果越好
# print("CH值:", score)
一直报错,没办法解决
'DataFrame' object has no attribute '_jdf'
0 提建议
邀请回答
编辑 收藏 删除 收藏 举报 追加酬金 (90%的用户在追加酬金后获得了解决方案) 当前问题酬金
¥ 0
(可追加 ¥500)
支付方式
扫码支付
加载中...
1
条回答
默认
最新
查看更多回答(0条)