吾本轻狂|主成分分析,PCA( 四 )


画箭头的function:
Ax.annotate(self,text,xy,*args,**kwargs)
Annotatethepointxywithtexttext,
ax.annotate('',v1,v0,arrowprops=arrowprops)
直线是点xy到xytext之间 , 即v1和v0这两个点连成一条直线 , 箭头的样式定义在arrowprops这个dictionary里面 。
arrowprops=dict(arrowstyle='arrowstyle箭头的类型 , arrowstyle变成’->’时 , 方向就会反过来 。 Linwidth:线条宽度 , shrink:就是要不要缩短箭头 , 我们这里就不需要了 , color:箭头颜色 。
下面看看当我们把维度降下来 , 变成一个component的时候:此时需要把n_components=1 , 之前的S里面有两个基础向量 , 现在把n_components设置为1后变成了一个 。 在S矩阵里面 , 从左上角到右下角 , 取出第一个sigma 。
pca=PCA(n_components=1)pca.fit(X)X_pca=pca.transform(X)print("originalshape:",X.shape)print("transformedshape:",X_pca.shape)
Pca.transform(X):ApplydimensionalityreductiontoX.
给原来的矩阵降维 , 这里设置的n_components=1 , 最终维度为1 。
Pca.inverse_transform(X_pca):transformdatabacktoitsoriginalspace.
把降维后的数据还原到原来的空间中 , 这边是把二维降维到一维后的数据还原到二维空间中 , 还原到二维空间后 , 其中一个维度的信息被丢失就不能展示出来 。
再来看一下更高维度的:fromsklearn.datasetsimportload_digitsdigits=load_digits()digits.data.shape#shape为:1797,64 , 有64个维度 。
defplot_digits(data):fig,axes=plt.subplots(4,10,figsize=(10,4),subplot_kw={'xticks':[],'yticks':[]},gridspec_kw=dict(hspace=0.1,wspace=0.1))fori,axinenumerate(axes.flat):ax.imshow(data[i].reshape(8,8),cmap='binary',interpolation='nearest',clim=(0,16))plot_digits(digits.data)
np.random.seed(42)noisy=np.random.normal(digits.data,4)plot_digits(noisy)得到下面的图像:
pca=PCA(0.5).fit(noisy)plt.plot(np.cumsum((pca.explained_variance_ratio_)))
所有components的方差求和:Total_var=explained_variance_.sum()
每个component的方差所占比例:Explained_variance_ratio_=explained_variance_/total_var
每个component的方差所占比例求和:Np.cumsum() 。
components=pca.transform(noisy)filtered=pca.inverse_transform(components)plot_digits(filtered)


推荐阅读