特征向量与特征值：数据科学中的结构解剖刀

发布时间：2026/7/6 3:21:52

1. 这不是数学课是数据科学的“解剖刀”——为什么特征向量和特征值必须亲手算一遍你打开一份用户行为日志想找出哪些操作路径最能预测流失你调试一个推荐模型发现训练损失卡在0.35再也下不去你用PCA降维后画出的散点图像一盘打翻的芝麻糊根本分不清类别。这些场景背后十有八九藏着同一个被忽略的底层结构特征向量Eigenvectors和特征值Eigenvalues。它们不是线性代数课本里供人膜拜的抽象符号而是数据科学中真正能“切开”矩阵、看清内在骨架的解剖刀。我带过三届数据科学训练营每期都有至少7名学员在项目答辩时卡在“为什么这个主成分解释了68%的方差”追问下去问题从来不在代码——而在于他们从没亲手推导过一个2×2矩阵的特征分解更没把特征向量当成一条有方向、有长度、有物理意义的“数据流主干道”来理解。这篇文章不讲定义不列定理只做一件事带你用真实数据、真实错误、真实调试过程把特征向量和特征值从黑箱里拽出来摊在桌面上看清楚它怎么决定PCA的旋转角度、怎么控制SVM的间隔宽度、怎么暴露协方差矩阵里的隐藏偏见。你会看到当协方差矩阵的某个特征值趋近于零时不是计算出了错而是你的数据在那个方向上根本没变化——就像试图用尺子测量一张纸的厚度却忘了它只有二维。适合谁刚学完numpy.dot但对np.linalg.eig输出的两个数组还发懵的入门者调参调到怀疑人生却不知模型瓶颈在哪的中级实践者还有那些总在论文里看到“spectral clustering relies on eigenvector decomposition”却不敢深究的进阶者。接下来的内容每一行代码都对应一次真实调试每一个公式都来自我踩过的坑。2. 核心设计逻辑为什么必须从“几何直觉”出发而不是从“代数求解”开始2.1 特征向量的本质是“不变方向”不是“计算结果”很多教程一上来就写Ax λx然后教你怎么解det(A−λI)0。这就像教人骑自行车先背《牛顿运动定律》——理论上没错但你摔了七次才明白“平衡”到底是什么。我在处理某电商用户点击序列时最初直接套用sklearn.PCA得到前两个主成分后画图发现高价值用户和低价值用户在PC1轴上完全重叠。按常规思路我会调n_components或换标准化方法。但这次我停了下来手动提取了协方差矩阵C运行np.linalg.eig(C)盯着输出的vectors和values看了十分钟。突然意识到PC1对应的特征向量其分量数值大小直接告诉我每个原始特征比如“加购次数”“页面停留秒数”“优惠券使用率”对这个主方向的贡献权重。而那个最大的特征值数值上等于所有数据点在这个方向上的方差总和。这才是关键——特征值不是个标量它是“能量刻度”特征向量不是个数组它是“数据流的主航道”。所以本项目的设计起点不是解方程而是构建一个可视觉化的2D案例用两组明显线性相关的点比如身高-体重数据手动计算协方差矩阵再亲手分解最后把特征向量画成箭头叠加在原始散点图上。当你亲眼看到那条最长的箭头恰好穿过数据云最“胖”的方向你就不会再问“为什么PCA要找最大特征值”。2.2 放弃“完美分解”拥抱“数值不稳定”的真实世界教科书总假设矩阵是对称正定的特征向量天然正交。但现实数据呢我处理某IoT设备传感器数据时温度、湿度、气压三个字段采集频率不同步协方差矩阵出现微小的非对称性C[0,1]与C[1,0]差1e-15。sklearn.PCA照常运行但当我用np.linalg.eig手动分解时得到的特征向量居然不正交点积结果是0.002而非0。这曾让我以为代码出错。后来查文档才发现np.linalg.eig对非对称矩阵返回的是右特征向量而PCA严格要求对称矩阵的特征分解。正确做法是强制取对称部分C_sym (C C.T) / 2。这个细节90%的入门教程不会提但它直接决定你能否信任PCA结果。因此本项目所有实操步骤都预设了“数据不完美”前提我们会在计算协方差后加入对称化校验会对比eig和eigh专用于对称矩阵的结果差异会在特征向量归一化后手动验证正交性。这不是炫技而是建立对工具输出的审慎信任——毕竟在生产环境里一个未校验的特征向量方向偏差5度可能导致推荐系统误判30%的用户兴趣。2.3 特征值的“大小”必须放在具体尺度下解读新手常犯的错误是盯着特征值列表说“第一个特征值是12.7第二个是0.3所以PC1很重要”。但12.7重要吗重要到什么程度我曾优化一个金融风控模型PCA后保留前5个主成分累计方差贡献率92%。但上线后发现对“小微企业贷款违约”这一关键子集的识别率暴跌40%。回溯发现该子集在PC3方向上的投影方差比整体数据高3倍——而PC3对应的特征值在全局排序中仅排第7。问题出在特征值的绝对大小没有意义必须结合具体业务子集的分布来解读。因此本项目设计了一个双尺度分析模块先计算全局协方差矩阵的特征值谱再针对特定标签如“流失用户”“高转化用户”子集单独计算其协方差矩阵的特征值并绘制对比柱状图。你会发现某些在全局排名靠后的特征值在关键子集上可能跃居第一。这才是特征值真正的业务含义它不是数据的“通用重要性”而是特定场景下的“结构敏感度”。3. 核心细节解析从手算2×2矩阵到诊断真实数据陷阱3.1 手算入门用一支笔、一张纸拆解第一个2×2矩阵别急着敲代码。拿出纸笔跟我一起算这个矩阵A [[4, 2], [1, 3]]第一步写特征方程det(A − λI) 0即 det([[4−λ, 2], [1, 3−λ]]) (4−λ)(3−λ) − 2×1 0展开λ² − 7λ 10 0解得λ₁ 5, λ₂ 2现在求λ₁5对应的特征向量解(A − 5I)x 0即 [[−1, 2], [1, −2]] [x₁, x₂]ᵀ [0, 0]ᵀ得到方程−x₁ 2x₂ 0 → x₁ 2x₂所以特征向量是[2, 1]ᵀ或任何倍数如[4, 2]ᵀ同理λ₂2时(A − 2I) [[2, 2], [1, 1]] → x₁ x₂ 0 → 向量为[1, −1]ᵀ提示这里的关键洞察是——特征向量不是唯一解而是一个方向。[2,1]和[4,2]指向同一方向只是长度不同。PCA中我们总取单位向量所以最终PC1方向是[2,1]/√5 ≈ [0.894, 0.447]。这个归一化步骤绝不能省否则后续投影计算会因尺度混乱而失效。我坚持手算这个例子是因为它暴露了三个易被忽略的真相第一特征值之和等于矩阵迹52437这是检验计算是否出错的快速check第二特征向量的分量比2:1直接反映原始坐标轴的权重分配第三两个特征向量[2,1]和[1,−1]点积为2×1 1×(−1)1≠0说明A不对称其特征向量不正交——这正是为什么PCA必须用协方差矩阵天然对称而非原始数据矩阵。3.2 协方差矩阵从“数据表”到“结构地图”的转换器假设你有100个用户的两维数据X [身高, 体重]形状(100, 2)。协方差矩阵C不是凭空来的它由三步构建中心化X_centered X − X.mean(axis0)注意必须减去均值我曾跳过这步直接算X.T X结果得到的“主方向”严重偏离数据实际伸展方向。因为协方差衡量的是偏离均值的波动不是绝对位置。计算C (X_centered.T X_centered) / (n−1)这里除以n−1样本协方差而非n总体协方差是统计学惯例。在数据科学中我们通常处理样本故用n−1。若用sklearn其PCA默认使用n−1但自定义实现时极易忘记。验证对称性abs(C − C.T).max() 1e-10如前所述若不满足强制C_sym (C C.T)/2。现在C是一个2×2矩阵C [[Var(身高), Cov(身高,体重)],[Cov(身高,体重), Var(体重)]]它的特征值λ₁, λ₂分别代表数据在PC1、PC2方向上的方差大小特征向量v₁, v₂则给出这两个方向在原始坐标系中的角度。例如若v₁ [0.99, 0.14]说明PC1几乎与身高轴重合若v₁ [0.71, 0.71]则PC1是45度对角线——这正是数据呈圆形分布时的典型结果此时λ₁≈λ₂。3.3 特征值的“退化”预警当λ→0时你在和什么搏斗特征值趋近于零不是计算失败而是数据在该方向上“失去维度”。我处理某医疗影像特征集1000维时前10个特征值依次为124.5, 89.2, 45.7, ..., 0.003, 0.001。最后两个λ0.01意味着在对应特征向量方向上所有样本的投影几乎重合——信息彻底丢失。这时强行保留这些PC只会引入噪声。但更危险的是“伪退化”某次数据清洗后我发现λ₅骤降至1e-8远低于其他值。排查发现是某个传感器字段全为0硬件故障导致该维度方差为0协方差矩阵秩亏缺。解决方案不是删除PC而是先做缺失值/异常值检测再计算协方差。本项目中我们加入特征值谱的“陡降检测”计算相邻特征值比值λᵢ/λᵢ₊₁若大于100则触发警告并检查对应原始特征的方差。这是比单纯看累计方差更早的故障信号。3.4 特征向量的“方向歧义”为什么[−0.89, −0.45]和[0.89, 0.45]都是正确答案np.linalg.eig返回的特征向量其符号是随机的。v和−v都是同一特征值的有效特征向量。这在数学上完全正确但在工程实践中会引发灾难。我曾开发一个实时推荐系统离线训练时PC1向量为[0.6, 0.8]线上服务时eig返回[−0.6, −0.8]。结果所有用户在PC1轴上的投影符号全部翻转导致相似度计算完全错误。解决方案有两个一是统一约定取第一个非零分量恒为正代码中加一行v v if v[0] 0 else -v二是更鲁棒的做法——在投影计算中使用cosine similarity替代直接投影因为cosθ (x·v)/(|x||v|) 对v和−v结果相同。本项目采用第一种因其简单直接且符合多数库如sklearn的内部约定。4. 实操全流程从原始CSV到可解释的特征空间可视化4.1 数据准备与探索用5行代码揪出潜在问题我们使用经典的make_blobs生成模拟数据但刻意引入现实缺陷import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import make_blobs # 生成3簇数据但让第2簇的方差极小模拟传感器漂移 X, y make_blobs(n_samples300, centers[[0,0], [3,3], [6,0]], cluster_std[1.0, 0.05, 1.0], random_state42) # 添加一个全零列模拟故障传感器 X_faulty np.hstack([X, np.zeros((X.shape[0], 1))]) # 添加10个异常点模拟数据录入错误 outliers np.array([[10, 10, 0], [-5, -5, 0]]) X_final np.vstack([X_faulty, outliers])关键动作cluster_std[1.0, 0.05, 1.0]—— 第二簇极度紧凑其在协方差矩阵中将贡献极小的特征值np.zeros(...)—— 引入零方差维度使协方差矩阵奇异outliers—— 离群点会拉长协方差矩阵的尾部扭曲特征向量方向。实操心得永远不要相信“干净数据”。我在某银行项目中发现客户年龄字段有0.3%的记录为负数系统bug这些点虽少却让PC1方向偏移12度。因此本流程第一步必做print(Min variance per feature:, X_final.var(axis0))。若发现接近0的值如1e-15立即标记该特征需处理。4.2 协方差矩阵构建与对称化校验def robust_covariance(X): # 1. 中心化 X_centered X - X.mean(axis0) # 2. 计算未校正协方差 C_raw X_centered.T X_centered / (X.shape[0] - 1) # 3. 检查对称性 asymmetry np.abs(C_raw - C_raw.T).max() print(fRaw covariance asymmetry: {asymmetry:.2e}) if asymmetry 1e-10: print(Warning: Raw covariance is not symmetric. Applying symmetrization.) C (C_raw C_raw.T) / 2 else: C C_raw return C C robust_covariance(X_final) print(Covariance matrix:\n, np.round(C, 3))输出示例Raw covariance asymmetry: 2.1e-15 Covariance matrix: [[12.45 8.21 0.00] [ 8.21 10.33 0.00] [ 0.00 0.00 0.00]]注意第三列为0——这正是我们添加的零方差特征。此时C是奇异的行列式为0np.linalg.eig仍可运行但会返回一个0特征值。这是好事它明确告诉你“这个维度没有信息可以安全丢弃”。4.3 特征分解与主成分提取不只是调用函数# 使用eigh而非eig因C是对称矩阵更稳定 eigvals, eigvecs np.linalg.eigh(C) # eigh返回升序排列 # 翻转顺序使最大特征值在前 eigvals eigvals[::-1] eigvecs eigvecs[:, ::-1] # 归一化特征向量虽eigh已保证但显式写出更清晰 eigvecs eigvecs / np.linalg.norm(eigvecs, axis0, keepdimsTrue) # 验证正交性 orthogonality_check eigvecs.T eigvecs print(Orthogonality check (should be I):\n, np.round(orthogonality_check, 10)) # 计算累计方差贡献率 cumsum_var np.cumsum(eigvals) / eigvals.sum() print(Cumulative variance ratio:, np.round(cumsum_var, 3))关键细节用eigh而非eig对称矩阵专用数值更稳定且自动返回正交特征向量eigvals[::-1]翻转顺序确保索引0对应最大特征值符合PCA习惯显式归一化避免因浮点误差导致长度偏离1正交性验证eigvecs.T eigvecs应为单位矩阵若对角线外有显著非零值1e-10说明矩阵病态需检查数据。输出中Cumulative variance ratio: [0.723 0.998 1. ]表明前两个PC已解释99.8%方差第三个PC对应零方差特征贡献为0可安全舍弃。4.4 可视化把抽象向量变成肉眼可见的“数据脊梁”def plot_pca_analysis(X, eigvecs, eigvals, n_components2): fig, axes plt.subplots(1, 2, figsize(14, 6)) # 左图原始数据特征向量箭头 axes[0].scatter(X[:, 0], X[:, 1], cgray, alpha0.6, s10, labelData) # 绘制特征向量从均值点出发 mean_point X.mean(axis0) for i in range(n_components): # 向量长度按特征值缩放更直观显示“重要性” scale np.sqrt(eigvals[i]) * 2 # 乘2放大便于观察 end_point mean_point scale * eigvecs[:2, i] axes[0].arrow(mean_point[0], mean_point[1], end_point[0]-mean_point[0], end_point[1]-mean_point[1], head_width0.2, head_length0.3, fcred, ecred, linewidth2, labelfPC{i1} (λ{eigvals[i]:.2f})) axes[0].set_xlabel(Feature 1); axes[0].set_ylabel(Feature 2) axes[0].legend(); axes[0].set_title(Original Data Principal Components) # 右图特征值谱累计方差 axes[1].bar(range(1, len(eigvals)1), eigvals, alpha0.7, labelEigenvalues) axes[1].plot(range(1, len(eigvals)1), cumsum_var, ro-, labelCumulative Ratio) axes[1].set_xlabel(Component Index); axes[1].set_ylabel(Eigenvalue / Ratio) axes[1].legend(); axes[1].set_title(Eigenvalue Spectrum Cumulative Variance) axes[1].grid(True, alpha0.3) plt.tight_layout() plt.show() plot_pca_analysis(X_final, eigvecs, eigvals)这张图的价值远超代码本身左图中红色箭头从数据均值点射出其长度正比于√λ方向即特征向量。你能直观看到PC1如何精准穿过数据最延展的方向而PC2垂直于它捕捉剩余变化右图中第一个柱子最高且累计曲线在PC2后已达0.998证实降维可行性若左图中某个箭头异常短小如PC3而右图对应柱子几乎贴地这就是“维度冗余”的铁证。实操心得我曾在某工业质检项目中用此图发现PC3箭头指向一个与产品缺陷完全无关的方向如光照强度而该方向的特征值却很大。追查发现是相机白平衡参数未校准。可视化不是装饰而是诊断数据质量的第一道防线。4.5 投影与重构验证你是否真正理解了“空间变换”PCA的终极检验是能否无损重构在保留PC数内。我们手动实现投影与反投影# 选择前k个主成分 k 2 W eigvecs[:, :k] # 投影矩阵 (n_features, k) # 投影X_proj X_centered W X_centered X_final - X_final.mean(axis0) X_proj X_centered W # 反投影X_recon X_proj W.T mean X_recon X_proj W.T X_final.mean(axis0) # 计算重构误差Frobenius范数 recon_error np.linalg.norm(X_final - X_recon, fro) / np.linalg.norm(X_final, fro) print(fReconstruction error with {k} components: {recon_error:.4f}) # 可视化重构效果仅前2维 plt.figure(figsize(12, 5)) plt.subplot(1, 2, 1) plt.scatter(X_final[:, 0], X_final[:, 1], cblue, alpha0.5, s10, labelOriginal) plt.title(Original Data (First 2 Features)) plt.subplot(1, 2, 2) plt.scatter(X_recon[:, 0], X_recon[:, 1], cred, alpha0.5, s10, labelReconstructed) plt.title(fReconstructed Data (k{k}) | Error: {recon_error:.2%}) plt.legend() plt.show()重构误差1%即认为成功。但更重要的是观察散点图重构数据应完美复现原始数据的全局结构簇的位置、相对距离但抹平了高频噪声如单个离群点的尖锐偏离。若重构图中第二簇本应紧凑变得弥散说明k选小了若仍能看到离群点则说明这些点确实携带了不可忽略的结构信息不应简单剔除。5. 常见问题与排查技巧实录那些文档里不会写的血泪教训5.1 问题速查表从报错信息直达根因报错信息/异常现象最可能根因排查步骤解决方案LinAlgError: Eigenvalues did not converge数据含NaN或inf矩阵规模过大导致数值溢出1.np.isnan(X).any()2.np.isinf(X).any()3.X.dtype是否为float641. 用sklearn.impute填充NaN2. 用np.clip(X, -1e6, 1e6)截断inf3. 强制X X.astype(np.float64)特征向量不正交eigvecs.T eigvecs非对角输入矩阵非对称使用了eig而非eigh1.np.allclose(C, C.T)2. 检查是否用了eigh1. 强制对称化C (C C.T)/22. 改用np.linalg.eigh累计方差贡献率0.8即使kn_features数据存在强相关特征或特征量纲差异巨大1.np.corrcoef(X.T)看相关系数矩阵2.X.std(axis0)看标准差范围1. 删除高度相关特征PC方向与业务直觉相反如“价格”权重为负特征向量符号随机或数据未中心化1. 检查X.mean(axis0)是否接近02. 观察特征向量首分量符号1. 确保中心化步骤执行2. 统一约定v np.where(v[0]0, -v, v)降维后聚类效果变差关键业务子集在保留PC上投影方差小1. 对目标子集如“高价值用户”单独计算协方差2. 比较其特征值谱与全局谱1. 放弃全局PCA改用子集定制化降维2. 或增加k保留更多PC5.2 “特征值崩塌”现场诊断一次真实的生产事故复盘事件某新闻推荐系统上线后用户停留时长下降15%。监控显示PCA模块输出的PC1方差贡献率从92%骤降至35%。排查过程数据层检查X.std(axis0)发现新增的“视频播放完成率”特征标准差为0.001其他特征为1~5几乎不变协方差矩阵分析C中该特征所在行列全为1e-6量级拖垮整个矩阵的条件数特征值谱对比全局λ谱出现“断崖”λ₁12.5λ₂0.0003中间无过渡根源定位该特征因CDN缓存策略变更72小时内未更新导致数据冻结。解决方案短期在PCA前加入VarianceThreshold(threshold0.01)自动过滤低方差特征长期建立特征健康度监控对连续N个批次方差阈值的特征触发告警。教训特征值不是数学玩具它是数据健康的体温计。一个异常的λ往往比任何日志报错都早3小时预警系统故障。5.3 特征向量“旋转失真”当你的主成分在悄悄偏航现象同一份数据周一跑PCA得到PC1方向角32°周三再跑变成38°偏差6度看似微小但导致推荐相似度计算偏差达22%。原因分析数据漂移新流入数据改变了协方差矩阵特征向量自然旋转数值不稳定性当两个特征值非常接近如λ₁5.001, λ₂4.999特征向量对微小扰动极度敏感实现差异sklearn.PCA与自定义eigh在处理边界情况时策略不同。应对策略锚定基准在初始训练时保存W_initial投影矩阵后续批次强制使用X_proj (X - X_mean) W_initial牺牲一点适应性换取稳定性监控旋转角计算新旧特征向量夹角θ arccos(|v_old · v_new|)若θ2°触发人工审核增量更新改用IncrementalPCA它通过分块更新协方差减少单次计算扰动。我在某广告平台实施此策略后相似度计算波动从±25%收窄至±3%CTR提升1.8%。这证明在工程中“稳定”有时比“精确”更有价值。5.4 超越PCA特征值在SVM、谱聚类中的隐秘角色特征值的影响远不止于降维。在支持向量机SVM中核矩阵K的特征值谱直接决定模型容量若K的特征值迅速衰减如前10个占99%说明数据在核空间中线性可分性强SVM表现好若特征值缓慢衰减则需更复杂的核函数。我曾用np.linalg.eigvalsh(K)分析RBF核矩阵发现当γ参数过大时K接近单位矩阵特征值全≈1模型过拟合γ过小时K趋近全1矩阵特征值一个≈n其余≈0模型欠拟合。最优γ就在特征值谱从“陡峭”转向“平缓”的拐点。在谱聚类中归一化拉普拉斯矩阵L的第二小特征值Fiedler值是图连通性的黄金指标。若λ₂≈0说明图天然分为两簇若λ₂较大则强行二分会导致大量边被切断。我处理某社交网络关系图时λ₂0.002果断采用二分而另一电商用户共购图中λ₂0.45改用K-means更合适。这些决策全依赖对特征值物理意义的直觉把握——它不是数字而是数据结构的“心跳节律”。6. 从理论到战场三个真实场景的深度拆解6.1 场景一金融风控中的“多尺度风险识别”某消费金融公司需识别“欺诈团伙”其特点是单个用户行为正常但团伙内用户行为高度同步如同时申请、同时还款。传统单用户模型失效。特征向量介入点构建用户-时间窗口交互矩阵M用户×时间M[i,j]1表示用户i在j时段有操作计算M的奇异值分解SVD本质是M^TM的特征分解最大奇异值σ₁对应的右奇异向量v₁即“时间模式向量”其分量v₁[j]表示时段j的重要性σ₁本身量化了“全局同步强度”。实战效果当σ₁ 阈值时提取v₁中top-k时段筛选在此时段集中操作的用户子集团伙识别准确率从68%提升至91%。特征值在这里不是解释变量而是风险强度探测器。6.2 场景二医疗影像的“病灶定位增强”某CT影像分割模型在肺结节边缘模糊Dice系数停滞在0.72。特征向量介入点对结节区域像素梯度矩阵GHessian矩阵计算其特征值λ₁, λ₂2D定义各向异性度A |λ₁ − λ₂| / (λ₁ λ₂)A≈1表示强边缘一个λ大一个λ小A≈0表示平坦区域在训练时对A0.8的像素位置加大loss权重。实战效果结节边缘Dice提升至0.85且模型对小结节5mm检出率提高35%。特征向量在这里不是降维工具而是像素级结构感知器。6.3 场景三工业物联网的“设备健康度指纹”某风电场有100台风机每台100个传感器采样频率1Hz。运维目标是提前72小时预测轴承故障。特征向量介入点对单台风机滑动窗口计算协方差矩阵C_tt时刻提取C_t的最小特征值λ_min(t)当λ_min(t)持续3小时阈值如0.01触发预警。原理轴承磨损导致振动模式单一化数据在某个方向上失去变化λ_min→0。这比单纯看温度或振动幅值更早、更鲁棒。实战效果平均提前预警时间从42小时提升至68小时误报率下降52%。特征值在这里不是统计摘要而是设备生命体征的脉搏。7. 我的个人体会为什么我坚持手写特征分解代码在GPU算力过剩的今天还花30分钟手写np.linalg.eig的替代实现看起来很傻。但我坚持了五年因为只有亲手推导才会真正理解当np.linalg.eig返回nan时不是函数坏了而是你的数据在某个方向上“坍缩”成了一个点当两个特征向量点积为0.001而非0时不是精度不够而是你的数据矩阵在说“我其实不是对称的”当特征值谱出现双峰时不是计算错误而是数据天然存在两种主导模式如工作日vs周末流量。上周我帮一个初创团队调试推荐模型。他们抱怨“SVD分解后embedding相似度不准”。我让他们打印出U矩阵的前5行发现第二行全是-0.0——这是numpy对负零的特殊表示源于他们用np.sqrt开方时输入了极小负数浮点误差。一个np.where(U0, 0, U)就解决了问题。这种debug能力无法从API文档中学到只能从一次次手算、一次次报错、一次次画图中长出来。特征向量和特征值终究不是用来背诵的公式而是数据科学家手中那把最锋利的解剖刀——刀锋所指即是数据沉默的真相。

相关新闻