第6章 置信区间估计
# 点估计和区间估计 # 点估计 是一个数 是使用单个样本的统计量来估计总体参数的方法 # 区间估计 是在点估计左右构造的一段区间 提供了估计值变动的更多的信息 区间估计举例 总体 μ=368\mu = 368μ=368 , σ=15\sigma = 15σ=15. 如果一次抽样,样本容量n=25n = 25n=25 ,则: 368±1.96×15/25=(362.12,373.88)368 \pm 1.96 \times 15 / \sqrt{25} = (362.12,...
more...Web开发技术期末复习
# 期末考试 # 题型 选择题: 1 分 * 10 题 = 10 分 填空题: 1 分 * 15 题 = 15 分 名词解释: 3 分 * 4 题 = 12 分 问答题: 5 分 * 3 题 = 15 分 代码题:共 48 分 分值分布:3 + 5 + 5 + 5 + (4 + 10 + 6 + 10) # 复习笔记 # Web 基础架构 # 网络编程模式 C/S (Client/Server): 客户端 / 服务器模式。 优点:交互性强、响应速度快、减轻服务器压力。 缺点:需要安装特定的客户端软件,维护和升级成本高。 B/S (Browser/Server): 浏览器 /...
more...第6章 关联规则挖掘
场景:购物篮分析。"啤酒与尿布"。 形式: X→YX \rightarrow YX→Y (买了 x 的人也会买 Y) # 三个核心指标 # 支持度(Support) support(A→B)=P(A∪B)=∣t:A⊆t 且 B⊆t∣N \begin {aligned} \text{support}(A \rightarrow B) &= P(A \cup B) \\ &= \frac{|{t: A \subseteq t \...
more...第5章 聚类算法
聚类是无监督学习:将数据对象划分为多个组 (簇),使得: 簇内相似度高 (Intra-class similarity is high) 簇间相似度低 (Inter-class similarity is low) 主要方法 划分法:K-Means,K-Medoids 层次法:Agglomerative (凝聚),Divisive (分裂) 基于密度:DBSCAN (能发现任意形状簇) 距离度量 欧氏距离 Euclidean 最常用。 对于二元变量,可用 Jaccard 系数。 # K-Means 算法 输入: K (簇的数量) 步骤: 初始化:随机选择 K 个点作为初始质心...
more...第4章 分类算法的评估指标
# 混淆矩阵 混淆矩阵(Confusion Matrix)是评估分类模型性能的基础工具,它以矩阵形式展示分类结果,记录预测值与真实值的四种组合情况。 预测正例 预测反例 真实正例 TP(真正例) FN(假反例) 真实反例 FP(假正例) TN(真反例) 其中: TP(True Positive):正确预测为正例的样本数 TN(True Negative):正确预测为反例的样本数 FP(False Positive):错误预测为正例的样本数 FN(False Negative):错误预测为反例的样本数 # 核心评估指标 #...
more...第3章 分类算法
# 决策树 核心思想: 分而治之 (Divide and Conquer)。通过一系列规则对数据进行划分。 ID3 算法 核心指标:信息增益 (Information Gain). 原理:选择能使熵 (Entropy) 下降最快的属性进行分裂。 缺点:偏向于选择取值较多 (Pure) 的属性 (如 ID 号)。 C4.5 算法 核心指标:增益率 (Gain Ratio)。 原理:在信息增益基础上除以 "分裂信息"(SplitInfo),惩罚多值属性。 优点:克服了 ID3 的偏见,能处理连续属性。 CART 算法:使用 ++ 基尼指数 (Gini...
more...第2章 数据预处理
# 数据质量与清洗 # 缺失值处理 忽略元组:仅当类标签缺失时使用。 手动填充:费时,不推荐。 自动填充: 全局常数 (如 Unknown ) 属性均值 / 中位数 最可能的值:使用回归、贝叶斯或决策树预测 (最科学)。 # 噪声数据处理 噪声:测量变量中的随机误差或方差。 分箱 (Binning): 平滑局部数据 (均值平滑、边界平滑)。 回归:拟合函数来平滑。 聚类:检测并去除离群点 (Outliers)。 # 数据变换 # 标准化 目的:将数据缩放到特定区间,消除量纲影响。 # Min-Max 标准化 将数据线性映射到 [new_min, new_max] ,通常是 [0,...
more...第1章 什么是数据挖掘
# 定义 从大量数据中挖掘有趣模式和知识的过程。 Data Mining ≠ Data Query (SQL) # KDD 过程 (Knowledge Discovery in Databases) 数据清洗 (去除噪声、不一致) 数据集成 (多源合并) 数据选择 (提取相关数据) 数据变换 (归一化、离散化) 数据挖掘 (核心步骤:提取模式) 模式评估 (识别真正有趣的模式) 知识表示 (可视化) # 核心任务分类 监督学习 (有标签) 分类 (预测离散类别) 回归 (预测连续数值) 无监督学习 (无标签) 聚类 (发现自然分组) 关联规则 (发现共现关系)
more...


