Rosmontis' Terminal = 香香的记事终端

2026-01-02 2.7k 字 2 分钟

第7章假设检验

# 假设检验基础假设是关于总体参数的声明或断言 # 零假设 (原假设) H0H_0H0 假设检验从假定零假设为真开始. 零假设表示现状或历史值包含 === , ≤\leq≤ 或 ≥\geq≥ 符号可能会或不会被拒绝例：美国家庭平均拥有的电视机数量等于 3 H0:μ=3H_0: \mu = 3H0:μ=3 注意：是关于总体参数，而不是样本参数，即，不是 H0:X‾=3H_0: \overline{X} = 3H0:X=3 # 备择假设 H1H_1H1 与零假设是对立的永远不包含 === , ≤\leq≤ 或 ≥\geq≥...

more...

2026-01-02 2.6k 字 2 分钟

第6章置信区间估计

# 点估计和区间估计 # 点估计是一个数是使用单个样本的统计量来估计总体参数的方法 # 区间估计是在点估计左右构造的一段区间提供了估计值变动的更多的信息区间估计举例总体 μ=368\mu = 368μ=368 ， σ=15\sigma = 15σ=15. 如果一次抽样，样本容量n=25n = 25n=25 ，则： 368±1.96×15/25=(362.12,373.88)368 \pm 1.96 \times 15 / \sqrt{25} = (362.12,...

more...

2025-12-31 7.2k 字 7 分钟

Web开发技术期末复习

# 期末考试 # 题型选择题: 1 分 * 10 题 = 10 分填空题: 1 分 * 15 题 = 15 分名词解释: 3 分 * 4 题 = 12 分问答题: 5 分 * 3 题 = 15 分代码题：共 48 分分值分布：3 + 5 + 5 + 5 + (4 + 10 + 6 + 10) # 复习笔记 # Web 基础架构 # 网络编程模式 C/S (Client/Server): 客户端 / 服务器模式。优点：交互性强、响应速度快、减轻服务器压力。缺点：需要安装特定的客户端软件，维护和升级成本高。 B/S (Browser/Server): 浏览器 /...

more...

2025-12-31 2.1k 字 2 分钟

第6章关联规则挖掘

场景：购物篮分析。"啤酒与尿布"。形式: X→YX \rightarrow YX→Y (买了 x 的人也会买 Y) # 三个核心指标 # 支持度（Support） support(A→B)=P(A∪B)=∣t:A⊆t 且 B⊆t∣N \begin {aligned} \text{support}(A \rightarrow B) &= P(A \cup B) \\ &= \frac{|{t: A \subseteq t \...

more...

2025-12-30 529 字 1 分钟

第5章聚类算法

聚类是无监督学习：将数据对象划分为多个组 (簇)，使得: 簇内相似度高 (Intra-class similarity is high) 簇间相似度低 (Inter-class similarity is low) 主要方法划分法：K-Means,K-Medoids 层次法：Agglomerative (凝聚),Divisive (分裂) 基于密度：DBSCAN (能发现任意形状簇) 距离度量欧氏距离 Euclidean 最常用。对于二元变量，可用 Jaccard 系数。 # K-Means 算法输入: K (簇的数量) 步骤: 初始化：随机选择 K 个点作为初始质心...

more...

2025-12-30 1.4k 字 1 分钟

第4章分类算法的评估指标

# 混淆矩阵混淆矩阵（Confusion Matrix）是评估分类模型性能的基础工具，它以矩阵形式展示分类结果，记录预测值与真实值的四种组合情况。预测正例预测反例真实正例 TP（真正例） FN（假反例）真实反例 FP（假正例） TN（真反例）其中： TP（True Positive）：正确预测为正例的样本数 TN（True Negative）：正确预测为反例的样本数 FP（False Positive）：错误预测为正例的样本数 FN（False Negative）：错误预测为反例的样本数 # 核心评估指标 #...

more...

2025-12-30 1.9k 字 2 分钟

第3章分类算法

# 决策树核心思想: 分而治之 (Divide and Conquer)。通过一系列规则对数据进行划分。 ID3 算法核心指标：信息增益 (Information Gain). 原理：选择能使熵 (Entropy) 下降最快的属性进行分裂。缺点：偏向于选择取值较多 (Pure) 的属性 (如 ID 号)。 C4.5 算法核心指标：增益率 (Gain Ratio)。原理：在信息增益基础上除以 "分裂信息"(SplitInfo)，惩罚多值属性。优点：克服了 ID3 的偏见，能处理连续属性。 CART 算法：使用 ++ 基尼指数 (Gini...

more...

2025-12-30 662 字 1 分钟

第2章数据预处理

# 数据质量与清洗 # 缺失值处理忽略元组：仅当类标签缺失时使用。手动填充：费时，不推荐。自动填充: 全局常数 (如 Unknown ) 属性均值 / 中位数最可能的值：使用回归、贝叶斯或决策树预测 (最科学)。 # 噪声数据处理噪声：测量变量中的随机误差或方差。分箱 (Binning): 平滑局部数据 (均值平滑、边界平滑)。回归：拟合函数来平滑。聚类：检测并去除离群点 (Outliers)。 # 数据变换 # 标准化目的：将数据缩放到特定区间，消除量纲影响。 # Min-Max 标准化将数据线性映射到 [new_min, new_max] ，通常是 [0,...

more...

2025-12-30 240 字 1 分钟

第1章什么是数据挖掘

# 定义从大量数据中挖掘有趣模式和知识的过程。 Data Mining ≠ Data Query (SQL) # KDD 过程 (Knowledge Discovery in Databases) 数据清洗 (去除噪声、不一致) 数据集成 (多源合并) 数据选择 (提取相关数据) 数据变换 (归一化、离散化) 数据挖掘 (核心步骤：提取模式) 模式评估 (识别真正有趣的模式) 知识表示 (可视化) # 核心任务分类监督学习 (有标签) 分类 (预测离散类别) 回归 (预测连续数值) 无监督学习 (无标签) 聚类 (发现自然分组) 关联规则 (发现共现关系)

more...

2025-12-29 4.2k 字 4 分钟

R 附录

# 常见相似函数的区别 # 检验 test 相关 # z.test 包：BSDA / TeachingDemos 用途：均值或比例的 z 检验，用于大样本或已知总体标准差的情况。语法： z.test(x, y=NULL, mu=0, sigma.x, sigma.y=NULL, alternative="two.sided", conf.level=0.95) 主要参数： x, y ：样本向量（单样本或双样本） mu ：原假设均值（默认 0） sigma.x, sigma.y ：已知总体标准差（必填） alternative...

more...