本文以期末复习提纲为主线整理，第一部分结合 1-8 章 PPT 补充概念和流程；第二部分 Web 数据挖掘内容主要依据期末提纲整理，作为考试补充重点。

# 第一部分：信息基础与信息检索原理

# 1. 信息社会与信息素养

# 核心概念

概念	要点
信息	事物运动状态及其变化方式；从信息论角度看，是用来消除不确定性的内容
信息社会	以信息生产、传播、处理和利用为核心活动的社会形态
信息环境	人们获取、传播、处理和利用信息所处的资源、技术、制度与文化条件
信息资源	经过开发、组织和利用后能够满足信息需求、产生价值的信息集合
信息素质	发现、获取、评价、组织、利用和创造信息的综合能力

信息与知识、情报、文献的关系：

信息经主体理解、加工和系统化后形成知识。
信息对特定用户有价值并被传递利用时成为情报。
文献是记录有知识的一切载体，是信息和知识传播的重要形式。

# 信息资源的构成与特征

类型	内容
文献型信息资源	图书、期刊、论文、报告、专利、标准等
事实型信息资源	人物、机构、事件、法规、地名等事实资料
数值型信息资源	统计数据、实验数据、观测数据、参数等
多媒体信息资源	图像、音频、视频、动画等
网络信息资源	通过网络获取和传播的数字化信息资源

主要特征：

客观性：信息反映客观事物状态。
普遍性：只要有事物及其运动，就有信息。
时效性：信息价值受时间影响。
传递性：信息可依附载体从信源传向信宿。
共享性：同一信息可被多个用户共同使用。
增值性：信息经过加工、综合、利用后价值提升。

# 信息素质的重要性

提高学习、科研和决策效率。
帮助用户从大量信息中识别可靠信息。
避免重复研究和低质量信息误导。
支持知识创新和规范化信息利用。

# 2. 信息检索原理

# 基本概念

狭义信息检索：从已经组织好的信息集合中查找并获取特定相关信息的过程。

广义信息检索：包括信息存储和信息检索两个过程。

信息存储：对无序信息进行整理、分类、浓缩、标引，形成可检索系统。
信息检索：用户利用检索工具或系统查找所需信息。

信息检索的实质：

将用户信息需求的提问特征与信息集合中的检索标识进行匹配。

信息检索的主要类型：

类型	检索对象	检索结果
文献检索	图书、期刊、论文等	文献线索或全文
事实检索	人物、机构、事件、法规等	具体事实答案
数据检索	数值、参数、统计数据等	确定性数据

# 检索语言与途径

语言类型	特点	示例
自然语言	用户日常使用的自由词，灵活但容易同义、歧义	关键词、自由词
规范化语言	经人工控制，表达更统一	分类语言、主题语言、叙词表

常用检索途径：

途径	检索依据
分类途径	分类号、学科体系
主题途径	主题词、关键词、叙词
著者途径	作者、机构、责任者
题名途径	书名、刊名、篇名
序号途径	ISBN、ISSN、专利号、标准号

# 检索系统与方法

信息检索系统一般包括信息资源库、标引和索引系统、检索接口、检索算法、结果显示与管理模块。

常用检索方法：

顺查法：从早到晚按时间顺序查找。
倒查法：从近到远反向查找。
抽查法：选择重要年份或关键阶段查找。
追溯法：通过参考文献、引文关系继续查找。
综合法：多种方法结合使用。

常用检索技术：

技术	作用
布尔逻辑检索	`AND` 缩小范围， `OR` 扩大范围， `NOT` 排除无关结果
字段限制检索	限定题名、作者、关键词、摘要、机构等字段
位置限制检索	限定检索词之间的距离或相邻关系
截词检索	用通配符匹配词形变化，如 `comput*`
精确检索	用引号检索完整短语

# 检索效果评价

$查全率 = \frac{检出的相关文献数}{系统中相关文献总数}$

$查准率 = \frac{检出的相关文献数}{检出文献总数}$

关系：

扩大检索范围通常提高查全率，但可能降低查准率。
缩小检索范围通常提高查准率，但可能降低查全率。
检索策略需要在查全率和查准率之间平衡。

# 检索步骤与策略

一般步骤：

1	分析需求 -> 选择工具 -> 提取关键词 -> 构造检索式 -> 执行检索 -> 筛选结果 -> 评估效果 -> 调整策略

常用策略：

策略	适用场景
逐步扩大法	结果太少，需要提高查全率
逐步缩小法	结果太多，需要提高查准率
区块法	复杂课题包含多个概念组
引文追踪法	查找研究脉络和后续影响

# 3. 馆藏信息资源利用

# 图书馆资源

馆藏信息资源包括馆藏实体资源和馆藏网络虚拟资源。

类型	内容
馆藏实体资源	印刷图书、期刊、声像资料、缩微资料、光盘、本馆服务器数据库
馆藏网络虚拟资源	图书馆订购或授权访问的外部电子资源

# 图书查检

图书馆藏书通常按索书号排架：

1	索书号 = 分类号 + 书次号

分类号表示图书所属学科或主题类别。
书次号区分同一分类号下的不同图书。
排架先按分类号，再按书次号。

OPAC（Online Public Access Catalogue）是联机公共查询目录，用于查询馆藏目录和个人借阅信息。

OPAC 常见功能：

简单检索、全文检索、多字段检索。
查看馆藏地点、索书号和借阅状态。
查询个人借阅信息。
预约图书、续借图书。
查看新书通报和信息发布。

# 数字图书馆

数字图书馆是用数字技术处理、存储、检索、传输和利用文献信息的分布式信息系统。

特点：

资源数字化。
服务网络化。
检索跨地域。
支持资源共建共享。
多媒体资源组织与传播。

# 4. 常用数据库

# 国内数据库

数据库	主要资源	核心功能
CNKI	期刊、博硕士论文、会议、报纸、年鉴、专利、标准、成果等	文献检索、知识元检索、引文检索
万方数据	学位论文、期刊、会议、外文文献、专利、标准、成果、法规等	直接检索、跨库检索、高级检索、专业检索
维普	中文科技期刊、引文版、外文科技期刊等	期刊检索、引文追踪、高级检索
超星	电子图书	普通检索、分类检索、高级检索、在线阅读
读秀	图书、期刊、论文、报纸等学术资源线索	学术搜索、图书发现、馆藏和文献获取路径

中文数据库检索流程：

1	分析课题 -> 选择数据库 -> 选择字段 -> 构造检索式 -> 限定条件 -> 筛选结果 -> 获取全文

# 国外数据库

国外全文数据库：

数据库	主要领域
ScienceDirect	多学科全文期刊，Elsevier 平台
Springer Link	科技、工程、医学、数学、计算机等
EBSCO	学术期刊、商业管理、财经等
Wiley	化学、生命科学、医学、材料、工程等
Emerald	管理学、工程学、图情等
IEEE/IET IEL	电气、电子、计算机、通信、自动化等

国外文摘数据库：

数据库	重点
SCI / SCIE	科学引文索引，适合引文追踪和影响分析
EI Compendex	工程技术领域文摘数据库
CPCI / ISTP	会议论文检索
INSPEC	物理、电气、电子、计算机、控制、通信
CA / SciFinder	化学、化工、物质、反应、结构检索
BA / BIOSIS Previews	生命科学、生物、农业、医学等

学位论文和专利数据库：

国外学位论文用于查找硕博士论文、研究细节和综述。
专利数据库用于检索技术方案、申请人、发明人、法律状态和专利族。

# 5. 信息的综合利用

# 信息处理流程

1	明确问题 -> 搜集资料 -> 筛选评价 -> 分类整理 -> 分析综合 -> 规范引用 -> 成果表达

信息搜集：

直接资料：实验、考察、观察、测量。
间接资料：一次文献和二次文献。

信息整理：

选择原则：相关性、新颖性、准确性。
提炼方法：汇编法、摘要法、综述法。

信息分析：

逻辑分析：分析与综合、抽象与概括、归纳与演绎。
统计分析：相关分析、预测、评估、内容分析。

# 学术规范

学术论文写作必须遵守引用规范，明确区分自己的观点和他人成果。

常见学术不端：

抄袭、剽窃。
伪造或篡改数据。
一稿多投。
不当署名。
引用不标注来源。

# 文献综述与开题报告

文献综述作用：

梳理研究现状。
发现研究热点和空白。
避免重复研究。
为选题和研究设计提供依据。

开题报告内容：

选题背景与意义。
国内外研究现状。
研究目标与内容。
研究方法与技术路线。
创新点、进度安排、预期成果和参考文献。

# 个人文献管理

常见工具包括 EndNote、NoteExpress、Zotero、Mendeley。

核心用途：

保存题录和 PDF。
标签分类和笔记管理。
在论文中插入引用。
自动生成参考文献。

# 6. 看不见的网络

看不见的网络也称深网，指普通搜索引擎难以抓取或无法直接索引的网络资源。

成因：

需要登录、授权或付费访问。
动态数据库查询生成页面。
robots.txt 限制抓取。
文件格式特殊或无外链入口。
内容位于专业数据库、馆藏系统或机构知识库中。

检索方法：

使用专业数据库和图书馆数据库导航。
使用站内搜索。
使用高级搜索语法定位入口。
使用开放知识库、学科门户和机构仓储。

# 第二部分：Web 数据挖掘与文本分析

# 1. Web 数据挖掘导论

# 核心概念

Web 数据挖掘是从 Web 数据中发现有价值模式、规律和知识的过程。

类型	对象	示例
Web 内容挖掘	网页文本、图片、视频等内容	文本分类、情感分析、主题发现
Web 结构挖掘	网页链接结构	PageRank、社区发现、网站结构分析
Web 用法挖掘	访问日志、点击流、用户行为	推荐系统、用户画像、路径分析

# 应用与价值

搜索排序和推荐系统。
舆情分析和热点发现。
用户行为分析。
商业智能和精准营销。
学术趋势分析。

# 基本流程与伦理

1	问题定义 -> 数据采集 -> 预处理 -> 特征工程 -> 模式发现 -> 评估解释 -> 应用

伦理重点：

隐私保护。
数据授权与合规。
算法偏见。
数据安全。
结果解释责任。

# 2. Web 数据爬取

# HTTP 请求与响应

Web 爬取基于 HTTP 通信：

客户端发送请求，请求包含 URL、方法、请求头、参数等。
服务器返回响应，响应包含状态码、响应头和响应体。

常见方法：

GET ：获取资源。
POST ：提交数据。

常见状态码：

200 ：成功。
301/302 ：重定向。
403 ：禁止访问。
404 ：资源不存在。
500 ：服务器错误。

# 数据解析

HTML/XML 是半结构化文档，可通过标签、属性和层级关系定位数据。

常见解析方式：

CSS 选择器。
XPath。
正则表达式。
Beautiful Soup、lxml 等解析工具。

# Scrapy 与 requests

工具	作用
`requests`	发送 HTTP 请求、获取网页响应
Scrapy	面向爬虫项目的框架，支持请求调度、解析、管道、去重等

# 爬虫伦理

遵守 robots.txt 。
控制爬取频率，避免影响网站服务。
设置合理 User-Agent 。
不抓取敏感、隐私或未经授权的数据。
遵守网站条款、版权和法律要求。

# 3. 信息提取

# 核心概念

信息提取（Information Extraction, IE）从非结构化或半结构化文本中抽取结构化信息。

与信息检索（IR）的区别：

任务	目标
信息检索	找到相关文档
信息提取	从文档中抽取实体、关系、事件等结构化信息

# 正则表达式

常用元字符：

符号	含义
`.`	任意字符
`*`	重复 0 次或多次
`+`	重复 1 次或多次
`?`	重复 0 次或 1 次
`[]`	字符集合
`()`	分组
`\|`	或
`^`	字符串开头
`$`	字符串结尾
`\d`	数字
`\w`	字母、数字或下划线
`\s`	空白字符

Python re 常用函数：

re.search() ：返回第一个匹配。
re.findall() ：返回所有匹配。
re.sub() ：替换匹配内容。

# 4. Web 文本分析：分词、情感、预处理与特征工程

# 中文分词

中文文本没有天然空格分隔，必须先进行分词。

常见挑战：

歧义切分。
未登录词（OOV）。
新词和专有名词识别。

常见方法：

基于词典。
基于统计。
基于深度学习。

常用工具： jieba 。

# 情感分析

情感分析用于判断文本表达的主观态度或情绪倾向。

主要方法：

方法	思路
情感词典法	根据情感词、否定词、程度副词计算倾向
机器学习法	将文本转化为特征，用分类模型判断情感

# 文本预处理

常见步骤：

去除 HTML 和特殊符号。
分词。
去除停用词。
英文词形规范化。
去重和低频词过滤。

# 特征工程

# TF-IDF

TF 表示词在文档中出现的频率，IDF 表示词区分不同文档的能力。

常见形式：

$TFIDF(t, d) = TF(t, d) \times IDF(t)$

作用：评估词语对某篇文档的重要性。

# 词袋模型 BOW

词袋模型忽略词序，只统计词是否出现或出现次数。

优点：

简单直观。
易于向量化。

缺点：

丢失语序。
难以表达语义关系。
高维稀疏。

# Word2Vec

Word2Vec 将词表示为低维稠密向量，可以捕捉一定语义关系。

与 BOW 的区别：

BOW 统计词频，语义表达弱。
Word2Vec 学习词嵌入，能表达词之间的语义相似性。

# 5. Web 文本分析：主题抽取与摘要

# LDA 主题模型

主题模型用于发现文本集合中的潜在主题。

LDA 的核心思想：

每篇文档是多个主题的混合。
每个主题是多个词的概率分布。
模型输出文档 - 主题分布和主题 - 词分布。

超参数：

参数	作用
`α`	控制文档中主题分布的稀疏程度
`β`	控制主题中词分布的稀疏程度

应用：

主题发现。
文本分类辅助。
文档聚类。
舆情主题分析。

# 文本摘要

类型	思路	优点	局限
抽取式摘要	从原文选择重要句子	保真度高，实现相对简单	可能不连贯
生成式摘要	重新生成摘要文本	表达更自然	可能生成不准确内容

典型方法：

TextRank：抽取式摘要，基于图排序思想。
Seq2Seq / 预训练模型：生成式摘要，基于神经网络生成文本。

# 6. 社交媒体挖掘

# 社交网络基础

社交网络可按不同方式分类：

同质网络与异质网络。
有向网络与无向网络。
加权网络与无权网络。

普遍特征：

小世界：任意节点之间路径较短。
无标度：少数节点拥有大量连接。
高聚集：节点倾向形成局部群体。
社区结构：网络中存在联系紧密的群体。

# 网络可视化与指标

常用工具：

Gephi。
NetworkX。

常见中心性指标：

指标	含义
度中心性	节点直接连接数量，表示直接影响范围
接近中心性	节点到其他节点的平均距离，表示到达效率
介数中心性	节点位于其他节点最短路径上的程度，表示桥梁作用
特征向量中心性 / PageRank	与高影响力节点相连会提高自身重要性

# 应用场景

舆情传播分析。
意见领袖识别。
推荐系统。
社区发现。
用户关系和兴趣分析。

# 复习建议

# 基础概念

优先掌握每个概念的定义、边界和区别，尤其是信息 / 知识 / 文献 / 情报、信息检索 / 信息提取、查准率 / 查全率、BOW/Word2Vec。

# 原理机制

不要只背名词，应能说明工作机制：

搜索引擎如何采集、索引、检索和排序。
数据库检索如何通过字段、布尔逻辑和限定条件提高效果。
TF-IDF 如何衡量词语重要性。
LDA 如何用主题生成文档。
中心性指标如何解释节点重要性。

# 计算与应用

重点练习：

查准率和查全率计算。
TF-IDF 计算思路。
正则表达式匹配。
社交网络中心性指标含义。
检索式构造与策略调整。

# 伦理与规范

信息检索和数据挖掘都要关注规范：

引用规范和避免学术不端。
爬虫遵守 robots.txt 和访问频率限制。
数据隐私和授权。
算法偏见和结果解释。

# 简答题常见方向

信息检索的一般步骤。
查准率和查全率的关系。
中文数据库和国外数据库的特点。
看不见的网络的成因。
Web 数据挖掘的三种类型。
信息检索与信息提取的区别。
TF-IDF、LDA、TextRank、PageRank 的基本思想。

信息检索期末复习 Web数据挖掘

# 第一部分：信息基础与信息检索原理

# 1. 信息社会与信息素养

# 核心概念

# 信息资源的构成与特征

# 信息素质的重要性

# 2. 信息检索原理

# 基本概念

# 检索语言与途径

# 检索系统与方法

# 检索效果评价

# 检索步骤与策略

# 3. 馆藏信息资源利用

# 图书馆资源

# 图书查检

# 数字图书馆

# 4. 常用数据库

# 国内数据库

# 国外数据库

# 5. 信息的综合利用

# 信息处理流程

# 学术规范

# 文献综述与开题报告

# 个人文献管理

# 6. 看不见的网络

# 第二部分：Web 数据挖掘与文本分析

# 1. Web 数据挖掘导论

# 核心概念

# 应用与价值

# 基本流程与伦理

# 2. Web 数据爬取

# HTTP 请求与响应

# 数据解析

# Scrapy 与 requests

# 爬虫伦理

# 3. 信息提取

# 核心概念

# 正则表达式

# 4. Web 文本分析：分词、情感、预处理与特征工程

# 中文分词

# 情感分析

# 文本预处理

# 特征工程

# TF-IDF

# 词袋模型 BOW

# Word2Vec

# 5. Web 文本分析：主题抽取与摘要

# LDA 主题模型

# 文本摘要

# 6. 社交媒体挖掘

# 社交网络基础

# 网络可视化与指标

# 应用场景

# 复习建议

# 基础概念

# 原理机制

# 计算与应用

# 伦理与规范

# 简答题常见方向

第8章 信息的综合利用

第8章信息的综合利用