本文以期末复习提纲为主线整理,第一部分结合 1-8 章 PPT 补充概念和流程;第二部分 Web 数据挖掘内容主要依据期末提纲整理,作为考试补充重点。
# 第一部分:信息基础与信息检索原理
# 1. 信息社会与信息素养
# 核心概念
| 概念 | 要点 |
|---|---|
| 信息 | 事物运动状态及其变化方式;从信息论角度看,是用来消除不确定性的内容 |
| 信息社会 | 以信息生产、传播、处理和利用为核心活动的社会形态 |
| 信息环境 | 人们获取、传播、处理和利用信息所处的资源、技术、制度与文化条件 |
| 信息资源 | 经过开发、组织和利用后能够满足信息需求、产生价值的信息集合 |
| 信息素质 | 发现、获取、评价、组织、利用和创造信息的综合能力 |
信息与知识、情报、文献的关系:
- 信息经主体理解、加工和系统化后形成知识。
- 信息对特定用户有价值并被传递利用时成为情报。
- 文献是记录有知识的一切载体,是信息和知识传播的重要形式。
# 信息资源的构成与特征
| 类型 | 内容 |
|---|---|
| 文献型信息资源 | 图书、期刊、论文、报告、专利、标准等 |
| 事实型信息资源 | 人物、机构、事件、法规、地名等事实资料 |
| 数值型信息资源 | 统计数据、实验数据、观测数据、参数等 |
| 多媒体信息资源 | 图像、音频、视频、动画等 |
| 网络信息资源 | 通过网络获取和传播的数字化信息资源 |
主要特征:
- 客观性:信息反映客观事物状态。
- 普遍性:只要有事物及其运动,就有信息。
- 时效性:信息价值受时间影响。
- 传递性:信息可依附载体从信源传向信宿。
- 共享性:同一信息可被多个用户共同使用。
- 增值性:信息经过加工、综合、利用后价值提升。
# 信息素质的重要性
- 提高学习、科研和决策效率。
- 帮助用户从大量信息中识别可靠信息。
- 避免重复研究和低质量信息误导。
- 支持知识创新和规范化信息利用。
# 2. 信息检索原理
# 基本概念
狭义信息检索:从已经组织好的信息集合中查找并获取特定相关信息的过程。
广义信息检索:包括信息存储和信息检索两个过程。
- 信息存储:对无序信息进行整理、分类、浓缩、标引,形成可检索系统。
- 信息检索:用户利用检索工具或系统查找所需信息。
信息检索的实质:
将用户信息需求的提问特征与信息集合中的检索标识进行匹配。
信息检索的主要类型:
| 类型 | 检索对象 | 检索结果 |
|---|---|---|
| 文献检索 | 图书、期刊、论文等 | 文献线索或全文 |
| 事实检索 | 人物、机构、事件、法规等 | 具体事实答案 |
| 数据检索 | 数值、参数、统计数据等 | 确定性数据 |
# 检索语言与途径
| 语言类型 | 特点 | 示例 |
|---|---|---|
| 自然语言 | 用户日常使用的自由词,灵活但容易同义、歧义 | 关键词、自由词 |
| 规范化语言 | 经人工控制,表达更统一 | 分类语言、主题语言、叙词表 |
常用检索途径:
| 途径 | 检索依据 |
|---|---|
| 分类途径 | 分类号、学科体系 |
| 主题途径 | 主题词、关键词、叙词 |
| 著者途径 | 作者、机构、责任者 |
| 题名途径 | 书名、刊名、篇名 |
| 序号途径 | ISBN、ISSN、专利号、标准号 |
# 检索系统与方法
信息检索系统一般包括信息资源库、标引和索引系统、检索接口、检索算法、结果显示与管理模块。
常用检索方法:
- 顺查法:从早到晚按时间顺序查找。
- 倒查法:从近到远反向查找。
- 抽查法:选择重要年份或关键阶段查找。
- 追溯法:通过参考文献、引文关系继续查找。
- 综合法:多种方法结合使用。
常用检索技术:
| 技术 | 作用 |
|---|---|
| 布尔逻辑检索 | AND 缩小范围, OR 扩大范围, NOT 排除无关结果 |
| 字段限制检索 | 限定题名、作者、关键词、摘要、机构等字段 |
| 位置限制检索 | 限定检索词之间的距离或相邻关系 |
| 截词检索 | 用通配符匹配词形变化,如 comput* |
| 精确检索 | 用引号检索完整短语 |
# 检索效果评价
关系:
- 扩大检索范围通常提高查全率,但可能降低查准率。
- 缩小检索范围通常提高查准率,但可能降低查全率。
- 检索策略需要在查全率和查准率之间平衡。
# 检索步骤与策略
一般步骤:
1 | 分析需求 -> 选择工具 -> 提取关键词 -> 构造检索式 -> 执行检索 -> 筛选结果 -> 评估效果 -> 调整策略 |
常用策略:
| 策略 | 适用场景 |
|---|---|
| 逐步扩大法 | 结果太少,需要提高查全率 |
| 逐步缩小法 | 结果太多,需要提高查准率 |
| 区块法 | 复杂课题包含多个概念组 |
| 引文追踪法 | 查找研究脉络和后续影响 |
# 3. 馆藏信息资源利用
# 图书馆资源
馆藏信息资源包括馆藏实体资源和馆藏网络虚拟资源。
| 类型 | 内容 |
|---|---|
| 馆藏实体资源 | 印刷图书、期刊、声像资料、缩微资料、光盘、本馆服务器数据库 |
| 馆藏网络虚拟资源 | 图书馆订购或授权访问的外部电子资源 |
# 图书查检
图书馆藏书通常按索书号排架:
1 | 索书号 = 分类号 + 书次号 |
- 分类号表示图书所属学科或主题类别。
- 书次号区分同一分类号下的不同图书。
- 排架先按分类号,再按书次号。
OPAC(Online Public Access Catalogue)是联机公共查询目录,用于查询馆藏目录和个人借阅信息。
OPAC 常见功能:
- 简单检索、全文检索、多字段检索。
- 查看馆藏地点、索书号和借阅状态。
- 查询个人借阅信息。
- 预约图书、续借图书。
- 查看新书通报和信息发布。
# 数字图书馆
数字图书馆是用数字技术处理、存储、检索、传输和利用文献信息的分布式信息系统。
特点:
- 资源数字化。
- 服务网络化。
- 检索跨地域。
- 支持资源共建共享。
- 多媒体资源组织与传播。
# 4. 常用数据库
# 国内数据库
| 数据库 | 主要资源 | 核心功能 |
|---|---|---|
| CNKI | 期刊、博硕士论文、会议、报纸、年鉴、专利、标准、成果等 | 文献检索、知识元检索、引文检索 |
| 万方数据 | 学位论文、期刊、会议、外文文献、专利、标准、成果、法规等 | 直接检索、跨库检索、高级检索、专业检索 |
| 维普 | 中文科技期刊、引文版、外文科技期刊等 | 期刊检索、引文追踪、高级检索 |
| 超星 | 电子图书 | 普通检索、分类检索、高级检索、在线阅读 |
| 读秀 | 图书、期刊、论文、报纸等学术资源线索 | 学术搜索、图书发现、馆藏和文献获取路径 |
中文数据库检索流程:
1 | 分析课题 -> 选择数据库 -> 选择字段 -> 构造检索式 -> 限定条件 -> 筛选结果 -> 获取全文 |
# 国外数据库
国外全文数据库:
| 数据库 | 主要领域 |
|---|---|
| ScienceDirect | 多学科全文期刊,Elsevier 平台 |
| Springer Link | 科技、工程、医学、数学、计算机等 |
| EBSCO | 学术期刊、商业管理、财经等 |
| Wiley | 化学、生命科学、医学、材料、工程等 |
| Emerald | 管理学、工程学、图情等 |
| IEEE/IET IEL | 电气、电子、计算机、通信、自动化等 |
国外文摘数据库:
| 数据库 | 重点 |
|---|---|
| SCI / SCIE | 科学引文索引,适合引文追踪和影响分析 |
| EI Compendex | 工程技术领域文摘数据库 |
| CPCI / ISTP | 会议论文检索 |
| INSPEC | 物理、电气、电子、计算机、控制、通信 |
| CA / SciFinder | 化学、化工、物质、反应、结构检索 |
| BA / BIOSIS Previews | 生命科学、生物、农业、医学等 |
学位论文和专利数据库:
- 国外学位论文用于查找硕博士论文、研究细节和综述。
- 专利数据库用于检索技术方案、申请人、发明人、法律状态和专利族。
# 5. 信息的综合利用
# 信息处理流程
1 | 明确问题 -> 搜集资料 -> 筛选评价 -> 分类整理 -> 分析综合 -> 规范引用 -> 成果表达 |
信息搜集:
- 直接资料:实验、考察、观察、测量。
- 间接资料:一次文献和二次文献。
信息整理:
- 选择原则:相关性、新颖性、准确性。
- 提炼方法:汇编法、摘要法、综述法。
信息分析:
- 逻辑分析:分析与综合、抽象与概括、归纳与演绎。
- 统计分析:相关分析、预测、评估、内容分析。
# 学术规范
学术论文写作必须遵守引用规范,明确区分自己的观点和他人成果。
常见学术不端:
- 抄袭、剽窃。
- 伪造或篡改数据。
- 一稿多投。
- 不当署名。
- 引用不标注来源。
# 文献综述与开题报告
文献综述作用:
- 梳理研究现状。
- 发现研究热点和空白。
- 避免重复研究。
- 为选题和研究设计提供依据。
开题报告内容:
- 选题背景与意义。
- 国内外研究现状。
- 研究目标与内容。
- 研究方法与技术路线。
- 创新点、进度安排、预期成果和参考文献。
# 个人文献管理
常见工具包括 EndNote、NoteExpress、Zotero、Mendeley。
核心用途:
- 保存题录和 PDF。
- 标签分类和笔记管理。
- 在论文中插入引用。
- 自动生成参考文献。
# 6. 看不见的网络
看不见的网络也称深网,指普通搜索引擎难以抓取或无法直接索引的网络资源。
成因:
- 需要登录、授权或付费访问。
- 动态数据库查询生成页面。
robots.txt限制抓取。- 文件格式特殊或无外链入口。
- 内容位于专业数据库、馆藏系统或机构知识库中。
检索方法:
- 使用专业数据库和图书馆数据库导航。
- 使用站内搜索。
- 使用高级搜索语法定位入口。
- 使用开放知识库、学科门户和机构仓储。
# 第二部分:Web 数据挖掘与文本分析
# 1. Web 数据挖掘导论
# 核心概念
Web 数据挖掘是从 Web 数据中发现有价值模式、规律和知识的过程。
| 类型 | 对象 | 示例 |
|---|---|---|
| Web 内容挖掘 | 网页文本、图片、视频等内容 | 文本分类、情感分析、主题发现 |
| Web 结构挖掘 | 网页链接结构 | PageRank、社区发现、网站结构分析 |
| Web 用法挖掘 | 访问日志、点击流、用户行为 | 推荐系统、用户画像、路径分析 |
# 应用与价值
- 搜索排序和推荐系统。
- 舆情分析和热点发现。
- 用户行为分析。
- 商业智能和精准营销。
- 学术趋势分析。
# 基本流程与伦理
1 | 问题定义 -> 数据采集 -> 预处理 -> 特征工程 -> 模式发现 -> 评估解释 -> 应用 |
伦理重点:
- 隐私保护。
- 数据授权与合规。
- 算法偏见。
- 数据安全。
- 结果解释责任。
# 2. Web 数据爬取
# HTTP 请求与响应
Web 爬取基于 HTTP 通信:
- 客户端发送请求,请求包含 URL、方法、请求头、参数等。
- 服务器返回响应,响应包含状态码、响应头和响应体。
常见方法:
GET:获取资源。POST:提交数据。
常见状态码:
200:成功。301/302:重定向。403:禁止访问。404:资源不存在。500:服务器错误。
# 数据解析
HTML/XML 是半结构化文档,可通过标签、属性和层级关系定位数据。
常见解析方式:
- CSS 选择器。
- XPath。
- 正则表达式。
- Beautiful Soup、lxml 等解析工具。
# Scrapy 与 requests
| 工具 | 作用 |
|---|---|
requests | 发送 HTTP 请求、获取网页响应 |
| Scrapy | 面向爬虫项目的框架,支持请求调度、解析、管道、去重等 |
# 爬虫伦理
- 遵守
robots.txt。 - 控制爬取频率,避免影响网站服务。
- 设置合理
User-Agent。 - 不抓取敏感、隐私或未经授权的数据。
- 遵守网站条款、版权和法律要求。
# 3. 信息提取
# 核心概念
信息提取(Information Extraction, IE)从非结构化或半结构化文本中抽取结构化信息。
与信息检索(IR)的区别:
| 任务 | 目标 |
|---|---|
| 信息检索 | 找到相关文档 |
| 信息提取 | 从文档中抽取实体、关系、事件等结构化信息 |
# 正则表达式
常用元字符:
| 符号 | 含义 |
|---|---|
. | 任意字符 |
* | 重复 0 次或多次 |
+ | 重复 1 次或多次 |
? | 重复 0 次或 1 次 |
[] | 字符集合 |
() | 分组 |
| | 或 |
^ | 字符串开头 |
$ | 字符串结尾 |
\d | 数字 |
\w | 字母、数字或下划线 |
\s | 空白字符 |
Python re 常用函数:
re.search():返回第一个匹配。re.findall():返回所有匹配。re.sub():替换匹配内容。
# 4. Web 文本分析:分词、情感、预处理与特征工程
# 中文分词
中文文本没有天然空格分隔,必须先进行分词。
常见挑战:
- 歧义切分。
- 未登录词(OOV)。
- 新词和专有名词识别。
常见方法:
- 基于词典。
- 基于统计。
- 基于深度学习。
常用工具: jieba 。
# 情感分析
情感分析用于判断文本表达的主观态度或情绪倾向。
主要方法:
| 方法 | 思路 |
|---|---|
| 情感词典法 | 根据情感词、否定词、程度副词计算倾向 |
| 机器学习法 | 将文本转化为特征,用分类模型判断情感 |
# 文本预处理
常见步骤:
- 去除 HTML 和特殊符号。
- 分词。
- 去除停用词。
- 英文词形规范化。
- 去重和低频词过滤。
# 特征工程
# TF-IDF
TF 表示词在文档中出现的频率,IDF 表示词区分不同文档的能力。
常见形式:
作用:评估词语对某篇文档的重要性。
# 词袋模型 BOW
词袋模型忽略词序,只统计词是否出现或出现次数。
优点:
- 简单直观。
- 易于向量化。
缺点:
- 丢失语序。
- 难以表达语义关系。
- 高维稀疏。
# Word2Vec
Word2Vec 将词表示为低维稠密向量,可以捕捉一定语义关系。
与 BOW 的区别:
- BOW 统计词频,语义表达弱。
- Word2Vec 学习词嵌入,能表达词之间的语义相似性。
# 5. Web 文本分析:主题抽取与摘要
# LDA 主题模型
主题模型用于发现文本集合中的潜在主题。
LDA 的核心思想:
- 每篇文档是多个主题的混合。
- 每个主题是多个词的概率分布。
- 模型输出文档 - 主题分布和主题 - 词分布。
超参数:
| 参数 | 作用 |
|---|---|
α | 控制文档中主题分布的稀疏程度 |
β | 控制主题中词分布的稀疏程度 |
应用:
- 主题发现。
- 文本分类辅助。
- 文档聚类。
- 舆情主题分析。
# 文本摘要
| 类型 | 思路 | 优点 | 局限 |
|---|---|---|---|
| 抽取式摘要 | 从原文选择重要句子 | 保真度高,实现相对简单 | 可能不连贯 |
| 生成式摘要 | 重新生成摘要文本 | 表达更自然 | 可能生成不准确内容 |
典型方法:
- TextRank:抽取式摘要,基于图排序思想。
- Seq2Seq / 预训练模型:生成式摘要,基于神经网络生成文本。
# 6. 社交媒体挖掘
# 社交网络基础
社交网络可按不同方式分类:
- 同质网络与异质网络。
- 有向网络与无向网络。
- 加权网络与无权网络。
普遍特征:
- 小世界:任意节点之间路径较短。
- 无标度:少数节点拥有大量连接。
- 高聚集:节点倾向形成局部群体。
- 社区结构:网络中存在联系紧密的群体。
# 网络可视化与指标
常用工具:
- Gephi。
- NetworkX。
常见中心性指标:
| 指标 | 含义 |
|---|---|
| 度中心性 | 节点直接连接数量,表示直接影响范围 |
| 接近中心性 | 节点到其他节点的平均距离,表示到达效率 |
| 介数中心性 | 节点位于其他节点最短路径上的程度,表示桥梁作用 |
| 特征向量中心性 / PageRank | 与高影响力节点相连会提高自身重要性 |
# 应用场景
- 舆情传播分析。
- 意见领袖识别。
- 推荐系统。
- 社区发现。
- 用户关系和兴趣分析。
# 复习建议
# 基础概念
优先掌握每个概念的定义、边界和区别,尤其是信息 / 知识 / 文献 / 情报、信息检索 / 信息提取、查准率 / 查全率、BOW/Word2Vec。
# 原理机制
不要只背名词,应能说明工作机制:
- 搜索引擎如何采集、索引、检索和排序。
- 数据库检索如何通过字段、布尔逻辑和限定条件提高效果。
- TF-IDF 如何衡量词语重要性。
- LDA 如何用主题生成文档。
- 中心性指标如何解释节点重要性。
# 计算与应用
重点练习:
- 查准率和查全率计算。
- TF-IDF 计算思路。
- 正则表达式匹配。
- 社交网络中心性指标含义。
- 检索式构造与策略调整。
# 伦理与规范
信息检索和数据挖掘都要关注规范:
- 引用规范和避免学术不端。
- 爬虫遵守
robots.txt和访问频率限制。 - 数据隐私和授权。
- 算法偏见和结果解释。
# 简答题常见方向
- 信息检索的一般步骤。
- 查准率和查全率的关系。
- 中文数据库和国外数据库的特点。
- 看不见的网络的成因。
- Web 数据挖掘的三种类型。
- 信息检索与信息提取的区别。
- TF-IDF、LDA、TextRank、PageRank 的基本思想。