本文以期末复习提纲为主线整理,第一部分结合 1-8 章 PPT 补充概念和流程;第二部分 Web 数据挖掘内容主要依据期末提纲整理,作为考试补充重点。

# 第一部分:信息基础与信息检索原理

# 1. 信息社会与信息素养

# 核心概念

概念要点
信息事物运动状态及其变化方式;从信息论角度看,是用来消除不确定性的内容
信息社会以信息生产、传播、处理和利用为核心活动的社会形态
信息环境人们获取、传播、处理和利用信息所处的资源、技术、制度与文化条件
信息资源经过开发、组织和利用后能够满足信息需求、产生价值的信息集合
信息素质发现、获取、评价、组织、利用和创造信息的综合能力

信息与知识、情报、文献的关系:

  • 信息经主体理解、加工和系统化后形成知识。
  • 信息对特定用户有价值并被传递利用时成为情报。
  • 文献是记录有知识的一切载体,是信息和知识传播的重要形式。

# 信息资源的构成与特征

类型内容
文献型信息资源图书、期刊、论文、报告、专利、标准等
事实型信息资源人物、机构、事件、法规、地名等事实资料
数值型信息资源统计数据、实验数据、观测数据、参数等
多媒体信息资源图像、音频、视频、动画等
网络信息资源通过网络获取和传播的数字化信息资源

主要特征:

  • 客观性:信息反映客观事物状态。
  • 普遍性:只要有事物及其运动,就有信息。
  • 时效性:信息价值受时间影响。
  • 传递性:信息可依附载体从信源传向信宿。
  • 共享性:同一信息可被多个用户共同使用。
  • 增值性:信息经过加工、综合、利用后价值提升。

# 信息素质的重要性

  • 提高学习、科研和决策效率。
  • 帮助用户从大量信息中识别可靠信息。
  • 避免重复研究和低质量信息误导。
  • 支持知识创新和规范化信息利用。

# 2. 信息检索原理

# 基本概念

狭义信息检索:从已经组织好的信息集合中查找并获取特定相关信息的过程。

广义信息检索:包括信息存储和信息检索两个过程。

  • 信息存储:对无序信息进行整理、分类、浓缩、标引,形成可检索系统。
  • 信息检索:用户利用检索工具或系统查找所需信息。

信息检索的实质:

将用户信息需求的提问特征与信息集合中的检索标识进行匹配。

信息检索的主要类型:

类型检索对象检索结果
文献检索图书、期刊、论文等文献线索或全文
事实检索人物、机构、事件、法规等具体事实答案
数据检索数值、参数、统计数据等确定性数据

# 检索语言与途径

语言类型特点示例
自然语言用户日常使用的自由词,灵活但容易同义、歧义关键词、自由词
规范化语言经人工控制,表达更统一分类语言、主题语言、叙词表

常用检索途径:

途径检索依据
分类途径分类号、学科体系
主题途径主题词、关键词、叙词
著者途径作者、机构、责任者
题名途径书名、刊名、篇名
序号途径ISBN、ISSN、专利号、标准号

# 检索系统与方法

信息检索系统一般包括信息资源库、标引和索引系统、检索接口、检索算法、结果显示与管理模块。

常用检索方法:

  • 顺查法:从早到晚按时间顺序查找。
  • 倒查法:从近到远反向查找。
  • 抽查法:选择重要年份或关键阶段查找。
  • 追溯法:通过参考文献、引文关系继续查找。
  • 综合法:多种方法结合使用。

常用检索技术:

技术作用
布尔逻辑检索AND 缩小范围, OR 扩大范围, NOT 排除无关结果
字段限制检索限定题名、作者、关键词、摘要、机构等字段
位置限制检索限定检索词之间的距离或相邻关系
截词检索用通配符匹配词形变化,如 comput*
精确检索用引号检索完整短语

# 检索效果评价

查全率=检出的相关文献数系统中相关文献总数查全率 = \frac{检出的相关文献数}{系统中相关文献总数}

查准率=检出的相关文献数检出文献总数查准率 = \frac{检出的相关文献数}{检出文献总数}

关系:

  • 扩大检索范围通常提高查全率,但可能降低查准率。
  • 缩小检索范围通常提高查准率,但可能降低查全率。
  • 检索策略需要在查全率和查准率之间平衡。

# 检索步骤与策略

一般步骤:

1
分析需求 -> 选择工具 -> 提取关键词 -> 构造检索式 -> 执行检索 -> 筛选结果 -> 评估效果 -> 调整策略

常用策略:

策略适用场景
逐步扩大法结果太少,需要提高查全率
逐步缩小法结果太多,需要提高查准率
区块法复杂课题包含多个概念组
引文追踪法查找研究脉络和后续影响

# 3. 馆藏信息资源利用

# 图书馆资源

馆藏信息资源包括馆藏实体资源和馆藏网络虚拟资源。

类型内容
馆藏实体资源印刷图书、期刊、声像资料、缩微资料、光盘、本馆服务器数据库
馆藏网络虚拟资源图书馆订购或授权访问的外部电子资源

# 图书查检

图书馆藏书通常按索书号排架:

1
索书号 = 分类号 + 书次号

  • 分类号表示图书所属学科或主题类别。
  • 书次号区分同一分类号下的不同图书。
  • 排架先按分类号,再按书次号。

OPAC(Online Public Access Catalogue)是联机公共查询目录,用于查询馆藏目录和个人借阅信息。

OPAC 常见功能:

  • 简单检索、全文检索、多字段检索。
  • 查看馆藏地点、索书号和借阅状态。
  • 查询个人借阅信息。
  • 预约图书、续借图书。
  • 查看新书通报和信息发布。

# 数字图书馆

数字图书馆是用数字技术处理、存储、检索、传输和利用文献信息的分布式信息系统。

特点:

  • 资源数字化。
  • 服务网络化。
  • 检索跨地域。
  • 支持资源共建共享。
  • 多媒体资源组织与传播。

# 4. 常用数据库

# 国内数据库

数据库主要资源核心功能
CNKI期刊、博硕士论文、会议、报纸、年鉴、专利、标准、成果等文献检索、知识元检索、引文检索
万方数据学位论文、期刊、会议、外文文献、专利、标准、成果、法规等直接检索、跨库检索、高级检索、专业检索
维普中文科技期刊、引文版、外文科技期刊等期刊检索、引文追踪、高级检索
超星电子图书普通检索、分类检索、高级检索、在线阅读
读秀图书、期刊、论文、报纸等学术资源线索学术搜索、图书发现、馆藏和文献获取路径

中文数据库检索流程:

1
分析课题 -> 选择数据库 -> 选择字段 -> 构造检索式 -> 限定条件 -> 筛选结果 -> 获取全文

# 国外数据库

国外全文数据库:

数据库主要领域
ScienceDirect多学科全文期刊,Elsevier 平台
Springer Link科技、工程、医学、数学、计算机等
EBSCO学术期刊、商业管理、财经等
Wiley化学、生命科学、医学、材料、工程等
Emerald管理学、工程学、图情等
IEEE/IET IEL电气、电子、计算机、通信、自动化等

国外文摘数据库:

数据库重点
SCI / SCIE科学引文索引,适合引文追踪和影响分析
EI Compendex工程技术领域文摘数据库
CPCI / ISTP会议论文检索
INSPEC物理、电气、电子、计算机、控制、通信
CA / SciFinder化学、化工、物质、反应、结构检索
BA / BIOSIS Previews生命科学、生物、农业、医学等

学位论文和专利数据库:

  • 国外学位论文用于查找硕博士论文、研究细节和综述。
  • 专利数据库用于检索技术方案、申请人、发明人、法律状态和专利族。

# 5. 信息的综合利用

# 信息处理流程

1
明确问题 -> 搜集资料 -> 筛选评价 -> 分类整理 -> 分析综合 -> 规范引用 -> 成果表达

信息搜集:

  • 直接资料:实验、考察、观察、测量。
  • 间接资料:一次文献和二次文献。

信息整理:

  • 选择原则:相关性、新颖性、准确性。
  • 提炼方法:汇编法、摘要法、综述法。

信息分析:

  • 逻辑分析:分析与综合、抽象与概括、归纳与演绎。
  • 统计分析:相关分析、预测、评估、内容分析。

# 学术规范

学术论文写作必须遵守引用规范,明确区分自己的观点和他人成果。

常见学术不端:

  • 抄袭、剽窃。
  • 伪造或篡改数据。
  • 一稿多投。
  • 不当署名。
  • 引用不标注来源。

# 文献综述与开题报告

文献综述作用:

  • 梳理研究现状。
  • 发现研究热点和空白。
  • 避免重复研究。
  • 为选题和研究设计提供依据。

开题报告内容:

  • 选题背景与意义。
  • 国内外研究现状。
  • 研究目标与内容。
  • 研究方法与技术路线。
  • 创新点、进度安排、预期成果和参考文献。

# 个人文献管理

常见工具包括 EndNote、NoteExpress、Zotero、Mendeley。

核心用途:

  • 保存题录和 PDF。
  • 标签分类和笔记管理。
  • 在论文中插入引用。
  • 自动生成参考文献。

# 6. 看不见的网络

看不见的网络也称深网,指普通搜索引擎难以抓取或无法直接索引的网络资源。

成因:

  • 需要登录、授权或付费访问。
  • 动态数据库查询生成页面。
  • robots.txt 限制抓取。
  • 文件格式特殊或无外链入口。
  • 内容位于专业数据库、馆藏系统或机构知识库中。

检索方法:

  • 使用专业数据库和图书馆数据库导航。
  • 使用站内搜索。
  • 使用高级搜索语法定位入口。
  • 使用开放知识库、学科门户和机构仓储。

# 第二部分:Web 数据挖掘与文本分析

# 1. Web 数据挖掘导论

# 核心概念

Web 数据挖掘是从 Web 数据中发现有价值模式、规律和知识的过程。

类型对象示例
Web 内容挖掘网页文本、图片、视频等内容文本分类、情感分析、主题发现
Web 结构挖掘网页链接结构PageRank、社区发现、网站结构分析
Web 用法挖掘访问日志、点击流、用户行为推荐系统、用户画像、路径分析

# 应用与价值

  • 搜索排序和推荐系统。
  • 舆情分析和热点发现。
  • 用户行为分析。
  • 商业智能和精准营销。
  • 学术趋势分析。

# 基本流程与伦理

1
问题定义 -> 数据采集 -> 预处理 -> 特征工程 -> 模式发现 -> 评估解释 -> 应用

伦理重点:

  • 隐私保护。
  • 数据授权与合规。
  • 算法偏见。
  • 数据安全。
  • 结果解释责任。

# 2. Web 数据爬取

# HTTP 请求与响应

Web 爬取基于 HTTP 通信:

  • 客户端发送请求,请求包含 URL、方法、请求头、参数等。
  • 服务器返回响应,响应包含状态码、响应头和响应体。

常见方法:

  • GET :获取资源。
  • POST :提交数据。

常见状态码:

  • 200 :成功。
  • 301/302 :重定向。
  • 403 :禁止访问。
  • 404 :资源不存在。
  • 500 :服务器错误。

# 数据解析

HTML/XML 是半结构化文档,可通过标签、属性和层级关系定位数据。

常见解析方式:

  • CSS 选择器。
  • XPath。
  • 正则表达式。
  • Beautiful Soup、lxml 等解析工具。

# Scrapy 与 requests

工具作用
requests发送 HTTP 请求、获取网页响应
Scrapy面向爬虫项目的框架,支持请求调度、解析、管道、去重等

# 爬虫伦理

  • 遵守 robots.txt
  • 控制爬取频率,避免影响网站服务。
  • 设置合理 User-Agent
  • 不抓取敏感、隐私或未经授权的数据。
  • 遵守网站条款、版权和法律要求。

# 3. 信息提取

# 核心概念

信息提取(Information Extraction, IE)从非结构化或半结构化文本中抽取结构化信息。

与信息检索(IR)的区别:

任务目标
信息检索找到相关文档
信息提取从文档中抽取实体、关系、事件等结构化信息

# 正则表达式

常用元字符:

符号含义
.任意字符
*重复 0 次或多次
+重复 1 次或多次
?重复 0 次或 1 次
[]字符集合
()分组
|
^字符串开头
$字符串结尾
\d数字
\w字母、数字或下划线
\s空白字符

Python re 常用函数:

  • re.search() :返回第一个匹配。
  • re.findall() :返回所有匹配。
  • re.sub() :替换匹配内容。

# 4. Web 文本分析:分词、情感、预处理与特征工程

# 中文分词

中文文本没有天然空格分隔,必须先进行分词。

常见挑战:

  • 歧义切分。
  • 未登录词(OOV)。
  • 新词和专有名词识别。

常见方法:

  • 基于词典。
  • 基于统计。
  • 基于深度学习。

常用工具: jieba

# 情感分析

情感分析用于判断文本表达的主观态度或情绪倾向。

主要方法:

方法思路
情感词典法根据情感词、否定词、程度副词计算倾向
机器学习法将文本转化为特征,用分类模型判断情感

# 文本预处理

常见步骤:

  • 去除 HTML 和特殊符号。
  • 分词。
  • 去除停用词。
  • 英文词形规范化。
  • 去重和低频词过滤。

# 特征工程

# TF-IDF

TF 表示词在文档中出现的频率,IDF 表示词区分不同文档的能力。

常见形式:

TFIDF(t,d)=TF(t,d)×IDF(t)TFIDF(t, d) = TF(t, d) \times IDF(t)

作用:评估词语对某篇文档的重要性。

# 词袋模型 BOW

词袋模型忽略词序,只统计词是否出现或出现次数。

优点:

  • 简单直观。
  • 易于向量化。

缺点:

  • 丢失语序。
  • 难以表达语义关系。
  • 高维稀疏。

# Word2Vec

Word2Vec 将词表示为低维稠密向量,可以捕捉一定语义关系。

与 BOW 的区别:

  • BOW 统计词频,语义表达弱。
  • Word2Vec 学习词嵌入,能表达词之间的语义相似性。

# 5. Web 文本分析:主题抽取与摘要

# LDA 主题模型

主题模型用于发现文本集合中的潜在主题。

LDA 的核心思想:

  • 每篇文档是多个主题的混合。
  • 每个主题是多个词的概率分布。
  • 模型输出文档 - 主题分布和主题 - 词分布。

超参数:

参数作用
α控制文档中主题分布的稀疏程度
β控制主题中词分布的稀疏程度

应用:

  • 主题发现。
  • 文本分类辅助。
  • 文档聚类。
  • 舆情主题分析。

# 文本摘要

类型思路优点局限
抽取式摘要从原文选择重要句子保真度高,实现相对简单可能不连贯
生成式摘要重新生成摘要文本表达更自然可能生成不准确内容

典型方法:

  • TextRank:抽取式摘要,基于图排序思想。
  • Seq2Seq / 预训练模型:生成式摘要,基于神经网络生成文本。

# 6. 社交媒体挖掘

# 社交网络基础

社交网络可按不同方式分类:

  • 同质网络与异质网络。
  • 有向网络与无向网络。
  • 加权网络与无权网络。

普遍特征:

  • 小世界:任意节点之间路径较短。
  • 无标度:少数节点拥有大量连接。
  • 高聚集:节点倾向形成局部群体。
  • 社区结构:网络中存在联系紧密的群体。

# 网络可视化与指标

常用工具:

  • Gephi。
  • NetworkX。

常见中心性指标:

指标含义
度中心性节点直接连接数量,表示直接影响范围
接近中心性节点到其他节点的平均距离,表示到达效率
介数中心性节点位于其他节点最短路径上的程度,表示桥梁作用
特征向量中心性 / PageRank与高影响力节点相连会提高自身重要性

# 应用场景

  • 舆情传播分析。
  • 意见领袖识别。
  • 推荐系统。
  • 社区发现。
  • 用户关系和兴趣分析。

# 复习建议

# 基础概念

优先掌握每个概念的定义、边界和区别,尤其是信息 / 知识 / 文献 / 情报、信息检索 / 信息提取、查准率 / 查全率、BOW/Word2Vec。

# 原理机制

不要只背名词,应能说明工作机制:

  • 搜索引擎如何采集、索引、检索和排序。
  • 数据库检索如何通过字段、布尔逻辑和限定条件提高效果。
  • TF-IDF 如何衡量词语重要性。
  • LDA 如何用主题生成文档。
  • 中心性指标如何解释节点重要性。

# 计算与应用

重点练习:

  • 查准率和查全率计算。
  • TF-IDF 计算思路。
  • 正则表达式匹配。
  • 社交网络中心性指标含义。
  • 检索式构造与策略调整。

# 伦理与规范

信息检索和数据挖掘都要关注规范:

  • 引用规范和避免学术不端。
  • 爬虫遵守 robots.txt 和访问频率限制。
  • 数据隐私和授权。
  • 算法偏见和结果解释。

# 简答题常见方向

  • 信息检索的一般步骤。
  • 查准率和查全率的关系。
  • 中文数据库和国外数据库的特点。
  • 看不见的网络的成因。
  • Web 数据挖掘的三种类型。
  • 信息检索与信息提取的区别。
  • TF-IDF、LDA、TextRank、PageRank 的基本思想。