本章是考试重点。核心是信息检索的定义、类型、检索语言、检索技术、检索效果评价以及检索策略。
# 1. 信息检索的概念
# 狭义信息检索
狭义的信息检索是指依据一定方法,从已经组织好的信息集合中查找并获取特定相关信息的过程。
# 广义信息检索
广义的信息检索包括信息存储和信息检索两个过程:
- 信息存储:对大量无序信息进行整理、分类、浓缩、标引,形成可检索的信息系统。
- 信息检索:用户根据需求,利用检索工具或检索系统查找所需信息。
# 信息检索的实质
信息检索的实质是:
将用户信息需求的提问特征与信息集合中的检索标识进行匹配,从而找出相关信息。
也可以理解为信息需求集合与信息资源集合之间的匹配和选择。
# 2. 信息检索的类型
# 按检索方式分
| 类型 | 含义 |
|---|---|
| 手工检索 | 通过目录、索引、文摘、工具书等手工查找信息 |
| 计算机检索 | 利用数据库、检索软件和网络系统进行检索 |
| 综合检索 | 同时使用手工检索和计算机检索 |
# 按检索内容或目标分
| 类型 | 检索对象 | 检索结果 |
|---|---|---|
| 文献型信息检索 | 图书、期刊、论文等文献 | 文献线索或全文 |
| 事实型信息检索 | 人物、机构、事件、法规等事实 | 具体事实答案 |
| 数据型信息检索 | 数值、参数、统计数据、图表 | 确定性数据 |
# 按信息组织方式分
- 全文检索:系统存储整篇文献或全文内容。
- 超文本检索:信息以非线性网状结构组织。
- 超媒体检索:在超文本基础上加入图像、声音、视频等多媒体信息。
# 3. 检索途径
# 外部特征途径
| 途径 | 说明 |
|---|---|
| 题名途径 | 按书名、刊名、篇名等检索 |
| 著者途径 | 按作者、机构、责任者检索 |
| 序号途径 | 按 ISBN、ISSN、专利号、标准号等检索 |
| 出版项途径 | 按出版社、出版年、会议名称等检索 |
# 内容特征途径
| 途径 | 说明 |
|---|---|
| 分类途径 | 利用分类号或学科体系检索 |
| 主题途径 | 利用主题词、关键词、叙词检索 |
| 关键词途径 | 直接使用自然语言词汇检索 |
| 摘要途径 | 在摘要字段中检索主题内容 |
# 4. 检索语言
检索语言是描述信息内容和用户需求的人工语言,是信息存储与检索之间的桥梁。
# 自然语言与规范化语言
| 类型 | 特点 | 示例 |
|---|---|---|
| 自然语言 | 用户日常使用的词语,灵活但不统一 | 关键词、自由词 |
| 规范化语言 | 经人工控制和规范,减少同义、歧义 | 分类语言、主题语言、叙词表 |
# 常见检索语言
- 分类语言:按学科体系组织信息,如中图法。
- 主题语言:用主题词表达文献主题。
- 关键词语言:从题名、摘要、正文中提取关键词。
- 叙词语言:通过规范词表控制同义词、上位词、下位词等关系。
# 5. 检索系统与检索方法
信息检索系统通常包括:
- 信息资源库。
- 标引和索引系统。
- 检索接口。
- 检索算法。
- 结果显示与管理模块。
# 常用检索方法
| 方法 | 作用 |
|---|---|
| 顺查法 | 从早到晚按时间顺序查找 |
| 倒查法 | 从近到远按时间反向查找 |
| 抽查法 | 选择重要年份或关键阶段检索 |
| 追溯法 | 通过参考文献或引文关系追踪 |
| 综合法 | 多种方法结合使用 |
# 6. 检索技术
# 布尔逻辑检索
| 算符 | 含义 | 影响 |
|---|---|---|
AND | 同时包含多个检索词 | 缩小范围,提高查准率 |
OR | 包含任一检索词 | 扩大范围,提高查全率 |
NOT | 排除某检索词 | 缩小范围,减少噪声 |
示例:
1 | 信息检索 AND 数据库 |
# 字段限制检索
把检索词限定在特定字段中,如题名、作者、关键词、摘要、机构、来源等。
字段限制通常能提高查准率。
# 截词检索
用通配符表示词尾或词中变化,适合英文检索。
示例:
1 | comput* |
可匹配 computer、computing、computation 等。
# 位置限制检索
限制多个词之间的距离或相邻关系,如 NEAR 、 ADJ 。适合表达词组或相关概念。
# 精确检索
使用引号或精确匹配方式检索完整短语。
1 | "information retrieval" |
# 7. 检索效果评价
# 查全率与查准率
| 指标 | 英文 | 含义 |
|---|---|---|
| 查全率 | Recall | 检出的相关文献占系统中全部相关文献的比例 |
| 查准率 | Precision | 检出的相关文献占全部检出文献的比例 |
公式:
# 二者关系
- 扩大检索范围通常提高查全率,但可能降低查准率。
- 缩小检索范围通常提高查准率,但可能降低查全率。
- 检索策略要根据任务目标在二者之间平衡。
# 8. 检索步骤与策略
# 一般步骤
- 分析检索需求。
- 选择检索工具或数据库。
- 提取检索概念和关键词。
- 构造检索式。
- 执行检索。
- 浏览和筛选结果。
- 评价检索效果。
- 调整检索式并再次检索。
# 常用策略
| 策略 | 适用场景 |
|---|---|
| 逐步扩大法 | 检索结果太少,需要提高查全率 |
| 逐步缩小法 | 检索结果太多,需要提高查准率 |
| 区块法 | 复杂课题包含多个概念组 |
| 引文追踪法 | 查找某主题的前沿和相关研究脉络 |
# 9. 本章考点
- 信息检索的广义、狭义定义。
- 信息检索的实质:需求特征与检索标识匹配。
- 文献型、事实型、数据型检索的区别。
- 自然语言与规范化检索语言的区别。
- 布尔逻辑检索、字段限制、截词、位置限制。
- 查准率和查全率的公式、含义和关系。
- 检索步骤与策略调整。
# 10. 快速自测
- 为什么说信息存储和信息检索互为前提?
AND、OR、NOT分别如何影响检索结果?- 如何提高查准率?如何提高查全率?
- 查准率和查全率为什么常常存在矛盾?
- 检索一个复杂课题时,为什么要先分析概念组?