本章是考试重点。核心是信息检索的定义、类型、检索语言、检索技术、检索效果评价以及检索策略。

# 1. 信息检索的概念

# 狭义信息检索

狭义的信息检索是指依据一定方法,从已经组织好的信息集合中查找并获取特定相关信息的过程。

# 广义信息检索

广义的信息检索包括信息存储信息检索两个过程:

  • 信息存储:对大量无序信息进行整理、分类、浓缩、标引,形成可检索的信息系统。
  • 信息检索:用户根据需求,利用检索工具或检索系统查找所需信息。

# 信息检索的实质

信息检索的实质是:

将用户信息需求的提问特征与信息集合中的检索标识进行匹配,从而找出相关信息。

也可以理解为信息需求集合与信息资源集合之间的匹配和选择。

# 2. 信息检索的类型

# 按检索方式分

类型含义
手工检索通过目录、索引、文摘、工具书等手工查找信息
计算机检索利用数据库、检索软件和网络系统进行检索
综合检索同时使用手工检索和计算机检索

# 按检索内容或目标分

类型检索对象检索结果
文献型信息检索图书、期刊、论文等文献文献线索或全文
事实型信息检索人物、机构、事件、法规等事实具体事实答案
数据型信息检索数值、参数、统计数据、图表确定性数据

# 按信息组织方式分

  • 全文检索:系统存储整篇文献或全文内容。
  • 超文本检索:信息以非线性网状结构组织。
  • 超媒体检索:在超文本基础上加入图像、声音、视频等多媒体信息。

# 3. 检索途径

# 外部特征途径

途径说明
题名途径按书名、刊名、篇名等检索
著者途径按作者、机构、责任者检索
序号途径按 ISBN、ISSN、专利号、标准号等检索
出版项途径按出版社、出版年、会议名称等检索

# 内容特征途径

途径说明
分类途径利用分类号或学科体系检索
主题途径利用主题词、关键词、叙词检索
关键词途径直接使用自然语言词汇检索
摘要途径在摘要字段中检索主题内容

# 4. 检索语言

检索语言是描述信息内容和用户需求的人工语言,是信息存储与检索之间的桥梁。

# 自然语言与规范化语言

类型特点示例
自然语言用户日常使用的词语,灵活但不统一关键词、自由词
规范化语言经人工控制和规范,减少同义、歧义分类语言、主题语言、叙词表

# 常见检索语言

  • 分类语言:按学科体系组织信息,如中图法。
  • 主题语言:用主题词表达文献主题。
  • 关键词语言:从题名、摘要、正文中提取关键词。
  • 叙词语言:通过规范词表控制同义词、上位词、下位词等关系。

# 5. 检索系统与检索方法

信息检索系统通常包括:

  • 信息资源库。
  • 标引和索引系统。
  • 检索接口。
  • 检索算法。
  • 结果显示与管理模块。

# 常用检索方法

方法作用
顺查法从早到晚按时间顺序查找
倒查法从近到远按时间反向查找
抽查法选择重要年份或关键阶段检索
追溯法通过参考文献或引文关系追踪
综合法多种方法结合使用

# 6. 检索技术

# 布尔逻辑检索

算符含义影响
AND同时包含多个检索词缩小范围,提高查准率
OR包含任一检索词扩大范围,提高查全率
NOT排除某检索词缩小范围,减少噪声

示例:

1
2
3
信息检索 AND 数据库
会计准则 AND 公司治理 NOT 金融企业
大学生 OR 高校学生

# 字段限制检索

把检索词限定在特定字段中,如题名、作者、关键词、摘要、机构、来源等。

字段限制通常能提高查准率。

# 截词检索

用通配符表示词尾或词中变化,适合英文检索。

示例:

1
comput*

可匹配 computer、computing、computation 等。

# 位置限制检索

限制多个词之间的距离或相邻关系,如 NEARADJ 。适合表达词组或相关概念。

# 精确检索

使用引号或精确匹配方式检索完整短语。

1
"information retrieval"

# 7. 检索效果评价

# 查全率与查准率

指标英文含义
查全率Recall检出的相关文献占系统中全部相关文献的比例
查准率Precision检出的相关文献占全部检出文献的比例

公式:

查全率=检出的相关文献数系统中相关文献总数查全率 = \frac{检出的相关文献数}{系统中相关文献总数}

查准率=检出的相关文献数检出文献总数查准率 = \frac{检出的相关文献数}{检出文献总数}

# 二者关系

  • 扩大检索范围通常提高查全率,但可能降低查准率。
  • 缩小检索范围通常提高查准率,但可能降低查全率。
  • 检索策略要根据任务目标在二者之间平衡。

# 8. 检索步骤与策略

# 一般步骤

  1. 分析检索需求。
  2. 选择检索工具或数据库。
  3. 提取检索概念和关键词。
  4. 构造检索式。
  5. 执行检索。
  6. 浏览和筛选结果。
  7. 评价检索效果。
  8. 调整检索式并再次检索。

# 常用策略

策略适用场景
逐步扩大法检索结果太少,需要提高查全率
逐步缩小法检索结果太多,需要提高查准率
区块法复杂课题包含多个概念组
引文追踪法查找某主题的前沿和相关研究脉络

# 9. 本章考点

  1. 信息检索的广义、狭义定义。
  2. 信息检索的实质:需求特征与检索标识匹配。
  3. 文献型、事实型、数据型检索的区别。
  4. 自然语言与规范化检索语言的区别。
  5. 布尔逻辑检索、字段限制、截词、位置限制。
  6. 查准率和查全率的公式、含义和关系。
  7. 检索步骤与策略调整。

# 10. 快速自测

  • 为什么说信息存储和信息检索互为前提?
  • ANDORNOT 分别如何影响检索结果?
  • 如何提高查准率?如何提高查全率?
  • 查准率和查全率为什么常常存在矛盾?
  • 检索一个复杂课题时,为什么要先分析概念组?
更新于

请我喝[茶]~( ̄▽ ̄)~*

梦前辈 微信支付

微信支付

梦前辈 支付宝

支付宝