第 7 章网络信息资源检索 - 信息检索与 Web 数据挖掘 - 计算机科学

本章重点是网络信息资源、搜索引擎工作原理、网络检索方法、免费学术资源、开放存取和看不见的网络。

# 1. 网络信息资源

网络信息资源也称虚拟信息资源，是以数字化形式记录、以多媒体形式表达、存储在网络计算机和通信介质上，并通过计算机网络传递的信息内容集合。

简言之：

网络信息资源就是通过计算机网络可以利用的各种信息资源总和。

# 网络信息资源类型

分类角度	类型
信息来源	政府信息、公共信息、商用信息
信息内容	资源指南、搜索引擎、联机馆藏目录、网络数据库、电子出版物、网上工具书等
网络协议	WWW、Telnet、FTP、Gopher、WAIS、用户服务组等

# 2. 网络信息组织

网络信息组织是对网络信息资源进行有序化，使其便于用户发现、检索和利用的过程。

# 主要方式

方式	说明
超文本	非线性文本，以节点和链接构成网状结构
Web2.0	强调用户交互，用户既是浏览者也是内容生产者

Web2.0 常见形式：

Blog。
Wiki。
Tag。
SNS。
RSS。
P2P。
Podcast。
图片库。

# 3. 网络信息检索工具

网络信息检索工具是在因特网上提供信息检索服务的计算机系统。

# 工具类型

分类角度	类型
检索机制	分类目录型、搜索引擎型、混合型
检索范围	综合型、专题型、特殊型

# 功能

构造检索提问。
按相关度排列结果。
支持关键词检索和分类浏览。
支持翻译、多语种检索等扩展功能。

# 网络检索方法

基于超文本的信息浏览。
基于网络资源目录的信息查询。
基于搜索引擎的信息检索。

# 4. 搜索引擎工作原理

搜索引擎通常由以下部分构成：

组成	作用
采集器	又称 Spider 或 Robot，自动抓取网页
分析器	分析网页内容和结构
索引器	建立索引数据库
检索器	根据用户查询在索引中匹配结果
用户接口	接收查询并展示结果

工作流程：

1	网页采集 -> 内容分析 -> 建立索引 -> 用户查询 -> 检索匹配 -> 排序展示

# 5. 搜索引擎类型

分类	类型	示例
检索语言	关键词型、分类型、混合型	Google、百度、Yahoo
检索功能	目录型、全文型	Yahoo、Google、百度
检索范围	综合型、专业型、特殊型	Google、Medscape、地图搜索
搜索方式	独立搜索、元搜索	Google、MetaCrawler
运营方式	综合搜索、门户搜索、垂直搜索	百度、新浪爱问、CALIS 学科导航

# 6. 搜索语法

以百度等搜索引擎为例，常见语法包括：

语法	作用	示例
多词组合	多个关键词共同检索	信息检索数据库
`OR`	并行搜索	大学生 OR 高校学生
`-`	排除无关词	java - 咖啡
`intitle:`	限定标题	intitle: 信息检索
`site:`	限定站点	site:edu.cn 信息检索
`filetype:`	限定文件类型	filetype:pdf 信息检索
`inurl:`	限定 URL	inurl:library
引号	精确匹配	"information retrieval"

site: 、 filetype: 、引号精确匹配是网络检索中最实用的高级语法，常用于快速定位可信来源和 PDF、PPT、DOC 等文件。

# 7. 免费学术信息资源

# 资源分布

教育机构网站。
科研院所网站。
出版发行机构网站。
图书馆网站。
数据库开发商网站。
专业或行业信息网。
个人网站、学术论坛和博客。

# 常见类型

类型	示例
免费参考工具书	百科、词典、年鉴、名录
免费图书	世界数字图书馆、电子文库
免费期刊	开放期刊、期刊目录
免费报纸	新闻网站、报纸数据库
政府出版物	政府官网、政策法规
会议信息	学术会议目录
学位论文	机构知识库、论文平台
专利和标准	专利局、标准组织网站

# 8. 开放存取 OA

开放存取（Open Access）是网络学术信息传播方式之一，用户可通过公共 Internet 免费阅读、下载、复制、传播、打印和检索作品。

# OA 与传统模式

模式	特点
传统出版	读者或机构付费订阅
开放存取	用户免费获取，常见为作者付费或机构支持

# OA 资源形式

开放存取期刊。
开放存取知识库。
开放存取门户网站。
开放存取个人主页或博客。

# 9. 看不见的网络

看不见的网络也称深网，指普通搜索引擎难以抓取或无法直接索引的网络资源。

成因：

需要登录或授权访问。
动态数据库查询生成页面。
robots 协议限制抓取。
非 HTML 或特殊格式资源。
内容没有外部链接指向。

检索方法：

使用专业数据库。
使用站内搜索。
使用图书馆数据库导航。
使用学科门户和开放知识库。
使用高级搜索语法定位入口。

# 10. 本章考点

网络信息资源的定义和类型。
超文本和 Web2.0 的含义。
搜索引擎工作原理：采集、分析、索引、检索、接口。
搜索引擎类型。
百度 / Google 常用高级检索语法。
免费学术信息资源的主要分布。
OA 的定义、形式和与传统出版的区别。
看不见的网络的定义和成因。

# 11. 快速自测

搜索引擎为什么需要建立索引？
site: 和 filetype: 分别解决什么问题？
分类目录型工具和全文搜索引擎有什么区别？
什么是开放存取？
为什么有些资源属于 “看不见的网络”？

网络信息资源搜索引擎