本章重点是网络信息资源、搜索引擎工作原理、网络检索方法、免费学术资源、开放存取和看不见的网络。
# 1. 网络信息资源
网络信息资源也称虚拟信息资源,是以数字化形式记录、以多媒体形式表达、存储在网络计算机和通信介质上,并通过计算机网络传递的信息内容集合。
简言之:
网络信息资源就是通过计算机网络可以利用的各种信息资源总和。
# 网络信息资源类型
| 分类角度 | 类型 |
|---|---|
| 信息来源 | 政府信息、公共信息、商用信息 |
| 信息内容 | 资源指南、搜索引擎、联机馆藏目录、网络数据库、电子出版物、网上工具书等 |
| 网络协议 | WWW、Telnet、FTP、Gopher、WAIS、用户服务组等 |
# 2. 网络信息组织
网络信息组织是对网络信息资源进行有序化,使其便于用户发现、检索和利用的过程。
# 主要方式
| 方式 | 说明 |
|---|---|
| 超文本 | 非线性文本,以节点和链接构成网状结构 |
| Web2.0 | 强调用户交互,用户既是浏览者也是内容生产者 |
Web2.0 常见形式:
- Blog。
- Wiki。
- Tag。
- SNS。
- RSS。
- P2P。
- Podcast。
- 图片库。
# 3. 网络信息检索工具
网络信息检索工具是在因特网上提供信息检索服务的计算机系统。
# 工具类型
| 分类角度 | 类型 |
|---|---|
| 检索机制 | 分类目录型、搜索引擎型、混合型 |
| 检索范围 | 综合型、专题型、特殊型 |
# 功能
- 构造检索提问。
- 按相关度排列结果。
- 支持关键词检索和分类浏览。
- 支持翻译、多语种检索等扩展功能。
# 网络检索方法
- 基于超文本的信息浏览。
- 基于网络资源目录的信息查询。
- 基于搜索引擎的信息检索。
# 4. 搜索引擎工作原理
搜索引擎通常由以下部分构成:
| 组成 | 作用 |
|---|---|
| 采集器 | 又称 Spider 或 Robot,自动抓取网页 |
| 分析器 | 分析网页内容和结构 |
| 索引器 | 建立索引数据库 |
| 检索器 | 根据用户查询在索引中匹配结果 |
| 用户接口 | 接收查询并展示结果 |
工作流程:
1 | 网页采集 -> 内容分析 -> 建立索引 -> 用户查询 -> 检索匹配 -> 排序展示 |
# 5. 搜索引擎类型
| 分类 | 类型 | 示例 |
|---|---|---|
| 检索语言 | 关键词型、分类型、混合型 | Google、百度、Yahoo |
| 检索功能 | 目录型、全文型 | Yahoo、Google、百度 |
| 检索范围 | 综合型、专业型、特殊型 | Google、Medscape、地图搜索 |
| 搜索方式 | 独立搜索、元搜索 | Google、MetaCrawler |
| 运营方式 | 综合搜索、门户搜索、垂直搜索 | 百度、新浪爱问、CALIS 学科导航 |
# 6. 搜索语法
以百度等搜索引擎为例,常见语法包括:
| 语法 | 作用 | 示例 |
|---|---|---|
| 多词组合 | 多个关键词共同检索 | 信息检索 数据库 |
OR | 并行搜索 | 大学生 OR 高校学生 |
- | 排除无关词 | java - 咖啡 |
intitle: | 限定标题 | intitle: 信息检索 |
site: | 限定站点 | site:edu.cn 信息检索 |
filetype: | 限定文件类型 | filetype:pdf 信息检索 |
inurl: | 限定 URL | inurl:library |
| 引号 | 精确匹配 | "information retrieval" |
site: 、 filetype: 、引号精确匹配是网络检索中最实用的高级语法,常用于快速定位可信来源和 PDF、PPT、DOC 等文件。
# 7. 免费学术信息资源
# 资源分布
- 教育机构网站。
- 科研院所网站。
- 出版发行机构网站。
- 图书馆网站。
- 数据库开发商网站。
- 专业或行业信息网。
- 个人网站、学术论坛和博客。
# 常见类型
| 类型 | 示例 |
|---|---|
| 免费参考工具书 | 百科、词典、年鉴、名录 |
| 免费图书 | 世界数字图书馆、电子文库 |
| 免费期刊 | 开放期刊、期刊目录 |
| 免费报纸 | 新闻网站、报纸数据库 |
| 政府出版物 | 政府官网、政策法规 |
| 会议信息 | 学术会议目录 |
| 学位论文 | 机构知识库、论文平台 |
| 专利和标准 | 专利局、标准组织网站 |
# 8. 开放存取 OA
开放存取(Open Access)是网络学术信息传播方式之一,用户可通过公共 Internet 免费阅读、下载、复制、传播、打印和检索作品。
# OA 与传统模式
| 模式 | 特点 |
|---|---|
| 传统出版 | 读者或机构付费订阅 |
| 开放存取 | 用户免费获取,常见为作者付费或机构支持 |
# OA 资源形式
- 开放存取期刊。
- 开放存取知识库。
- 开放存取门户网站。
- 开放存取个人主页或博客。
# 9. 看不见的网络
看不见的网络也称深网,指普通搜索引擎难以抓取或无法直接索引的网络资源。
成因:
- 需要登录或授权访问。
- 动态数据库查询生成页面。
- robots 协议限制抓取。
- 非 HTML 或特殊格式资源。
- 内容没有外部链接指向。
检索方法:
- 使用专业数据库。
- 使用站内搜索。
- 使用图书馆数据库导航。
- 使用学科门户和开放知识库。
- 使用高级搜索语法定位入口。
# 10. 本章考点
- 网络信息资源的定义和类型。
- 超文本和 Web2.0 的含义。
- 搜索引擎工作原理:采集、分析、索引、检索、接口。
- 搜索引擎类型。
- 百度 / Google 常用高级检索语法。
- 免费学术信息资源的主要分布。
- OA 的定义、形式和与传统出版的区别。
- 看不见的网络的定义和成因。
# 11. 快速自测
- 搜索引擎为什么需要建立索引?
site:和filetype:分别解决什么问题?- 分类目录型工具和全文搜索引擎有什么区别?
- 什么是开放存取?
- 为什么有些资源属于 “看不见的网络”?