本章重点是网络信息资源、搜索引擎工作原理、网络检索方法、免费学术资源、开放存取和看不见的网络。

# 1. 网络信息资源

网络信息资源也称虚拟信息资源,是以数字化形式记录、以多媒体形式表达、存储在网络计算机和通信介质上,并通过计算机网络传递的信息内容集合。

简言之:

网络信息资源就是通过计算机网络可以利用的各种信息资源总和。

# 网络信息资源类型

分类角度类型
信息来源政府信息、公共信息、商用信息
信息内容资源指南、搜索引擎、联机馆藏目录、网络数据库、电子出版物、网上工具书等
网络协议WWW、Telnet、FTP、Gopher、WAIS、用户服务组等

# 2. 网络信息组织

网络信息组织是对网络信息资源进行有序化,使其便于用户发现、检索和利用的过程。

# 主要方式

方式说明
超文本非线性文本,以节点和链接构成网状结构
Web2.0强调用户交互,用户既是浏览者也是内容生产者

Web2.0 常见形式:

  • Blog。
  • Wiki。
  • Tag。
  • SNS。
  • RSS。
  • P2P。
  • Podcast。
  • 图片库。

# 3. 网络信息检索工具

网络信息检索工具是在因特网上提供信息检索服务的计算机系统。

# 工具类型

分类角度类型
检索机制分类目录型、搜索引擎型、混合型
检索范围综合型、专题型、特殊型

# 功能

  • 构造检索提问。
  • 按相关度排列结果。
  • 支持关键词检索和分类浏览。
  • 支持翻译、多语种检索等扩展功能。

# 网络检索方法

  • 基于超文本的信息浏览。
  • 基于网络资源目录的信息查询。
  • 基于搜索引擎的信息检索。

# 4. 搜索引擎工作原理

搜索引擎通常由以下部分构成:

组成作用
采集器又称 Spider 或 Robot,自动抓取网页
分析器分析网页内容和结构
索引器建立索引数据库
检索器根据用户查询在索引中匹配结果
用户接口接收查询并展示结果

工作流程:

1
网页采集 -> 内容分析 -> 建立索引 -> 用户查询 -> 检索匹配 -> 排序展示

# 5. 搜索引擎类型

分类类型示例
检索语言关键词型、分类型、混合型Google、百度、Yahoo
检索功能目录型、全文型Yahoo、Google、百度
检索范围综合型、专业型、特殊型Google、Medscape、地图搜索
搜索方式独立搜索、元搜索Google、MetaCrawler
运营方式综合搜索、门户搜索、垂直搜索百度、新浪爱问、CALIS 学科导航

# 6. 搜索语法

以百度等搜索引擎为例,常见语法包括:

语法作用示例
多词组合多个关键词共同检索信息检索 数据库
OR并行搜索大学生 OR 高校学生
-排除无关词java - 咖啡
intitle:限定标题intitle: 信息检索
site:限定站点site:edu.cn 信息检索
filetype:限定文件类型filetype:pdf 信息检索
inurl:限定 URLinurl:library
引号精确匹配"information retrieval"

site:filetype: 、引号精确匹配是网络检索中最实用的高级语法,常用于快速定位可信来源和 PDF、PPT、DOC 等文件。

# 7. 免费学术信息资源

# 资源分布

  • 教育机构网站。
  • 科研院所网站。
  • 出版发行机构网站。
  • 图书馆网站。
  • 数据库开发商网站。
  • 专业或行业信息网。
  • 个人网站、学术论坛和博客。

# 常见类型

类型示例
免费参考工具书百科、词典、年鉴、名录
免费图书世界数字图书馆、电子文库
免费期刊开放期刊、期刊目录
免费报纸新闻网站、报纸数据库
政府出版物政府官网、政策法规
会议信息学术会议目录
学位论文机构知识库、论文平台
专利和标准专利局、标准组织网站

# 8. 开放存取 OA

开放存取(Open Access)是网络学术信息传播方式之一,用户可通过公共 Internet 免费阅读、下载、复制、传播、打印和检索作品。

# OA 与传统模式

模式特点
传统出版读者或机构付费订阅
开放存取用户免费获取,常见为作者付费或机构支持

# OA 资源形式

  • 开放存取期刊。
  • 开放存取知识库。
  • 开放存取门户网站。
  • 开放存取个人主页或博客。

# 9. 看不见的网络

看不见的网络也称深网,指普通搜索引擎难以抓取或无法直接索引的网络资源。

成因:

  • 需要登录或授权访问。
  • 动态数据库查询生成页面。
  • robots 协议限制抓取。
  • 非 HTML 或特殊格式资源。
  • 内容没有外部链接指向。

检索方法:

  • 使用专业数据库。
  • 使用站内搜索。
  • 使用图书馆数据库导航。
  • 使用学科门户和开放知识库。
  • 使用高级搜索语法定位入口。

# 10. 本章考点

  1. 网络信息资源的定义和类型。
  2. 超文本和 Web2.0 的含义。
  3. 搜索引擎工作原理:采集、分析、索引、检索、接口。
  4. 搜索引擎类型。
  5. 百度 / Google 常用高级检索语法。
  6. 免费学术信息资源的主要分布。
  7. OA 的定义、形式和与传统出版的区别。
  8. 看不见的网络的定义和成因。

# 11. 快速自测

  • 搜索引擎为什么需要建立索引?
  • site:filetype: 分别解决什么问题?
  • 分类目录型工具和全文搜索引擎有什么区别?
  • 什么是开放存取?
  • 为什么有些资源属于 “看不见的网络”?
更新于

请我喝[茶]~( ̄▽ ̄)~*

梦前辈 微信支付

微信支付

梦前辈 支付宝

支付宝