本章重点是信息搜集、整理、分析,以及学术论文、文献综述、开题报告、学术规范和文献管理工具。

# 1. 信息搜集

# 信息类型

类型说明
第一手资料通过实验、观察、调查直接获得的资料
他人研究成果论文、专著、报告、专利等已有成果
相关学科材料与研究主题有关的交叉学科资料
权威论述与政策国家政策、行业规范、权威机构报告等

# 信息搜集途径

途径说明
直接信息搜集实验、考察、观察、测量等
间接信息搜集利用一次文献、二次文献等

# 一次文献与二次文献

类型含义示例
一次文献原始研究成果的直接记录论文、专著、科技报告、专利、标准、学位论文
二次文献对一次文献加工、压缩、组织后的检索工具题录、文摘、索引

# 2. 信息整理

# 信息选择

选择信息时应遵循:

  • 相关性:与研究主题直接相关。
  • 新颖性:反映最新研究或最新数据。
  • 准确性:来源可靠,内容可信。

常用方法:

  • 比较法。
  • 核查法。
  • 分析法。

# 信息提炼

方法含义
汇编法将原始资料中的事实、数据汇总并编排
摘要法对原始信息进行浓缩,抽取主要事实和数据
综述法对同一课题大量信息进行分析、归纳、综合

# 3. 信息分析

# 信息分析的特性

  • 针对性。
  • 创造性。
  • 科学性。
  • 综合性。

# 信息分析步骤

  1. 选择课题。
  2. 搜集课题相关文献信息。
  3. 鉴别筛选信息的可靠性、先进性和适用性。
  4. 对筛选后的信息进行分类整序。
  5. 使用信息分析方法进行综合研究。
  6. 形成成果表达,如综述、述评、研究报告。

# 信息分析方法

方法内容
逻辑分析方法分析与综合、抽象与概括、归纳与演绎
统计分析方法相关分析、预测、评估、内容分析

# 4. 学术论文撰写

# 学术论文类型

  • 期刊论文。
  • 会议论文。
  • 学位论文。

# 论文基本结构

部分作用
题名准确概括研究主题
作者与单位标明责任者和机构
摘要概括研究目的、方法、结果和结论
关键词揭示主题内容,便于检索
引言说明背景、问题、意义和研究现状
正文展开方法、过程、分析和论证
结论总结发现、贡献、不足和展望
参考文献列出引用和参考来源

# 写作要求

  • 主题明确。
  • 结构完整。
  • 论证严谨。
  • 数据可靠。
  • 引用规范。
  • 语言准确简洁。

# 5. 文献综述

文献综述是对某一课题已有研究成果进行系统搜集、整理、分析和评价的学术文本。

# 作用

  • 了解研究现状。
  • 发现研究热点和空白。
  • 避免重复研究。
  • 为选题和研究设计提供依据。

# 基本结构

  1. 研究背景和综述范围。
  2. 文献搜集方法和来源。
  3. 国内外研究现状。
  4. 主要观点、方法和成果。
  5. 不足、争议和发展趋势。
  6. 自己研究的切入点。

# 6. 开题报告

开题报告用于说明研究选题是否有价值、是否可行,以及后续研究如何开展。

核心内容:

  • 选题背景和意义。
  • 国内外研究现状。
  • 研究目标和内容。
  • 研究方法和技术路线。
  • 创新点。
  • 进度安排。
  • 预期成果。
  • 参考文献。

# 7. 学术规范与合理使用

# 学术规范

学术规范要求研究者在信息利用和成果表达中遵守诚信、引用、署名和版权规则。

# 常见学术不端

  • 抄袭。
  • 剽窃。
  • 伪造数据。
  • 篡改数据。
  • 一稿多投。
  • 不当署名。
  • 过度引用或不标注引用。

# 合理使用

合理使用他人成果时,应做到:

  • 明确标注引用来源。
  • 区分直接引用和间接引用。
  • 不把他人观点冒充为自己的观点。
  • 引用数量和范围适当。
  • 遵守版权和数据库使用协议。

期末复习提纲特别强调学术规范。信息检索不是 “找到资料就复制”,而是要合法、准确、规范地整合和利用信息。

# 8. 个人文献管理软件

文献管理软件用于保存题录、管理 PDF、插入引用、生成参考文献。

常见功能:

  • 导入题录。
  • 管理标签和文件夹。
  • 保存 PDF 附件。
  • 做阅读笔记。
  • 在 Word 或 LaTeX 中插入引用。
  • 按期刊格式生成参考文献。

常见工具:

  • EndNote。
  • NoteExpress。
  • Zotero。
  • Mendeley。

# 9. 信息综合利用流程

1
明确问题 -> 搜集资料 -> 筛选评价 -> 分类整理 -> 分析综合 -> 规范引用 -> 成果表达

# 10. 期末提纲补充:Web 数据挖掘与文本分析

期末复习提纲中还强调了 Web 数据挖掘与文本分析相关内容。若课堂后续以 PDF 提纲为准,应重点补充以下知识点。

# Web 数据挖掘

Web 数据挖掘是从 Web 数据中发现有价值模式、知识和规律的过程。

类型含义
Web 内容挖掘从网页文本、图片、视频等内容中挖掘信息
Web 结构挖掘分析网页之间的链接结构
Web 用法挖掘分析用户访问日志、点击流和行为模式

基本流程:

1
问题定义 -> 数据采集 -> 预处理 -> 特征工程 -> 模式发现 -> 评估解释 -> 应用

需要关注隐私、偏见、合规和数据使用边界等伦理问题。

# Web 数据爬取

重点理解:

  • HTTP 请求与响应。
  • HTML/XML 文档结构。
  • 使用解析工具提取网页数据的基本原理。
  • requests 用于发送 HTTP 请求。
  • Scrapy 是常见爬虫框架。
  • 爬虫伦理:遵守 robots.txt 、控制爬取频率、设置合理 User-Agent

# 信息提取

信息提取(Information Extraction, IE)是从非结构化或半结构化文本中抽取结构化信息。

与信息检索的区别:

  • 信息检索关注 “找到相关文档”。
  • 信息提取关注 “从文档中抽取实体、关系、事件等结构化信息”。

正则表达式重点:

符号含义
.任意字符
*重复 0 次或多次
+重复 1 次或多次
?重复 0 次或 1 次
[]字符集合
()分组
|
^开头
$结尾
\d数字
\w字母、数字或下划线
\s空白字符

Python re 模块常见函数:

  • re.search() :查找第一个匹配。
  • re.findall() :返回所有匹配。
  • re.sub() :替换匹配内容。

# 文本预处理与特征工程

常见预处理:

  • 去除 HTML 和特殊符号。
  • 中文分词。
  • 去除停用词。
  • 词形规范化。

中文分词挑战:

  • 歧义切分。
  • 未登录词(OOV)。
  • 专有名词识别。

常见特征表示:

方法核心思想
词袋模型 BOW忽略顺序,统计词频
TF-IDF用词频和逆文档频率衡量词语重要性
Word2Vec将词映射为向量,捕捉语义关系

# 主题抽取与文本摘要

LDA 主题模型重点理解:

  • 文档由多个主题混合生成。
  • 主题由多个词按概率分布生成。
  • 核心结果是 “文档 - 主题分布” 和 “主题 - 词分布”。

文本摘要:

类型含义示例方法
抽取式摘要从原文中选取重要句子TextRank
生成式摘要重新生成摘要文本Seq2Seq、预训练模型

# 社交媒体挖掘

社交网络常见特征:

  • 小世界。
  • 无标度。
  • 高聚集。
  • 社区结构。

常见中心性指标:

指标含义
度中心性节点直接连接数量
接近中心性节点到其他节点的平均距离
介数中心性节点位于其他节点最短路径上的程度
特征向量中心性 / PageRank与高影响力节点相连会提高自身重要性

# 11. 本章考点

  1. 一次文献和二次文献的区别。
  2. 信息选择原则:相关性、新颖性、准确性。
  3. 信息提炼方法:汇编、摘要、综述。
  4. 信息分析步骤与方法。
  5. 学术论文的基本结构。
  6. 文献综述和开题报告的作用。
  7. 学术规范、合理引用和学术不端。
  8. 文献管理软件的用途。
  9. Web 数据挖掘三种类型。
  10. 爬虫伦理、正则表达式、TF-IDF、LDA 和社交网络中心性指标。

# 12. 快速自测

  • 一次文献和二次文献分别有哪些例子?
  • 文献综述和普通资料汇编有什么区别?
  • 开题报告应说明哪些问题?
  • 哪些行为属于学术不端?
  • 文献管理软件能解决哪些问题?
  • Web 内容挖掘、结构挖掘、用法挖掘分别研究什么?
  • 信息检索和信息提取有什么区别?
  • TF-IDF 中 TF 和 IDF 分别表示什么思想?
  • LDA 的 “文档 - 主题分布” 和 “主题 - 词分布” 是什么意思?
更新于

请我喝[茶]~( ̄▽ ̄)~*

梦前辈 微信支付

微信支付

梦前辈 支付宝

支付宝