本章重点是信息搜集、整理、分析,以及学术论文、文献综述、开题报告、学术规范和文献管理工具。
# 1. 信息搜集
# 信息类型
| 类型 | 说明 |
|---|---|
| 第一手资料 | 通过实验、观察、调查直接获得的资料 |
| 他人研究成果 | 论文、专著、报告、专利等已有成果 |
| 相关学科材料 | 与研究主题有关的交叉学科资料 |
| 权威论述与政策 | 国家政策、行业规范、权威机构报告等 |
# 信息搜集途径
| 途径 | 说明 |
|---|---|
| 直接信息搜集 | 实验、考察、观察、测量等 |
| 间接信息搜集 | 利用一次文献、二次文献等 |
# 一次文献与二次文献
| 类型 | 含义 | 示例 |
|---|---|---|
| 一次文献 | 原始研究成果的直接记录 | 论文、专著、科技报告、专利、标准、学位论文 |
| 二次文献 | 对一次文献加工、压缩、组织后的检索工具 | 题录、文摘、索引 |
# 2. 信息整理
# 信息选择
选择信息时应遵循:
- 相关性:与研究主题直接相关。
- 新颖性:反映最新研究或最新数据。
- 准确性:来源可靠,内容可信。
常用方法:
- 比较法。
- 核查法。
- 分析法。
# 信息提炼
| 方法 | 含义 |
|---|---|
| 汇编法 | 将原始资料中的事实、数据汇总并编排 |
| 摘要法 | 对原始信息进行浓缩,抽取主要事实和数据 |
| 综述法 | 对同一课题大量信息进行分析、归纳、综合 |
# 3. 信息分析
# 信息分析的特性
- 针对性。
- 创造性。
- 科学性。
- 综合性。
# 信息分析步骤
- 选择课题。
- 搜集课题相关文献信息。
- 鉴别筛选信息的可靠性、先进性和适用性。
- 对筛选后的信息进行分类整序。
- 使用信息分析方法进行综合研究。
- 形成成果表达,如综述、述评、研究报告。
# 信息分析方法
| 方法 | 内容 |
|---|---|
| 逻辑分析方法 | 分析与综合、抽象与概括、归纳与演绎 |
| 统计分析方法 | 相关分析、预测、评估、内容分析 |
# 4. 学术论文撰写
# 学术论文类型
- 期刊论文。
- 会议论文。
- 学位论文。
# 论文基本结构
| 部分 | 作用 |
|---|---|
| 题名 | 准确概括研究主题 |
| 作者与单位 | 标明责任者和机构 |
| 摘要 | 概括研究目的、方法、结果和结论 |
| 关键词 | 揭示主题内容,便于检索 |
| 引言 | 说明背景、问题、意义和研究现状 |
| 正文 | 展开方法、过程、分析和论证 |
| 结论 | 总结发现、贡献、不足和展望 |
| 参考文献 | 列出引用和参考来源 |
# 写作要求
- 主题明确。
- 结构完整。
- 论证严谨。
- 数据可靠。
- 引用规范。
- 语言准确简洁。
# 5. 文献综述
文献综述是对某一课题已有研究成果进行系统搜集、整理、分析和评价的学术文本。
# 作用
- 了解研究现状。
- 发现研究热点和空白。
- 避免重复研究。
- 为选题和研究设计提供依据。
# 基本结构
- 研究背景和综述范围。
- 文献搜集方法和来源。
- 国内外研究现状。
- 主要观点、方法和成果。
- 不足、争议和发展趋势。
- 自己研究的切入点。
# 6. 开题报告
开题报告用于说明研究选题是否有价值、是否可行,以及后续研究如何开展。
核心内容:
- 选题背景和意义。
- 国内外研究现状。
- 研究目标和内容。
- 研究方法和技术路线。
- 创新点。
- 进度安排。
- 预期成果。
- 参考文献。
# 7. 学术规范与合理使用
# 学术规范
学术规范要求研究者在信息利用和成果表达中遵守诚信、引用、署名和版权规则。
# 常见学术不端
- 抄袭。
- 剽窃。
- 伪造数据。
- 篡改数据。
- 一稿多投。
- 不当署名。
- 过度引用或不标注引用。
# 合理使用
合理使用他人成果时,应做到:
- 明确标注引用来源。
- 区分直接引用和间接引用。
- 不把他人观点冒充为自己的观点。
- 引用数量和范围适当。
- 遵守版权和数据库使用协议。
期末复习提纲特别强调学术规范。信息检索不是 “找到资料就复制”,而是要合法、准确、规范地整合和利用信息。
# 8. 个人文献管理软件
文献管理软件用于保存题录、管理 PDF、插入引用、生成参考文献。
常见功能:
- 导入题录。
- 管理标签和文件夹。
- 保存 PDF 附件。
- 做阅读笔记。
- 在 Word 或 LaTeX 中插入引用。
- 按期刊格式生成参考文献。
常见工具:
- EndNote。
- NoteExpress。
- Zotero。
- Mendeley。
# 9. 信息综合利用流程
1 | 明确问题 -> 搜集资料 -> 筛选评价 -> 分类整理 -> 分析综合 -> 规范引用 -> 成果表达 |
# 10. 期末提纲补充:Web 数据挖掘与文本分析
期末复习提纲中还强调了 Web 数据挖掘与文本分析相关内容。若课堂后续以 PDF 提纲为准,应重点补充以下知识点。
# Web 数据挖掘
Web 数据挖掘是从 Web 数据中发现有价值模式、知识和规律的过程。
| 类型 | 含义 |
|---|---|
| Web 内容挖掘 | 从网页文本、图片、视频等内容中挖掘信息 |
| Web 结构挖掘 | 分析网页之间的链接结构 |
| Web 用法挖掘 | 分析用户访问日志、点击流和行为模式 |
基本流程:
1 | 问题定义 -> 数据采集 -> 预处理 -> 特征工程 -> 模式发现 -> 评估解释 -> 应用 |
需要关注隐私、偏见、合规和数据使用边界等伦理问题。
# Web 数据爬取
重点理解:
- HTTP 请求与响应。
- HTML/XML 文档结构。
- 使用解析工具提取网页数据的基本原理。
requests用于发送 HTTP 请求。- Scrapy 是常见爬虫框架。
- 爬虫伦理:遵守
robots.txt、控制爬取频率、设置合理User-Agent。
# 信息提取
信息提取(Information Extraction, IE)是从非结构化或半结构化文本中抽取结构化信息。
与信息检索的区别:
- 信息检索关注 “找到相关文档”。
- 信息提取关注 “从文档中抽取实体、关系、事件等结构化信息”。
正则表达式重点:
| 符号 | 含义 |
|---|---|
. | 任意字符 |
* | 重复 0 次或多次 |
+ | 重复 1 次或多次 |
? | 重复 0 次或 1 次 |
[] | 字符集合 |
() | 分组 |
| | 或 |
^ | 开头 |
$ | 结尾 |
\d | 数字 |
\w | 字母、数字或下划线 |
\s | 空白字符 |
Python re 模块常见函数:
re.search():查找第一个匹配。re.findall():返回所有匹配。re.sub():替换匹配内容。
# 文本预处理与特征工程
常见预处理:
- 去除 HTML 和特殊符号。
- 中文分词。
- 去除停用词。
- 词形规范化。
中文分词挑战:
- 歧义切分。
- 未登录词(OOV)。
- 专有名词识别。
常见特征表示:
| 方法 | 核心思想 |
|---|---|
| 词袋模型 BOW | 忽略顺序,统计词频 |
| TF-IDF | 用词频和逆文档频率衡量词语重要性 |
| Word2Vec | 将词映射为向量,捕捉语义关系 |
# 主题抽取与文本摘要
LDA 主题模型重点理解:
- 文档由多个主题混合生成。
- 主题由多个词按概率分布生成。
- 核心结果是 “文档 - 主题分布” 和 “主题 - 词分布”。
文本摘要:
| 类型 | 含义 | 示例方法 |
|---|---|---|
| 抽取式摘要 | 从原文中选取重要句子 | TextRank |
| 生成式摘要 | 重新生成摘要文本 | Seq2Seq、预训练模型 |
# 社交媒体挖掘
社交网络常见特征:
- 小世界。
- 无标度。
- 高聚集。
- 社区结构。
常见中心性指标:
| 指标 | 含义 |
|---|---|
| 度中心性 | 节点直接连接数量 |
| 接近中心性 | 节点到其他节点的平均距离 |
| 介数中心性 | 节点位于其他节点最短路径上的程度 |
| 特征向量中心性 / PageRank | 与高影响力节点相连会提高自身重要性 |
# 11. 本章考点
- 一次文献和二次文献的区别。
- 信息选择原则:相关性、新颖性、准确性。
- 信息提炼方法:汇编、摘要、综述。
- 信息分析步骤与方法。
- 学术论文的基本结构。
- 文献综述和开题报告的作用。
- 学术规范、合理引用和学术不端。
- 文献管理软件的用途。
- Web 数据挖掘三种类型。
- 爬虫伦理、正则表达式、TF-IDF、LDA 和社交网络中心性指标。
# 12. 快速自测
- 一次文献和二次文献分别有哪些例子?
- 文献综述和普通资料汇编有什么区别?
- 开题报告应说明哪些问题?
- 哪些行为属于学术不端?
- 文献管理软件能解决哪些问题?
- Web 内容挖掘、结构挖掘、用法挖掘分别研究什么?
- 信息检索和信息提取有什么区别?
- TF-IDF 中 TF 和 IDF 分别表示什么思想?
- LDA 的 “文档 - 主题分布” 和 “主题 - 词分布” 是什么意思?