学术趋势分析学习目录
发布时间:2020-09-29,作者:阿水, 鱼遇雨欲语与余
## 技能点
涉及到的数据处理技能:
涉及到的数据可视化技能:
- Matplotlib
- 机器学习技能Sklearn
- 爬虫技能等
## 学习主题
赛题以数据分析为背景,要求选手使用公开的arXiv论文完成对应的数据分析操作。与之前的数据挖掘赛题不同,本次赛题不仅要求选手对数据进行建模,而且需要选手利用赛题数据完成具体的可视化分析。
为更好的引导大家入门,我们同时为本赛题定制了系列学习方案,其中包括数据科学库使用(Pandas、Numpy和Matplotlib)、数据分析介绍和数据分析工具使用三部分。通过对本方案的完整学习,可以帮助掌握数据分析基本技能。同时我们也将提供专属的视频直播学习通道。
## 学习任务
### 任务1
- 学习主题:论文数量统计(数据统计任务),统计2019年全年,计算机各个方向论文数量;
- 学习内容:赛题理解、
Pandas
读取数据、数据统计
- 学习成果:学习
Pandas
基础
### 任务2
- 学习主题:论文作者统计(数据统计任务),统计所有论文作者出现评率Top10的姓名;
- 学习内容:作者姓名识别和统计
- 学习成果:学习字符串基本操作、
Matplotlib
基础使用、Seaborn
基础使用
### 任务3
- 学习主题:论文代码统计(数据统计任务),统计所有论文类别下包含源代码论文的比例;
- 学习内容:代码链接识别和统计
- 学习成果:学会使用正则表达式
### 任务4
- 学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;
- 学习内容:使用论文标题完成类别分类
- 学习成果:学会文本分类的基本方法、
TFIDF
等
### 任务5
- 学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;
- 学习内容:构建作者关系图,挖掘作者关系
- 学习成果:论文作者知识图谱、图关系挖掘