学术趋势分析学习目录


## 技能点

涉及到的数据处理技能:

  • Pandas和Numpy

涉及到的数据可视化技能:

  • Matplotlib
  • 机器学习技能Sklearn
  • 爬虫技能等

## 学习主题

赛题以数据分析为背景,要求选手使用公开的arXiv论文完成对应的数据分析操作。与之前的数据挖掘赛题不同,本次赛题不仅要求选手对数据进行建模,而且需要选手利用赛题数据完成具体的可视化分析。

为更好的引导大家入门,我们同时为本赛题定制了系列学习方案,其中包括数据科学库使用(Pandas、Numpy和Matplotlib)、数据分析介绍和数据分析工具使用三部分。通过对本方案的完整学习,可以帮助掌握数据分析基本技能。同时我们也将提供专属的视频直播学习通道。


## 学习任务

### 任务1

  • 学习主题:论文数量统计(数据统计任务),统计2019年全年,计算机各个方向论文数量;
  • 学习内容:赛题理解、Pandas读取数据、数据统计
  • 学习成果:学习Pandas基础

### 任务2

  • 学习主题:论文作者统计(数据统计任务),统计所有论文作者出现评率Top10的姓名;
  • 学习内容:作者姓名识别和统计
  • 学习成果:学习字符串基本操作、Matplotlib基础使用、Seaborn基础使用

### 任务3

  • 学习主题:论文代码统计(数据统计任务),统计所有论文类别下包含源代码论文的比例;
  • 学习内容:代码链接识别和统计
  • 学习成果:学会使用正则表达式

### 任务4

  • 学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;
  • 学习内容:使用论文标题完成类别分类
  • 学习成果:学会文本分类的基本方法、TFIDF

### 任务5

  • 学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;
  • 学习内容:构建作者关系图,挖掘作者关系
  • 学习成果:论文作者知识图谱、图关系挖掘




© 2019-2023 coggle.club 版权所有     京ICP备20022947    京公网安备 11030102010643号