在给大家分享知识的过程中,发现很多同学在工作和学业中存在较多的问题:
而上述问题都是一个合格算法工程师所必备的。因此我们将从本月组织一次竞赛训练营活动,希望能够帮助大家入门数据科学。在活动中我们将布置具体任务,然后参与的同学们不断闯关完成,竟可能的帮助大家入门。
为了激励各位同学完成的学习任务,将学习任务根据难度进行划分,并根据是否完成进行评分难度高中低的任务分别分数为3、2和1。在完成3月学习后(本次活动,截止3月底),将按照积分顺序进行评选 Top3 的学习者。
打卡链接:https://shimo.im/forms/SDujCSsLOjMgbZLQ/fill
微信昵称 | 爬虫得分 | Spark得分 | 总得分 |
---|---|---|---|
无盐 | 20 | 20 | 40 |
徐乜乜 | 20 | 20 | 40 |
冯玉博 | 15 | 15 | |
soufal | 13 | 13 | |
wzs | 8 | 8 | |
大西几 | 7 | 7 | |
silas | 7 | 7 | |
Trinitylo | 7 | 7 | |
Mr Bean | 4 | 4 | |
innohou | 4 | 4 | |
樱花六分 | 2 | ||
御史大浩浩 | 2 | 2 | |
yyds | 1 | 1 | 2 |
lixh2100 | |||
davidzhou0803 | 1 | 1 | |
人墙 | 1 | 1 | |
无题 | |||
Good Lucky | |||
小胡 | 0 | ||
tobebetter | 链接打不开 | 0 |
打卡可以写在一个地址,每次有新完成的可以重复提交打卡!
Top1的学习者将获得以下奖励:
Top2-3的学习者将获得以下奖励:
使用PaddlePaddle完成学习的Top3同学,还可以领取百度提供的小礼物。
注:
当今的世界是一个互联的世界,绝大多数的计算机和人都在通过网络和他人传递信息、沟通互联。我们在网络上学习、游戏、工作,我们提供各种各样的网络服务,又有很多人使用着各种各样的网络服务。网络改变了世界,而程序员“定义”了网络。我们在代码中实现了网络的通信,让一切变得可能。网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。在本次学习中我们将学习基础的爬虫操作,并学习基础的HTTP协议,最后尝试完成基础的网络编程。
任务名称 | 难度 | 所需技能 |
---|---|---|
任务1:计算机网络基础 | 低、1 | json、xml |
任务2:HTTP协议与requests | 低、1 | requests |
任务3:bs4基础使用 | 中、2 | bs4 |
任务4:bs4高阶使用 | 高、3 | bs4 |
任务5:正则表达式 | 高、3 | re |
任务6:Python网络编程基础 | 高、3 | scoket |
任务7:tornado基础使用 | 中、2 | tornado |
任务8:tornado用户注册/登录 | 高、3 | tornado |
任务9:tornado部署机器学习模型 | 中、2 | tornado |
任务1:计算机网络基础
任务2:HTTP协议与requests
任务3:bs4基础使用
任务4:bs4高阶使用
General Concepts
Class APIs and Estimator Types
Target Types
Methods
Parameters
Attributes
Data and sample properties
任务5:正则表达式
任务6:Python网络编程基础
任务7:tornado基础使用
任务8:tornado用户注册/登录
uid
,name
,passwd
三个字段。任务9:tornado部署机器学习模型
注:
Spark是一个快速和通用的大数据引擎,可以通俗的理解成一个分布式的大数据处理框架,允许用户将Spark部署在大量廉价的硬件之上,形成集群。Spark使用scala 实现,提供了 JAVA, Python,R等语言的调用接口。在本次学习我们将学习如何使用Spark清洗数据,并进行基础的特征工程操作,帮助大家掌握基础PySpark技能。
任务名称 | 难度 |
---|---|
任务1:PySpark数据处理 | 低、1 |
任务2:PySpark数据统计 | 中、1 |
任务3:PySpark分组聚合 | 中、2 |
任务4:SparkSQL基础语法 | 高、3 |
任务5:SparkML基础:数据编码 | 中、3 |
任务6:SparkML基础:分类模型 | 中、3 |
任务7:SparkML基础:聚类模型 | 中、2 |
任务8:Spark RDD | 高、3 |
任务9:Spark Streaming | 高、2 |
环境说明:同学可以使用本地spark环境,参考spark进行安装。如果想使用我们学习环境,请联系小助手。
import pandas as pd
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName('pyspark') \
.getOrCreate()
# 原始数据
test = spark.createDataFrame([('001','1',100,87,67,83,98), ('002','2',87,81,90,83,83), ('003','3',86,91,83,89,63),
('004','2',65,87,94,73,88), ('005','1',76,62,89,81,98), ('006','3',84,82,85,73,99),
('007','3',56,76,63,72,87), ('008','1',55,62,46,78,71), ('009','2',63,72,87,98,64)], ['number','class','language','math','english','physic','chemical'])
test.show()
from pyspark import SparkFiles
spark.sparkContext.addFile('https://cdn.coggle.club/Pokemon.csv')
df = spark.read.csv("file://"+SparkFiles.get("Pokemon.csv"), header=True, inferSchema= True)
df = df.withColumnRenamed('Sp. Atk', 'Sp Atk')
df = df.withColumnRenamed('Sp. Def', 'Sp Def')
任务3:PySpark分组聚合
任务4:SparkSQL基础语法
任务5:SparkML基础:数据编码
onehotencoder
minmaxscaler
pca
进行降维(维度可以自己选择)任务6:SparkML基础:分类模型
Type 1
为标签,将其进行labelencoder
任务7:SparkML基础:聚类模型
Type 1
为标签,将其进行labelencoder
任务8:Spark RDD
任务9:Spark Streaming
filter
筛选行不包含Grass
的文本flatmap
对文本行进行拆分spark = SparkSession.builder.appName("CrossCorrelation").getOrCreate()
ssc = StreamingContext(spark.sparkContext, 1)
ds = ssc.textFileStream(input_path)
问:具体的活动是怎么安排的?
有任务,自己先尝试。活动结束后会公开优秀打卡链接。
问:本次活动是收费的吗,最终奖品如何发放?
活动是免费的,最终奖品按照积分排行Top3进行发放,如果排名有并列都发送奖励。
问:环境和配置是什么?
推荐在AI Studio上进行学习,有python3和PaddlePaddle环境,提供免费GPU
问:AI Studio有什么学习资料?
© 2019-2023 coggle.club 版权所有 京ICP备20022947 京公网安备 11030102010643号