在给大家分享知识的过程中,发现很多同学在学习竞赛都存在较多的问题:
而上述问题都是一个竞赛选手、一个算法工程师所必备的。因此我们将从本月组织一次竞赛训练营活动,希望能够帮助大家入门数据竞赛。在活动中我们将布置具体竞赛任务,然后参与的同学们不断闯关完成,竟可能的帮助大家入门。
为了激励各位同学完成的学习任务,将学习任务根据难度进行划分,并根据是否完成进行评分难度高中低的任务分别分数为3、2和1。在完成1-2月学习后(本次活动,截止2月底),将按照积分顺序进行评选 Top3 的学习者。
打卡链接:https://shimo.im/forms/vZyk3Pvmc7kvAskG/fill
积分有问题可以联系小助手哦,排行榜不定期更新,历史更新时间为:2022-03-02。
打卡可以写在一个地址,每次有新完成的可以重复提交打卡!
微信昵称 | LightGBM得分 | NLP文本匹配得分 | 总得分 |
---|---|---|---|
徐乜乜 | 15 | 23 | 38 |
糖醋鱼 | 15 | 23 | 38 |
[MASK] | 15 | 20 | 35 |
潘达张 | 15 | 17 | 32 |
蜡笔小xi | 15 | 8 | 23 |
zzzzzzzttk | 20 | 20 | |
李宽 | 20 | 20 | |
奔腾年代 | 10 | 8 | 18 |
zs | 15 | 3 | 18 |
小小小旋风 | 17 | 17 | |
无盐 | 15 | 1 | 16 |
张红旭 | 15 | 15 | |
飞羽 | 15 | 15 | |
never.ever | 15 | 15 | |
Zyh | 15 | 15 | |
人墙 | 14 | 14 | |
jsntlj | 11 | 2 | 13 |
No collu | 8 | 5 | 13 |
酷暑冷冰 | 7 | 7 | |
noname | 6 | 6 | |
梳碧湖的砍柴猫 | 6 | 6 | |
嫩牛五方 | 5 | 5 | |
西玉 | 5 | 5 | |
Jing | 5 | 5 | |
Chenin | 5 | Notebook打不开 | 5 |
Echo | 4 | 4 | |
早睡早起陆同学 | 3 | 3 | |
Chenin | 3 | Notebook打不开 | 3 |
Alkene | 2 | 2 | |
宁静致远 | 1 | 1 | |
非零 | 1 | 1 | |
ys | 1 | 1 | |
非零 | 1 | 1 | |
喝开水会烫嘴 | 1 | ||
Jing | Notebook打不开 | 0 | |
YWY | Notebook打不开 | 0 | |
QDD | Notebook打不开 | 0 | |
(O。O) | 0 | ||
Freddy | 0 | ||
Jing | Notebook打不开 | 0 | |
yibo | Notebook打不开 | 0 |
Top1的学习者将获得以下奖励:
Top2-3的学习者将获得以下奖励:
使用PaddlePaddle完成学习的Top3同学,还可以领取百度提供的小礼物。
注:
LightGBM(Light Gradient Boosting Machine)是微软开源的一个实现 GBDT 算法的框架,支持高效率的并行训练。LightGBM 提出的主要原因是为了解决 GBDT 在海量数据遇到的问题。本次学习内容包括使用LightGBM完成各种操作,包括竞赛和数据挖掘中的模型训练、验证和调参过程。
任务名称 | 难度 | 所需技能 |
---|---|---|
任务1:模型训练与预测 | 低、1 | LightGBM |
任务2:模型保存与加载 | 低、1 | LightGBM |
任务3:分类、回归和排序任务 | 高、3 | LightGBM |
任务4:模型可视化 | 低、1 | graphviz |
任务5:模型调参(网格、随机、贝叶斯) | 中、2 | 模型调参 |
任务6:模型微调与参数衰减 | 中、2 | LightGBM |
任务7:特征筛选方法 | 高、3 | 特征筛选方法 |
任务8:自定义损失函数 | 中、2 | 损失函数&评价函数 |
任务9:模型部署与加速 | 高、3 | Treelite |
注:
任务1:模型训练与预测
任务2:模型保存与加载
pickle
进行保存。txt
进行保存。任务3:分类、回归和排序任务
LightGBM
中sklearn接口的使用,导入分类、回归和排序接口。LightGBM
中原生train接口的使用。任务4:模型可视化
graphviz
pip install graphviz
完成安装,重启Notebook即可使用。json
版本的树模型,其中一家包含了每棵树的结构,你可以手动读取后,试试吗?任务5:模型调参(网格、随机、贝叶斯)
import pandas as pd, numpy as np, time
from sklearn.model_selection import train_test_split
# 读取数据
data = pd.read_csv("https://cdn.coggle.club/kaggle-flight-delays/flights_10k.csv.zip")
# 提取有用的列
data = data[["MONTH","DAY","DAY_OF_WEEK","AIRLINE","FLIGHT_NUMBER","DESTINATION_AIRPORT",
"ORIGIN_AIRPORT","AIR_TIME", "DEPARTURE_TIME","DISTANCE","ARRIVAL_DELAY"]]
data.dropna(inplace=True)
# 筛选出部分数据
data["ARRIVAL_DELAY"] = (data["ARRIVAL_DELAY"]>10)*1
# 进行编码
cols = ["AIRLINE","FLIGHT_NUMBER","DESTINATION_AIRPORT","ORIGIN_AIRPORT"]
for item in cols:
data[item] = data[item].astype("category").cat.codes +1
# 划分训练集和测试集
train, test, y_train, y_test = train_test_split(data.drop(["ARRIVAL_DELAY"], axis=1), data["ARRIVAL_DELAY"], random_state=10, test_size=0.25)
LightGBM
分类器,并设置树模型深度分别为[3,5,6,9]
,设置训练集和验证集,分别记录下验证集AUC精度。LightGBM
分类器,在fit
函数中将category变量设置为categorical_feature
,训练并记录下分别记录下验证集AUC精度。
GridSearchCV
完成其他超参数搜索,其他超参数设置可以选择learning_rate
、num_leaves
等。RandomizedSearchCV
完成其他超参数搜索,其他超参数设置可以选择learning_rate
、num_leaves
等。任务6:模型微调与参数衰减
LightGBM
微调的步骤逐步完成1k数据分批次训练,训练集分批次验证集不划分,记录下验证集AUC精度。LightGBM
学习率衰减的方法,使用指数衰减&阶梯衰减,记录下验证集AUC精度。任务7:特征筛选方法
LightGBM
计算特征重要性,并筛选最重要的3个特征。任务8:自定义损失函数
任务9:模型部署与加速(可选,不参与积分)
https://aistudio.baidu.com/aistudio/competition/detail/45/0/task-definition
千言是全面的面向自然语言理解和生成任务的中文开源数据集合,目前,千言项目已经针对8个任务,汇集了来自11所高校和企业的23个开源数据集,旨在为研究人员带来一站式的数据集浏览、整理、下载和评测的科研体验,共同推动中文信息处理技术的进步。
文本相似度旨在识别两段文本在语义上是否相似。文本相似度在自然语言处理领域是一个重要研究方向,同时在信息检索、新闻推荐、智能客服等领域都发挥重要作用,具有很高的商业价值。
目前学术界的一些公开中文文本相似度数据集,在相关论文的支撑下对现有的公开文本相似度模型进行了较全面的评估,具有较高权威性。
因此,本开源项目收集了这些权威的数据集,期望对模型效果进行综合的评价,旨在为研究人员和开发者提供学术和技术交流的平台,进一步提升文本相似度的研究水平,推动文本相似度在自然语言处理领域的应用和发展。
本次评测的文本相似度数据集包括公开的三个文本相似度数据集,分别为哈尔滨工业大学(深圳)的 LCQMC 和 BQ Coupus,以及谷歌的 PAWS-X(中文)。各数据集的简介如下:
LCQMC(A Large-scale Chinese Question Matching Corpus), 百度知道领域的中文问题匹配数据集,目的是为了解决在中文领域大规模问题匹配数据集的缺失。该数据集从百度知道不同领域的用户问题中抽取构建数据。
BQ Corpus(Bank Question Corpus), 银行金融领域的问题匹配数据,包括了从一年的线上银行系统日志里抽取的问题pair对,是目前最大的银行领域问题匹配数据。
PAWS (Paraphrase Adversaries from Word Scrambling),谷歌发布的包含 7 种语言释义对的数据集,包括PAWS(英语) 与 PAWS-X(多语)。数据集里包含了释义对和非释义对,即识别一对句子是否具有相同的释义(含义),特点是具有高度重叠词汇,对于进一步提升模型对于强负例的判断很有帮助。
各个数据集的任务均一致,即判断两段文本在语义上是否相似的二分类任务:
类型 | 句子1 | 句子2 | 标签(label) |
---|---|---|---|
相似文本 | 看图猜一电影名 | 看图猜电影 | 1 |
不相似文本 | 无线路由器怎么无线上网 | 无线上网卡和无线路由器怎么用 | 0 |
任务名称 | 难度 | 所需技能 |
---|---|---|
任务1:报名比赛,下载比赛数据集并完成读取 | 低、1 | Pandas |
任务2:对句子对提取TFIDF以及统计特征,训练和预测 | 高、2 | TDIDF |
任务3:加载中文词向量,自己训练中文词向量 | 高、2 | gensim |
任务4:使用中文词向量完成mean/max/sif句子编码 | 高、3 | mean/max/sif-pooling |
任务5:搭建SiamCNN/LSTM模型,训练和预测 | 高、3 | SiamCNN/SiamLSTM |
任务6:搭建InferSent模型,训练和预测 | 高、3 | InferSent |
任务7:搭建ESIM模型,训练和预测 | 高、3 | ESIM |
任务8:使用BERT或ERNIE完成NSP任务 | 高、3 | BERT |
任务9:Bert-flow、Bert-white、SimCSE | 高、3 | SimCSE |
注:
任务1:报名比赛,下载比赛数据集并完成读取
Pandas
完成数据读取。任务2:对句子对提取TFIDF以及统计特征,训练和预测
任务3:加载中文词向量,自己训练中文词向量
jieba
对中文句子进行分词任务4:使用中文词向量完成mean/max/sif句子编码
max-pooling
编码,转为100维度。mean-pooling
编码,转为100维度。tfidf-pooling
编码,转为100维度。任务5:搭建SiamCNN/LSTM模型,训练和预测
任务6:搭建InferSent模型,训练和预测
任务7:搭建ESIM模型,训练和预测
任务8:使用BERT或ERNIE完成NSP任务
任务8:Bert-flow、Bert-white、SimCSE(可选,不参与积分)
问:具体的活动是怎么安排的?
有任务,自己先尝试。活动结束后会公开优秀打卡链接。
问:本次活动是收费的吗,最终奖品如何发放?
活动是免费的,最终奖品按照积分排行Top3进行发放,如果排名有并列都发送奖励。
问:环境和配置是什么?
推荐在AI Studio上进行学习,有python3和PaddlePaddle环境,提供免费GPU
问:AI Studio有什么学习资料?
© 2019-2023 coggle.club 版权所有 京ICP备20022947 京公网安备 11030102010643号