Coggle 30 Days of ML(22年4月)


## Part1 内容介绍

在给大家分享知识的过程中,发现很多同学对推荐系统非常感兴趣,因此本月我们就开始学习推荐系统:

  • 推荐系统的评价指标是什么?
  • 协同过滤基础(User/Item Based)
  • 召回和排序的逻辑是什么?

而上述问题都是基础的推荐算法工程师必备的,从本月组织一次训练营活动,希望能够帮助大家入门推荐系统。

在活动中我们将布置具体任务,然后参与的同学们不断闯关完成,竟可能的帮助大家入门。



## Part2 活动安排

  • 活动是免费学习活动,不会收取任何费用。
  • 请各位同学添加下面微信,并回复【竞赛学习】,即可参与。



## Part3 积分说明和奖励

为了激励各位同学完成的学习任务,将学习任务根据难度进行划分,并根据是否完成进行评分难度高中低的任务分别分数为3、2和1。在完成3月学习后(本次活动,截止4月底),将按照积分顺序进行评选 Top3 的学习者。

打卡可以写在一个地址,每次有新完成的可以重复提交打卡!

Top1的学习者将获得以下奖励

  • Coggle 竞赛专访机会
  • 《机器学习算法竞赛实战》

Top2-3的学习者将获得以下奖励

  • Coggle 周边福利
  • Coggle 竞赛专访机会

## Part4 推荐系统基础

### 学习内容

本教程主要是针对具有机器学习基础并想找推荐算法岗位的同学,由推荐算法基础、推荐算法入门赛、新闻推荐项目及推荐算法面经组成,形成了一个完整的从基础到实战再到面试的闭环。

在本次学习中我们将学习推荐系统的基础操作,包括协同过滤、矩阵分解和向量召回等基础内容。

### 打卡汇总

任务名称 难度
任务1:推荐系统基础 低、1
任务2:Movielens介绍 低、1
任务3:协同过滤基础 中、2
任务4:协同过滤进阶 高、3
任务5:矩阵分解SVD 高、3
任务6:Slope One 高、3
任务7:词向量基础 中、2
任务8:向量召回基础 高、3
任务9:多路召回实践 中、2

打卡链接:https://shimo.im/forms/4a7Wtd6ZwJ0E3bFg/fill

昵称 得分
66ccff 20
Guadzilla 20
AlexNet 15
Mr.t 15
allen. 13
allen. 5
徐乜乜 5
Trinitylo 7
无盐 7
ys 4
心动动 2
MAZDA 1
荞麦 1
数佳 1
莨(2.0
Always trying
自律才会自由
Mr.t
  • 任务1:推荐系统基础

  • 任务2:Movienles介绍

    • 下载并读取Movielens 1M数据集(用户、电影、评分)
    • 统计如下指标:
      • 总共包含多少用户?
      • 总共包含多个电影?
      • 平均每个用户对多少个用户进行了评分?
      • 每部电影 & 每个用户的平均评分是?
    • 如果你来进行划分数据集为训练和验证,你会如何划分?
  • 任务3:协同过滤基础

  • 任务4:协同过滤进阶

    • 编写User-CF代码,通过用户相似度得到电影推荐
    • 编写Item-CF代码,通过物品相似度得到电影推荐
    • 进阶:如果不使用矩阵乘法,你能使用倒排索引实现上述计算吗?
  • 任务5:矩阵分解SVD

  • 任务6:Slope One

    • 阅读Slope One基础原理
    • 编写Slope One用于电影推荐的流程
    • 比较Slope One、SVD、协同过滤的精度,哪一个模型的RMSE评分更低?
  • 任务7:词向量基础

    • 学习word2vec基础
    • 将用户历史观看电影转为列表数据(一个用户一个列表)
    • 使用gensim训练word2vec,然后对用户完成聚类
  • 任务8:向量召回基础

    • 基于任务7的基础上,使用编码后的用户向量,计算用户相似度。
    • 参考User-CF的过程,通过用户相似度得到电影推荐
  • 任务9:多路召回实践

    • 基于任务3、任务5、任务6、任务7、任务8,总共5个召回模型,进行多路召回。
    • 可以考虑对每个召回模型的物品打分进行相加,也可以加权求和。
    • 分别计算每个模型 & 多路召回模型的Top10、Top20、Top50的命中率。

### 学习资料

https://github.com/datawhalechina/fun-rec

### 打卡要求

注:

  • 需要所有的任务可以写在一个博客内
  • 推荐在打卡过程中加入思考过程,可以加入尝试&资料记录

## Part5 提问&回答

问:具体的活动是怎么安排的?

有任务,自己先尝试。活动结束后会公开优秀打卡链接。

问:本次活动是收费的吗,最终奖品如何发放?

活动是免费的,最终奖品按照积分排行Top3进行发放,如果排名有并列都发送奖励。

问:环境和配置是什么?

推荐使用Python3 和 AIStudio环境。



© 2019-2023 coggle.club 版权所有     京ICP备20022947    京公网安备 11030102010643号