多标签分类问题的评估
机器学习中有一类问题叫做多标签分类(multi-label),其和多分类(multi-class)问题不同。多分类问题是将一个样本x分到某一个类别$y_i$,而多标签分类问题是将一个样本x分到某些类别$y_i$, .., $y_j$等,也就是说多分类问题的类别之间是互斥的,所有类别的概率和为1。而多标签分类问题的类别之间不互斥,所有类别的概率和不为1,多标签分类问题可以理解为n个二分类问题。
机器学习中有一类问题叫做多标签分类(multi-label),其和多分类(multi-class)问题不同。多分类问题是将一个样本x分到某一个类别$y_i$,而多标签分类问题是将一个样本x分到某些类别$y_i$, .., $y_j$等,也就是说多分类问题的类别之间是互斥的,所有类别的概率和为1。而多标签分类问题的类别之间不互斥,所有类别的概率和不为1,多标签分类问题可以理解为n个二分类问题。
最近要看下IGMC的源码,发现代码中引用了torch-geometric库,所以需要安装下pytorch环境和对应的库。有点点坑,记录下。环境配置需要和作者保持一致,不然会有一些问题,作者的环境是 Python 3.8.1 + PyTorch 1.4.0 + PyTorch_Geometric 1.4.2。
协同过滤(collaborative filtering)是一种在推荐系统中广泛使用的技术。该技术通过分析用户或者物品之间的相似性(”协同”),来预测用户可能感兴趣的物品并推荐给用户[1]。所以,协同过滤本质上是一类技术的统称。在大多数资料中,协同过滤技术分为两类:基于存量(Memory - based)的协同过滤和基于模型(Model- based)的协同过滤。
2020年只剩下6天了,刚刚晚上和组长交流完工作后,继续开始搞可视化项目,分心之余想起来了大学喜欢看的一个短视频《80后在路上》,于是又打开边听边工作,==。虽然早已没有了当年的激情,但是仍然希望做出一些有意义的事情来。
transformer是近些年在NLP领域火起来的一个语言模型,google bert的出现更是将其推到了顶峰。所谓语言模型就是预测每个句子在语言中出现的概率。简单地说,transformer是基于attention和encode-decode的产物。transformer出自2017年的一篇论文《Attention Is All You Need》,最初是用来提高机器翻译的效率,后来逐渐演化为各类预训练模型(bert)的基础。基于transformser可以构建各种各样的NLP任务,只需要修改下训练样本,并进行微调就可以了。