auc是什么
auc 是机器学习中二分类问题的常用评价指标,其反映了分类器对正负样本的排序能力。本文介绍一下 auc 指标,然后介绍下 tf.metrics.auc()函数。
nextitnet的源码比较通俗易懂,十分有助于理解论文 idea。简单来说,输入是item 时间序列的集合(源数据的item 序列的长度是5),然后经过nextitnet_residual_block网络结构进行堆叠,网络结构的 channel是一个常量dilated_channels(100),该值同时也是item embedding 的长度。堆叠的nextitnet_residual_block网络最后一层的输出和输入的 shape 一致,都是[batch, seq_len, channel/item embedding长度],为了建立item seq和所有 item的联合概率分布,作者在nextitnet_residual_block网络的最后一层加了一个卷积层,卷积核 shape 为[1,1,dilated_channels, items_size],所以最终的输出的 shape 是[batch, seq_len, items_size](**原来我总感觉这里有点强转了,但是后来想了想,经典cnn结构不也是将三维打平然后映射到 n 个类别吗?**)。
晚上打完游戏后,再次来到电脑前突然想起了海博学长,海博学长是一个学霸而且人特别好。记得上一次和海博学长联系好像是6年前的事情了,刚上大一的时候听完东大留学群的讲座之后内心无比激动,心心念念地想去CMU,然后和学长聊了两三次,学长还和我说了他对自己的规划,以及希望在CMU看到我。但后来由于某些原因我放弃了去CMU的念头。
tensorflow 官方推荐使用TFRecord进行数据读写,因为这样效率更高。TFRecord是一种使用pb协议序列化的二进制存储格式。为了高效读取数据,TFRecord将数据序列化并存储在一组文件中实现线性读取(每个文件大概100M-200M,官方说的)。tf.train.Example就是 pb 协议中的消息(Message)定义,下面是代码。
该论文在CIFAR-10,CIFAR-100 [27]和ImageNet [6]上进行了评估。 CIFAR-10包含10个类别的50K训练图像和10K测试图像。 CIFAR-100与CIFAR-10类似,但有100个类别。 ImageNet包含128万个训练图像和50000个测试图像以及1000个类别。 论文在这三个数据集上进行了数据扩充,具体地,在CIFAR-10和CIFAR-100上,随机裁剪成32×32的块(patch),在每个边界填充4个像素,并且还应用了随机水平翻转。 在ImageNet上,我们使用经典方法随机裁剪大小,随机更改亮度/对比度/饱和度,并随机进行水平翻转以进行数据增强。 在评估过程中,论文将图像大小调整为256×256,并在中央裁剪了224×224的块。
今天又是虚度的一天。早上还志向满满,结果上午经受不住诱惑,mac升级了最新的系统 catalina,然后电脑开启疯狂 bug 模式,对于我这样有完美倾向的人来说简直是一场灾难。不过也确实是我大意了,尽管事先问了两个朋友新系统体验如何,但这就像小马过河的故事,因人而异。那两位朋友基本不怎么使用命令行工具所以感觉还行,对于我这个基本上依赖于命令行生活的人来说,此次 mac 最大的变化就是提升了命令行下的权限,普通用户不能随意在根目录下操作,否则会提示Read-only file system
。如果你之前在根目录下新建了一个目录 a,那么升级 catalina时会将目录 a 移动至别的地方。
之前没有学过 pytorch,最近在看 pytorch的代码时以 tf 的思维去看,很多 module 相关的内容看的似懂非懂,所以把 module 部分拿出来学习一下。先附上相关资源连接。
最近在阅读论文《Network Pruning via Transformable Architecture Search》的源码,其主要实现了结构化自动裁剪神经网络的逻辑(也算是autoML的部分),由 pytorch 实现。特此记录。
假期的效率真的有点低,搞了两天才完成了blog的迁移工作,没想到在普通网络下访问github是如此的慢,最后选择了码云作为托管仓库。
从今天起要好好工作了,不然论文真的要延期了。。。
除了论文要开始搞起了,计算广告的专业词汇也要大概了解下,OJ的题要刷么么么?
啊,要做的事情太多了。。自闭!