Hive基础教程

本来想对官方文档《Hive Tutorial》进行翻译整理的,但是发现网上已经有人做了这方面工作,就不重复造轮子了。将作者 strongyoung88 的博文转载了过来备查,建议查看原文《Hive 教程(官方Tutorial)》。

阅读更多

spark程序设计优化

本文介绍一下spark使用过程中的一些优化方法。内容完全转载自美团的技术文章《Spark性能优化指南——基础篇》,酌情删减了一部分内容。建议查看原文,感觉原文的界面好看一些。

阅读更多

朴素贝叶斯与拉普拉斯平滑简介

今天我们从极大似然估计说起,然后阐述一下朴素贝叶斯分类算法和贝叶斯估计,最后介绍M估计和拉普拉斯平滑方法,其主要解决了零概率问题。

阅读更多

如何优雅地爬取明星头像

最近需要修正一些明星头像照片集合中的bad case,手动替换的过程中发现 http://www.manmankan.com 这个网址不错,所以打算先爬取该网站的明星头像照片对我的素材进行替换,然后再修正bad case。这样兴许可以减小工作量。

阅读更多

hive常用语法

最近要用hive做一些基础分析,所以整理一下平时遇到的一些语法。另外,将专门整理一个hive的基础教程。

阅读更多

mac重装任意版本的系统

OSX真的做的越来越差劲了,最近升级到最新系统,感觉很难用。所以打算回退到之前用过的最好用的版本,macOS Sierra 10.12.6。之所以说这个系统好用是因为,这个系统比较稳定,而且能找到很多可用工具,且支持Notes软件的手写笔记(使用 apple pencil)同步到mac Notes阅读。接下来介绍如何重装系统,以安装macOS Seirra为例。

阅读更多

关于数据例行化的几点思考

今天总结一下工作中遇到的一些关于数据例行化的问题,并给出几点思考。

阅读更多

poj1753_FlipGame_状态压缩_BFS_位运算

今天看了poj1753,想了半天没有思路,就去看了一下题解《POJ 1753 Flip Game(状态压缩+BFS)解题报告》。这个题如果没之前没遇到过类型题的话,很难想到方法。先上题。

阅读更多

word2vec思想概述

今天了解了一下word2vec这个工具,之前用过但是没怎么细究,今天回顾整理一下。

阅读更多

L2范数浅谈

机器学习的求解本质上是一个优化问题的求解,其方式一般通过构造损失函数,对损失函数进行求解,进而确定模型参数的过程。为了防止模型过拟合,或者使得模型更稳定,经常使用正则化技术。今天介绍一下正则化技术中的L2范数。

阅读更多