Liusb's Blog


  • 首页

  • 分类

  • 归档

  • 标签

  • 关于

特征工程-特征选择介绍

发表于 2015-11-04   |   分类于 机器学习   |  
特征工程之特征选择特征选择是特征工程的一部分。特征选择主要解决我们应该使用哪些特征来训练预测模型的问题。选择特征往往需要特定领域知识,但有时候也可以通过某些方法自动选择出和问题相关度大的那些特征。 特征选择与降维特征选择不同于降维,虽然他们都寻求减少数据集中属性的数量,但是降维主要是通过组合多个属性到一个属性来达到降维,而特征选择只是从特征中选择属性却并不改变属性。 降维的方法包括:主成分分析(Principal Component Analysis)、奇异值分解(Singular Value Decomposition)、Sammon映射(Sammon’s Mapping)。这些方法另外讲解。 特征选择的目的在机器学习实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能相 ...
阅读全文 »

Hadoop中MapReduce程序的输入处理

发表于 2015-10-23   |   分类于 hadoop   |  
一个典型的MapReduce程序的处理过程如下:12map: (K1, V1) -> list(K2, V2)reduce: (K2, list(V2)) -> list(K3, V3) 如果不设置mapreduce.inputformat.class,那么会使用TextInputFormat来处理输入。 抽象类org.apache.hadoop.mapreduce.InputFormat<K, V>声明了两个抽象方法1.getSplits 返回一个InputSplit集合2.createRecordReader返回一个RecordReader<K,V> 一个InputSplit表示被一个单独Mapper处理的数据,RecordReader 则可以迭代返回 ...
阅读全文 »

分布式系统第二部:一致性vs可用性,一个实际的例子

发表于 2015-09-06   |   分类于 分布式   |  
翻译自LOVE FOR PROGRAMMING 正如我们在这个系列的分布式系统第一部:初探一致性哈希中讨论那样,很难使分布式系统在任何时候都完美的工作。虽然,它具有自我修复能力,但有时我们不得不为了效率和可扩展性来权衡某些重要的特征。我们将在这篇文章中讨论更多相关内容。同样,我们将使用在第一部中开发的分布式系统来解决其他的商业用例。让我们开始吧。 回想一下,你怎么使用一致性哈希开发了能提供负载均衡和容错的系统。你让键值对分布在各节点中来分发负载。为了实现容错,还将键值对复制到一致性哈希环的前面那个节点。到目前为止,这都能很好的运行。你觉得在世界之巅。 你老板对你印象非常深刻。看到你的系统使用一致性哈希能够很好的处理规模增长,他想使用你的分布式系统来实现程序的一个关键部分。你的应用随着移动和 ...
阅读全文 »

分布式系统第一部:初探一致性哈希

发表于 2015-09-04   |   分类于 分布式   |  
翻译自LOVE FOR PROGRAMMING 当人们谈论规模的时候,他们往往是在谈论可扩展的分布式系统。如果你想知道自己在某些地方的认知全是错误的,那么深入分布式吧。不管怎样,关于分布式,你首先要学习的事情就是通过机器有效的进行数据分发或者通过服务器进行有效的负载均衡。我将在这篇文字中讨论前者。像往常一样,我们将从现实的例子开始,然后解决它。让我们开始吧。 比如说,你老板给你一个文件,这个文件包含很多行,每行有一个IP地址和一个时间戳。IP地址代表客户端地址,时间戳代表对应的客户访问你们网站的时间。这个文件包含10万个这样的组合。时间戳是按升序排列,这意味着倒数第二个记录的时间戳小于倒数第一个的时间戳。下面是个样本格式: 111.111.111.111 2014:02:01:12 ...
阅读全文 »

学习HTML和CSS

发表于 2015-04-16   |   分类于 前端   |  
HTML & CSS文档流(FLOW)在设计页面时,一般先用块级元素构建基本布局,再用内联元素完善各模块内容。尽量使用与内容含义最接近的元素。 块级元素(block):块级元素在文档流中以行的方式存在,就好像前后有换行符,如div、p之类的元素。此类元素通常用来构建模块。 内联元素(inline):内联元素在文档流中总是出现在行内,多个放在一起的内联元素会存在同一个块中,如span可以嵌套在p元素中。此类元素通常用来标记模块中的部分内容。 盒模型(BOX MODEL)CSS将每个元素当做一个盒子表示。利用CSS可以对盒子的所有方面进行控制。盒子由内容区和可选的内边距、边框、外边距组成。 内容区(content):每个元素都有一个内容区,如图像和元素。盒子的大小正好能包含所有的 ...
阅读全文 »
liusb

liusb

You are more than what you have become now.

5 日志
5 分类
17 标签
GitHub DouBan ZhiHu Quora
Creative Commons
© 2014 - 2016 liusb
由 Hexo 强力驱动
主题 - NexT.Mist