| bright 的个人资料Bright Moment照片日志列表 | 帮助 |
|
11月20日 微软拼音输入法2010 Beta2正式发布了今天,微软终于发布了微软拼音输入法2010 Beta2,这是个独立安装的版本,不需要安装Office。下面是微软官方下载的地址: http://officebeta.microsoft.com/zh-cn/products/HA101793968.aspx 11月15日 简单贝叶斯分类器和回归分析[4年前的学习笔记] 简单贝叶斯分类器和回归分析的关系 回归分析(Logistic Regression)直接估计其参数P(Y|X),而简单贝叶斯(Naïve Bayes)直接估计参数P(Y)和P(X|Y)。我们经常称前者为辨别式分类器(Discriminative classifier),后者为生成式分类器(Generative classifier)。 高斯简单贝叶斯分类器(GNB)的假设隐含着回归分析中参数P(Y|X)的形式,而且回归分析中的参数wi可以用高斯贝叶斯的参数来表示。事实上,如果GNB中的假设成立,那么GNB和回归分析就会向着相同的分类器收敛(随着训练样本的数量增加到无穷大)。 简单贝叶斯分类器和回归分析的区别 Ÿ 当GNB模型的假设不成立时,回归分析和GNB会学到不同的分类器函数,在这种情况下,回归分析的分类精度常常会比GNB的分类精度高。尽管回归分析和简单贝叶斯的假设一致,即输入特征Xi在给定Y的条件下是独立的,但是回归分析的假设不如简单贝叶斯的严格。如果给定的数据不严格遵守这个假设,那么回归分析的条件似然最大化算法将会自动调节自己的参数来最大化地拟合数据,即使参数结果和简单贝叶斯估计的参数不一致。 Ÿ GNB和回归分析以不同的速率向它们的精度渐近线收敛,GNB的参数估计以log n个样本收敛,n是X的维数;回归分析的参数估计的速率较慢,以n个样本收敛。在几个数据集上的测试表明,当训练样本的数量很多时回归分析优于GNB,但是当训练样本很稀少时,GNB则优于回归分析。 应该知道的知识 Ÿ 我们可以把贝叶斯规则作为设计学习算法(函数逼近)的一个基础:我们想学到一个目标函数f:XàY或者学到P(Y|X),我们使用训练数据来学习P(X|Y)和P(Y)的估计,然后可以用这些估计到的概率分布和贝叶斯法则来分类新的样本X。因为我们可以把分布P(X|Y)看作是在目标属性Y的条件下描述如何生成随机变量实例X,所以这种分类器叫生成式分类器。 Ÿ 学习贝叶斯分类器需要不切合实际数量的训练样本(比如大于|X|个训练样本,X是实例空间),除非作一些先验的假设。简单贝叶斯分类器假设描述X的所有的属性在给定Y的条件下是条件独立的。这个假设大大地减少了需要估计的参数的数目。简单贝叶斯是一个广泛使用的学习算法,而无论X是离散的还是连续的。 Ÿ 当X是由离散属性值组成的向量时,简单贝叶斯学习算法可以被看作是先线性分类器,即每个简单的贝叶斯分类器都对应着一个X空间中的决策超平面。对于高斯简单贝叶斯分类器,如果每个特征的方差对于类别是条件独立的(即σik=σi),那么也有前面的结论。 Ÿ 回归分析是一个函数逼近算法,和贝叶斯不同的是它用训练数据直接估计P(Y|X)。在这个意义上,回归分析常常被称为辨别式分类器,因为我们可以把分布P(Y|X)看作是对实例X的直接辨别分类。 Ÿ 回归分析是对X的一个线性分类器。在训练样本的数目趋于无穷时以及简单贝叶斯假设成立的条件下,由回归分析和高斯简单贝叶斯产生的线性分类器是相同的。然而,如果这些假设不成立,简单贝叶斯的偏差导致它的精度要比回归分析差一些。换句话说,和回归分析相比,简单贝叶斯是一个具有较大偏差、较小方差的学习算法。如果这个偏差对于给定的真实数据是适当的,简单贝叶斯是首选的,否则,回归分析是首选的。 Ÿ 我们可以把函数逼近学习算法看作是对函数或者条件分布P(Y|X)的统计估计。他们从训练数据中的一个样本估计P(Y|X)。和其他的统计估计一样,这对于通过他们的偏差和期望方差(在不同的训练数据样本上)来刻画学习算法是很有用的。 Reference: [1] Generative and discriminative classifiers: naive bayes and logistic regression 11月9日 学习什么是战略前几天看了一本有关于战略方面的书《略胜一筹》,书不错,就是有些啰嗦,核心内容用几句话就可以概括了。简单总结如下: 战略的定义:战略的核心就是企业到底该做什么,不该做什么,有所不为才能有所为。该做什么有三个方面决定:第一,你到底想做什么?第二,在目前的社会政治经济、产业的大环境下,什么事情是可做的?第三,你能做什么?三者的交集才是你真正该做的。 · 当前的大环境:经济环境发生了根本性的变化——更加激烈、更加恶化。 · 在当前的环境下,企业的经营思路要从机会导向到战略导向、从资源整合到能力培养、从巧妙运作到系统管理的转变。 · 大舍才能大得:要放弃多元化,走专业化经营,发展自己的差异化。选择的时候要根据“该不该做”,而不是“可不可做”。 · 大赌才能大赢:选择的时候,要敢于冒险,没有冒险的选择不能形成战略优势。大赌必须是经过仔细计算得出的步骤,而不是漫无目的的瞎碰。 · 大拙才能打巧:战略的执行还需要系统的管理能力。大拙就是在坚持长期的战略发展方向时建立配套的全面的系统管理能力,这包括:资源、制度和企业文化。 · 企业要有危机意识:例如微软比尔盖茨说过:微软离破产永远只有18个月。 · 战略的特点:战略一定是痛苦的选择;战略要有差异化;战略要有前瞻性。 10月12日 国庆8天哪也没去成国庆过的很快,在家呆了7天半,就出去中关村转了半天,买了一个移动硬盘和几本书。
在家里做的事情其实很简单
本来想去天安门看看,最后也没去成,比较遗憾,争取这周末去瞧瞧! 3月8日 今天发现live地图不错以前一直用baidu地图,觉得很好用,不过baidu也有不足的地方,例如查公交线路时不包括地铁。今天使用了live地图,查询线路中不仅包括地铁线路,而且还包括步行的部分线路,交通线路非常详细。另外还有北京实时交通图,可以根据实时交通信息来改变公交线路。真是很方便,大家不妨试试吧。http://ditu.live.com 12月13日 小制作电影看情节,大制作看场面入职一周年之小记去年的12月12日,是我第一天正式参加工作。时间可真快,一转眼就过去了一年。 在此之前一直在学校“充电”,幼儿园(记不清几岁了),小学六年,中学三年+一年补习,高中三年,大学四年,硕士博士一共五年零两个月,加起来不少于22年。这数字够恐怖的,读了22年的书,但是还是感觉知识的贫乏。 贫乏表现在很多方面,首先是知识的广度太小,从大学开始到博士毕业,学的都是计算机,对其他领域一片空白。虽然对很多领域都很感兴趣,但是真的没有太多时间研究了。然后是知识的深度,虽说是计算机方向的博士,但对计算机领域的理解也很肤浅,掌握的知识也很陈旧,远跟不上计算机发展的步伐。 在刚刚过去的一年,每天都能学习不少新东西,有一些是工作中必须要学的,有一些是自己感兴趣学的,有的是和朋友同事聊天所了解的,总体来说还是很有收获的。所作的工作和自己以前的研究也有很大的相似性,做起来还算轻松。和那22年相比,这一年还是很短暂的,说明以后还有很长的路要走,太长远的不说(也不好说),近几年还是要好好充实自己,在干好自己的工作之外尽量多了解一些有意义的东西。 12月4日 自制最便宜的时光机!教你自制最便宜的时光机 ! 1、准备一张厚厚的,防水的,质量好的纸,至少要100克的,但表面不能太光滑,防止墨迹脱落。 成功的都来回个贴哦! =======以下为某人的回帖==============
虽然这个逆向思维很牛逼,但必定不会成功,因为我们谁也没有看到子孙坐着时光机器来观看咱。为啥呢?我给出如下推理: 1,这封信不会被传那么久。 2,假设你写的信没有被子孙毁掉,而是传下去了,这说明咱们的后代们都相信这件事,于是,到了能造时光机器的那一代,他们收到的信就会堆积如山,因为他的所有祖先都会给他写类似的信,到时候,他们来看望你的概率基本为零。 3,进一步假设你的子孙的确受到了你的这封信,并且立刻坐时光机器回来看望你了,则你的目的已经达到,你显然不会再用心保留这封信了,信就不可能传承下去,这是悖论;同时,咱们大家定会乘坐子孙带来的时光机器大批得回到我们的祖先时代去看望他们,而这种事情实际上没有发生,所以,假设不成立。 4,可以尝试一下,我们写下这封信是否会成功呢?目前我还没听说有成功的。事实上,假设你成功了,就会把这封信当作废纸扔掉;假设没成功,你更会把这封信扔掉。无论如何,这封信都无法传承下去。 5,上升到哲学高度,理想意义上的时光穿梭是不可能的,时间即是因果,因果即是先后,这是自然,人类大脑的思维和理解方式是有规则的,永远也无法超越自然。人类以后如果实现所谓的时光穿梭,只能是基于大脑层面的电子虚拟技术而已。 12月1日 原来007量子危机和量子没关系啊?11月29日 如何才能把锻炼身体落到实处?今年下半年我通过公司办理了悠哉健身卡,本来想着每周都去锻炼一下,结果马上就要到年底了,才只去游了一次泳,打了一次羽毛球,利用率也太低了点。眼看着就要过期了,没办法,只好去找个高消费的地方打打保龄球,上周打了八局,这周又打了八局,照这样的消费也要好几周才能用完,争取年底之前全用完吧。 锻炼是一件很枯燥的事情,没有毅力是不能坚持的,自从进了公司,锻炼就更加少了。这几天的感冒估计也是不锻炼的原因。今年就这样了,明年还是要制定一个锻炼的计划,一定要落到实处,不能拿身体当儿戏。 11月28日 图片型PDF文件的OCR识别方法昨天peach问我如何把PDF中的文字拷贝出来,而且PDF不是文字型(如doc转成的pdf),而是图片型(扫描生成)。我觉得典型的OCR识别技术应该可以解决,而且应该有不少工具。 1.工具:microsoft office document imaging(见Office 2003 工具)、Windows程序附件中的“画图”板。 注:(1)默认的office并没有按照这个工具,在安装过程中需要把这个工具添加进来。(2)需要中文版的office才能识别中文字符。 (3)PDF文件进行OCR识别的一种方法(TH-OCR 2007+Adobe Acrobat professional 8.0) |
|
|