| bright's profileBright MomentPhotosBlogLists | Help |
|
Bright MomentNovember 20 微软拼音输入法2010 Beta2正式发布了今天,微软终于发布了微软拼音输入法2010 Beta2,这是个独立安装的版本,不需要安装Office。下面是微软官方下载的地址: http://officebeta.microsoft.com/zh-cn/products/HA101793968.aspx November 15 简单贝叶斯分类器和回归分析[4年前的学习笔记] 简单贝叶斯分类器和回归分析的关系 回归分析(Logistic Regression)直接估计其参数P(Y|X),而简单贝叶斯(Naïve Bayes)直接估计参数P(Y)和P(X|Y)。我们经常称前者为辨别式分类器(Discriminative classifier),后者为生成式分类器(Generative classifier)。 高斯简单贝叶斯分类器(GNB)的假设隐含着回归分析中参数P(Y|X)的形式,而且回归分析中的参数wi可以用高斯贝叶斯的参数来表示。事实上,如果GNB中的假设成立,那么GNB和回归分析就会向着相同的分类器收敛(随着训练样本的数量增加到无穷大)。 简单贝叶斯分类器和回归分析的区别 Ÿ 当GNB模型的假设不成立时,回归分析和GNB会学到不同的分类器函数,在这种情况下,回归分析的分类精度常常会比GNB的分类精度高。尽管回归分析和简单贝叶斯的假设一致,即输入特征Xi在给定Y的条件下是独立的,但是回归分析的假设不如简单贝叶斯的严格。如果给定的数据不严格遵守这个假设,那么回归分析的条件似然最大化算法将会自动调节自己的参数来最大化地拟合数据,即使参数结果和简单贝叶斯估计的参数不一致。 Ÿ GNB和回归分析以不同的速率向它们的精度渐近线收敛,GNB的参数估计以log n个样本收敛,n是X的维数;回归分析的参数估计的速率较慢,以n个样本收敛。在几个数据集上的测试表明,当训练样本的数量很多时回归分析优于GNB,但是当训练样本很稀少时,GNB则优于回归分析。 应该知道的知识 Ÿ 我们可以把贝叶斯规则作为设计学习算法(函数逼近)的一个基础:我们想学到一个目标函数f:XàY或者学到P(Y|X),我们使用训练数据来学习P(X|Y)和P(Y)的估计,然后可以用这些估计到的概率分布和贝叶斯法则来分类新的样本X。因为我们可以把分布P(X|Y)看作是在目标属性Y的条件下描述如何生成随机变量实例X,所以这种分类器叫生成式分类器。 Ÿ 学习贝叶斯分类器需要不切合实际数量的训练样本(比如大于|X|个训练样本,X是实例空间),除非作一些先验的假设。简单贝叶斯分类器假设描述X的所有的属性在给定Y的条件下是条件独立的。这个假设大大地减少了需要估计的参数的数目。简单贝叶斯是一个广泛使用的学习算法,而无论X是离散的还是连续的。 Ÿ 当X是由离散属性值组成的向量时,简单贝叶斯学习算法可以被看作是先线性分类器,即每个简单的贝叶斯分类器都对应着一个X空间中的决策超平面。对于高斯简单贝叶斯分类器,如果每个特征的方差对于类别是条件独立的(即σik=σi),那么也有前面的结论。 Ÿ 回归分析是一个函数逼近算法,和贝叶斯不同的是它用训练数据直接估计P(Y|X)。在这个意义上,回归分析常常被称为辨别式分类器,因为我们可以把分布P(Y|X)看作是对实例X的直接辨别分类。 Ÿ 回归分析是对X的一个线性分类器。在训练样本的数目趋于无穷时以及简单贝叶斯假设成立的条件下,由回归分析和高斯简单贝叶斯产生的线性分类器是相同的。然而,如果这些假设不成立,简单贝叶斯的偏差导致它的精度要比回归分析差一些。换句话说,和回归分析相比,简单贝叶斯是一个具有较大偏差、较小方差的学习算法。如果这个偏差对于给定的真实数据是适当的,简单贝叶斯是首选的,否则,回归分析是首选的。 Ÿ 我们可以把函数逼近学习算法看作是对函数或者条件分布P(Y|X)的统计估计。他们从训练数据中的一个样本估计P(Y|X)。和其他的统计估计一样,这对于通过他们的偏差和期望方差(在不同的训练数据样本上)来刻画学习算法是很有用的。 Reference: [1] Generative and discriminative classifiers: naive bayes and logistic regression November 09 学习什么是战略前几天看了一本有关于战略方面的书《略胜一筹》,书不错,就是有些啰嗦,核心内容用几句话就可以概括了。简单总结如下: 战略的定义:战略的核心就是企业到底该做什么,不该做什么,有所不为才能有所为。该做什么有三个方面决定:第一,你到底想做什么?第二,在目前的社会政治经济、产业的大环境下,什么事情是可做的?第三,你能做什么?三者的交集才是你真正该做的。 · 当前的大环境:经济环境发生了根本性的变化——更加激烈、更加恶化。 · 在当前的环境下,企业的经营思路要从机会导向到战略导向、从资源整合到能力培养、从巧妙运作到系统管理的转变。 · 大舍才能大得:要放弃多元化,走专业化经营,发展自己的差异化。选择的时候要根据“该不该做”,而不是“可不可做”。 · 大赌才能大赢:选择的时候,要敢于冒险,没有冒险的选择不能形成战略优势。大赌必须是经过仔细计算得出的步骤,而不是漫无目的的瞎碰。 · 大拙才能打巧:战略的执行还需要系统的管理能力。大拙就是在坚持长期的战略发展方向时建立配套的全面的系统管理能力,这包括:资源、制度和企业文化。 · 企业要有危机意识:例如微软比尔盖茨说过:微软离破产永远只有18个月。 · 战略的特点:战略一定是痛苦的选择;战略要有差异化;战略要有前瞻性。 October 12 国庆8天哪也没去成国庆过的很快,在家呆了7天半,就出去中关村转了半天,买了一个移动硬盘和几本书。
在家里做的事情其实很简单
本来想去天安门看看,最后也没去成,比较遗憾,争取这周末去瞧瞧! March 08 今天发现live地图不错以前一直用baidu地图,觉得很好用,不过baidu也有不足的地方,例如查公交线路时不包括地铁。今天使用了live地图,查询线路中不仅包括地铁线路,而且还包括步行的部分线路,交通线路非常详细。另外还有北京实时交通图,可以根据实时交通信息来改变公交线路。真是很方便,大家不妨试试吧。http://ditu.live.com December 13 小制作电影看情节,大制作看场面入职一周年之小记去年的12月12日,是我第一天正式参加工作。时间可真快,一转眼就过去了一年。 在此之前一直在学校“充电”,幼儿园(记不清几岁了),小学六年,中学三年+一年补习,高中三年,大学四年,硕士博士一共五年零两个月,加起来不少于22年。这数字够恐怖的,读了22年的书,但是还是感觉知识的贫乏。 贫乏表现在很多方面,首先是知识的广度太小,从大学开始到博士毕业,学的都是计算机,对其他领域一片空白。虽然对很多领域都很感兴趣,但是真的没有太多时间研究了。然后是知识的深度,虽说是计算机方向的博士,但对计算机领域的理解也很肤浅,掌握的知识也很陈旧,远跟不上计算机发展的步伐。 在刚刚过去的一年,每天都能学习不少新东西,有一些是工作中必须要学的,有一些是自己感兴趣学的,有的是和朋友同事聊天所了解的,总体来说还是很有收获的。所作的工作和自己以前的研究也有很大的相似性,做起来还算轻松。和那22年相比,这一年还是很短暂的,说明以后还有很长的路要走,太长远的不说(也不好说),近几年还是要好好充实自己,在干好自己的工作之外尽量多了解一些有意义的东西。 December 04 自制最便宜的时光机!教你自制最便宜的时光机 ! 1、准备一张厚厚的,防水的,质量好的纸,至少要100克的,但表面不能太光滑,防止墨迹脱落。 成功的都来回个贴哦! =======以下为某人的回帖==============
虽然这个逆向思维很牛逼,但必定不会成功,因为我们谁也没有看到子孙坐着时光机器来观看咱。为啥呢?我给出如下推理: 1,这封信不会被传那么久。 2,假设你写的信没有被子孙毁掉,而是传下去了,这说明咱们的后代们都相信这件事,于是,到了能造时光机器的那一代,他们收到的信就会堆积如山,因为他的所有祖先都会给他写类似的信,到时候,他们来看望你的概率基本为零。 3,进一步假设你的子孙的确受到了你的这封信,并且立刻坐时光机器回来看望你了,则你的目的已经达到,你显然不会再用心保留这封信了,信就不可能传承下去,这是悖论;同时,咱们大家定会乘坐子孙带来的时光机器大批得回到我们的祖先时代去看望他们,而这种事情实际上没有发生,所以,假设不成立。 4,可以尝试一下,我们写下这封信是否会成功呢?目前我还没听说有成功的。事实上,假设你成功了,就会把这封信当作废纸扔掉;假设没成功,你更会把这封信扔掉。无论如何,这封信都无法传承下去。 5,上升到哲学高度,理想意义上的时光穿梭是不可能的,时间即是因果,因果即是先后,这是自然,人类大脑的思维和理解方式是有规则的,永远也无法超越自然。人类以后如果实现所谓的时光穿梭,只能是基于大脑层面的电子虚拟技术而已。 December 01 原来007量子危机和量子没关系啊?November 29 如何才能把锻炼身体落到实处?今年下半年我通过公司办理了悠哉健身卡,本来想着每周都去锻炼一下,结果马上就要到年底了,才只去游了一次泳,打了一次羽毛球,利用率也太低了点。眼看着就要过期了,没办法,只好去找个高消费的地方打打保龄球,上周打了八局,这周又打了八局,照这样的消费也要好几周才能用完,争取年底之前全用完吧。 锻炼是一件很枯燥的事情,没有毅力是不能坚持的,自从进了公司,锻炼就更加少了。这几天的感冒估计也是不锻炼的原因。今年就这样了,明年还是要制定一个锻炼的计划,一定要落到实处,不能拿身体当儿戏。 November 28 图片型PDF文件的OCR识别方法昨天peach问我如何把PDF中的文字拷贝出来,而且PDF不是文字型(如doc转成的pdf),而是图片型(扫描生成)。我觉得典型的OCR识别技术应该可以解决,而且应该有不少工具。 1.工具:microsoft office document imaging(见Office 2003 工具)、Windows程序附件中的“画图”板。 注:(1)默认的office并没有按照这个工具,在安装过程中需要把这个工具添加进来。(2)需要中文版的office才能识别中文字符。 (3)PDF文件进行OCR识别的一种方法(TH-OCR 2007+Adobe Acrobat professional 8.0) November 19 谈论 浪潮之巅第十章——短暂的春秋——与机会失之交臂的公司(转载)用了一个多小时才看完,长了点见识,好文! 引用: http://nkshili.spaces.live.com/blog/cns%21BB418D20B454CBE7%212404.entry 浪潮之巅第十章——短暂的春秋——与机会失之交臂的公司(转载) November 11 通过新的 Enterprise Performance Tool 使应用程序飞速运行english title: Make Your Apps Fly with the New Enterprise Performance Tool chinese title: 通过新的 Enterprise Performance Tool 使应用程序飞速运行 本文基于 Visual Studio 2005 的预发布版本。文中包含的所有信息均有可能变更。 本文讨论: •分析器的内部工作方式 •EPT 的灵活功能 •一个供分析的示例应用程序 代码可从以下位置下载: 快速代码仍然很受欢迎。即使我用来键入本文的计算机具有足够的能力和内存,能够同时控制一座原子能发电厂、一个火星漫游计划以及美国西部上空的空中交通,并且仍然具有充足的能力来处理星际探索中的 SETI 数据包,但这并不意味着开发人员不再需要担心其代码的速度和效率。在过去进行 Win32® 本机开发的日子里,我们不仅需要担心速度,而且还要担心 PC 平台上那些令人讨厌的访问冲突(对于你们这些老家伙,还有“全局保护错误”和“不可恢复的应用程序错误”)。尽管托管代码已经消除了其中的一些担心,但它只意味着您所经历的那些性能问题可能比以前更加难以捉摸。主要原因是,在使用托管代码时,我们不具有在进行本机开发时所拥有的简便的运行库视图。 有许多次,当我正在使用客户端时,我不知道如何解决恶性的性能问题。当然,这些性能问题不会出现在任何测试系统中;它们只会出现在真实世界的生产中。由于公共语言运行库 (CLR) 是黑盒,因此如果我希望找到在测试系统中重复性能问题的方法,则很难预测会发生什么事情。尽管在市场中有一些第三方商业性能工具,但这些工具中的大多数都会对系统造成过多的干扰,以至于根本不能考虑在生产系统中使用。这也就是当我看到 Microsoft 将提供一个全新的分析器 — Enterprise Performance Tool (EPT) 以作为 Visual Studio® 2005 Team Developer Edition 的一部分时,感到如此兴奋的原因。它是我可以真正考虑在生产系统中使用的第一个分析系统,因为它提供了一些非常轻便的收集性能数据的手段。因为我曾经领导过一种最畅销的商业分析器的开发工作,所以我能够理解在不产生太多系统开销的情况下收集有用分析数据的困难程度。 在本文中,我将介绍 EPT 的基本原理,并向您说明如何开始使用它。因为分析器所具有的复杂性,所以在将来某一期中,我将讨论如何使用 EPT 来跟踪您可能在同事的代码中遇到的实际性能问题(我知道您的代码非常完美!)。请记住,EPT 正处在测试阶段(我使用的是 Burton Beta 1 刷新位版本 40607.83),并且在该产品发布之前,可能会对 UI 或某些特定步骤进行更改。在对 EPT 进行介绍之前,我希望花点儿时间谈论一下分析器通常是如何工作的,以便您可以更好地了解是什么使 Enterprise Performance Tool 变得如此与众不同。 ... Related link:
October 25 今天打球输了今天byte又过来打乒乓球,虽然上次我在21分制中仅以2分险胜,但是这次我却是以2分输了。 今天一共打了15局,前10我输得比较惨,在此就不提了,呵呵!后5局说好的算是比赛,上来我就连输了2局,第2局中间bob打来电话骚扰我们,害得我们把比分忘了,本来领先的我还是输了第2局。第3、4局我连扳2局,大比分打成2:2平。关键的第5局对我来说简直是黄金般的开局——4:0,中间还打到9:4,10:5,离胜利之差一分的我竟然输了比赛——10:12。总结原因很简单,我差一分的时候太想快点结束比赛了,和开始的稳扎稳打截然不同,看来做任何事情都不能急于求成啊。俗话说得好,行百里半九十,下次一定不会犯类似的错误了。 October 23 人生致命的八个经典问题 (转载)问题一, 如果你家附近有一家餐厅,东西又贵又难吃,桌上还爬着蟑螂,你会因为它很近很方便,就一而再、再而三地光临吗? 回答:你一定会说,这是什么烂问题,谁那么笨,花钱买罪受? 可同样的情况换个场合,自己或许就做类似的蠢事。 不少男女都曾经抱怨过他们的情人或配偶品性不端,三心二意,不负责任。明知在一起没什么好的结果,怨恨已经比爱还多,但却“不知道为什么”还是要和他搅和下去,分不了手。说穿了,只是为了不甘,为了习惯,这不也和光临餐厅一样? ??做人,为什么要过于执著?! 问题二, 如果你不小心丢掉100块钱,只知道它好像丢在某个你走过的地方,你会花200块钱的车费去把那100块找回来吗? 回答:一个超级愚蠢的问题。 可是,相似的事情却在人生中不断发生。做错了一件事,明知自己有问题,却*也不肯认错,反而花加倍的时间来找藉口,让别人对自己的印象大打折扣。被人骂了一句话,却花了无数时间难过,道理相同。为一件事情发火,不惜损人不利已,不惜血本,不惜时间,只为报复,不也一样无聊? 失去一个人的感情,明知一切已无法挽回,却还是那么伤心,而且一伤心就是好几年,还要借酒浇愁,形销骨立。其实这样一点用也没有,只是损失更多。 ??做人,干吗为难自己?! 问题三, 你会因为打开报纸发现每天都有车祸,就不敢出门吗? 回答:这是个什么烂问题?当然不会,那叫因噎废食。 然而,有不少人却曾说:现在的离婚率那么高,让我都不敢谈恋爱了。说得还挺理所当然。也有不少女人看到有关的诸多报道,就对自己的另一半忧心忡忡,这不也是类似的反应?所谓乐观,就是得相信:虽然道路多艰险,我还是那个会平安过马路的人,只要我小心一点,不必害怕过马路。 ??做人,先要相信自己。 问题四, 你相信每个人随便都可以成功立业吗? 回答:当然不会相信。 但据观察,有人总是在听完成功人士绞尽脑汁的建议,比如说,多读书,多练习之后,问了另一个问题?那不是很难? 我们都想在3分钟内学好英文,在5分钟内解决所有难题,难道成功是那么容易的吗?改变当然是难的。成功只因不怕困难,所以才能出类拔萃。 有一次坐在出租车上,听见司机看到自己前后都是高档车,兀自感叹:“唉,为什么别人那么有钱,我的钱这么难赚?” 我心血来潮,问他:“你认为世上有什么钱是好赚的?”他答不出来,过了半晌才说:好像都是别人的钱比较好赚。 其实任何一个成功者都是艰辛取得。我们实在不该抱怨命运。 ??做人,依靠自己! 问题五, 你认为完全没有打过篮球的人,可以当很好的篮球教练吗? 回答:当然不可能,外行不可能领导内行。 可是,有许多人,对某个行业完全不了解,只听到那个行业好**,就马上开起业来了。 我看过对穿着没有任何口味、或根本不在乎穿着的人,梦想却是开间服装店;不知道电脑怎么开机的人,却想在网上**,结果道听途说,却不反省自己是否专业能力不足,只抱怨时不我与。 ??做人,量力而行。 问题六, 相似但不相同的问题:你是否认为,篮球教练不上篮球场,闭着眼睛也可以主导一场完美的胜利? 可是却有不少朋友,自己没有时间打理,却拼命投资去开咖啡馆,开餐厅,开自己根本不懂的公司,火烧屁股一样急着把辛苦积攒的积蓄花掉,去当一个稀里糊涂的投资人。亏的总是比赚的多,却觉得自己是因为运气不好,而不是想法出了问题。 ??做人,记得反省自己。 问题七, 你宁可永远后悔,也不愿意试一试自己能否转败为胜? 解答:恐怕没有人会说:“对,我就是这样的孬种”吧。 然而,我们却常常在不该打退堂鼓时拼命打退堂鼓,为了恐惧失败而不敢尝试成功。 以关颖珊赢得2000年世界花样滑冰冠军时的精彩表现为例:她一心想赢得第一名,然而在最后一场比赛前,她的总积分只排名第三位,在最后的自选曲项目上,她选择了突破,而不是少出错。在4分钟的长曲中,结合了最高难度的三周跳,并且还大胆地连跳了两次。她也可能会败得很难看,但是她毕竟成功了。 她说:“因为我不想等到失败,才后悔自己还有潜力没发挥。” 一个中国伟人曾说;胜利的希望和有利情况的恢复,往往产生于再坚持一下的努力之中。 ??做人,何妨放手一搏。 问题八, 你的时间无限,长生不老,所以最想做的事,应该无限延期? 回答:不,傻瓜才会这样认为。 然而我们却常说,等我老了,要去环游世界;等我退休,就要去做想做的事情;等孩子长大了,我就可以…… 我们都以为自己有无限的时间与精力。其实我们可以一步一步实现理想,不必在等待中徒耗生命。如果现在就能一步一步努力接近,我们就不会活了半生,却出现自己最不想看到的结局。 ??做人,要活在当下。 |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|