bright 的个人资料Bright Moment照片日志列表 工具 帮助

日志


11月20日

微软拼音输入法2010 Beta2正式发布了

今天,微软终于发布了微软拼音输入法2010 Beta2,这是个独立安装的版本,不需要安装Office。下面是微软官方下载的地址:

http://officebeta.microsoft.com/zh-cn/products/HA101793968.aspx

11月15日

简单贝叶斯分类器和回归分析

[4年前的学习笔记]

简单贝叶斯分类器和回归分析的关系

回归分析(Logistic Regression)直接估计其参数P(Y|X),而简单贝叶斯(Naïve Bayes)直接估计参数P(Y)和P(X|Y)。我们经常称前者为辨别式分类器(Discriminative classifier),后者为生成式分类器(Generative classifier)。

高斯简单贝叶斯分类器(GNB)的假设隐含着回归分析中参数P(Y|X)的形式,而且回归分析中的参数wi可以用高斯贝叶斯的参数来表示。事实上,如果GNB中的假设成立,那么GNB和回归分析就会向着相同的分类器收敛(随着训练样本的数量增加到无穷大)。

简单贝叶斯分类器和回归分析的区别

Ÿ 当GNB模型的假设不成立时,回归分析和GNB会学到不同的分类器函数,在这种情况下,回归分析的分类精度常常会比GNB的分类精度高。尽管回归分析和简单贝叶斯的假设一致,即输入特征Xi在给定Y的条件下是独立的,但是回归分析的假设不如简单贝叶斯的严格。如果给定的数据不严格遵守这个假设,那么回归分析的条件似然最大化算法将会自动调节自己的参数来最大化地拟合数据,即使参数结果和简单贝叶斯估计的参数不一致。

Ÿ GNB和回归分析以不同的速率向它们的精度渐近线收敛,GNB的参数估计以log n个样本收敛,n是X的维数;回归分析的参数估计的速率较慢,以n个样本收敛。在几个数据集上的测试表明,当训练样本的数量很多时回归分析优于GNB,但是当训练样本很稀少时,GNB则优于回归分析。

应该知道的知识

Ÿ 我们可以把贝叶斯规则作为设计学习算法(函数逼近)的一个基础:我们想学到一个目标函数f:XàY或者学到P(Y|X),我们使用训练数据来学习P(X|Y)和P(Y)的估计,然后可以用这些估计到的概率分布和贝叶斯法则来分类新的样本X。因为我们可以把分布P(X|Y)看作是在目标属性Y的条件下描述如何生成随机变量实例X,所以这种分类器叫生成式分类器。

Ÿ 学习贝叶斯分类器需要不切合实际数量的训练样本(比如大于|X|个训练样本,X是实例空间),除非作一些先验的假设。简单贝叶斯分类器假设描述X的所有的属性在给定Y的条件下是条件独立的。这个假设大大地减少了需要估计的参数的数目。简单贝叶斯是一个广泛使用的学习算法,而无论X是离散的还是连续的。

Ÿ 当X是由离散属性值组成的向量时,简单贝叶斯学习算法可以被看作是先线性分类器,即每个简单的贝叶斯分类器都对应着一个X空间中的决策超平面。对于高斯简单贝叶斯分类器,如果每个特征的方差对于类别是条件独立的(即σik=σi),那么也有前面的结论。

Ÿ 回归分析是一个函数逼近算法,和贝叶斯不同的是它用训练数据直接估计P(Y|X)。在这个意义上,回归分析常常被称为辨别式分类器,因为我们可以把分布P(Y|X)看作是对实例X的直接辨别分类。

Ÿ 回归分析是对X的一个线性分类器。在训练样本的数目趋于无穷时以及简单贝叶斯假设成立的条件下,由回归分析和高斯简单贝叶斯产生的线性分类器是相同的。然而,如果这些假设不成立,简单贝叶斯的偏差导致它的精度要比回归分析差一些。换句话说,和回归分析相比,简单贝叶斯是一个具有较大偏差、较小方差的学习算法。如果这个偏差对于给定的真实数据是适当的,简单贝叶斯是首选的,否则,回归分析是首选的。

Ÿ 我们可以把函数逼近学习算法看作是对函数或者条件分布P(Y|X)的统计估计。他们从训练数据中的一个样本估计P(Y|X)。和其他的统计估计一样,这对于通过他们的偏差和期望方差(在不同的训练数据样本上)来刻画学习算法是很有用的。

Reference:

[1] Generative and discriminative classifiers: naive bayes and logistic regression

夕阳西下

先来无事,拍张夕阳黄昏。

DSCN4104-2 DSCN4108-2

11月14日

Windows的文件比较工具WinDiff

原来windiff是随windows发布的啊,一直在用都不知道。
11月10日

北京的雪堪比哈尔滨

北京竟然也有这么大的雪,而且还这么早。早上废了九牛二虎之力终于走到了公司,边走边照了一些“雪景”,发文庆贺一下!
11月9日

学习什么是战略

前几天看了一本有关于战略方面的书《略胜一筹》,书不错,就是有些啰嗦,核心内容用几句话就可以概括了。简单总结如下:

战略的定义:战略的核心就是企业到底该做什么,不该做什么,有所不为才能有所为。该做什么有三个方面决定:第一,你到底想做什么?第二,在目前的社会政治经济、产业的大环境下,什么事情是可做的?第三,你能做什么?三者的交集才是你真正该做的。

· 当前的大环境:经济环境发生了根本性的变化——更加激烈、更加恶化。

· 在当前的环境下,企业的经营思路要从机会导向到战略导向、从资源整合到能力培养、从巧妙运作到系统管理的转变。

· 大舍才能大得:要放弃多元化,走专业化经营,发展自己的差异化。选择的时候要根据“该不该做”,而不是“可不可做”。

· 大赌才能大赢:选择的时候,要敢于冒险,没有冒险的选择不能形成战略优势。大赌必须是经过仔细计算得出的步骤,而不是漫无目的的瞎碰。

· 大拙才能打巧:战略的执行还需要系统的管理能力。大拙就是在坚持长期的战略发展方向时建立配套的全面的系统管理能力,这包括:资源、制度和企业文化。

· 企业要有危机意识:例如微软比尔盖茨说过:微软离破产永远只有18个月。

· 战略的特点:战略一定是痛苦的选择;战略要有差异化;战略要有前瞻性。

10月13日

访问量突破2万大关

刚发现的!庆祝一下!
10月12日

国庆8天哪也没去成

国庆过的很快,在家呆了7天半,就出去中关村转了半天,买了一个移动硬盘和几本书。
在家里做的事情其实很简单
  • 看看阅兵和晚会
  • 看看论文,帮老婆想想点子,想出来的都被别人做过了。
  • 看看闲书
  • 看看电影
  • 再就是做饭、吃饭、睡觉了

本来想去天安门看看,最后也没去成,比较遗憾,争取这周末去瞧瞧!

9月29日

祝祖国生日快乐吧

大半年没更新blog了,不知道是因为没什么写的,还是因为变得懒了。
国庆要到了,就祝祖国生日快乐吧。
3月8日

今天发现live地图不错

以前一直用baidu地图,觉得很好用,不过baidu也有不足的地方,例如查公交线路时不包括地铁。今天使用了live地图,查询线路中不仅包括地铁线路,而且还包括步行的部分线路,交通线路非常详细。另外还有北京实时交通图,可以根据实时交通信息来改变公交线路。真是很方便,大家不妨试试吧。http://ditu.live.com

今日冬至,据说要大降温

昨天半夜被大风刮醒了,半天没睡着,就听刮风了。今天起来还在刮,看来是要大降温了。通过新闻,知道北京有的地方都下鹅毛大雪了,不知道啥时候能下到我这个地方。最后告诫大家注意防寒保暖,别大过节的还往医院跑。今天是冬至,别忘了吃饺子啊!

下面图片转自sina:

U1831P1T1D16888230F21DT20081221024534

昨晚,通州一小区地面被雪覆盖。当晚9点40分左右,通州区果园环岛附近天空飘下大雪。今天是冬至,根据预报,白天本市气温将大幅降低,最高气温仅有零下7℃,并且伴有6级大风。

12月13日

小制作电影看情节,大制作看场面

刚从电影频道上看了一部电影,很感人。

我的儿子 

这是关于一个平凡人的不平凡故事。 故事的背后彰显的是摒弃狭隘自私观念之后的人性光辉。在波折与痛苦的心灵颤栗中,渺小的伟大和卑微的高尚,在观众的泪水中闪烁,最终导演以省略号作为影片故事的结尾,留给观众深邃漫长的审视和思考。
作为一部小成本的电影作品,影片艺术上的“做工考究”随处可见。强调人物的时代和身份背景,“刘全利”家里的家具在随着时间的递进慢慢购置;克服条件的艰苦和限制,镜头的运用和光线布置都严格遵循电影语言的特点,尽可能在视觉冲击和场面调度上做文章,从而实现纯粹中见丰富、平静中见波澜、舒缓中见力度。

入职一周年之小记

去年的12月12日,是我第一天正式参加工作。时间可真快,一转眼就过去了一年。

在此之前一直在学校“充电”,幼儿园(记不清几岁了),小学六年,中学三年+一年补习,高中三年,大学四年,硕士博士一共五年零两个月,加起来不少于22年。这数字够恐怖的,读了22年的书,但是还是感觉知识的贫乏。

贫乏表现在很多方面,首先是知识的广度太小,从大学开始到博士毕业,学的都是计算机,对其他领域一片空白。虽然对很多领域都很感兴趣,但是真的没有太多时间研究了。然后是知识的深度,虽说是计算机方向的博士,但对计算机领域的理解也很肤浅,掌握的知识也很陈旧,远跟不上计算机发展的步伐。

在刚刚过去的一年,每天都能学习不少新东西,有一些是工作中必须要学的,有一些是自己感兴趣学的,有的是和朋友同事聊天所了解的,总体来说还是很有收获的。所作的工作和自己以前的研究也有很大的相似性,做起来还算轻松。和那22年相比,这一年还是很短暂的,说明以后还有很长的路要走,太长远的不说(也不好说),近几年还是要好好充实自己,在干好自己的工作之外尽量多了解一些有意义的东西。

12月4日

自制最便宜的时光机!

教你自制最便宜的时光机 !

1、准备一张厚厚的,防水的,质量好的纸,至少要100克的,但表面不能太光滑,防止墨迹脱落。
2、在纸上用郑重的语气写上,给我的第N代子孙,我是你的祖先XXX,出生在XXXX年,
我留下这张纸的时间是XXX年.........................
3、按照以上的基调,写完这封信,明确提出要你的子孙坐时光机回来看你。
4、最后别忘了说一句,“如果你们那个年代还没发明时光机,请继续封存这封信
5、用一个绝对可靠的保险箱把这封信存起来,当然,要非常小心,
保证几百年后你的子孙必然会看到。
6、如果一切顺利,几分钟之内你就可以看到你的子孙坐着时光机,轰然而来。。。

成功的都来回个贴哦!

=======以下为某人的回帖==============

 

虽然这个逆向思维很牛逼,但必定不会成功,因为我们谁也没有看到子孙坐着时光机器来观看咱。为啥呢?我给出如下推理:

1,这封信不会被传那么久。
    从理论上,长年累月之后,这封信流失损毁的可能性接近必然。假如你写了这封信,则这封信的传承需要你的后代进行,你的后代看到这封信后,很可能不在意(谁会保留着自己没见过的一个N代之前的祖先留下的一纸狂言呢?如果我们的祖宗留下个啥东东,除非有收藏价值能换来钞票,否则。。。),直接扔掉;如果在意,则其定会自己也写一个流传后世,而且,出于自私考虑,会主动毁掉你写的那封,以便子孙们优先去看望他们。

2,假设你写的信没有被子孙毁掉,而是传下去了,这说明咱们的后代们都相信这件事,于是,到了能造时光机器的那一代,他们收到的信就会堆积如山,因为他的所有祖先都会给他写类似的信,到时候,他们来看望你的概率基本为零。

3,进一步假设你的子孙的确受到了你的这封信,并且立刻坐时光机器回来看望你了,则你的目的已经达到,你显然不会再用心保留这封信了,信就不可能传承下去,这是悖论;同时,咱们大家定会乘坐子孙带来的时光机器大批得回到我们的祖先时代去看望他们,而这种事情实际上没有发生,所以,假设不成立。

4,可以尝试一下,我们写下这封信是否会成功呢?目前我还没听说有成功的。事实上,假设你成功了,就会把这封信当作废纸扔掉;假设没成功,你更会把这封信扔掉。无论如何,这封信都无法传承下去。

5,上升到哲学高度,理想意义上的时光穿梭是不可能的,时间即是因果,因果即是先后,这是自然,人类大脑的思维和理解方式是有规则的,永远也无法超越自然。人类以后如果实现所谓的时光穿梭,只能是基于大脑层面的电子虚拟技术而已。

12月1日

原来007量子危机和量子没关系啊?

周末去电影院看了场007,片名是量子危机,可以看到最后也没有量子的影子。原以为是自己理解错了,结果同事和我的理解一样。其实影片就是用量子危机来达到吸引观众眼球的目的。影片也没有高潮,最后的打斗还不如开始的部分精彩。总之这部007很让人失望,远不如上部的皇家赌场。

007poster

11月29日

如何才能把锻炼身体落到实处?

今年下半年我通过公司办理了悠哉健身卡,本来想着每周都去锻炼一下,结果马上就要到年底了,才只去游了一次泳,打了一次羽毛球,利用率也太低了点。眼看着就要过期了,没办法,只好去找个高消费的地方打打保龄球,上周打了八局,这周又打了八局,照这样的消费也要好几周才能用完,争取年底之前全用完吧。

锻炼是一件很枯燥的事情,没有毅力是不能坚持的,自从进了公司,锻炼就更加少了。这几天的感冒估计也是不锻炼的原因。今年就这样了,明年还是要制定一个锻炼的计划,一定要落到实处,不能拿身体当儿戏。

11月28日

图片型PDF文件的OCR识别方法

昨天peach问我如何把PDF中的文字拷贝出来,而且PDF不是文字型(如doc转成的pdf),而是图片型(扫描生成)。我觉得典型的OCR识别技术应该可以解决,而且应该有不少工具。
昨天感冒难受得厉害,今天上网搜搜,原来office中就有这个工具“microsoft office document imaging”,试用一下,虽然不是100%的精确,但是总比一个字一个字的输入要快得多。具体的方法可以参考:http://www.51protocol.com/searches/39111.html,摘录如下:

1.工具:microsoft office document imaging(见Office 2003 工具)、Windows程序附件中的“画图”板。
2.图片文件格式:.tif(即Tag图像文件格式,tiff)
3.步骤:
A.在PDF文件中使用快照工具,选中需要识别的区域。提示“选定的区域已复制到了剪贴板”,点击“确定”。
B. 打开“画图”板,“开始--程序--附件--画图”,然后点“编辑--粘贴--文件--另存为”,在保存类型中选择Tiff,然后“保存”。
C.用microsoft office document imaging打开保存的文件,“开始--程序--Microsoft office--microsoft office工具--microsoft office document imaging”,接着点“工具--将文本发送到Word”,去掉“在输出时保持图片版式不变”前面选择框中的“√”,然后确定。
D.在弹出的Word中即可进行编辑,识别完成。
4.注意事项:
A.PDF原稿越清晰识别效果越好,建议放大到200%使用快照工具。
B.其他格式图片应先转换为tif格式,用“画图”板打开然后另存就可以。
C.使用快照工具时选区边界尽量放宽,避免靠边的字无法正确识别。
D.支持跨栏选择的文字,识别后段落正常。
E.使用快照工具时,避免一次选择太大范围,造成死机。
F.如果识别后全为乱码,注意microsoft office document imaging的OCR选项是否为相应语言,“工具--选项--OCR--OCR语言(中英文选择)--确定”。

注:(1)默认的office并没有按照这个工具,在安装过程中需要把这个工具添加进来。(2)需要中文版的office才能识别中文字符。 (3)PDF文件进行OCR识别的一种方法(TH-OCR 2007+Adobe Acrobat professional 8.0)