2011年4月10日星期日

课题第二周记录 4.4~4.10

关于自然语言处理的知识实在太多,看着看着偏离了原来的课题需要了。

根据已有的知识,我对课题做了三方面的分析:
  • 构建语料库
  • 过滤系统
  • 情感强度分析

关于构建微博语料库,这是为过滤系统服务的。语料库,简单来说就是把文本资料收集在一起。
借鉴北大语料库,其实是个全文检索系统,我想依据已有的积累:中科院ICTCLAS分词库和LUCENE搜索引擎库能完成。欠缺的是语料的来源,这点上Python应该能帮上忙吧???

如果有可能的话,可以靠过滤系统来得到语料库,而语料库通过本身的不断扩大,提供更精准的过滤系统算法参数,我想这算是个自学习的过程。

至于在已有的语料库中进行分类要靠数据挖掘和模式识别的知识了,这是后话。

过滤系统的关键在于提取主题、关键字。在这方面只知道根据词频来提取关键字的方法,这种方面的硬伤就是需要一个现有的语料库来提供先验知识,比如某单词在全局的统计概率。根据这个来做个雏形,先找个好点语料库!
进一步需要看些文献??

至于情感强度分析,这个看情况再做了,最简单的就是积极、消极、中性三值判断了。

跟老师与研究生学长的讨论,先把过滤系统做出个雏形来。在讨论过程中,说道了词汇知识库 什么的,要去研究下。
至于与新浪微博相契合,应该看看@Python发烧友的FaWave的原理,先放下这部分。
另外网购了本书《统计自然语言处理》,对我的扫盲工作做得很好。

没有评论:

发表评论