光与暗: 课题第二周记录 4.4~4.10

关于自然语言处理的知识实在太多，看着看着偏离了原来的课题需要了。

根据已有的知识，我对课题做了三方面的分析：

一

关于构建微博语料库，这是为过滤系统服务的。语料库，简单来说就是把文本资料收集在一起。

借鉴北大语料库，其实是个全文检索系统，我想依据已有的积累：中科院ICTCLAS分词库和LUCENE搜索引擎库能完成。欠缺的是语料的来源，这点上Python应该能帮上忙吧？？？

如果有可能的话，可以靠过滤系统来得到语料库，而语料库通过本身的不断扩大，提供更精准的过滤系统算法参数，我想这算是个自学习的过程。

至于在已有的语料库中进行分类要靠数据挖掘和模式识别的知识了，这是后话。

二

过滤系统的关键在于提取主题、关键字。在这方面只知道根据词频来提取关键字的方法，这种方面的硬伤就是需要一个现有的语料库来提供先验知识，比如某单词在全局的统计概率。根据这个来做个雏形，先找个好点语料库！

进一步需要看些文献？？

三

至于情感强度分析，这个看情况再做了，最简单的就是积极、消极、中性三值判断了。

四

跟老师与研究生学长的讨论，先把过滤系统做出个雏形来。在讨论过程中，说道了词汇知识库什么的，要去研究下。

至于与新浪微博相契合，应该看看@Python发烧友的FaWave的原理，先放下这部分。

另外网购了本书《统计自然语言处理》，对我的扫盲工作做得很好。

光与暗