2011年4月18日星期一

课题第三周 4.11~4.17

  困境
课题陷入困难,发现之前基于语料库的设计有严重的弊端:
即使有一个非常全面的语料库,但也没有计算资源来得到比如某个单词出现的数量这种看似简单的问题。
更何况自己收集的语料库,一定存在数据存储和数据缺失片面的问题。
以上感想是基于一本叫《beautiful data》中第十四章中关于语料库的描述所发。
需要另辟蹊径了。


进展
接触了下新浪微博API,将课题与新浪微博契合的问题算是解决了。
初步用ASP.NET写了些网页,主要是提取用户信息和提取微博信息。
提取微博信息是关键,在此基础再加上对文本进行关键字提取的方法。
之前的关键字提取设想遇到困难,根据微博信息的形式,我做出如下决定:
1.         有些以组织形式发布的微博信息是“【主题】内容”这种形式的,这样只需提取“【】”内的内容。
2.         更多的是个人用户,没有如上形式,只能对全局内容进行提取。
3.         提取的方式:中文分词库选出文本中的名词,动词,形容词等比较有代表性的词(“的”这样的词算是停用词,不予考虑),计算在文本中的词频;还有对于名词、形容词,应该给予两种不同的权重,名词更重;得到比重大的几个关键字。

展望
上述工作还算是可行,但是课题做得非常空洞。
一直上网,豆瓣的推荐算法和各种电子商务网站的商品推荐给人很好的印象,这种推荐从另一种程度上也算是一种过滤系统,只给你想要的资源。
是不是也应该给用户对微博信息“喜欢”和“不喜欢”的操作,之前在学校的时候也学过《模式识别》课,知道点比如“贝叶斯分类器”对信息进行分类的算法。
微博信息的表现形式就是几个关键字。
关键字就是特征,有多少关键字,就是多少维的特征向量。
比较棘手的,是随着不断获取微博信息,关键字是不断增加的。
这些只是初步设想,可行性上还没考虑过,最近也会看这方面的书。



没有评论:

发表评论