2011年4月25日星期一

第四周 4/18~4/25

这周,事情比较多,在课题上花的时间少了。
针对推荐算法,做了点调研。

在这过程中,接触到了“无觅网”,一个社会化新闻分享与推荐的网
按他的说法是,“利用人工智能的技术,根据你喜欢的网页,在众多的网页中找出你感兴趣的内容
但真正用下来,不是很理想。
关键字提取或是主题提取技术做的比较粗糙。有的关键字,根本就无关于文章。
推荐的文章也很没新意,在文章来源上也没做好工作。

与课题的相同点
这个思路跟之前预想的课题功能基本一样,同样是提取主题词、关键字,基于这个基础做个简单的个性化推荐算法。

不同点
对比无觅网,信息来源很不同。
无觅网是从internet上找文章;课题中,从信息来源来说,是比较单一的。
来源只有用户关注博友的信息,除非添加诸如推荐用户一些活跃博友的功能。

从这个角度来看,本课题只是运用推荐算法来达到过滤的作用。
还有一点,微博信息只有140个字,提取关键字方面还是有很大帮助的。

为什么是基于微博,而不是基于人人。
这要从微博是什么谈起。
微博只是个提供信息的平台。
80/20法则貌似蛮时髦的,听说能让文章增色不少,套用在这里也合适。
In short,就我观察下来的情况。
一直是名人、某某组织织微博,大量用户做的事情,只有看、转发、吐槽下,而这不算有效信息。
再说,信息不对等。名人的微博只有十几二十的关注,被关注则至少是上万的。
所以说微博只是个提供信息的平台。
使用过滤系统还是有可行性的。

没有评论:

发表评论