2011年4月10日星期日

课题第一周记录 3.28~4.2

最近迷上新浪微博,正好本课题又有关微博信息,就选了这个题目。
做了下调研,看到了一些关于中文歧义的笑话,比如《佟大为妻子生下一女婴》——跟帖:佟大是谁啊?这么厉害!能生孩子!” ,被中文分词所吸引。

看了很多文章,然而对这方面的理论和知识都不熟悉,初看文章都是各种算法和基于统计的数学模型,发现给自己挖了个大坑。

找到哈工大的在线分词系统,对上面这段笑话能正确分出;而后在研究生学长的推荐下,看了下中科院的中文分词库,蛮实用的。

要不是有这些现成的系统,课题后续工作很难做下去的,从头做起也是件吃力不讨好的事情。
在这调研的过程中,学到很多知识,虽然对这个课题不大有帮助。



  •    找到了好几个非常不错的博客,了解很多知名IT公司的起源与计算机历史
  •  一系列关于数学的文章,数学这么有趣
  •    懂了索引系统的原理,找到个全文搜索引擎



这个课题的领域是在自然语言处理之下的,而自然语言处理又是个交叉学科,融合了很多其他的专业知识,知识浩瀚呢。

虽然不一定能把课题做得很好,但在这段过程中也算积累了一些旁门左道的知识。不然也没机会接触这些东西。尽力而为,做完这个课题。

没有评论:

发表评论