光与暗: 课题第一周记录 3.28~4.2

最近迷上新浪微博，正好本课题又有关微博信息，就选了这个题目。

做了下调研，看到了一些关于中文歧义的笑话，比如《佟大为妻子生下一女婴》——跟帖：“佟大是谁啊？这么厉害！能生孩子！” ，被中文分词所吸引。

看了很多文章，然而对这方面的理论和知识都不熟悉，初看文章都是各种算法和基于统计的数学模型，发现给自己挖了个大坑。

找到哈工大的在线分词系统，对上面这段笑话能正确分出；而后在研究生学长的推荐下，看了下中科院的中文分词库，蛮实用的。

要不是有这些现成的系统，课题后续工作很难做下去的，从头做起也是件吃力不讨好的事情。

在这调研的过程中，学到很多知识，虽然对这个课题不大有帮助。

这个课题的领域是在自然语言处理之下的，而自然语言处理又是个交叉学科，融合了很多其他的专业知识，知识浩瀚呢。

虽然不一定能把课题做得很好，但在这段过程中也算积累了一些旁门左道的知识。不然也没机会接触这些东西。尽力而为，做完这个课题。

光与暗