::SinRain:: Simple Dream Easy Go » 日志 » MyRss之二---需求和必要性
MyRss之二---需求和必要性
Rain 发表于 2008-04-22 19:13:06
听从Solrex的建议,在学习的时候直接看Python的tutorial和Lib,然后通过写一些简单的代码来逐步熟悉库:)
Mock Bank的测试工作已经进行的差不多了,最近要集中精力来做这个“可配置的Spider”
这个玩意的需求是具有普遍性的,我们有时候会去搜索引擎反复的搜索某个关键字,比如特别关注奥运的 可能每天都去搜索下和奥运有关的新闻。但是这么做的人倒没有想象的多,就是因为搜索引擎的重复结果太令人烦躁了。这个东西很讨厌,我举个例子就很清楚了:
单击显示大图

当然这个是冗余中的一种:由于转载引起的搜索结果冗余
另外一种我管他叫挖坟,什么叫挖坟:历史沉淀引起的结果冗余。
Google下 奥运火炬就可以了。很多奥运火炬手选拔的网页由于SEO的作用很靠前,那么我最想看的敏感事件呢,基本是没有的。
现在Google news已经做得很好了,但是出于学习的态度和扩展性的态度。还是试探性的写写吧:)
-------------------------------------------
需求有哪些:
1 通过订阅Google news RSS的方式 可以最简单的获得主流媒体对订阅关键字的报道和相应。
2 通过制定crawl的起始页面和爬行的深度 可以爬到某些特定相关网页上的内容。然后再过滤显示。
3 对整理到的News整理入库,新入库的文章要去重复。
4 可以对觉得好的News加标记,并且可以导出到XML文档里面。
5 能自动运行,并且发现新的News能弹出notify.
6 最好能有个友好的GUI
--------------------------------------------
目前已经做的:
1 通过引入feedparser可以实现对指定rss的解析【Done】
2 crawl的问题也能解决 难点在于如何把html中的信息再有效的提取出来,html实在太混乱了!实在不行就全部显示出来,去掉图片。【To be done】
3 调用db库可以方便的操作数据库【Done】
4 重复的问题 使用马上要说的对标题最长模式匹配来做吧【Done】
5 自动运行 弹出notify的东西就弹出一个dialogue,然后高亮新出来的玩意就好。
6 GUI的东西wxPython in Python是个很简洁的书:
http://www.pythontik.com/blog/article.asp?id=177 有热心的pythoner翻译成CN了,赞一下。




