文書生活 : TEXT LIFE

文書のある生活

RSS普及すると同じ情報が複数届く

ニュースサイトがRSS配信するケースが増えて、ようやくRSS Readerも本来の使い方が出来るようになってきた。しかし、複数のニュースサイトをReaderに登録すると、同じニュースが色々なニュースサイトで配信されてしまう。これはなんとかならないだろうか?ニュースの本文からキーワードを抽出(分かち書きして出現回数が多い単語を選択)して、二つのニュースのキーワード群のANDをとり、同一キーワードの出現回数の和を計算し、これを各キーワードのスコアとする。

このスコアをバネ定数とし、キーワード個数をバネ本数とする複数のバネでニュース間を接続する物理モデルを視覚化すると面白いかもね。関連が強く類似性の高いニュースは近距離にマッピングされ、関連はあるが類似性の低いニュースは遠距離にマッピング。ニュースに対してある時系列的変動を持つ運動を外乱として与えて挙動を観察してみたいもんだ。