私の正規表現 ~ブクマ編~
私の正規表現 ~ブクマ編~
よく他サイトのURLを引用したいときに
記事タイトル
記事URL
という具合に当たり前のように並べます。
このとき私は、記事タイトルが長ったらしくなるのが嫌なので
定型の部分は、はずすことが多いです。
ここでいう「定型の部分」とは
たとえば
Yahoo!ニュース – 毎日新聞 – <自民総裁選>「福田総裁」強まる 議員支持、過半数に
http://headlines.yahoo.co.jp/hl?a=20070914-00000014-mai-pol
というような記事があった場合に
<自民総裁選>「福田総裁」強まる 議員支持、過半数に
http://headlines.yahoo.co.jp/hl?a=20070914-00000014-mai-pol
として、
Yahoo!ニュース – 毎日新聞 –
を取ってしまう、ということです。
Yahoo!ニュースでは、
この Yahoo!ニュース という部分と
ほにゃらら新聞 という部分が
毎回決まったパターンで出現します。
大量の定型文字削除が発生する場合は、
正規表現置換が便利です。
ちなみに私が使ってるエディタは秀丸です。
私がよく見る
大型ニュースサイト定型文字削除用 正規表現を
無意味ながら少しだけ以下に列記しておきますので
必要があるかどうかわかりませんが、
必要でしたら使ってみてください。
正規表現や秀丸の使い方に関する
チュートリアルはここでは
割愛させていただきます。
.+\f – CNET Japan
\0.+\f – \f.+\f \[ITmedia オルタナティブ・ブログ\]
\0.+\f by \f.+\f\[クックパッド\]簡単おいしいみんなのレシピが18万品!
\0Yahoo!ニュース – \f.+\f – \f.+
\3Amazon.co.jp: \f.+\f: \f.+
\1