Nutchのキャッシュ文字化け問題

Nutchインストール & クロール


こちらの手順でさっくりインストール & クロールできます。
http://d.hatena.ne.jp/knaka20blue/20090602

knaka20blueさんに感謝!

cache文字化け対処 方法1.cached.jspを修正する


修正するファイル:$CATALINA_HOME/webapps/nutch/cached.jsp

・29行目付近に↓を追加


import="org.apache.nutch.util.EncodingDetector"


・55行目付近を修正

encoding = (String) metaData.get("CharEncodingForConversion");

encoding = EncodingDetector.parseCharacterEncoding((String) metaData.get("Content-Type"));


cache文字化け対処 方法2.HtmlParserを修正する


※以下、/usr/local/src/nutch-2009-06-09_04-01-14/ は適宜環境に合わせて読み替えて
下さい。

・修正するファイル: /usr/local/src/nutch-2009-06-09_04-01-14/src/plugin/parse-html/src/java/org/apache/nutch/parse/html/HtmlParser.java

・127行目付近を修正

Metadata metadata = new Metadata();

Metadata metadata = content.getMetadata();


・jar ファイルを作る

cd /usr/local/src/nutch-2009-06-09_04-01-14/
ant
cp /usr/local/src/nutch-2009-06-09_04-01-14/build/parse-html/parse-html.jar /usr/local/src/nutch-2009-06-09_04-01-14/plugins/parse-html/parse-html.jar


cache文字化け対処どちらにするか・・・

バグなので対処2が本来とは思うものの、対処1でも軽く試すだけならいい気がする。
でもバグがどこまで影響あるか分からないから、本格的にNutch使うなら対処2を選択したほうがいいのかなぁ。

0 コメント: