技術情報
nutchのWordExtractorでStringIndexOutOfBoundsExceptionが起きる
nutch-0.9に含まれるWordExtractorを使って日本語を含むMicrosoft Wordファイルをテキスト化しようとしたら
java.lang.StringIndexOutOfBoundsException: String index out of range: -101 at java.lang.AbstractStringBuilder.substring(AbstractStringBuilder.java:881) at java.lang.StringBuffer.substring(StringBuffer.java:416) at org.apache.poi.hwpf.model.TextPiece.substring(TextPiece.java:88) at org.apache.nutch.parse.msword.WordExtractor.extractText(WordExtractor.java:190) at org.apache.nutch.parse.msword.Test.main(Test.java:41)
こんな例外が起きる。