nutchのWordExtractorでStringIndexOutOfBoundsExceptionが起きる

nutch-0.9に含まれるWordExtractorを使って日本語を含むMicrosoft Wordファイルをテキスト化しようとしたら

java.lang.StringIndexOutOfBoundsException: String index out of range: -101
	at java.lang.AbstractStringBuilder.substring(AbstractStringBuilder.java:881)
	at java.lang.StringBuffer.substring(StringBuffer.java:416)
	at org.apache.poi.hwpf.model.TextPiece.substring(TextPiece.java:88)
	at org.apache.nutch.parse.msword.WordExtractor.extractText(WordExtractor.java:190)
	at org.apache.nutch.parse.msword.Test.main(Test.java:41)

こんな例外が起きる。

(さらに…)

投稿者:sato 投稿日時:

Obsoleteの抑制

通常、将来的に廃止される予定のメソッド等にObsoleteアトリビュートを付加する事により、コンパイル時に警告を出す事が出来る。この機能を利用して、あまり理解してない人に利用して欲しくないメソッドに警告を出すようにしている。(本来は、そもそも使えないようにすれば良いのだけれども、、実プロジェクトで大規模なリファクタリングをする時間が無い事は多々あるので…) (さらに…)

投稿者:koreyasu 投稿日時:

ListView GroupとSortの併用

どうもListViewの標準的なインタフェースだけではGroup化とSortの併用はできないみたいです。
現状としては、

  • Group化されていない時はSort可能
  • Group化されている時はSort不可能

という状態。色々探してみたけど良い方法が見つからず、諦めてListViewItemsを自分でソートする事により解決しました。
何が良い方法を知ってる人がいればよろしくOrz (さらに…)

投稿者:koreyasu 投稿日時: