nutchのWordExtractorでStringIndexOutOfBoundsExceptionが起きる

nutch-0.9に含まれるWordExtractorを使って日本語を含むMicrosoft Wordファイルをテキスト化しようとしたら

java.lang.StringIndexOutOfBoundsException: String index out of range: -101
	at java.lang.AbstractStringBuilder.substring(AbstractStringBuilder.java:881)
	at java.lang.StringBuffer.substring(StringBuffer.java:416)
	at org.apache.poi.hwpf.model.TextPiece.substring(TextPiece.java:88)
	at org.apache.nutch.parse.msword.WordExtractor.extractText(WordExtractor.java:190)
	at org.apache.nutch.parse.msword.Test.main(Test.java:41)

こんな例外が起きる。

(さらに…)

投稿者:sato 投稿日時:

Obsoleteの抑制

通常、将来的に廃止される予定のメソッド等にObsoleteアトリビュートを付加する事により、コンパイル時に警告を出す事が出来る。この機能を利用して、あまり理解してない人に利用して欲しくないメソッドに警告を出すようにしている。(本来は、そもそも使えないようにすれば良いのだけれども、、実プロジェクトで大規模なリファクタリングをする時間が無い事は多々あるので…) (さらに…)

投稿者:koreyasu 投稿日時:

ListView GroupとSortの併用

どうもListViewの標準的なインタフェースだけではGroup化とSortの併用はできないみたいです。
現状としては、

  • Group化されていない時はSort可能
  • Group化されている時はSort不可能

という状態。色々探してみたけど良い方法が見つからず、諦めてListViewItemsを自分でソートする事により解決しました。
何が良い方法を知ってる人がいればよろしくOrz (さらに…)

投稿者:koreyasu 投稿日時:

やっちゃたよ俺様JavaVM

ある日、非常に控えめのOS上で動くプログラムをC++で作って欲しいと頼まれました。C++はいろいろと面倒なのであまりできれば使いたくありません。そこで、だめもとで交渉したところ「リアルタイム性が保証できるんだったらJavaでもいいですよ」ということだったので、俺様JavaVM(Virtual Machine)を作ることにしました。そういう訳で、たまに俺様JavaVMの状況を報告します。

(さらに…)

投稿者:Yamaguchi Youhei 投稿日時:

外付けUSBハードディスクのファイルシステムをFAT32からNTFSに変換する

5GBのDVDイメージを外付けUSBハードディスク(以下 USB HDD)にコピーしようとしたら、USB HDDの容量が足りないというエラーが発生。
USB HDDの残容量は43GBぐらいあるのにおかしい。んで、FAT32はファイルサイズに4GBの制限があることを思い出した。

FAT32をフォーマットなしにNTFSに変換するを参考にしながら変換した時のメモ。

(さらに…)

投稿者:sato 投稿日時: