nutchのWordExtractorでStringIndexOutOfBoundsExceptionが起きる

nutch-0.9に含まれるWordExtractorを使って日本語を含むMicrosoft Wordファイルをテキスト化しようとしたら

java.lang.StringIndexOutOfBoundsException: String index out of range: -101
	at java.lang.AbstractStringBuilder.substring(AbstractStringBuilder.java:881)
	at java.lang.StringBuffer.substring(StringBuffer.java:416)
	at org.apache.poi.hwpf.model.TextPiece.substring(TextPiece.java:88)
	at org.apache.nutch.parse.msword.WordExtractor.extractText(WordExtractor.java:190)
	at org.apache.nutch.parse.msword.Test.main(Test.java:41)

こんな例外が起きる。

(さらに…)

投稿者:sato 投稿日時:

外付けUSBハードディスクのファイルシステムをFAT32からNTFSに変換する

5GBのDVDイメージを外付けUSBハードディスク(以下 USB HDD)にコピーしようとしたら、USB HDDの容量が足りないというエラーが発生。
USB HDDの残容量は43GBぐらいあるのにおかしい。んで、FAT32はファイルサイズに4GBの制限があることを思い出した。

FAT32をフォーマットなしにNTFSに変換するを参考にしながら変換した時のメモ。

(さらに…)

投稿者:sato 投稿日時:

SubversionのBerkeley DBが壊れた

壊れやすいと噂には聞いていたけど、SubversionのBerkeley DBが初めて壊れた。

Eclipseでupdate中にこんなエラーがでる。

update -r HEAD C:/develop/europa/initializeScript
    Berkeley DB error
svn: PROPFIND request failed on '/svn/sandbox/initializeScript'
svn: Could not open the requested SVN filesystem

Berkeley DB 壊れる。 そして直る!を参考に直した。

$ svnadmin recover (REPODIR)
$ rm -f (REPODIR)/db/log.*
$ chown -R (REPOOWNER):(REPOOWNER) (REPODIR)

(REPODIR)と(REPOOWNER)は適当に読み替えてください。

・・・やっぱ、fsfsにした方が無難ですかね。

(さらに…)

投稿者:sato 投稿日時: