こんにちはゲストさん。会員登録(無料)して質問・回答してみよう!

解決済みの質問

Javascriptを含むHTML構文解析プログラム

JavaとJavascriptどちらに質問すべきか迷ったのですが
こちらで質問させていただきます。

Javascriptを含むWebサイトのHTMLの構文を解析して、
そのサイトに表示されるデータなどを収集するjavaプログラムを作りたいんです。

Googleなどでいろいろ検索して調べたのですが、
このようなことを解説してくれているサイトが見当たらなかったので
解説してくれているサイトだとか書籍などを紹介していただきたいのです。

また、どのように作成していけばいいのか、大まかな流れだとかヒントになるようなことを教えていただいてもうれしいです。

Javascript自体は現在勉強中なレベルなのでまずはそこからではあるんですが・・・。

投稿日時 - 2008-08-08 18:58:31

QNo.4237503

困ってます

質問者が選んだベストアンサー

>どのように作成していけばいいのか、大まかな流れ
どうも Javascript 以前に HTML やWebブラウザといったWebの基礎技術の理解が不足しているように思われます。
「Javascript自体は現在勉強中」というのは「Javascriptの役割はすでに理解していて、実際の言語仕様などを現在勉強中」という意味に自分は誤解してしまったようです。

いきなり Java のコードを書こうとするよりまずは Web の基礎技術を学んでみてください。
Webブラウザはまさに「Javascriptを含むWebサイトのHTMLの構文を解析して、そのサイトに表示されるデータなどを収集するプログラム」ですから、
ブラウザが何をしているのかわかれば、ご自分のやりたいことを実現する手段は見えてきます。
そうなったらあとは必要なパーサやスクリプトエンジンといったライブラリを用意するだけです。

そのプログラムが具体的に何をしたいのか示されていないので、これ以上具体的な流れはお答えする方法がありません。同様の理由で、

>上記のリンク先の文書に書いてあるような解析方法でいいのでしょうか?

という質問の答えがわかるのは、質問者のかただけです。

投稿日時 - 2008-08-15 01:58:00

このQ&Aは役に立ちましたか?

5人が「このQ&Aが役に立った」と投票しています

回答(3)

ANo.2

どの程度使えるものなのかは自分は知らないのですが、
JavaSE には標準でHTML パーサが搭載されているようです。

http://java.sun.com/javase/ja/6/docs/ja/api/javax/swing/text/html/parser/package-summary.html

また、「HTML パーサ」というキーワードで検索してみると、以下のようなものが見つかりました。

http://htmlparser.sourceforge.net/

また、Java向けのJavascriotエンジンとしてはRhinoががあります。
これはSun の JavaSE6 には標準で搭載されるようになりました。

http://www.mozilla.org/rhino/

http://java.sun.com/javase/ja/6/docs/ja/technotes/guides/scripting/index.html

これだけ揃っていればHTMLの解析は難しくは内容に思います。

投稿日時 - 2008-08-08 19:48:22

お礼

回答ありがとうございます。
またしても返事が遅れて申し訳ありません。

RhinoはJavaScriptのコードをJavaのクラスへと変換するものということですが、
これを利用してJavascriptの解析をどのようにすればいいんでしょうか・・・?
質問ばかりですいません。

投稿日時 - 2008-08-11 01:01:32

ANo.1

??
DOM辺りで調べたらそれなりの情報が得られるんじゃないかな

後は完全にレンダリングさせた結果を得られる方法を探すとか。

投稿日時 - 2008-08-08 19:32:26

お礼

回答ありがとうございます。
返事が遅くなって申し訳ありません。

いろいろDOMを調べてみたのですが、
http://sel.ist.osaka-u.ac.jp/~lab-db/betuzuri/archive/375/375.pdf

おおまかな流れとしては、
上記のリンク先の文書に書いてあるような解析方法でいいのでしょうか?

投稿日時 - 2008-08-11 00:53:04

あなたにオススメの質問