仕事の調査でとあるアンカータグ(aタグのname属性が決まっている)の中身を
抜き出さなくてはいけなくなりました。
今までは文字列ベースで正規表現でゴリゴリやったりしてたのですが、
先日、NekoHTMLってのが便利だよ、と教えてもらいました。
早速試してみました↓ すげー簡単&便利〜
=========
import org.cyberneko.html.parsers.DOMParser;
import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.NodeList;
public class NekoHTMLParser {
public static void main(String args[]) throws Exception{
DOMParser parser = new DOMParser();
parser.parse(“http://localhost/test/index.html”);
Document document = parser.getDocument();
NodeList nodeList = document.getElementsByTagName(“a”);
for(int i=0; i < nodeList.getLength(); i++){
Element element = (Element)nodeList.item(i);
if (element.getAttribute("name").equals("HOGEHOGE")) {
System.out.println(element.getTextContent());
}
}
}
}
=========
コメント