±âŸ(framework)
2017.07.10 / 17:16

Java À¥Å©·Ñ¸µ(Web Crawling) ÀÚ·á ¼Ò½º ¿¹Á¦

XMaLL°ü¸®ÀÚ
Ãßõ ¼ö 503

Java À¥Å©·Ñ¸µ(Web Crawling) ÀÚ·á ¼Ò½º ¿¹Á¦



ÀÚ¹Ù¸¦ ÀÌ¿ëÇÑ À¥ Å©·Ñ·¯ ¸¸µé±â

ÇØ´ç ¿¹Á¦´Â ÇÁ·ÎÁ§Æ® »ý¼º¿¡ °üÇÑ ºÎºÐÀÇ ³»¿ëÀ» Âü°íÇϱâ ÁÁÀ½


»ç¿ëÇÏ´Â ¶óÀ̺귯¸®´Â

 - commons-logging-1.2.jar

 - httpclient-4.5.2.jar

 - httpcore-4.4.4.jar


http://derveljunit.tistory.com/253



jsoup - ÀÚ¹Ù¸¦ À§ÇÑ Beautiful Soup (HTML parser)

ÇØ´ç ¿¹Á¦´Â ¿øÇÏ´Â Element¸¦ ÃßÃâÇϴµ¥ Âü°íÇϱâ ÁÁÀ½


ÀÚ¹ÙÀÇ jsoup HTML Æļ­¸¦ »ç¿ë


HTML¹®¼­¸¦ Àаí, DOM°´Ã¼·Î º¯È¯ÈÄ¿¡

selector api¸¦ ÀÌ¿ëÇؼ­ ƯÁ¤ Element¿¡ Á¢±Ù


http://edoli.tistory.com/95



jsoup : Parse a document from a String




HTML ¹®¼­À» StringÀ¸·Î Àаí, Tag¸¦ selectÇÏ¿© text¸¦ ¾ò¾î³»´Â ¿¹Á¦


https://jsoup.org/cookbook/input/parse-document-from-string



: jsoup ´Ù¿î·Îµå



À¥ Å©·Ñ¸µ Àû¿ë »ç·Ê


 [NDC2014]½±°Ô µû¶ó ÇÒ ¼öÀÖ´Â "²Ï" ÈǸ¢ÇÑ À¯Àú µ¿Ç⠺м® ½Ã½ºÅÛ

http://www.slideshare.net/mrfoundation21/ss-35511996



Ãâó: http://printhelloworld.tistory.com/20 [PrintHelloWorld]