±âȹÄ÷³
2017.07.07 / 10:25

µ¥ÀÌÅÍ´Â ¾î¶»°Ô Á¤¸®µÇ°í °Ë»öµÉ±î?

Ŭ·¡½Ä·Î¾â

¾È³çÇϼ¼¿ä. LG CNS ´ëÇлý ±âÀÚ´Ü 6±â Á¶¼­¿øÀÔ´Ï´Ù.


ÀÌÁ¦´Â ¶¿·¡¾ß ¶¿ ¼ö ¾ø´Â ½º¸¶Æ®Æù½º¸¶Æ®ÆùÀÇ ¼ö¸¹Àº ±â´É Áß ¿©·¯ºÐÀÌ °¡Àå ÀÚÁÖ »ç¿ëÇÏ´Â ±â´ÉÀº ¹«¾ùÀΰ¡¿ä?

 

Àú´Â Æ÷ÅÐ »çÀÌÆ® °Ë»ö¾î ¼øÀ§¸¦ È®ÀÎÇϰųª±Ã±ÝÇÑ Á¤º¸¸¦ ã¾Æº¸°íÀڷḦ ÀúÀåÇÏ´Â µî ÀÎÅͳÝÀ» ¸¹ÀÌ È°¿ëÇÏ°í Àִµ¥¿ä±×·¯´ø ¾î´À ³¯ ¹®µæ ³»°¡ ¸¸µé°íã¾Æ¼­ ÀÌ¿ëÇÏ´Â ¼ö¸¹Àº µ¥ÀÌÅ͵éÀÌ ¾îµð¿¡ ÀúÀåµÇ°í¾î¶»°Ô º¸À̴°¡¿¡ ´ëÇÑ ¿ø¸®°¡ ±Ã±ÝÇØÁ³½À´Ï´Ù.

 

 

¼ö¸¹Àº »ç¶÷µéÀÌ »ý»êÇØ ³»´Â µ¥ÀÌÅ͵éÀÌ º¸ÀÌÁö ¾Ê´Â ¾îµò°¡¿¡ ÀúÀåµÇ°í ÀÖÀ» ÅÙµ¥¿ä. ÀÌ·± ¾î¸¶¾î¸¶ÇÑ ±Ô¸ðÀÇ ºòµ¥ÀÌÅÍ°¡ ¾îµð¿¡¼­ °ü¸®µÇ°í¾î¶»°Ô °Ë»ö °á°ú·Î º¸ÀÌ°Ô µÇ´Â °ÍÀϱî¿ä

 

±×·³ Áö±ÝºÎÅÍ ¡®ºòµ¥ÀÌÅÍ°¡ ¾î¶»°Ô 󸮵Ǿ °Ë»ö °á°ú·Î º¸À̴°¡¡¯¿¡ ´ëÇÑ ±Ã±ÝÁõÀ» °°ÀÌ ÇØ°áÇØ º¸µµ·Ï ÇÏ°Ú½À´Ï´Ù.

 

 ºòµ¥ÀÌÅÍ ºÐ»ê ó¸® ±â¼ú, ¡®Hadoop¡¯


¸ÕÀú, ºòµ¥ÀÌÅ͸¦ ó¸®, ºÐ¼®ÇÒ ¶§ °¡Àå ¸¹ÀÌ »ç¿ëµÇ´Â ÇϵÓ(Hadoop)¿¡ ´ëÇØ ¾Ë¾Æº¼±î¿ä?

 

¨ç ÇϵÓÀÇ °³³ä

 

ÇϵÓÀ̶õ, ¾ÆÆÄÄ¡ ·ç¾À â½ÃÀÚÀÎ ¹Ì±¹ ÇÁ·Î±×·¡¸Ó ´õ±× Ä¿ÆÃ(Doug Cuting)ÀÌ 2004³â¿¡ ¹æ´ëÇÑ µ¥ÀÌÅÍ Ã³¸®¸¦ À§ÇØ ±¸±ÛÀÇ ¸Ê¸®µà½º(MapReduce) µîÀ» È°¿ëÇØ °³¹ßÇÑ ½Ã½ºÅÛÀ¸·Î, Àú°¡ÀÇ ¼­¹ö¿Í Çϵåµð½ºÅ©¸¦ ÀÌ¿ëÇØ ºòµ¥ÀÌÅ͸¦ »ó´ëÀûÀ¸·Î ½±°Ô ÀúÀåÇÒ ¼ö ÀÖ´Â ºÐ»êÇü ÆÄÀÏ ½Ã½ºÅÛÀÔ´Ï´Ù. 


ÇÏµÓ µîÀå ÀÌÀü ´ë¿ë·® µ¥ÀÌÅÍ´Â ½´ÆÛÄÄÇ»ÅÍ µî °í°¡ÀÇ ÀåÄ¡¸¦ ÀÌ¿ëÇØ Ã³¸®µÇ¾ú½À´Ï´Ù. ÀúÀå °ø°£À̳ª ÄÄÇ»Æà ÀÚ¿ø ºÎÁ·, ³ôÀº ºñ¿ë ¼Ò¸ð¿¡ ´ëÇÑ ºÎ´ã°ú °ü·Ã ±â¼ú, ¿£Áö´Ï¾îÀÇ ºÎÁ· µîÀÇ ¹®Á¦ ¶§¹®¿¡ ±â¾÷µéÀº Áß¿äÇÏ´Ù°í ÆǴܵǴ µ¥ÀÌÅ͸¸ ºÐ¼®Çߴµ¥¿ä. ÀÌ·Î ÀÎÇØ ±âÁ¸ µ¥ÀÌÅ͸¦ ºñ¿ë ´ëºñ È¿À²ÀûÀ¸·Î ó¸®ÇÒ ¼ö ÀÖ´Â ¹æ¹ý·ÐÀÌ ²ÙÁØÈ÷ ¿ä±¸µÇ¾ú½À´Ï´Ù.


ÀÌ ¶§ µîÀåÇÑ ½Ã½ºÅÛÀÌ ¡®Çϵӡ¯ÀÔ´Ï´Ù. ÇϵÓÀº ¿©·¯ °³ÀÇ ÀÏ¹Ý ÄÄÇ»Å͸¦ ÇϳªÀÇ ÄÄÇ»ÅÍÀÎ °Íó·³ ¹­¾î ´ë¿ë·® µ¥ÀÌÅ͸¦ ó¸®ÇÏ´Â ±â¼úÀÔ´Ï´Ù. 


l Hadoop ·Î°í (Ãâó: Hadoop ȨÆäÀÌÁö)


ÇϵÓÀº ¼öõ ´ëÀÇ ºÐ»êµÈ Àåºñµé¿¡ ´ë¿ë·® ÆÄÀÏÀ» ÀúÀåÇÒ ¼ö ÀÖ´Â ±â´ÉÀ» Á¦°øÇÏ´Â ºÐ»ê ÆÄÀÏ ½Ã½ºÅÛ(HDFS)°ú ÀúÀåµÈ ÆÄÀÏ µ¥ÀÌÅ͸¦ ºÐ»êµÈ ¼­¹öÀÇ CPU¿Í ¸Þ¸ð¸® ÀÚ¿øÀ» ÀÌ¿ëÇØ ½±°í ºü¸£°Ô ºÐ¼®ÇÒ ¼ö ÀÖ´Â ÄÄÇ»Æà Ç÷§ÆûÀÎ ¸Ê¸®µà½º(MapReduce)1·Î ±¸¼ºµË´Ï´Ù. Áï, HDFS¿¡ µ¥ÀÌÅ͸¦ ÀúÀåÇÏ°í ¸Ê¸®µà½º¸¦ ÀÌ¿ëÇØ µ¥ÀÌÅ͸¦ ó¸®ÇÕ´Ï´Ù. 


ÀÌÀü±îÁö ´ë¿ë·® µ¥ÀÌÅ͸¦ ÀúÀåÇÏ°í ó¸®Çϱâ À§ÇØ ½´ÆÛÄÄÇ»Å͸¦ ½è´Ù¸é, ÇϵÓÀÇ µîÀåÀ¸·Î ÀÏ¹Ý PC 10´ë¸¦ ÇϳªÀÇ ½´ÆÛÄÄÇ»ÅÍó·³ ´ë±Ô¸ð ±â¾ïÀåÄ¡·Î ¹­¾î »ç¿ëÇÒ ¼ö ÀÖ¾î ºñ¿ë ¸é¿¡¼­ Å« Àý°¨ È¿°ú¸¦ °¡Á®¿À°Ô µÇ¾ú½À´Ï´Ù. Ä¿ÆÃÀº ÀÌ·¸°Ô °³¹ßÇÑ ±â¼úÀ» ´Ù¸¥ °³¹ßÀÚµµ ÀÚÀ¯·Ó°Ô °¡Á®´Ù ¾²°í ¹ßÀü½Ãų ¼ö ÀÖµµ·Ï ¼Ò½º Äڵ带 °ø°³ÇÏ°í ÀÖ½À´Ï´Ù.

 

¨è ÇϵÓÀÇ Æ¯Â¡

 

´º¿å Áõ±Ç°Å·¡¼Ò¿¡¼­´Â ÇÏ·ç¿¡¸¸ 1TB¿¡ À̸£´Â °Å·¡ µ¥ÀÌÅÍ°¡ ¹ß»ýÇÏ°íÆäÀ̽ººÏ¿¡´Â 30PB°¡ ³Ñ´Â »çÁø DB°¡ ½×¿© ÀÖ½À´Ï´Ù±â¾÷µéÀº ÀÌ·¯ÇÑ ºòµ¥ÀÌÅ͸¦ ÀúÀåÇϱâ À§Çؼ­ ºñ½Ñ ¿ÜºÎ ÀúÀå ÀåÄ¡ µîÀ» »ç¿ëÇÏ´Â °Íº¸´Ù ¿ÀÇ ¼Ò½ºÀÎ ÇϵÓÀ» »ç¿ëÇÏ´Â °ÍÀÌ ºñ¿ë Àý°¨ µî¿¡¼­ À¯¸®ÇÏ°í¼³Ä¡ ¹× »ç¿ëµµ ½¬¿ö ¸¹ÀÌ ÀÌ¿ëÇÏ°í ÀÖ½À´Ï´Ù


¶ÇÇÑ, Àü¹®°¡µéÀº ÇϵÓÀ» ÀÌ¿ëÇÏ¸é ºòµ¥ÀÌÅ͸¦ º¸´Ù ¿øÈ°ÇÏ°í È¿À²ÀûÀ¸·Î ºÐ¼®ÇÒ ¼ö ÀÖ´Ù°í Æò°¡ÇÕ´Ï´Ù. ÇÏµÓ ÇÁ·¹ÀÓ¿öÅ©´Â ´ë¿ë·® µ¥ÀÌÅ͸¦ °ª½Î°í ºü¸£°Ô ºÐ¼®ÇÒ ¼ö ÀÖ°Ô µ½½À´Ï´Ù. 

 

 

±â¾÷Àº ÇϵÓÀ» È°¿ëÇØ ºòµ¥ÀÌÅÍ ºÐ¼®¿¡ µé¾î°¡´Â Ãʱ⠺ñ¿ëÀ» ÁÙÀ̸鼭 ÀÚ»ç µ¥ÀÌÅÍ ½Ã½ºÅÛ°úÀÇ È£È¯ ¹®Á¦µµ ¼Õ½±°Ô ÇØ°áÇÒ ¼ö ÀÖ½À´Ï´Ù. ¶ÇÇÑ ±âÁ¸¿¡´Â ½´ÆÛÄÄÇ»Å͸¦ ¸çÄ¥¾¿ µ¹·Á¾ß Çß´ø µ¥ÀÌÅ͵µ ÇϵÓÀ» ÀÌ¿ëÇϸé x86 ¼­¹ö·Î ½Ç½Ã°£ ºÐ¼®ÀÌ °¡´ÉÇÕ´Ï´Ù.


ÇÑ ¿¹·Î, ÆäÀ̽ººÏÀº µ¥ÀÌÅÍ Áß ÀϺÎÀÎ 30PB(¹Ì±¹ ±¹È¸µµ¼­°ü¿¡ ÀúÀåµÈ Á¤º¸·®ÀÇ ¾à 3¹è) Á¤µµ¸¦ Çϵӿ¡ ÀúÀåÇÑ´Ù°í ÇÕ´Ï´Ù. ´ë¿ë·® »çÁø µ¥ÀÌÅ͸¦ ÀÛÀº µ¥ÀÌÅÍ·Î ÂÉ°³ ¾à 2õ¿© °³ÀÇ ¼­¹ö°¡ ¸Å ¼ø°£ µ¥ÀÌÅ͸¦ ó¸®Çϱ⠶§¹®¿¡ »ç¿ëÀÚ´Â ÆäÀ̽ººÏ¿¡ »çÁøÀ» ½±°Ô ¿Ã¸®°í ¹ÞÀ¸¸ç, ´Ù¸¥ »ç¶÷ÀÇ ÆäÀ̽ººÏ »çÁøÀ» Ŭ¸¯°ú µ¿½Ã¿¡ º¼ ¼ö ÀÖ½À´Ï´Ù.


»Ó¸¸ ¾Æ´Ï¶ó, »ç¿ëÇϱ⠽±°í Æí¸®ÇÏ´Ù´Â ÀåÁ¡Àº ÇϵÓÀÌ ±Þ¼Óµµ·Î ÆÛÁö´Â µ¥ ±â¿©Çß½À´Ï´Ù. Á¶±Ý¸¸ ÀÍÈ÷¸é »ç¿ëÇÒ ¼ö ÀÖ¾î ±â¾÷µéÀº ÇϵÓÀ¸·Î PC¸¦ º´·Ä·Î ¿¬°áÇØ ºòµ¥ÀÌÅ͸¦ ºÐ»ê ó¸®Çϴµ¥ ÀÌ¿ëÇϱ⠽ÃÀÛÇß°í, Æí¸®ÇÑ »ç¿ëÀÚ ºÐ¼®°ú »ç¿ëÀÚ ÁöÇâÀÇ »õ·Î¿î ¼­ºñ½º¸¦ °³¹ßÇÒ ¼ö ÀÖ°Ô Áö¿øÇÏ´Â ÇϵÓÀÇ ±â´É¿¡ ÁÖ¸ñÇß½À´Ï´Ù.


¸¶Áö¸·À¸·Î, ÇϵÓÀÇ Æ¯Â¡ Áß Çϳª´Â ¸Þ¸ð¸®³ª µð½ºÅ©¸¦ °øÀ¯ÇÏÁö ¾Ê´Â ´Ù¼öÀÇ ¸Ó½Å¿¡¼­ ½ÇÇàÇÒ ¼ö ÀÖ´Ù´Â °ÍÀÔ´Ï´Ù. ÀÛÀº Á¶°¢À¸·Î µ¥ÀÌÅ͸¦ ³ª´©¾î ±× Á¶°¢À» ¹èÆ÷ÇÏ°í ó¸®ÇÏ¸ç ¿øÇÏ´Â ´ë»ó Ç÷§Æû¿¡¼­ ÀÚµ¿À¸·Î °á°ú¸¦ º´ÇÕ °¡´ÉÇϱ⠶§¹®¿¡, ´õ¿í Æí¸®ÇÏ°Ô ¾îµð¼­µç ºòµ¥ÀÌÅÍ Ã³¸®°¡ °¡´ÉÇÕ´Ï´Ù.

 

 °í¼º´É ¿ÀÇ ¼Ò½º(IR, Information Retrieval) Á¤º¸ °Ë»ö ¶óÀ̺귯¸® ¡®Lucene'


À̹ø¿¡´Â ÇϵÓÀ» ±â¹ÝÀ¸·Î Á¦À۵Ǵ Á¤º¸ °Ë»ö ¶óÀ̺귯¸® ·ç¾À(Lucene)¿¡ ´ëÇØ ¾Ë¾Æº¸°Ú½À´Ï´Ù.


l Lucene ·Î°í (Ãâó: Lucene ȨÆäÀÌÁö)


¨ç ·ç¾ÀÀÇ °³³ä

 

ÇÏµÓ °³¹ßÀÚÀÎ ´õ±× Ä¿ÆÃ(Doug Cuting)¿¡ ÀÇÇØ 1999³â °³¹ßµÈ ·ç¾ÀÀº ÀÚ¹Ù·Î °³¹ßµÈ È®Àå °¡´ÉÇÑ °í¼º´É ¿ÀÇ ¼Ò½º Á¤º¸ °Ë»ö(IR, Information Retrieval) ¶óÀ̺귯¸®ÀÔ´Ï´Ù. ´ëÇ¥ÀûÀ¸·Î »öÀÎ ±â´É, °Ë»ö ±â´É, ´Ù¾çÇÑ ³ª¶óÀÇ Full Text ºÐ¼®±â µîÀÇ ±â´ÉÀ» Áö¿øÇÕ´Ï´Ù. 


ÀÌ°ÍÀº µ¶¸³µÈ ÇÁ·Î±×·¥ÀÌ ¾Æ´Ï¶ó ´Ü¼øÇÑ ¼ÒÇÁÆ®¿þ¾î ¶óÀ̺귯¸®À̱⠶§¹®¿¡ °³¹ßÀÚ°¡ ·ç¾À ¶óÀ̺귯¸®¸¦ ÀÌ¿ëÇØ °Ë»ö ¼­ºñ½º, ¾ÖÇø®ÄÉÀÌ¼Ç ±¸Çö ÈÄ »ç¿ëÇÒ ¼ö ÀÖ½À´Ï´Ù.

 

¨è ·ç¾ÀÀÇ Æ¯Â¡

 

¿ø·¡ ÀÚ¹Ù·Î ¸¸µé¾îÁø ·ç¾ÀÀº ÆÞ(Perl)¿¡¼­ ½ÃÀÛÇØ ÆÄÀ̽ã(Python), C++¿Í ´å³Ý(.NET) µîÀÇ ¾ð¾î·Î Æ÷ÆõǾî ÀÖ½À´Ï´Ù. ÀÌ·¸µí ·ç¾ÀÀº ¼­·Î ´Ù¸¥ ¾ð¾î °£¿¡µµ »öÀÎ µ¥ÀÌÅ͸¦ 100% ȣȯÇؼ­ »ç¿ëÇÒ ¼ö ÀÖµµ·Ï ¼³°èµÇ¾î ÀÖ½À´Ï´Ù.


¶ÇÇÑ ¼ÒÇÁÆ®¿þ¾î ÇÁ·Î±×·¥¿¡ »öÀΰú °Ë»ö ±â´ÉÀ» Àü¹® Áö½ÄÀÌ ¾øÀ̵µ °£´ÜÇÏ°Ô Ãß°¡ °¡´ÉÇØ IT ¾÷°è¿¡¼­ ¸¹ÀÌ ÀÌ¿ëÇÕ´Ï´Ù. 


Ãß°¡ÀûÀ¸·Î, ´Ù¾çÇÑ ³ª¶óÀÇ Full Text ºÐ¼®±â(Analyzer) °Ë»ö ¿£Áø ±â´ÉÀÌ Æ¯Â¡ÀûÀÔ´Ï´Ù. °³¹ßÀÚµéÀº »öÀÎ ±â´ÉÀ» »ç¿ëÇÒ ¶§, ´Ü¼øÇÑ ¹®ÀÚ¿­À» »öÀÎÇϱ⺸´Ù´Â ´Ù¾çÇÑ ¹®¼­¸¦ »öÀÎÈ­ÇÏ°í °Ë»öÇÏ´Â ÀÛ¾÷À» ÇÕ´Ï´Ù. À̶§, ·ç¾ÀÀ» ÀÌ¿ëÇؼ­´Â ÀÓÀÇÀÇ ¹ÙÀ̳ʸ® ÆÄÀÏ(Binary file)2À» Á÷Á¢ »öÀÎÇÏ°í °Ë»öÇÒ ¼ö ¾øÀ¸¸ç, ¸ðµÎ ¹®ÀÚ¿­ ÇüÅ·Πº¯°æµÈ ÈÄ¿¡ ·ç¾ÀÀ¸·Î »öÀÎÇÏ°í °Ë»öÇÒ ¼ö ÀÖ½À´Ï´Ù. 


µû¶ó¼­ XML, PDF, HTML, MS WORD °°Àº ´Ù¾çÇÑ ¹®¼­µéÀ» »öÀÎÈ­Çϱâ À§Çؼ­´Â °¢°¢ÀÇ ¹®¼­¸¦ ·ç¾ÀÀÇ ºÐ¼®±â°¡ ÀÌÇØÇÒ ¼ö ÀÖµµ·Ï Çؼ®(parse)Çؼ­ ÅؽºÆ®·Î ÃßÃâÇØ ³»´Â °úÁ¤ÀÌ ÇÊ¿äÇÕ´Ï´Ù.


ÀÌ´Â Full-Text(Contents)¿Í text¸¦ ´Ü¾î·Î ÂÉ°³´Â ¹æ¹ý(Analyzer)À» Á¦½ÃÇÏ¸é ¾Ë¾Æ¼­ À妽º¸¦ ±¸¼ºÇØ ÁÖ°í ±×°ÍÀ¸·Î ºü¸¥ °Ë»ö °á°ú¸¦ ¾òÀ» ¼ö Àֱ⠶§¹®Àä. ³»¿ë °Ë»öÀ» À§ÇØ ·ç¾ÀÀ» »ç¿ëÇÏ´Â °ÍÀÌ È¿À²ÀûÀÔ´Ï´Ù.

 

¨é ·ç¾À °³¹ß »ç·Ê

 

·ç¾ÅÀ» Àε¦½Ì°ú °Ë»ö¿¡ Àû¿ëÇÑ »ç·ÊµéÀº ¾Æ·¡¿Í °°½À´Ï´Ù.

 

 

 ¿ÀÇ ¼Ò½º °Ë»ö ¿£Áø ¡®Nutch¡¯


±×·¸´Ù¸é, ·ç¾ÀÀ» ±â¹ÝÀ¸·Î °³¹ßµÈ ¿ÀÇ ¼Ò½º °Ë»ö ¿£Áø ³ÊÄ¡(Nutch)¿¡ ´ëÇØ ¾Ë¾Æº¼±î¿ä?


l Nutch ·Î°í (Ãâó: Nutch ȨÆäÀÌÁö)

 

¨ç ³ÊÄ¡ÀÇ °³³ä

 

±¤°í°¡ ¸¹Àº ÀÎÅÍ³Ý °Ë»ö »çÀÌÆ®¿¡¼­ »ó¾÷ÀûÀÎ ¿ä¼Ò¸¦ ¹èÁ¦ÇÑ °Ë»öÀ» ±¸¼ºÇÏ°íÀÚ ÁøÇàµÈ ¿ÀÇ ¼Ò½º ÀÎÅÍ³Ý À¥ °Ë»ö ¿£Áø ÇÁ·ÎÁ§Æ®ÀÎ ³ÊÄ¡´Â ·ç¾ÀÀ» ±â¹ÝÀ¸·Î ÇÏ¿© ÀÚ¹Ù·Î ±¸ÇöµÇ¾ú½À´Ï´Ù. 


ÀÌ´Â ¿ÀÇ ¼Ò½º °Ë»ö ¿£ÁøÀ̶ó´Â Á¡¿¡¼­ ±âÁ¸ ±â¾÷µéÀÇ Á¢±Ù ¹æ½Ä°ú Â÷ÀÌ°¡ ÀÖ½À´Ï´Ù. µû¶ó¼­ ³ÓÄ¡ °Ë»ö ¿£ÁøÀÇ ¼Ò½º´Â ¿ÏÀüÈ÷ °ø°³µÇ°í, ´©±¸³ª ¹«·á·Î À̸¦ ÀÚ½ÅÀÇ ÀÀ¿ë ÇÁ·Î±×·¥¿¡ ¸Â°Ô º¯ÇüÇϰųª Àç»ç¿ëÇÏ´Â °ÍÀÌ ÀÚÀ¯·Ó½À´Ï´Ù.

 

¨è ³ÊÄ¡ÀÇ Æ¯Â¡

 

·ç¾ÀÀº Àε¦¼­¿Í Á¤º¸ °Ë»ö»ç(Searcher)·Î ±¸¼ºµÇ¾î ÀÖ°í, ·ç¾À ±â¹ÝÀÇ °ø°³ À¥ °Ë»ö ¿£ÁøÀΠ³ÊÄ¡´Â ·ç¾À¿¡ ¾ø´Â À¥ °Ë»ö¿¡ ÇÊ¿äÇÑ ¸ðµç ±âº» ¿ä¼Ò¸¦ ÀüºÎ °®Ãç À¥ °Ë»ö ¿ëÀ¸·Î È®ÀåÇÑ °ÍÀä. 


³ÊÄ¡´Â ·ç¾ÀÀ» ÀÌ¿ëÇϱ⠶§¹®¿¡ ¼ö¾ï °³ ÀÌ»óÀÇ À¥ ÆäÀÌÁö¸¦ ¸ð¾Æ »öÀÎ, °Ë»öÀÌ °¡´ÉÇÏ¸ç ¸ðµâÈ­°¡ Àß µÇ¾îÀÖ¾î ¿©·¯ °¡Áö Ç÷¯±×ÀÎÀ» ºÙÀÏ ¼ö ÀÖ½À´Ï´Ù. ¶ÇÇÑ ÀÚ¹Ù·Î ÀÛ¼ºµÇ¾î ÀÖÁö¸¸ ÀÚ·á´Â ƯÁ¤ ¾ð¾î¿¡ °ü°è¾ø´Â ÇüÅ·ΠÀúÀåÇÒ ¼ö ÀÖ½À´Ï´Ù.


¶ÇÇÑ ÇϵÓÀ¸·Î ±¸ÇöÇϸé È¿À²ÀÌ ÁÁ±â ¶§¹®¿¡ ÀúÀå¼Ò ¾È¿¡ ÀÚ·á°¡ ¸¹¾Æ ¿©·¯ ´ëÀÇ ¼­¹ö¿¡¼­ µ¿½Ã¿¡ ±¸Çö, °¡µ¿ÇÒ ¼ö ÀÖ½À´Ï´Ù.

 

¨é ³ÊÄ¡ÀÇ ±¸Á¶

 

³ÊÄ¡ÀÇ ÀüüÀûÀÎ ±¸Á¶´Â ÀϹÝÀûÀÎ À¥ °Ë»ö ½Ã½ºÅÛ ±¸Á¶¿Í À¯»çÇÕ´Ï´Ù.


³ÊÄ¡¸¦ ÀÌ¿ëÇÑ °Ë»ö ÀýÂ÷´Â ´ÙÀ½ ¼ø¼­¿Í °°½À´Ï´Ù.

 


  1. À¥ ¼­¹ö°¡ »ç¿ëÀÚÀÇ °Ë»ö ¿äûÀ» ¹ÞÀ½

  2. ÁúÀÇ Çڵ鷯(Request handler)°¡ °Ë»ö¾î °¡°ø ÈÄ ´Ù¼öÀÇ »öÀÎ °Ë»ö ¼­¹ö·Î Àü´Þ

  3. ÁúÀÇ Çڵ鷯°¡ ³Ñ±ä °Ë»ö¾î¿¡ ´ëÇØ ³ª¿Â ¿©·¯ »öÀÎ ¼­¹ö¿¡¼­ °á°ú¸¦ Á¡¼ö°¡ ³ôÀº ¼ø¼­·Î Á¤·Ä

  4. 1~2ÃÊ ÈÄ °á°ú¸¦ ÁÖÁö ¾Ê´Â »öÀÎ ¼­¹ö°¡ ÀÖÀ¸¸é °á°ú¿¡ Æ÷ÇÔÇÏÁö ¾Ê°í ¹«½Ã (2ÃÊ ¾È¿¡ °á°ú°¡ ³ª¿Àµµ·Ï º¸Àå)


 ±â¾÷ ´ë»ó °Ë»ö ¼­¹ö ¡®Solr¡¯


¸¶Áö¸·À¸·Î, ³ÊÄ¡(Nutch)°¡ È®ÀåµÈ ±â¾÷ ´ë»ó °Ë»ö ¼­¹ö ¼Ö¶ó(Solr)¸¦ ¼Ò°³ÇÏ°Ú½À´Ï´Ù.



l
 Solr ·Î°í (Ãâó: Solr ȨÆäÀÌÁö)

 

¨ç ¼Ö¶óÀÇ °³³ä

 

¼Ö¶ó´Â ¿ÀÇ ¼Ò½º °Ë»ö ¿£ÁøÀÎ ·ç¾À ÇÁ·ÎÁ§Æ®¿¡ ±â¹ÝÀ» µÐ ¿£ÅÍÇÁ¶óÀÌÁî °Ë»ö ¼­¹ö·Î, ±â¾÷À» ´ë»óÀ¸·Î ´õ ´Ù¾çÇÏ°í Àü¹®ÀûÀÎ ±â´ÉÀ» Ãß°¡ÇÏ¿© °³¹ßµÇ¾ú½À´Ï´Ù. ÀÌ´Â ·ç¾ÀÀ» ±â¹ÝÀ¸·Î Àüü ÅؽºÆ® °Ë»ö, ´Ù¸éÀûÀÎ °Ë»ö, ½Ç½Ã°£ À妽Ì, Ŭ·¯½ºÅ͸µ, µ¥ÀÌÅͺ£À̽º ÅëÇÕ, ´Ù¾çÇÑ ¹®¼­ ó¸® ¹× °Ë»ö, ¼Ö¶ó ºÐ»ê Àε¦½Ì µîÀÇ ±â´ÉÀ» Áö¿øÇÕ´Ï´Ù.


¼Ö¶ó´Â ¸ðµç ±â´ÉÀ» HTTP ÇÁ·ÎÅäÄÝÀ» ÅëÇØ Á¦°øÇϴµ¥¿ä. ¿©±â¿¡´Â »öÀÎ, °Ë»ö, »èÁ¦, ¾÷µ¥ÀÌÆ®»Ó¸¸ ¾Æ´Ï¶ó ½ºÅ°¸¶ Ãß°¡, ¾÷µ¥ÀÌÆ®, ¸®Çø®ÄÉÀÌ¼Ç µî ¸ðµç ±â´ÉÀ» Æ÷ÇÔÇÕ´Ï´Ù. ¶ÇÇÑ ¼Ö¶ó´Â POST¿Í GETÀ» ÀÌ¿ëÇØ »öÀÎÀ» °ü¸®ÇÏ°í °Ë»öÀ» ¿äûÇÒ ¼ö ÀÖ½À´Ï´Ù. 


HTTP ¸¸À¸·Î ¸ðµç ÀÛ¾÷À» ÇÒ ¼ö Àֱ⠶§¹®¿¡, CURL µîÀÇ µµ±¸¸¦ ÀÌ¿ëÇؼ­ °£´ÜÇÏ°Ô °Ë»ö ¾ÖÇø®ÄÉÀ̼ÇÀ» °³¹ßÇÒ ¼ö Àִٴ ÀåÁ¡ÀÌ ÀÖ½À´Ï´Ù. 

 

¨è ¼Ö¶óÀÇ Æ¯Â¡

 

¼Ö¶ó´Â ´Üµ¶ ¾ÖÇø®ÄÉÀÌ¼Ç ¼­¹ö ÇüÅ·ΠÀÛµ¿Çϸç, REST Çü½ÄÀÇ API¸¦ Á¦°øÇÕ´Ï´Ù. ¹®¼­µéÀº HTTP¸¦ ÀÌ¿ëÇØ XML•Json•CSV•¹ÙÀ̳ʸ® µîÀÇ ÇüÅ·Π»öÀÎ, °Ë»öÀ» ¿äûÇÏ°í °á°ú¸¦ ¹Þ¾Æ¿Ã ¼ö ÀÖ½À´Ï´Ù.

 

 

¡®³»°¡ ÇÊ¿äÇÑ ÀÚ·áµéÀº USB³ª Çϵåµð½ºÅ©¿¡ ÀúÀåÇϴµ¥, ¿Â¶óÀο¡ ¿Ã¸®´Â »çÁøÀ̳ª ¹®¼­ ÆÄÀϵéÀº ¾îµð¿¡ ÀúÀåµÇ´Â °É±î? ±×¸®°í ±× ÀÚ·á°¡ ¾î¶»°Ô °Ë»ö ¿£Áø¿¡¼­ º¸ÀÌ´Â °É±î?¡¯¶ó´Â ÀÛÀº Áú¹®¿¡¼­ ½ÃÀÛÇÏ¿© ÀÌ¿¡ ´ëÇÑ ¿ø¸®¿Í ±â¼ú¿¡ ´ëÇØ Á¶»çÇÏ°Ô µÇ¾ú½À´Ï´Ù. 



±×µ¿¾È °£ÆíÇÏ°Ô »ç¿ëÇØ¿Ô´ø ±â´ÉµéÀÌ ¼ö¸¹Àº °³¹ßÀڵ鿡 ÀÇÇØ ²÷ÀÓ¾øÀÌ ³íÀǵǰí, ¾÷µ¥ÀÌÆ® µÇ°í Àֱ⿡ »ç¿ë °¡´ÉÇß´ø °ÍÀ» ¾Ë°Ô µÇ¾ú´Âµ¥¿ä. Á¡Á¡ µ¥ÀÌÅÍ°¡ Áõ°¡ÇÏ°í, ¼¼ºÐÈ­µÇ¸é¼­ Ãß°¡µÇ°í ÀÖ´Â »õ·Î¿î ±â´Éµéµµ ¸¹¾Ò½À´Ï´Ù.

À̹ø Á¶»ç¸¦ °è±â·Î ¾ÕÀ¸·Î´Â À¯¿ëÇÏ°Ô »ç¿ëÇÏ°í ÀÖ´Â ±â´ÉµéÀÇ ¿ø¸®¿¡ ´ëÇØ ÇÑ ¹ø ´õ »ý°¢ÇÏ°í ÀÌ¿ëÇÒ ¼ö ÀÖÀ» °Í °°½À´Ï´Ù. ±×¸®°í ÁÖ¾îÁø ±â´ÉÀ» ¼öµ¿ÀûÀ¸·Î¸¸ »ç¿ëÇϱ⺸´Ù´Â, °³¼±Á¡À» ãÀ» ¼ö ÀÖµµ·Ï ´Éµ¿ÀûÀ¸·Î ±â¼úÀ» ´ëÇÏ·Á´Â ŵµ¿Í »ý°¢ÀÇ º¯È­°¡ »ý±â°Ô µÇ¾ú½À´Ï´Ù.

¿©·¯ºÐµµ Æò¼Ò¿¡ ÀÌ¿ëÇÏ´ø ±â´ÉÀ̳ª ±â¼úÀÇ ¿ø¸®°¡ ±Ã±ÝÇÑ ÀûÀÌ ÀÖ´Ù¸é, Áö±Ý ÇÑ ¹ø °Ë»öÇØ º¸¼¼¿ä. ¿ø¸®¸¦ ¾Ë¸é ´õ À¯¿ëÇÏ°Ô »ç¿ëÇÏ½Ç ¼ö ÀÖÀ» °ÍÀÔ´Ï´Ù!



Ãâó: http://blog.lgcns.com/1176 [Creative and Smart! LG CNS]