Ò»¸öÉñ¾ÍøÂçÊµÏÖ4´óÍ¼ÏñÈÎÎñ£¬GitHubÒÑ¿ªÔ´

tilldream ·¢±íÓÚ 2019-3-14 19:24:28

Ò»¸öÉñ¾ÍøÂçÊµÏÖ4´óÍ¼ÏñÈÎÎñ£¬GitHubÒÑ¿ªÔ´

ÖÚËùÖÜÖª£¬Éñ¾ÍøÂçÊ®·ÖÉÃ³¤´¦ÀíÌØ¶¨ÁìÓòµÄÈÎÎñ (narrow task)£¬µ«ÔÚ´¦Àí¶àÈÎÎñÊ±½á¹û²¢²»ÊÇÄÇÃ´ÀíÏë¡£ ÕâÓëÈËÀàµÄ´óÄÔ²»Í¬£¬ÈËÀàµÄ´óÄÔÄÜ¹»ÔÚ¶àÑù»¯ÈÎÎñÖÐÊ¹ÓÃÏàÍ¬µÄ¸ÅÄî¡£ÀýÈç£¬¼ÙÈçÄã´ÓÀ´Ã»ÌýËµ¹ý ¡°·ÖÐÎ¡±(fractal)£¬Çë¿´ÏÂÃæÕâÕÅÍ¼£º <span style="letter-spacing: 0.5px;font-family: -apple-system-font, BlinkMacSystemFont, " helvetica="" neue",="" "pingfang="" sc",="" "hiragino="" sans="" gb",="" "microsoft="" yahei="" ui",="" yahei",="" arial,="" sans-serif;color:="" rgb(136,="" 136,="" 136);font-size:="" 14px;"="">ÊýÑ§Ö®ÃÀ£º·ÖÐÎÍ¼Ïñ ÉÏÍ¼ÊÇÒ»¸ö·ÖÐÎÍ¼Ïñ¡£ÔÚ¿´µ½Ò»ÕÅ·ÖÐÎÍ¼Ïñºó£¬ÈËÄÜ¹»´¦Àí¶à¸öÓëÖ®Ïà¹ØµÄÈÎÎñ£º<ul class=" list-paddingleft-2" style="margin-left: 8px;margin-right: 8px;"><li>ÔÚÒ»×éÍ¼ÏñÖÐ£¬Çø·ÖÒ»Ö»Ã¨µÄÍ¼ÏñºÍ·ÖÐÎÍ¼Ïñ£»</li><li>ÔÚÒ»ÕÅÖ½ÉÏ£¬´ÖÂÔµØ»Ò»¸ö·ÖÐÎÍ¼Ïñ£»</li><li>½«·ÖÐÎÍ¼ÏñÓë·Ç·ÖÐÎÍ¼Ïñ½øÐÐ·ÖÀà£»</li><li>±ÕÉÏÑÛ¾¦£¬ÏëÏóÒ»ÏÂ·ÖÐÎÍ¼ÏñÊÇÊ²Ã´Ñù×ÓµÄ¡£</li></ul> ÄÇÃ´£¬ÄãÊÇÈçºÎÍê³ÉÕâÐ©ÈÎÎñµÄÄØ£¿´óÄÔÖÐÓÐ×¨ÃÅµÄÉñ¾ÍøÂçÀ´´¦ÀíÕâÐ©ÈÎÎñÂð£¿ ÏÖ´úÉñ¾¿ÆÑ§ÈÏÎª£¬´óÄÔÖÐµÄÐÅÏ¢ÊÇÔÚ²»Í¬µÄ²¿Î»½øÐÐ·ÖÏíºÍ½»Á÷µÄ¡£¶ÔÓÚÕâÖÖ¶àÈÎÎñÐÔÄÜÊÇÈçºÎ·¢ÉúµÄ£¬´ð°¸¿ÉÄÜÔÚÓÚÈçºÎÔÚÉñ¾ÍøÂçÖÐ´æ´¢ºÍ½âÊÍÊý¾Ý¡£ <section style="border-width: 0px;border-style: initial;border-color: initial;clear: both;box-sizing: border-box;" class="tn-Powered-by-XIUMI"><section style="padding: 8px;border-left: 6px solid rgb(255, 202, 0);font-size: 112.5%;line-height: 1.4;font-family: inherit;font-weight: bold;text-decoration: inherit;color: rgb(10, 10, 10);border-top-color: rgb(255, 202, 0);border-right-color: rgb(255, 202, 0);border-bottom-color: rgb(255, 202, 0);box-sizing: border-box;" class="tn-Powered-by-XIUMI"><section class="tn-Powered-by-XIUMI">¡°±íÊ¾¡± µÄ¾«²ÊÊÀ½ç </section></section></section> ¹ËÃûË¼Òå£¬¡°±íÊ¾¡±(representation) ¾ÍÊÇÐÅÏ¢ÔÚÍøÂçÖÐ±àÂëµÄ·½Ê½¡£µ±Ò»¸öµ¥´Ê¡¢Ò»¸ö¾ä×Ó»òÒ»·ùÍ¼Ïñ (»òÆäËûÈÎºÎ¶«Î÷) ×÷ÎªÊäÈëÌá¹©¸øÒ»¸öÑµÁ·ºÃµÄÉñ¾ÍøÂçÊ±£¬Ëü¾ÍËæ×ÅÈ¨ÖØ³ËÒÔÊäÈëºÍÓ¦ÓÃ¼¤»îÔÚÁ¬ÐøµÄ²ãÉÏ½øÐÐ×ª»»¡£×îºó£¬ÔÚÊä³ö²ã£¬ÎÒÃÇµÃµ½Ò»´®Êý×Ö£¬ÎÒÃÇ½«Æä½âÊÍÎªÀàµÄ±êÇ©»ò¹ÉÆ±¼Û¸ñ£¬»òÍøÂçÎªÖ®ÑµÁ·µÄÈÎºÎÆäËûÈÎÎñ¡£ ÊäÈë -> Êä³öµÄÉñÆæ×ª»»ÊÇÓÉÁ¬Ðø²ãÖÐ·¢ÉúµÄÊäÈë×ª»»²úÉúµÄ¡£ÊäÈëÊý¾ÝµÄÕâÐ©×ª»»¼´³ÆÎª ¡°±íÊ¾¡±(representations)¡£Ò»¸ö¹Ø¼üµÄÏë·¨ÊÇ£¬Ã¿Ò»²ã¶¼ÈÃÏÂÒ»²ã¸üÈÝÒ×µØÍê³ÉËüµÄ¹¤×÷¡£Ê¹Á¬Ðø²ãµÄÖÜÆÚ±äµÃ¸üÈÝÒ×µÄ¹ý³Ì»áµ¼ÖÂ¼¤»î (ÌØ¶¨²ãÉÏÊäÈëÊý¾ÝµÄ×ª»») ±äµÃÓÐÒâÒå¡£ ÓÐÒâÒåÊÇÖ¸Ê²Ã´ÄØ£¿ÈÃÎÒÃÇ¿´ÏÂÃæµÄÊ¾Àý£¬¸ÃÊ¾ÀýÕ¹Ê¾ÁËÍ¼Ïñ·ÖÀàÆ÷ÖÐ²»Í¬²ãµÄ¼¤»î¡£ Í¼Ïñ·ÖÀàÍøÂçµÄ×÷ÓÃÊÇ½«ÏñËØ¿Õ¼äÖÐµÄÍ¼Ïñ×ª»¯Îª¸ü¸ß¼¶µÄ¸ÅÄî¿Õ¼ä¡£ÀýÈç£¬Ò»ÕÅÆû³µµÄÍ¼Ïñ×î³õ±»±íÊ¾Îª RGB Öµ£¬ÔÚµÚÒ»²ã¿ªÊ¼±»±íÊ¾Îª±ßÔµ¿Õ¼ä£¬È»ºóÔÚµÚ¶þ²ã±»±íÊ¾ÎªÔ²È¦ºÍ»ù±¾ÐÎ×´¿Õ¼ä£¬ÔÚµ¹ÊýµÚ¶þ²ã£¬Ëü½«¿ªÊ¼±íÊ¾Îª¸ß¼¶¶ÔÏó (Èç³µÂÖ¡¢³µÃÅµÈ)¡£ ÕâÖÖÔ½À´Ô½·á¸»µÄ±íÊ¾ (ÓÉÓÚÉî¶ÈÍøÂçµÄ·Ö²ãÐÔÖÊ¶ø×Ô¶¯³öÏÖ) Ê¹µÃÍ¼Ïñ·ÖÀàµÄÈÎÎñ±äµÃ¼òµ¥¡£×îºóÒ»²ãÒª×öµÄ¾ÍÊÇÕå×Ã£¬±ÈÈçËµ£¬³µÂÖºÍ³µÃÅµÄ¸ÅÄî¸üÏñÆû³µ£¬¶ú¶äºÍÑÛ¾¦µÄ¸ÅÄî¸üÏñÈË¡£ ÄãÄÜÓÃÕâÐ©±íÊ¾×öÊ²Ã´ ? ÓÉÓÚÕâÐ©ÖÐ¼ä²ã´æ´¢ÓÐÒâÒåµÄÊäÈëÊý¾Ý±àÂë£¬ËùÒÔ¿ÉÒÔ¶Ô¶à¸öÈÎÎñÊ¹ÓÃÏàÍ¬µÄÐÅÏ¢¡£ÀýÈç£¬Äã¿ÉÒÔÊ¹ÓÃÒ»¸öÓïÑÔÄ£ÐÍ (Ò»¸ö¾¹ýÑµÁ·µÄ¡¢ÓÃÓÚÔ¤²âÏÂÒ»¸öµ¥´ÊµÄµÝ¹éÉñ¾ÍøÂç)£¬²¢½âÊÍÄ³¸öÌØ¶¨Éñ¾ÔªµÄ¼¤»î£¬´Ó¶øÔ¤²â¾ä×Ó´øÓÐµÄÇéÐ÷¡£ Ò»¸öÁîÈË¾ªÑÈµÄÊÂÊµÊÇ£¬Çé¸ÐÉñ¾ÔªÊÇÔÚÎÞ¼à¶½µÄÓïÑÔ½¨Ä£ÈÎÎñÖÐ×ÔÈ»²úÉúµÄ¡£ÍøÂç±»ÑµÁ·È¥Ô¤²âÏÂÒ»¸öµ¥´Ê£¬ËüµÄÈÎÎñÖÐ²¢Ã»ÓÐ±»ÒªÇóÈ¥Ô¤²âÇé¸Ð¡£Ò²ÐíÇé¸ÐÊÇÒ»¸ö·Ç³£ÓÐÓÃµÄ¸ÅÄî£¬ÒÔÖÁÓÚÍøÂçÎªÁË¸üºÃµØ½øÐÐÓïÑÔ½¨Ä£¶ø·¢Ã÷Ëü¡£ Ò»µ©ÄãÀí½âÁË ¡°±íÊ¾¡± Õâ¸ö¸ÅÄî£¬Äã¾Í»á¿ªÊ¼´ÓÍêÈ«²»Í¬µÄ½Ç¶ÈÀ´Àí½âÉî²ãÉñ¾ÍøÂç¡£Äã»á¿ªÊ¼½«¸ÐÖª±íÊ¾ (sensing representations) ×÷ÎªÒ»ÖÖ¿É×ª»»µÄÓïÑÔ£¬Ê¹²»Í¬µÄÍøÂç(»òÍ¬Ò»ÍøÂçµÄ²»Í¬²¿·Ö) ÄÜ¹»±Ë´ËÍ¨ÐÅ¡£ <section style="border-width: 0px;border-style: initial;border-color: initial;clear: both;box-sizing: border-box;" class="tn-Powered-by-XIUMI"><section style="padding: 8px;border-left: 6px solid rgb(255, 202, 0);font-size: 112.5%;line-height: 1.4;font-family: inherit;font-weight: bold;text-decoration: inherit;color: rgb(10, 10, 10);border-top-color: rgb(255, 202, 0);border-right-color: rgb(255, 202, 0);border-bottom-color: rgb(255, 202, 0);box-sizing: border-box;" class="tn-Powered-by-XIUMI"><section class="tn-Powered-by-XIUMI">Í¨¹ý¹¹½¨Ò»¸öËÄºÏÒ»µÄÍøÂçÀ´Ì½Ë÷±íÊ¾ </section></section></section> ÎªÁË³ä·ÖÀí½â ¡°±íÊ¾¡±£¬ÈÃÎÒÃÇÀ´¹¹½¨Ò»¸öÄÜÍ¬Ê±Íê³ÉËÄ¸öÈÎÎñµÄµÄÉî¶ÈÉñ¾ÍøÂç£º <ul class=" list-paddingleft-2"><li>Í¼ÏñÃèÊöÉú³ÉÆ÷£º¸ø¶¨Í¼Ïñ£¬ÎªÆäÉú³ÉÃèÊö</li><li>ÏàËÆµ¥´ÊÉú³ÉÆ÷£º¸ø¶¨Ò»¸öµ¥´Ê£¬²éÕÒÓëÖ®ÏàËÆµÄÆäËûµ¥´Ê</li><li>ÊÓ¾õÏàËÆµÄÍ¼ÏñËÑË÷£º¸ø¶¨Ò»·ùÍ¼Ïñ£¬ÕÒ³öÓëÖ®×îÏàËÆµÄÍ¼Ïñ</li><li>Í¨¹ýÃèÊöÍ¼ÏñÄÚÈÝ½øÐÐËÑË÷£º¸ø³öÎÄ±¾ÃèÊö£¬ËÑË÷¾ßÓÐËùÃèÊöµÄÄÚÈÝµÄÍ¼Ïñ</li></ul> ÕâÀïµÄÃ¿Ò»¸öÈÎÎñ±¾Éí¾ÍÊÇÒ»¸öÏîÄ¿£¬´«Í³ÉÏ·Ö±ðÐèÒªÒ»¸öÄ£ÐÍ¡£µ«ÎÒÃÇÏÖÔÚÒªÓÃÒ»¸öÄ£ÐÍÀ´×öËùÓÐÕâÐ©ÈÎÎñ¡£ Pytorch ´úÂë£ºhttps://github.com/paraschopra/one-network-many-uses <section style="border-width: 0px;border-style: initial;border-color: initial;clear: both;box-sizing: border-box;" class="tn-Powered-by-XIUMI"><section style="padding: 8px;border-left: 6px solid rgb(255, 202, 0);font-size: 112.5%;line-height: 1.4;font-family: inherit;font-weight: bold;text-decoration: inherit;color: rgb(10, 10, 10);border-top-color: rgb(255, 202, 0);border-right-color: rgb(255, 202, 0);border-bottom-color: rgb(255, 202, 0);box-sizing: border-box;" class="tn-Powered-by-XIUMI"><section class="tn-Powered-by-XIUMI">µÚÒ»²¿·Ö£º¿´Í¼Ëµ»° (Image Captioning) </section></section></section> ÔÚÍøÉÏÓÐºÜ¶àÊµÏÖ Image Captioning µÄºÜºÃµÄ½Ì³Ì£¬ËùÒÔÕâÀï²»´òËãÉîÈë½²½â¡£ÎÒµÄÊµÏÖÓëÕâ¸ö½Ì³ÌÖÐµÄÍêÈ«ÏàÍ¬£ºhttps://daniel.lasiman.com/post/image-captioning/¡£¹Ø¼üµÄÇø±ðÔÚÓÚ£¬ÎÒµÄÊµÏÖÊÇÔÚ Pytorch ÖÐÊµÏÖµÄ£¬¶øÕâ¸ö½Ì³ÌÊ¹ÓÃµÄÊÇ Keras¡£ ½ÓÏÂÀ´£¬ÄãÐèÒªÏÂÔØ Flickr8K Êý¾Ý¼¯¡£Äã»¹ÐèÒªÏÂÔØÍ¼ÏñÃèÊö¡£ÌáÈ¡¡°caption_datasets¡± ÎÄ¼þ¼ÐÖÐµÄÎÄ×ÖÃèÊö¡£ Ä£ÐÍ Image Captioning Ò»°ãÓÐÁ½¸ö×é³É²¿·Ö£ºa) Í¼Ïñ±àÂëÆ÷ (image encoder)£¬Ëü½ÓÊÕÊäÈëÍ¼Ïñ²¢ÒÔÒ»ÖÖ¶ÔÍ¼ÏñÃèÊöÓÐÒâÒåµÄ¸ñÊ½À´±íÊ¾Í¼Ïñ£»b) Í¼Ëµ½âÂëÆ÷ (caption decoder)£¬Ëü½ÓÊÜÍ¼Ïñ±íÊ¾£¬²¢Êä³öÎÄ±¾ÃèÊö¡£ image encoder ÊÇÒ»¸öÉî¶È¾í»ýÍøÂç£¬caption decoder ÔòÊÇ´«Í³µÄ LSTM/GRU µÝ¹éÉñ¾ÍøÂç¡£µ±È»£¬ÎÒÃÇ¿ÉÒÔ´ÓÍ·¿ªÊ¼ÑµÁ·ËüÃÇ¡£µ«ÕâÑù×öÐèÒª±ÈÎÒÃÇÏÖÓÐµÄ (8k Í¼Ïñ)¸ü¶àµÄÊý¾ÝºÍ¸ü³¤µÄÑµÁ·Ê±¼ä¡£Òò´Ë£¬ÎÒÃÇ²»´ÓÍ·¿ªÊ¼ÑµÁ·Í¼Ïñ±àÂëÆ÷£¬¶øÊÇÊ¹ÓÃÒ»¸öÔ¤ÑµÁ·µÄÍ¼Ïñ·ÖÀàÆ÷£¬²¢Ê¹ÓÃËüµÄ pre-final ²ãµÄ¼¤»î¡£ ÕâÊÇÒ»¸öÊ¾Àý¡£ÎÒÊ¹ÓÃ PyTorch modelzoo ÖÐ¿ÉÓÃµÄ Inception ÍøÂç£¬¸ÃÍøÂçÔÚImageNet ÉÏ½øÐÐÁËÑµÁ·£¬¿ÉÒÔ¶Ô 100 ¸öÀà±ðµÄÍ¼Ïñ½øÐÐ·ÖÀà£¬²¢Ê¹ÓÃËüÀ´Ìá¹©Ò»¸ö¿ÉÒÔÊäÈë¸øµÝ¹éÉñ¾ÍøÂçÖÐµÄ±íÊ¾¡£ Çë×¢Òâ£¬Inception network ´ÓÎ´Õë¶ÔÍ¼ËµÉú³ÉÈÎÎñ½øÐÐ¹ýÑµÁ·¡£È»¶ø£¬ËüµÄÈ·ÓÐÐ§£¡ ÎÒÃÇÒ²¿ÉÒÔÊ¹ÓÃÒ»¸öÔ¤ÑµÁ·µÄÓïÑÔÄ£ÐÍÀ´×÷Îª caption decoder¡£µ«ÕâÒ»´Î£¬ÓÉÓÚÎÒÖØÐÂÊµÏÖÁËÒ»¸öÔËÐÐÁ¼ºÃµÄÄ£ÐÍ£¬ËùÒÔ¿ÉÒÔ´ÓÍ·¿ªÊ¼ÑµÁ·½âÂëÆ÷¡£ ÍêÕûµÄÄ£ÐÍ¼Ü¹¹ÈçÏÂÍ¼ËùÊ¾: Äã¿ÉÒÔ´ÓÍ·¿ªÊ¼ÑµÁ·Ä£ÐÍ£¬µ«ÊÇÐèÒªÔÚ CPU ÉÏ»¨·Ñ¼¸ÌìÊ±¼ä (ÎÒ»¹Ã»ÓÐÕë¶Ô GPU ½øÐÐÓÅ»¯)¡£µ«²»ÓÃµ£ÐÄ£¬ÄãÒ²¿ÉÒÔÏíÊÜÒ»¸öÒÑ¾ÑµÁ·Íê³ÉµÄÄ£ÐÍ¡£(Èç¹ûÄãÊÇ´ÓÍ·¿ªÊ¼ÑµÁ·£¬Çë×¢Òâ£¬ÎÒÔÚ´óÔ¼ 40 epochs Ê±Í£Ö¹ÑµÁ·£¬µ±Ê±ÔËÐÐµÄÆ½¾ùËðÊ§Ô¼Îª 2.8)¡£ ÐÔÄÜ ÎÒÊµÏÖÁËÐÔÄÜÁ¼ºÃµÄ beam search ·½·¨¡£ÏÂÃæÊÇÍøÂçÎª²âÊÔ¼¯ÖÐµÄÍ¼ÏñÉú³ÉµÄÍ¼ËµÊ¾Àý(ÒÔÇ°´ÓÎ´¼û¹ý)¡£ ÓÃÎÒ×Ô¼ºµÄÕÕÆ¬ÊÔÊÔ£¬ÈÃÎÒÃÇ¿´¿´ÍøÂçÉú³ÉµÄÍ¼ËµÊÇÊ²Ã´: Ð§¹û²»´í£¡ÁîÈËÓ¡ÏóÉî¿ÌµÄÊÇ£¬ÍøÂçÖªµÀÕâÕÅÕÕÆ¬ÀïÓÐÒ»¸ö´©×Å°×É« T ÐôµÄÄÐÈË¡£µ«Óï·¨ÓÐµãÆ«Àë (ÎÒÏàÐÅÍ¨¹ý¸ü¶àµÄÑµÁ·¿ÉÒÔÐÞÕý)£¬µ«»ù±¾µÄÒªµã×¥×¡ÁË¡£ Èç¹ûÊäÈëµÄÍ¼Ïñ°üº¬ÍøÂç´ÓÎ´¼û¹ýµÄ¶«Î÷£¬ËüÍùÍù»áÊ§°Ü¡£ÀýÈç£¬ÎÒºÜºÃÆæÍøÂç»á¸øiPhone X µÄÍ¼ÏñÌùÉÏÊ²Ã´ÑùµÄ±êÇ©¡£ Ð§¹û²»Ì«ºÃ¡£µ«×ÜµÄÀ´Ëµ£¬ÎÒ¶ÔËüµÄ±íÏÖ·Ç³£ÂúÒâ£¬ÕâÎªÎÒÃÇÊ¹ÓÃÍøÂçÔÚÑ§Ï°¸øÍ¼ÏñÉú³ÉÍ¼ËµÊ±¿ª·¢µÄ ¡°±íÊ¾¡± À´¹¹½¨ÆäËû¹¦ÄÜÌá¹©ÁËÁ¼ºÃµÄ»ù´¡¡£ <section style="border-width: 0px;border-style: initial;border-color: initial;clear: both;box-sizing: border-box;" class="tn-Powered-by-XIUMI"><section style="padding: 8px;border-left: 6px solid rgb(255, 202, 0);font-size: 112.5%;line-height: 1.4;font-family: inherit;font-weight: bold;text-decoration: inherit;color: rgb(10, 10, 10);border-top-color: rgb(255, 202, 0);border-right-color: rgb(255, 202, 0);border-bottom-color: rgb(255, 202, 0);box-sizing: border-box;" class="tn-Powered-by-XIUMI"><section class="tn-Powered-by-XIUMI">µÚ¶þ²¿·Ö£º²éÕÒÏàËÆµ¥´Ê </section></section></section> »ØÏëÒ»ÏÂÎÒÃÇÈçºÎ´ÓÍ¼Ïñ±íÊ¾ÖÐ½âÂëÍ¼Ëµ¡£ÎÒÃÇ½«¸Ã±íÊ¾Ìá¹©¸ø LSTM/GRU ÍøÂç£¬Éú³ÉÒ»¸öÊä³ö£¬½«Æä½âÊÍÎªµÚÒ»¸öµ¥´Ê£¬È»ºó½«µÚÒ»¸öµ¥´Ê·µ»Øµ½ÍøÂçÒÔÉú³ÉµÚ¶þ¸öµ¥´Ê¡£Õâ¸ö¹ý³ÌÒ»Ö±³ÖÐøµ½ÍøÂçÉú³ÉÒ»¸ö±íÊ¾¾ä×Ó½áÊøµÄÌØÊâ±ê¼ÇÎªÖ¹¡£ ÎªÁË½«µ¥´Ê·´À¡µ½ÍøÂçÖÐ£¬ÎÒÃÇÐèÒª½«µ¥´Ê×ª»»Îª±íÊ¾£¬ÔÙÊäÈë¸øÍøÂç¡£ÕâÒâÎ¶×Å£¬Èç¹ûÊäÈë²ã°üº¬ 300 ¸öÉñ¾Ôª£¬ÄÇÃ´¶ÔÓÚËùÓÐÍ¼ËµÖÐµÄ 8000 ¶à¸ö²»Í¬µÄµ¥´Ê£¬ÎÒÃÇÐèÒªÓÐÒ»¸ö 300 ¸öÏà¹ØÁªµÄÊý×Ö£¬Î¨Ò»µØÖ¸¶¨ÄÇ¸öµ¥´Ê¡£½«µ¥´Ê×Öµä×ª»»³ÉÊý×Ö±íÊ¾µÄ¹ý³Ì³ÆÎª´Ê»ãÇ¶Èë (»ò´Ê»ã±íÊ¾)¡£ ÎÒÃÇ¿ÉÒÔÏÂÔØºÍÊ¹ÓÃÒÑ¾´æÔÚµÄ´Ê»ãÇ¶Èë£¬Èç word2vec »ò GLoVE¡£µ«ÔÚÕâ¸öÊ¾ÀýÖÐ£¬ÎÒÃÇ´ÓÍ·¿ªÊ¼Ñ§Ï°´Ê»ãÇ¶Èë¡£ÎÒÃÇ´ÓËæ»úÉú³ÉµÄ´Ê»ãÇ¶Èë¿ªÊ¼£¬Ì½Ë÷ÔÚÑµÁ·½áÊøÊ±£¬ÍøÂç¶Ôµ¥´ÊµÄÁË½â¡£ ÓÉÓÚÎÒÃÇÎÞ·¨ÏëÏó 100 Î¬µÄÊý×Ö¿Õ¼ä£¬ÎÒÃÇ½«Ê¹ÓÃÒ»ÖÖ³ÆÎª t-SNE µÄÆæÃî¼¼ÊõÀ´ÔÚ 2Î¬ÖÐ¿ÉÊÓ»¯Ñ§Ï°µÄ´Ê»ãÇ¶Èë¡£t-SNE ÊÇÒ»ÖÖ½µÎ¬¼¼Êõ£¬ËüÊÔÍ¼Ê¹¸ßÎ¬¿Õ¼äÖÐµÄÁÚÓòÍ¬Ê±Ò²ÊÇµÍÎ¬¿Õ¼äÖÐµÄÁÚÓò¡£ ´Ê»ãÇ¶ÈëµÄ¿ÉÊÓ»¯ ÈÃÎÒÃÇÀ´¿´¿´ caption decoder Ñ§Ï°µ½µÄ´Ê»ãÇ¶Èë¿Õ¼ä (²»ÏñÆäËûÓïÑÔÈÎÎñÓÐÊý°ÙÍòµ¥´ÊºÍ¾ä×Ó£¬ÎÒÃÇµÄ½âÂëÆ÷ÔÚÑµÁ·Êý¾Ý¼¯ÖÐÖ»ÓÐ ~30k µÄ¾ä×Ó)¡£Òò´Ë£¬ÎÒÃÇµÄÍøÂçÒÑ¾ÁË½âµ½Ïñ ¡°play¡±¡¢¡°plays¡± ºÍ ¡°playing¡± ÕâÑùµÄ´Ê»ãÊÇ·Ç³£ÏàËÆµÄ (ËüÃÇ¾ßÓÐÏàËÆµÄ±íÊ¾ÐÎÊ½£¬ÈçºìÉ«¼ýÍ·ËùÊ¾µÄ½ôÃÜ¾ÛÀà)¡£ÈÃÎÒÃÇÔÚÕâ¸ö¶þÎ¬¿Õ¼äÖÐÌ½Ë÷ÁíÒ»¸öÇøÓò:Õâ¸öÇøÓòËÆºõÓÐÒ»¶ÑÊý×Ö ¡ª¡ª¡°two¡±¡¢¡°three¡±¡¢¡°four¡±¡¢¡°five¡±£¬µÈµÈ¡£ÉÏÍ¼£¬ËüÖªµÀ people ºÍ children Á½¸öµ¥´ÊÏàËÆ¡£¶øÇÒ£¬Ëü»¹ÒþÊ½µØÍÆ¶Ï³öÁËÎïÌåµÄÐÎ×´¡£ÏàËÆ´Ê»ã ÎÒÃÇ¿ÉÒÔÊ¹ÓÃ 100 Î¬±íÊ¾ (100-dimensional representation) À´¹¹½¨Ò»¸öº¯Êý£¬¸Ãº¯ÊýÌá³öÓëÊäÈëµ¥´Ê×îÏàËÆµÄµ¥´Ê¡£ËüµÄ¹¤×÷ÔÀíºÜ¼òµ¥£º²ÉÓÃ 100 Î¬µÄ±íÊ¾£¬²¢ÕÒ³öËüÓëÊý¾Ý¿âÖÐËùÓÐÆäËûµ¥´ÊµÄÓàÏÒÏàËÆ¶È¡£ ÈÃÎÒÃÇÀ´¿´¿´Óë ¡°boy¡± Õâ¸öµ¥´Ê×îÏàËÆµÄµ¥´Ê: ½á¹û²»´í¡£¡°Rider¡± ³ýÍâ£¬µ« ¡°kids¡±¡¢¡°kid¡± ºÍ ¡°toddler¡± ¶¼ÊÇÕýÈ·µÄ¡£ Õâ¸öÍøÂçÈÏÎªÓë ¡°chasing¡± ÏàËÆµÄ´Ê»ãÊÇ: ¡°Chases¡± ÊÇ¿ÉÒÔµÄ£¬µ«ÎÒ²»È·¶¨ÎªÊ²Ã´ËüÈÏÎª ¡°police¡± Óë ¡°chasing¡± ÀàËÆ¡£ µ¥´ÊÀà±È (Word analogies) ¹ØÓÚ´Ê»ãÇ¶ÈëµÄÒ»¸öÁîÈËÐË·ÜµÄÊÂÊµÊÇ£¬Äã¿ÉÒÔ¶ÔËüÃÇ½øÐÐÎ¢»ý·Ö¡£Äã¿ÉÒÔÓÃÁ½¸öµ¥´Ê(Èç ¡°king¡± ºÍ ¡°queen¡±) ²¢¼õÈ¥ËüÃÇµÄ±íÊ¾À´µÃµ½Ò»¸ö·½Ïò¡£µ±Äã°ÑÕâ¸ö·½ÏòÓ¦ÓÃµ½ÁíÒ»¸ö´ÊµÄ±íÊ¾ÉÏ (Èç ¡°man¡±)£¬Äã»áµÃµ½Ò»¸öÓëÊµ¼ÊÀàËÆ´Ê (±ÈÈç ¡°woman¡±) ºÜ½Ó½üµÄ±íÊ¾¡£Õâ¾ÍÊÇÎªÊ²Ã´ word2vec Ò»¾ÍÆ³ö¾ÍÈç´ËÊÜ»¶ÓµÄÔÒò£º ÎÒºÜºÃÆæÍ¨¹ý caption decoder Ñ§Ï°µ½µÄ±íÊ¾ÊÇ·ñ¾ßÓÐÀàËÆµÄÊôÐÔ¡£¾¡¹ÜÎÒ³Ö»³ÒÉÌ¬¶È£¬ÒòÎªÑµÁ·Êý¾Ý²¢²»´ó (´óÔ¼ 3 Íò¸ö¾ä×Ó)£¬ÎÒ»¹ÊÇ³¢ÊÔÁËÒ»ÏÂ¡£ ÍøÂçÑ§Ï°µ½µÄÀà±È²¢²»ÍêÃÀ (ÓÐÐ©µ¥´Ê×ÖÃæÉÏ³öÏÖµÄ´ÎÊý£¼10 ´Î£¬ËùÒÔÍøÂçÃ»ÓÐ×ã¹»µÄÐÅÏ¢¿É¹©Ñ§Ï°)¡£µ«ÈÔÓÐÒ»Ð©Àà±È¡£ Èç¹û riding ¶ÔÓ¦ sitting£¬ÄÇÃ´ walking ¶ÔÓ¦Ê²Ã´ÄØ£¿ÎÒµÄÍøÂçÈÏÎªÓ¦¸ÃÊÇ ¡°laying¡±(Õâ¸ö½á¹û»¹²»´í£¡) Í¬Ñù£¬Èç¹û ¡°man¡± µÄ¸´ÊýÊÇ ¡°men¡±£¬ÄÇÃ´ ¡°woman¡± µÄ¸´ÊýÓ¦¸ÃÊÇÊ²Ã´ÄØ: µÚ¶þ¸ö½á¹ûÊÇ ¡°women¡±£¬Ïàµ±²»´íÁË¡£ ×îºó£¬Èç¹û grass ¶ÔÓ¦ green£¬ÄÇÃ´ sky ¶ÔÓ¦Ê²Ã´ÄØ£º ÍøÂçÈÏÎª sky ¶ÔÓ¦ silver »ò grey µÄ£¬ËäÈ»Ã»ÓÐ³öÏÖ blue£¬µ«Ëü¸øµÄ½á¹û¶¼ÊÇÑÕÉ«´Ê¡£ÁîÈË¾ªÑÈµÄÊÇ£¬Õâ¸öÍøÂçÄÜ¹»ÍÆ¶ÏÑÕÉ«µÄ·½Ïò¡£ <section style="border-width: 0px;border-style: initial;border-color: initial;clear: both;box-sizing: border-box;" class="tn-Powered-by-XIUMI"><section style="padding: 8px;border-left: 6px solid rgb(255, 202, 0);font-size: 112.5%;line-height: 1.4;font-family: inherit;font-weight: bold;text-decoration: inherit;color: rgb(10, 10, 10);border-top-color: rgb(255, 202, 0);border-right-color: rgb(255, 202, 0);border-bottom-color: rgb(255, 202, 0);box-sizing: border-box;" class="tn-Powered-by-XIUMI"><section class="tn-Powered-by-XIUMI">µÚÈý²¿·Ö£º²éÕÒÏàËÆÍ¼Ïñ </section></section></section> Èç¹ûµ¥´Ê±íÊ¾½«ÀàËÆµÄµ¥´Ê¾ÛÔÚÒ»Æð£¬ÄÇÃ´Í¼Ïñ±íÊ¾ (Inception Ö§³ÖµÄÍ¼Ïñ±àÂëÆ÷Êä³ö) ÄØ£¿ÎÒ½«ÏàÍ¬µÄ t-SNE ¼¼ÊõÓ¦ÓÃÓÚÍ¼Ïñ±íÊ¾ (ÔÚ caption decoder µÄµÚÒ»²½ÖÐ×÷ÎªÊäÈëµÄ 300-dimensional tensor)¡£ ¿ÉÊÓ»¯ ÕâÐ©µãÊÇ²»Í¬Í¼ÏñµÄ±íÊ¾ (²»ÊÇÈ«²¿ 8K Í¼Ïñ£¬´óÔ¼ÊÇ 100 ÕÅÍ¼ÏñµÄÑù±¾)¡£ºìÉ«¼ýÍ·Ö¸Ïò¸½½üµÄÒ»×é±íÊ¾µÄ¾ÛÀà¡£Èü³µµÄÍ¼Ïñ±»¾ÛÀàÔÚÒ»Æð¡£º¢×ÓÃÇÔÚÉÁÖ / ²ÝµØÍæË£µÄÍ¼ÏñÒ²±»¾ÛÀàÔÚÒ»Æð¡£ÀºÇòÔË¶¯Ô±µÄÍ¼Ïñ±»¾ÛÀàÔÚÒ»Æð¡£ ²éÕÒÓëÊäÈëÍ¼ÏñÏàËÆµÄÍ¼Ïñ ¶ÔÓÚ²éÕÒÏàËÆµ¥´ÊÈÎÎñ£¬ÎÒÃÇ±»ÏÞÖÆÔÚ²âÊÔ¼¯´Ê»ã±íÖÐÑ°ÕÒÏàËÆµÄµ¥´Ê (Èç¹û²âÊÔ¼¯ÖÐ²»´æÔÚÄ³¸öµ¥´Ê£¬ÎÒÃÇµÄ caption decoder ¾Í²»»áÑ§Ï°ËüµÄÇ¶Èë)¡£È»¶ø£¬¶ÔÓÚÀàËÆµÄÍ¼ÏñÈÎÎñ£¬ÎÒÃÇÓÐÒ»¸öÍ¼Ïñ±íÊ¾Éú³ÉÆ÷ (image representation generator)£¬Ëü¿ÉÒÔ½ÓÊÜÈÎºÎÊäÈëÍ¼Ïñ²¢Éú³ÉÆä±àÂë¡£ ÕâÒâÎ¶×ÅÎÒÃÇ¿ÉÒÔÊ¹ÓÃÓàÏÒÏàËÆ¶È·½·¨À´¹¹½¨Ò»¸ö°´Í¼ÏñËÑË÷µÄ¹¦ÄÜ£¬ÈçÏÂËùÊ¾£º ²½Öè 1£º»ñÈ¡Êý¾Ý¿â»òÄ¿±êÎÄ¼þ¼ÐÖÐµÄËùÓÐÍ¼Ïñ£¬²¢´æ´¢ËüÃÇµÄ±íÊ¾ (ÓÉ image encoder¸ø³ö) ²½Öè 2£ºµ±ÓÃ»§Ï£ÍûËÑË÷ÓëÒÑÓÐÍ¼Ïñ×îÏàËÆµÄÍ¼ÏñÊ±£¬Ê¹ÓÃÐÂÍ¼ÏñµÄ±íÊ¾²¢ÔÚÊý¾Ý¿âÖÐÕÒµ½×î½Ó½üµÄÍ¼Ïñ (ÓÉÓàÏÒÏàËÆ¶È¸ø³ö) ¹È¸èÍ¼Ïñ¿ÉÄÜÕýÊ½Ê¹ÓÃÕâÖÖ (»òÀàËÆµÄ) ·½·¨À´Ö§³ÖÆä·´ÏòÍ¼ÏñËÑË÷¹¦ÄÜ¡£ ÈÃÎÒÃÇ¿´¿´Õâ¸öÍøÂçÊÇÈçºÎ¹¤×÷µÄ£ºÉÏÃæÕâÕÅÍ¼ÏñÊÇÎÒ×Ô¼ºµÄ¡£ÎÒÃÇÊ¹ÓÃµÄÄ£ÐÍÒÔÇ°´ÓÎ´¼û¹ýËü¡£µ±ÎÒ²éÑ¯ÀàËÆÍ¼ÏñÊ±£¬ÍøÂç´Ó Flickr8K Êý¾Ý¼¯Êä³öÈçÏÂÍ¼Ïñ£ºÊÇ²»ÊÇºÜÏñ£¿ÎÒÃ»Ïëµ½»áÓÐÕâÃ´ºÃµÄ±íÏÖ£¬µ«ÎÒÃÇÈ·Êµ×öµ½ÁË£¡ <section style="border-width: 0px;border-style: initial;border-color: initial;clear: both;box-sizing: border-box;" class="tn-Powered-by-XIUMI"><section style="padding: 8px;border-left: 6px solid rgb(255, 202, 0);font-size: 112.5%;line-height: 1.4;font-family: inherit;font-weight: bold;text-decoration: inherit;color: rgb(10, 10, 10);border-top-color: rgb(255, 202, 0);border-right-color: rgb(255, 202, 0);border-bottom-color: rgb(255, 202, 0);box-sizing: border-box;" class="tn-Powered-by-XIUMI"><section class="tn-Powered-by-XIUMI">µÚËÄ²¿·Ö£ºÍ¨¹ýÃèÊö²éÕÒÍ¼Ïñ </section></section></section> ÔÚ×îºóÒ»²¿·ÖÖÐ£¬ÎÒÃÇ½«·´ÏòÔËÐÐ caption generator¡£Òò´Ë£¬ÎÒÃÇ²»ÊÇ»ñÈ¡Í¼Ïñ²¢ÎªÆäÉú³É±êÌâ£¬¶øÊÇÊäÈë±êÌâ (ÎÄ±¾ÃèÊö) ²¢ÕÒµ½ÓëÖ®×îÆ¥ÅäµÄÍ¼Ïñ¡£ ¹ý³ÌÈçÏÂ£º <ul class=" list-paddingleft-2"><li>²½Öè 1£º²»ÊÇ´ÓÀ´×Ô±àÂëÆ÷µÄ 300 Î¬Í¼Ïñ±íÊ¾¿ªÊ¼£¬¶øÊÇ´ÓÒ»¸öÍêÈ«Ëæ»úµÄ 300 Î¬ÊäÈëÕÅÁ¿¿ªÊ¼</li><li>²½Öè 2£º¶³½áÕû¸öÍøÂçµÄËùÓÐ²ã (¼´Ö¸Ê¾ PyTorch ²»Òª¼ÆËãÌÝ¶È)</li><li>²½Öè 3£º¼ÙÉèËæ»úÉú³ÉµÄÊäÈëÕÅÁ¿À´×Ô image encoder£¬½«ÆäÊäÈëµ½ caption decoderÖÐ</li><li>²½Öè 4£º»ñÈ¡¸ø¶¨Ëæ»úÊäÈëÊ±ÍøÂçÉú³ÉµÄ±êÌâ£¬²¢½«ÆäÓëÓÃ»§Ìá¹©µÄ±êÌâ½øÐÐ±È½Ï</li><li>²½Öè 5£º¼ÆËã±È½ÏÉú³ÉµÄ±êÌâºÍÓÃ»§Ìá¹©µÄ±êÌâµÄËðÊ§</li><li>²½Öè 6£ºÕÒµ½Ê¹ËðÊ§×îÐ¡µÄÊäÈëÕÅÁ¿µÄÌÝ¶È</li><li>²½Öè 7£º¸ù¾ÝÌÝ¶È¸Ä±äÊäÈëÕÅÁ¿µÄ·½Ïò (¸ù¾ÝÑ§Ï°ÂÊ¸Ä±äÒ»Ð¡²½)</li><li>¼ÌÐø²½Öè 4 µ½²½Öè 7£¬Ö±µ½ÊÕÁ²»òµ±ËðÊ§µÍÓÚÄ³¸öãÐÖµÊ±ÎªÖ¹</li><li>×îºóÒ»²½£ºÈ¡×îÖÕµÄÊäÈëÕÅÁ¿£¬²¢ÀûÓÃËüµÄÖµ£¬Í¨¹ýÓàÏÒÏàËÆ¶ÈÕÒµ½ÀëËü×î½üµÄÍ¼Ïñ</li></ul> ½á¹ûÏàµ±ÉñÆæµÄ£º ÎÒËÑË÷ÁË ¡°a dog¡±£¬ÕâÊÇÍøÂçÕÒµ½µÄÍ¼Ïñ£º ËÑË÷ ¡°a boy smiling¡±£º ×îºó£¬ËÑË÷£º Ç°Á½¸ö½á¹ûÊÇ£º ÒÔ¼° <section style="border-width: 0px;border-style: initial;border-color: initial;clear: both;box-sizing: border-box;" class="tn-Powered-by-XIUMI"><section style="padding: 8px;border-left: 6px solid rgb(255, 202, 0);font-size: 112.5%;line-height: 1.4;font-family: inherit;font-weight: bold;text-decoration: inherit;color: rgb(10, 10, 10);border-top-color: rgb(255, 202, 0);border-right-color: rgb(255, 202, 0);border-bottom-color: rgb(255, 202, 0);box-sizing: border-box;" class="tn-Powered-by-XIUMI"><section class="tn-Powered-by-XIUMI">×Ü½áºÍÌôÕ½ </section></section></section> ËùÓÐÕâÐ©²Ù×÷µÄ´úÂë¿ÉÒÔ´Ó github ´æ´¢¿âÏÂÔØÖ´ÐÐ£ºhttps://github.com/paraschopra/one-network-many-uses Õâ¸ö´æ´¢¿â°üÀ¨ÁËÓÃÓÚÊý¾ÝÔ¤´¦Àí¡¢Ä£ÐÍÃèÊö¡¢Ô¤ÑµÁ·µÄÍ¼ËµÉú³ÉÍøÂç¡¢¿ÉÊÓ»¯µÄ´úÂë¡£µ«²»°üÀ¨ Flickr8K Êý¾Ý¼¯»ò±êÌâ£¬ÐèÒªµ¥¶ÀÏÂÔØ¡£ Èç¹ûÄãÏë¸ü½øÒ»²½£¬ÕâÀïÓÐÒ»¸öÌôÕ½£º´Ó¸ø¶¨µÄÃèÊöÉú³ÉÍ¼Ïñ¡£ Õâ±È±¾ÎÄÖÐ´¦ÀíµÄÒªÄÑ 10 ±¶£¬µ«ÎÒ¸Ð¾õÕâÊÇ¿ÉÐÐµÄ¡£Èç¹ûÒ»Ïî·þÎñ²»½öÄÜ¹»ËÑË÷ÓëÎÄ±¾¶ÔÓ¦µÄÍ¼Ïñ£¬¶øÇÒÄÜ¹»¶¯Ì¬µØÉú³ÉÍ¼Ïñ£¬ÄÇ¸Ã¶à¿á°¡¡£ ÔÚÎ´À´£¬Èç¹û Google Images ÊµÏÖÁËÕâ¸ö¹¦ÄÜ£¬²¢ÄÜ¹»Îª²»´æÔÚµÄÍ¼ÏñÌá¹©½á¹û (±ÈÈç¡°Á½Ö»¶À½ÇÊÞÔÚÅûÈø×ö³ÉµÄµØÌºÉÏ·ÉÏè¡±)£¬ÎÒ²»»á¸Ðµ½¾ªÑÈµÄ¡£ ¾ÍÕâÑù¡£×£ÄãÄÜ°²È«Óä¿ìµØÌ½Ë÷±íÊ¾µÄÊÀ½ç¡£ ²Î¿¼Á´½Ó£ºhttps://towardsdatascience.com/one-neural-network-many-uses-image-captioning-image-search-similar-image-and-words-in-one-model-1e22080ce73d

Ò³: [1]

ÉîÛÚÔÅÏë´æ´¢¿Æ¼¼ÓÐÏÞ¹«Ë¾'s Archiver

Ò»¸öÉñ¾­ÍøÂçÊµÏÖ4´óÍ¼ÏñÈÎÎñ£¬GitHubÒÑ¿ªÔ´

Ò»¸öÉñ¾ÍøÂçÊµÏÖ4´óÍ¼ÏñÈÎÎñ£¬GitHubÒÑ¿ªÔ´