ÚÀѽ£¬ÎÒ¸úÄã˵£¬ÕâÁ½ÌìÓиöÀÏÅóÓÑÀ´ÕÒÎÒßëྣ¬ËµÆðÉÜÐËÂíɽҽԺºóÃæÄÇÏï×Ó£¬ÎÒÐÄÀï¿©àâһϡª¡ªÕ¦µÎ£¬Äǵط½ÁíÓÐÂð£¿ÎÒÄêÇáʱºòÈ¥ÄǶù£¬¿ÉÊÇÔôÀÊì°¡£¡²»Â÷Äã˵£¬ÄÇʱºò»¹Ã»É¶¸ßÂ¥´óÏã¬Ò»µ½ÍíÉÏ£¬Ïï×ÓÀïÍ·ÈÈÄֵøúÔÛ¶«±±µÄ´ó¼¯ËƵģ¬É¶ºÃ³ÔµÄ¶¼ÓУ¬ÄÇζ¶ù£¬ÀÏËíµÀÁË¡£
Ïï×ÓÀïµÄÃØÃÜ£¬ÄãÖªµÀ²»£¿
ÄǸöÏï×Ó°É£¬²»ÊÇɶ´óµØ±ê£¬µ«ËüÊǸö²ØÁúÎÔ»¢µÄµØ·½¡£Äã±ð¿´²»ÆðÑÛ£¬½øÈ¥Ò»³ò£¬ÀïÍ·ÄÇС³Ô̯¶ù¡¢ÀϵêËÁ£¬±ÈÔÛÃǶ«±±ÉÕ¿¾Ì¯¶¼´ø¾¢£¡ÓÈÆäÊÇÄǼ¸¼ÒÂô³ô¶¹¸¯¡¢Ð¡âÆâ½µÄ̯¶ù£¬Î¶¶ù³åµÃ¸úÔÛÃÇÀ϶«±±µÄ¹ø°üÈâ²îδ¼¸£¬ÎÅמͲöµÃ²»¿É¡£
ÎҼǵÃÓлØÈ¥ÄÇÏï×Ó£¬Ñ°Ë¼ÕûµãÒ¹Ïü£¬¸Õ¹Õ½øÈ¥¾Í³ò¼ûÒ»¸öС̯¶ù£¬Àϰå¸éÄǶùÕ¨³ô¶¹¸¯£¬Ó͹ø×ÌÀ²À²Ï죬ÄÇÏãζ¶ù°¡£¬Æ®³öÀ´ÀÏÔ¶¡£ÎÒÕ¾ÄǶù²»¶¯ÁË£¬Ö±½Ó¾ÍÕûÁËÒ»·Ý¡£ÄÇζ¶ù°¡£¬½´Áϵ÷µÃ¿É´ø¾¢ÁË£¬À±ÖдøÌð£¬ÍâËÖÀïÄÛ£¬³ÔÒ»¿Ú¾ÍÍ£²»ÏÂÀ´¡£
À϶«±±µÄÑ۹⣺Ïï×ÓÀïÍ·ÓÐÃŵÀ
ÕÕÎÒ˵°¡£¬ÉÜÐËÂíɽҽԺºóÃæÄǸöÏï×Ó£¬¸úÔÛ¶«±±µÄÀϺúͬÓеãÏñ¡£Õ¦ÕûÄØ£¿ÄãÒªÊǵÚÒ»´ÎÈ¥£¬Ç§Íò±ð»Ý¹Ë×ÅÏ¹×ªÓÆ£¬µÃѧ»á¡°Ìýζ¶ù¡±¡£É¶ÒâË¼ÄØ£¿¾ÍÊÇÄãÎŵ½É¶Ïãζ¶ù£¬Ëæ×Å×ß׼û´í¡£ÕâÕа¡£¬ÎÒÄêÇáʱºòÔÚ¶«±±Ò¹ÊÐÁ·³öÀ´µÄ£¬Ôô¹ÜÓá£
ÇÄÃþ¸æËßÄ㣺Ïï×ÓÀïÍ·ÓÐÒ»¼ÒÂôСâÆâ½µÄµê£¬ÃÅÁ³¿É²»ÆðÑÛ£¬µ«Î¶¶ù¾ø¶ÔÊÇ¡°ÍõÕ¨¡±¡£ÌÀµ×ÓõĹÇÍ·°¾³öÀ´µÄ£¬ÌرðÏÊ£¬ÄãÈ¥ÄǶù°É£¬Ç§Íò±ð´í¹ý¡£
ÁíÓа¡£¬ÄÇÏï×ÓÀïÓÐʱºò»áÓÐЩÁ÷¶¯Ì¯¶ù£¬ÂôЩÊÖ¹¤µãÐÄɶµÄ¡£ÄãÒªÊÇÅöÉÏÁË£¬¼ÇµÃÎÊÎÊÀϰåɶʱºò»¹À´£¬ÓÐЩ̯¶ùÖ»ÖÜÄ©³ö̯£¬´í¹ýÁ˾ͿÉϧÁË¡£
ºóÊÖÎÊÌ⣺Ïï×Ó¾¿¾¹»¹ÄÜÕÒµ½Âð£¿
ÕÕÎÒ˵°¡£¬Äǵط½ÐËÐí»¹ÄÜÓеãÓ°×Ó£¬µ«¾ßÌåɶÑù¶ùµÃÄãÇ××ÔÈ¥³ò³òÁË¡£ÃÅÁ³¿ÉÄÜ»»ÁË£¬Ì¯¶ù¿ÉÄÜÉÙÁË£¬µ«Ö»ÒªÈËÆøÔÚ£¬Î¶¶ù¾ÍÅܲ»ÁË¡£
±êÇ©£º
- ÉÜÐËÂíɽҽԺºóÃæÏï×Ó
- Àϵط½Ò¹Ïü
- ³ô¶¹¸¯
- СâÆâ½
- Ïï×ÓÀïµÄÃŵÀ
¡¶ÖØÇì¸ß¶ËÆ·ÜøÊÂÇéÊÒ¡·
¾ÍÆÚÏÞ¶øÑÔ£¬7ÄêÆÚÐÅÓÃÕ®Àû²îËù´¦·ÖλÊýÃ÷ÏÔ¸ßÓÚÆäÓàÆÚÏÞ£¬Ç·Õ®¶ËÎȶ¨µÄ»ú¹¹¿É·êµ÷½âÂòÈë¸ßÆÀ¼¶È¯ÖÖ£»Æ·ÖÖ·½Ã棬¶þÓÀÕ®ÐÔ¼Û±ÈÕûÌå¸ßÓÚÆÕÐÅÕ®£¬³ý1ÄêÆÚÒÔÍ⣬ÆäÓàÆÚÏÞ¶þÓÀÕ®Àû²î¼°·ÖλÊý´ó¶¼¸ßÓÚÆÕÐÅÕ®¡£±ðµÄ£¬3ÄêÆÚȯÉ̴μ¶Õ®Ä¿Ç°Àû²î·ÖλÊý¸ßÓÚ5ÄêÆÚ£¬Àû²î±£´æÐ¡·ùѹËõµÄ¿ÉÄÜ¡£
¡¶Û´Öݼ״弦½Ö°áµ½ÄÄÀïÁË¡·
2.δʵʱÅû¶×Ó¹«Ë¾Ö÷ÒªÒµÎñÏÝÈëÍ£¶Ù¡£2024Äê2ÔÂ7ÈÕ£¬ÖпÆÐ²ÄÍê³ÉÄ¿½ñÅú´Î²úÆ·°ü×°Èë¿âºó½øÈëÍ£²ú״̬£¬¸ÃÊÂÏîÊôÓÚ¡¶Ö¤È¯·¨¡·µÚ°ËÊ®ÌõµÚ¶þ¿îµÚ£¨Ê®¶þ£©Ïî¡¢¡¶ÉÏÊй«Ë¾ÐÅÏ¢Åû¶ÖÎÀí²½·¥¡·£¨Ö¤¼à»áÁîµÚ182ºÅ£¬ÒÔϼò³Æ¡¶ÐÅÅûÖÎÀí²½·¥¡·£©µÚ¶þÊ®¶þÌõµÚ£¨Ê®Ò»£©Ïî»®¶¨µÄÖØ´óʼþ£¬*STÄþ¿Æ³ÙÖÁ2024Äê3ÔÂ27ÈÕÅû¶¡£
¡¶¹ãÖÝÆ·²èº£Ñ¡¡·
ÕâÒ»Ñо¿£¨Expert Divergence Learning for MoE-based Language Models£©ÒÑÖиåICLR 2026¡£