அறிமுகம்

முன் பயிற்சி பெற்ற மாடல்களின் "இறுதிப் புள்ளியாக" Grok3 இருக்கும் என்று நினைக்கிறீர்களா?

எலோன் மஸ்க் மற்றும் xAI குழு, நேரடி ஒளிபரப்பின் போது Grok இன் சமீபத்திய பதிப்பான Grok3 ஐ அதிகாரப்பூர்வமாக அறிமுகப்படுத்தினர். இந்த நிகழ்வுக்கு முன்பு, மஸ்க்கின் 24/7 விளம்பர விளம்பரத்துடன் இணைந்து, Grok3 க்கான உலகளாவிய எதிர்பார்ப்புகளை முன்னோடியில்லாத அளவிற்கு உயர்த்தியது. ஒரு வாரத்திற்கு முன்பு, DeepSeek R1 இல் கருத்து தெரிவிக்கும் போது, மஸ்க் ஒரு நேரடி ஒளிபரப்பின் போது நம்பிக்கையுடன் கூறினார், "xAI ஒரு சிறந்த AI மாதிரியை அறிமுகப்படுத்த உள்ளது." நேரலையில் வழங்கப்பட்ட தரவுகளிலிருந்து, கணிதம், அறிவியல் மற்றும் நிரலாக்கத்திற்கான அளவுகோல்களில் Grok3 தற்போதைய அனைத்து முக்கிய மாதிரிகளையும் விஞ்சியுள்ளது, மேலும் SpaceX இன் செவ்வாய் கிரக பயணங்கள் தொடர்பான கணக்கீட்டு பணிகளுக்கு Grok3 பயன்படுத்தப்படும் என்றும், "மூன்று ஆண்டுகளுக்குள் நோபல் பரிசு மட்டத்தில் முன்னேற்றங்கள்" என்று கணித்துள்ளதாகவும் மஸ்க் கூறினார். இருப்பினும், இவை தற்போது மஸ்க்கின் கூற்றுகள் மட்டுமே. அறிமுகப்படுத்தப்பட்ட பிறகு, Grok3 இன் சமீபத்திய பீட்டா பதிப்பை சோதித்தேன், பெரிய மாடல்களுக்கான கிளாசிக் தந்திரக் கேள்வியை எழுப்பினேன்: "எது பெரியது, 9.11 அல்லது 9.9?" துரதிர்ஷ்டவசமாக, எந்த தகுதிகளும் அல்லது அடையாளங்களும் இல்லாமல், புத்திசாலியான Grok3 என்று அழைக்கப்படுபவரால் இன்னும் இந்தக் கேள்விக்குச் சரியாகப் பதிலளிக்க முடியவில்லை. Grok3 கேள்வியின் அர்த்தத்தை துல்லியமாக அடையாளம் காணத் தவறிவிட்டது.

இந்தச் சோதனை பல நண்பர்களிடமிருந்து கணிசமான கவனத்தை விரைவாக ஈர்த்தது, மேலும் தற்செயலாக, வெளிநாடுகளில் இதேபோன்ற பல்வேறு சோதனைகள் Grok3 "பைசாவின் சாய்ந்த கோபுரத்திலிருந்து எந்த பந்து முதலில் விழுகிறது?" போன்ற அடிப்படை இயற்பியல்/கணித கேள்விகளுடன் போராடுவதைக் காட்டுகின்றன. இதனால், இது "எளிய கேள்விகளுக்கு பதிலளிக்க விரும்பாத ஒரு மேதை" என்று நகைச்சுவையாக முத்திரை குத்தப்பட்டுள்ளது.

Grok3 நல்லதுதான், ஆனால் அது R1 அல்லது o1-Pro-வை விட சிறந்தது அல்ல.

நடைமுறையில் பல பொது அறிவு சோதனைகளில் Grok3 "தோல்விகளை" சந்தித்தது. xAI வெளியீட்டு நிகழ்வின் போது, மஸ்க் அடிக்கடி விளையாடுவதாகக் கூறிக்கொண்ட பாத் ஆஃப் எக்ஸைல் 2 விளையாட்டின் கதாபாத்திர வகுப்புகள் மற்றும் விளைவுகளை பகுப்பாய்வு செய்ய Grok3 ஐப் பயன்படுத்தி செயல்விளக்கம் அளித்தார், ஆனால் Grok3 வழங்கிய பெரும்பாலான பதில்கள் தவறானவை. நேரடி ஒளிபரப்பின் போது மஸ்க் இந்த வெளிப்படையான சிக்கலை கவனிக்கவில்லை.

இந்தத் தவறு, வெளிநாட்டு இணையவாசிகள் மஸ்க்கை கேமிங்கில் "ஒரு மாற்றீட்டைக் கண்டுபிடித்ததற்காக" கேலி செய்வதற்கு மேலும் ஆதாரங்களை வழங்கியது மட்டுமல்லாமல், நடைமுறை பயன்பாடுகளில் Grok3 இன் நம்பகத்தன்மை குறித்து குறிப்பிடத்தக்க கவலைகளையும் எழுப்பியது. அத்தகைய "மேதைக்கு", அதன் உண்மையான திறன்களைப் பொருட்படுத்தாமல், செவ்வாய் கிரக ஆய்வுப் பணிகள் போன்ற மிகவும் சிக்கலான பயன்பாட்டு சூழ்நிலைகளில் அதன் நம்பகத்தன்மை சந்தேகத்தில் உள்ளது.

தற்போது, வாரங்களுக்கு முன்பு Grok3 ஐ அணுகிய பல சோதனையாளர்களும், நேற்று சில மணிநேரங்களுக்கு மாதிரி திறன்களை சோதித்தவர்களும், "Grok3 நல்லது, ஆனால் அது R1 அல்லது o1-Pro ஐ விட சிறந்தது அல்ல" என்ற பொதுவான முடிவை சுட்டிக்காட்டுகின்றனர்.

"என்விடியாவை சீர்குலைத்தல்" பற்றிய ஒரு விமர்சனக் கண்ணோட்டம்

வெளியீட்டின் போது அதிகாரப்பூர்வமாக வழங்கப்பட்ட PPT இல், Grok3 Chatbot Arena-வில் "மிகவும் முன்னால்" இருப்பதாகக் காட்டப்பட்டது, ஆனால் இது புத்திசாலித்தனமாக கிராஃபிக் நுட்பங்களைப் பயன்படுத்தியது: லீடர்போர்டில் உள்ள செங்குத்து அச்சு 1400-1300 மதிப்பெண் வரம்பில் மட்டுமே முடிவுகளைப் பட்டியலிட்டது, இதனால் சோதனை முடிவுகளில் அசல் 1% வேறுபாடு இந்த விளக்கக்காட்சியில் விதிவிலக்காக குறிப்பிடத்தக்கதாகத் தெரிகிறது.

உண்மையான மாதிரி மதிப்பெண் முடிவுகளில், Grok3 DeepSeek R1 மற்றும் GPT-4.0 ஐ விட 1-2% மட்டுமே முன்னிலையில் உள்ளது, இது நடைமுறை சோதனைகளில் பல பயனர்களின் அனுபவங்களில் "குறிப்பிடத்தக்க வேறுபாடு இல்லை" என்பதைக் காட்டுகிறது. Grok3 அதன் வாரிசுகளை 1%-2% மட்டுமே மிஞ்சுகிறது.

Grok3 தற்போது பொதுவில் சோதிக்கப்பட்ட அனைத்து மாடல்களையும் விட அதிக மதிப்பெண் பெற்றிருந்தாலும், பலர் இதை பெரிதாக எடுத்துக்கொள்வதில்லை: எல்லாவற்றிற்கும் மேலாக, xAI முன்பு Grok2 சகாப்தத்தில் "மதிப்பெண் கையாளுதலுக்காக" விமர்சிக்கப்பட்டது. லீடர்போர்டு பதில் நீள பாணியை தண்டித்ததால், மதிப்பெண்கள் வெகுவாகக் குறைந்தன, இதனால் தொழில்துறையினர் "அதிக மதிப்பெண் பெற்றாலும் குறைந்த திறன்" என்ற நிகழ்வை அடிக்கடி விமர்சிக்க வழிவகுத்தது.

லீடர்போர்டு "கையாளுதல்" மூலமாகவோ அல்லது விளக்கப்படங்களில் வடிவமைப்பு தந்திரங்கள் மூலமாகவோ, அவை xAI மற்றும் மாடல் திறன்களில் "பேக்கை வழிநடத்துதல்" என்ற கருத்துடன் மஸ்க்கின் வெறியை வெளிப்படுத்துகின்றன. இந்த ஓரங்களுக்கு மஸ்க் ஒரு செங்குத்தான விலையைக் கொடுத்தார்: வெளியீட்டின் போது, அவர் 200,000 H100 GPUகளைப் பயன்படுத்தியதாகவும் (நேரடி ஒளிபரப்பின் போது "100,000 க்கும் மேற்பட்டவை" என்று கூறி) 200 மில்லியன் மணிநேர மொத்த பயிற்சி நேரத்தை அடைந்ததாகவும் பெருமையாகக் கூறினார். இது GPU துறைக்கு மற்றொரு குறிப்பிடத்தக்க வரப்பிரசாதம் என்று சிலர் நம்பவும், இந்தத் துறையில் DeepSeek இன் தாக்கத்தை "முட்டாள்தனம்" என்று கருதவும் வழிவகுத்தது. குறிப்பாக, மாதிரி பயிற்சியின் எதிர்காலம் முழுமையான கணக்கீட்டு சக்தியாக இருக்கும் என்று சிலர் நம்புகிறார்கள்.

இருப்பினும், சில நெட்டிசன்கள் DeepSeek V3 ஐ உருவாக்க இரண்டு மாதங்களில் 2000 H800 GPUகளின் நுகர்வை ஒப்பிட்டு, Grok3 இன் உண்மையான பயிற்சி மின் நுகர்வு V3 ஐ விட 263 மடங்கு என்று கணக்கிட்டனர். 1402 புள்ளிகளைப் பெற்ற DeepSeek V3 க்கும் Grok3 க்கும் இடையிலான இடைவெளி 100 புள்ளிகளுக்கு சற்று குறைவாகவே உள்ளது. இந்தத் தரவு வெளியானதைத் தொடர்ந்து, Grok3 இன் "உலகின் வலிமையானது" என்ற பட்டத்திற்குப் பின்னால் ஒரு தெளிவான விளிம்பு பயன்பாட்டு விளைவு உள்ளது என்பதை பலர் விரைவாக உணர்ந்தனர் - வலுவான செயல்திறனை உருவாக்கும் பெரிய மாடல்களின் தர்க்கம் குறைந்து வரும் வருமானத்தைக் காட்டத் தொடங்கியுள்ளது.

"அதிக மதிப்பெண் பெற்றாலும் குறைந்த திறன்" இருந்தபோதிலும், பயன்பாட்டை ஆதரிக்க X (ட்விட்டர்) தளத்திலிருந்து Grok2 அதிக அளவிலான உயர்தர முதல் தரப்பு தரவைக் கொண்டிருந்தது. இருப்பினும், Grok3 இன் பயிற்சியில், xAI இயல்பாகவே OpenAI தற்போது எதிர்கொள்ளும் "உச்சவரம்பை" எதிர்கொண்டது - பிரீமியம் பயிற்சி தரவு இல்லாதது மாதிரியின் திறன்களின் ஓரளவு பயன்பாட்டை விரைவாக அம்பலப்படுத்துகிறது.

Grok3 மற்றும் Musk இன் டெவலப்பர்கள் இந்த உண்மைகளை ஆழமாகப் புரிந்துகொண்டு அடையாளம் கண்ட முதல் நபர்களாக இருக்கலாம், அதனால்தான் மஸ்க் சமூக ஊடகங்களில் பயனர்கள் தற்போது அனுபவிக்கும் பதிப்பு "இன்னும் பீட்டா மட்டுமே" என்றும் "முழு பதிப்பு வரும் மாதங்களில் வெளியிடப்படும்" என்றும் தொடர்ந்து குறிப்பிட்டுள்ளார். மஸ்க் Grok3 இன் தயாரிப்பு மேலாளராகப் பொறுப்பேற்றுள்ளார், பயனர்கள் கருத்துகள் பிரிவில் எதிர்கொள்ளும் பல்வேறு பிரச்சினைகள் குறித்து கருத்துக்களை வழங்குமாறு பரிந்துரைக்கிறார். அவர் பூமியில் அதிகம் பின்தொடரும் தயாரிப்பு மேலாளராக இருக்கலாம்.

இருப்பினும், ஒரு நாளுக்குள், Grok3 இன் செயல்திறன், வலுவான பெரிய மாடல்களைப் பயிற்றுவிக்க "பெரிய கணக்கீட்டு தசையை" நம்பியிருக்க விரும்புவோருக்கு சந்தேகத்திற்கு இடமின்றி எச்சரிக்கைகளை எழுப்பியது: பொதுவில் கிடைக்கும் மைக்ரோசாஃப்ட் தகவலின் அடிப்படையில், OpenAI இன் GPT-4 1.8 டிரில்லியன் அளவுருக்களின் அளவுரு அளவைக் கொண்டுள்ளது, இது GPT-3 ஐ விட பத்து மடங்கு அதிகம். GPT-4.5 இன் அளவுரு அளவு இன்னும் பெரியதாக இருக்கலாம் என்று வதந்திகள் தெரிவிக்கின்றன.

மாதிரி அளவுரு அளவுகள் உயர்ந்து வருவதால், பயிற்சி செலவுகளும் உயர்ந்து வருகின்றன. Grok3 இன் இருப்புடன், அளவுரு அளவு மூலம் சிறந்த மாதிரி செயல்திறனை அடைய "பணத்தை எரிப்பதை" தொடர விரும்பும் GPT-4.5 போன்ற போட்டியாளர்கள் மற்றும் பிறர் இப்போது தெளிவாகத் தெரியும் உச்சவரம்பைக் கருத்தில் கொண்டு அதை எவ்வாறு சமாளிப்பது என்று சிந்திக்க வேண்டும். இந்த நேரத்தில், OpenAI இன் முன்னாள் தலைமை விஞ்ஞானி இலியா சட்ஸ்கேவர், கடந்த டிசம்பரில், "நாம் நன்கு அறிந்த முன் பயிற்சி முடிவுக்கு வரும்" என்று கூறியிருந்தார், இது விவாதங்களில் மீண்டும் எழுந்துள்ளது, பெரிய மாடல்களைப் பயிற்றுவிப்பதற்கான உண்மையான பாதையைக் கண்டறிய முயற்சிகளைத் தூண்டியுள்ளது.

இல்யாவின் கருத்து தொழில்துறையில் எச்சரிக்கையை எழுப்பியுள்ளது. அணுகக்கூடிய புதிய தரவுகளின் உடனடி தீர்ந்துபோகும் நிலையை அவர் துல்லியமாக முன்னறிவித்தார், இதனால் தரவு கையகப்படுத்தல் மூலம் செயல்திறனை தொடர்ந்து மேம்படுத்த முடியாத சூழ்நிலைக்கு வழிவகுத்தது, அதை புதைபடிவ எரிபொருட்களின் தீர்ந்துபோகும் நிலைக்கு ஒப்பிட்டார். "எண்ணெய் போலவே, இணையத்தில் மனிதனால் உருவாக்கப்பட்ட உள்ளடக்கமும் ஒரு வரையறுக்கப்பட்ட வளமாகும்" என்று அவர் சுட்டிக்காட்டினார். சட்ஸ்கேவரின் கணிப்புகளில், அடுத்த தலைமுறை மாதிரிகள், முன் பயிற்சிக்குப் பிறகு, "உண்மையான சுயாட்சி" மற்றும் "மனித மூளையைப் போன்ற" பகுத்தறிவு திறன்களைக் கொண்டிருக்கும்.

உள்ளடக்க பொருத்தத்தை முதன்மையாக நம்பியிருக்கும் இன்றைய முன் பயிற்சி பெற்ற மாதிரிகளைப் போலன்றி (முன்னர் கற்றுக்கொண்ட மாதிரி உள்ளடக்கத்தை அடிப்படையாகக் கொண்டது), எதிர்கால AI அமைப்புகள் மனித மூளையின் "சிந்தனை" போன்ற முறையில் சிக்கல்களைத் தீர்க்க வழிமுறைகளைக் கற்றுக் கொள்ளவும் நிறுவவும் முடியும். ஒரு மனிதன் அடிப்படை தொழில்முறை இலக்கியங்களை மட்டுமே கொண்டு ஒரு பாடத்தில் அடிப்படைத் தேர்ச்சியை அடைய முடியும், அதே நேரத்தில் ஒரு பெரிய AI மாதிரிக்கு மிக அடிப்படையான தொடக்க நிலை செயல்திறனை அடைய மில்லியன் கணக்கான தரவு புள்ளிகள் தேவைப்படுகின்றன. சொற்கள் சிறிது மாற்றப்பட்டாலும் கூட, இந்த அடிப்படை கேள்விகள் சரியாகப் புரிந்து கொள்ளப்படாமல் போகலாம், இது மாதிரி நுண்ணறிவில் உண்மையிலேயே முன்னேறவில்லை என்பதை விளக்குகிறது: கட்டுரையின் தொடக்கத்தில் குறிப்பிடப்பட்டுள்ள அடிப்படை இன்னும் தீர்க்க முடியாத கேள்விகள் இந்த நிகழ்வின் தெளிவான உதாரணத்தைக் குறிக்கின்றன.

முடிவுரை

இருப்பினும், மிருகத்தனமான சக்திக்கு அப்பால், "முன் பயிற்சி பெற்ற மாதிரிகள் தங்கள் முடிவை நெருங்கி வருகின்றன" என்பதை Grok3 தொழில்துறைக்கு வெளிப்படுத்துவதில் உண்மையில் வெற்றி பெற்றால், அது இந்தத் துறையில் குறிப்பிடத்தக்க தாக்கங்களை ஏற்படுத்தும்.

ஒருவேளை Grok3 ஐச் சுற்றியுள்ள பரபரப்பு படிப்படியாகத் தணிந்த பிறகு, Fei-Fei Li இன் "ஒரு குறிப்பிட்ட தரவுத்தொகுப்பில் உயர் செயல்திறன் மாதிரிகளை வெறும் $50க்கு டியூன் செய்தல்" போன்ற பல நிகழ்வுகளை நாம் காண்போம், இறுதியில் AGI-க்கான உண்மையான பாதையைக் கண்டுபிடிப்போம்.

ELV கேபிள் தீர்வைக் கண்டறியவும்

கட்டுப்பாட்டு கேபிள்கள்

BMS, BUS, தொழில்துறை, இன்ஸ்ட்ருமென்டேஷன் கேபிளுக்கு.

இங்கே கிளிக் செய்யவும்

கட்டமைக்கப்பட்ட கேபிளிங் அமைப்பு

நெட்வொர்க்&டேட்டா, ஃபைபர்-ஆப்டிக் கேபிள், பேட்ச் கார்டு, மாட்யூல்கள், ஃபேஸ்ப்ளேட்

இங்கே கிளிக் செய்யவும்

2024 கண்காட்சிகள் & நிகழ்வுகள் மதிப்பாய்வு

இடுகை நேரம்: பிப்ரவரி-19-2025

"உலகின் புத்திசாலி" Grok3 ஐ சோதித்தல்

அறிமுகம்

Grok3 நல்லதுதான், ஆனால் அது R1 அல்லது o1-Pro-வை விட சிறந்தது அல்ல.

"என்விடியாவை சீர்குலைத்தல்" பற்றிய ஒரு விமர்சனக் கண்ணோட்டம்

முடிவுரை

கட்டுப்பாட்டு கேபிள்கள்

கட்டமைக்கப்பட்ட கேபிளிங் அமைப்பு

ஏப்ரல் 16-18, 2024 துபாயில் மத்திய கிழக்கு-ஆற்றல்

ஏப்ரல் 16-18, 2024 மாஸ்கோவில் செகுரிகா

மே.9, 2024 ஷாங்காயில் புதிய தயாரிப்புகள் & தொழில்நுட்பங்கள் வெளியீட்டு நிகழ்வு

அக்டோபர் 22-25, 2024 பெய்ஜிங்கில் பாதுகாப்பு சீனா

நவம்பர் 19-20, 2024 இணைக்கப்பட்ட உலகம் சௌதி அரேபியா