MiniMax की स्थापना दिसंबर 2021 में Yan Junjie ने की थी, Megvii (Face++ के पीछे की चीनी computer vision कंपनी) में AI के पूर्व प्रमुख, साथ ही शीर्ष चीनी tech firms से ली गई शोधकर्ताओं की एक टीम। समय उल्लेखनीय था — GPT-3 और ChatGPT के रिलीज़ के बीच एक AI कंपनी launch करने का अर्थ था hype cycle के वास्तव में फटने से पहले foundation मॉडलों पर दाँव लगाना। Yan के पास एक स्पष्ट थीसिस थी: शुरुआत से multimodal foundation मॉडल बनाएँ और उन्हें ऐसे consumer-facing उत्पादों में wrap करें जो चीनी बाज़ार में विशाल पैमाने हासिल कर सकें। कई चीनी AI startups के विपरीत जो पहले enterprise sales पर ध्यान केंद्रित करते थे, MiniMax ने पहले दिन से consumers के पीछे एक महत्वाकांक्षा के साथ गया जिसने एक युवा ByteDance के साथ तुलना खींची।
MiniMax का सबसे दृश्यमान उत्पाद Hailuo AI (शाब्दिक रूप से "sea snail") है, एक consumer platform जो एक chatbot companion app के रूप में launch हुआ और कुछ अधिक दिलचस्प में विकसित हुआ। Hailuo की वीडियो generation क्षमताएँ, 2024 के अंत में जारी, ने AI community को अपनी quality और एकरूपता के साथ stunned किया। Hailuo AI वीडियो generator जल्दी से वैश्विक स्तर पर सबसे लोकप्रिय free वीडियो generation tools में से एक बन गया, ऐसे clips उत्पन्न करते हुए जो quality में Runway Gen-3 और Kling के बराबर थे जबकि स्वतंत्र रूप से सुलभ थे। यह एक जानबूझकर रणनीति थी: मॉडल क्षमताओं को प्रदर्शित करने के लिए एक free consumer उत्पाद का उपयोग करें, उपयोगकर्ताओं को आकर्षित करें, डेटा एकत्र करें, और अंतर्राष्ट्रीय रूप से brand recognition बनाएँ। 2025 की शुरुआत तक, Hailuo सुलभ, उच्च-गुणवत्ता AI वीडियो generation का पर्याय बन गया था, और MiniMax पारंपरिक VFX के लिए cost-effective विकल्प की तलाश में Hollywood studios और advertising agencies से रुचि की जाँच कर रहा था।
MiniMax को तकनीकी रूप से दिलचस्प क्या बनाता है वह उनके in-house मॉडल विकास की चौड़ाई है। अधिकांश AI startups विशेषज्ञता रखते हैं — text या image या voice। MiniMax सभी तीन modalities और वीडियो में निर्माण करता है। उनके भाषा मॉडल (abab series) चीनी साथियों के साथ चुपचाप प्रतिस्पर्धी रहे हैं, हालाँकि अंतर्राष्ट्रीय रूप से Qwen या GLM की तुलना में कम जाने जाते हैं। उनकी speech synthesis तकनीक यथार्थवादी voice cloning और text-to-speech को शक्ति देती है जो quality में ElevenLabs के बराबर है। और उनका video generation मॉडल एक proprietary आर्किटेक्चर का उपयोग करता है जो मज़बूत temporal एकरूपता और motion coherence के साथ text-to-video और image-to-video दोनों संभालता है। कंपनी ने MiniMax-01 भी जारी किया है, एक बड़ा भाषा मॉडल जो extremely लंबे contexts के लिए डिज़ाइन किए गए "lightning attention" mechanism के साथ है, केवल media generation से परे LLM space में गंभीर महत्वाकांक्षाओं का signal देते हुए।
MiniMax चीन में सबसे अच्छी तरह से वित्त पोषित AI startups में से एक रहा है। 2024 के मध्य में $600 मिलियन के एक round ने कथित तौर पर कंपनी का मूल्यांकन $2.5 अरब किया, Alibaba, Tencent, और कई sovereign wealth funds के समर्थन के साथ। चीन के दो सबसे बड़े tech conglomerates से यह दोहरा समर्थन असामान्य है — Alibaba और Tencent शायद ही कभी coinvest करते हैं — और MiniMax की multimodal तकनीक के कथित रणनीतिक महत्व का signal देता है। कंपनी GPU compute पर आक्रामक रूप से खर्च कर रही है, कथित तौर पर US निर्यात प्रतिबंधों के पूरी तरह से कड़े होने से पहले हासिल किए गए हज़ारों A100s को संचालित करते हुए, और घरेलू विकल्पों के साथ supplementing कर रही है। सभी चीनी AI labs की तरह, MiniMax एक मौलिक बाधा के रूप में chip squeeze का सामना करता है, लेकिन कुशल architectures और raw फ्रंटियर मॉडल आकार के बजाय consumer-scale तैनाती पर उनके focus ने उन्हें पूर्ण नवीनतम hardware पर कम निर्भर बनाया है।
MiniMax चीनी AI परिदृश्य में एक peculiar स्थिति रखता है: Zhipu और Baichuan जैसी enterprise-oriented कंपनियों के साथ group करने के लिए बहुत consumer-focused, केवल एक और app कंपनी के रूप में dismiss करने के लिए बहुत technically महत्वाकांक्षी। उनकी असली प्रतिस्पर्धा तेज़ी से वैश्विक है — वीडियो में Runway, Luma, और Kling; voice में ElevenLabs; और text में प्रमुख LLM providers। Hailuo AI के माध्यम से अंतर्राष्ट्रीय विस्तार उन्हें एक वितरण channel देता है जिसकी अधिकांश चीनी AI कंपनियों में कमी है, क्योंकि WeChat और Douyin-आधारित वितरण चीन के बाहर काम नहीं करता। क्या MiniMax अपने multi-front दृष्टिकोण को बनाए रख सकता है या focus करने की आवश्यकता होगी एक खुला प्रश्न बना हुआ है, लेकिन एक अपेक्षाकृत छोटी टीम से text, voice, और वीडियो में उच्च-गुणवत्ता उत्पाद ship करने की उनकी क्षमता ने उन्हें वैश्विक AI में देखने के लिए सबसे दिलचस्प कंपनियों में से एक बनाया है।