StepFun (आधिकारिक रूप से Jieyue Xingchen, जिसका अर्थ है "तारों की ओर कदम") की स्थापना 2023 में Jiang Daxin ने की थी, Microsoft Research Asia में एक पूर्व senior शोधकर्ता। Jiang ने Shanghai में एक स्वतंत्र AI कंपनी बनाने का समय सही होने का निर्णय लेने से पहले बड़े पैमाने के भाषा मॉडलों और multimodal सिस्टमों पर वर्षों काम किया था। StepFun ने अपने शुरुआती rounds में Tencent, Sequoia China, और Zhongguancun Science City सहित निवेशकों से लगभग $100 मिलियन जुटाए — एक बाज़ार में महत्वपूर्ण GPU संसाधनों को सुरक्षित करने के लिए पर्याप्त जहाँ compute तेज़ी से दुर्लभ हो रहा था। पहले दिन से, कंपनी ने general-purpose foundation मॉडल बनाने का लक्ष्य रखा जो अंतर्राष्ट्रीय रूप से प्रतिस्पर्धा कर सकें, न कि केवल चीनी घरेलू बाज़ार के भीतर। वह महत्वाकांक्षा बमुश्किल कुछ महीने पुराने एक startup के लिए असामान्य थी, लेकिन StepFun ने इसे आश्चर्यजनक रूप से मज़बूत benchmark परिणामों के साथ backed up किया।
StepFun का मॉडल lineup तेज़ी से विकसित हुआ है। Step-1 series, 2024 में चरणों में जारी, ने प्रदर्शित किया कि एक well-resourced startup कुछ बहुत बड़े संगठनों के आउटपुट से मेल खा सकता है या उन्हें पार कर सकता है। Step-1V, उनका vision-language मॉडल, ने multimodal benchmarks पर प्रतिस्पर्धी scores पोस्ट किए एक समय में जब क्षेत्र अभी भी Google, OpenAI, और कुछ चीनी दिग्गजों द्वारा हावी था। Step-2, बाद में जारी, ने multi-step reasoning और tool use में और धकेला। जो StepFun को अलग करता है वह कोई एकल सफलता नहीं थी बल्कि एकरूपता: हर release ने genuine सुधार दिखाया, और मॉडलों ने चीनी और अंग्रेज़ी कार्यों दोनों पर अच्छा प्रदर्शन किया, यह सुझाव देते हुए कि प्रशिक्षण डेटा और methodology केवल एक बड़े dataset पर अधिक compute फेंकने के बजाय विचारशील रूप से इकट्ठे किए गए थे। कंपनी ने Hugging Face पर और अपने स्वयं के API के माध्यम से भी मॉडल जारी किए, उन्हें अंतर्राष्ट्रीय developer community के लिए सुलभ बनाते हुए।
जबकि कई चीनी AI startups ने शुरू में केवल-text भाषा मॉडलों पर ध्यान केंद्रित किया, StepFun आक्रामक रूप से multimodal क्षेत्र में चला गया। उनका Step-1.5V और बाद के vision मॉडल text के साथ-साथ छवियों, charts, और दस्तावेज़ों को process कर सकते थे, visual reasoning के तेज़ी से महत्वपूर्ण niche को निशाना बनाते हुए। हाल ही में, StepFun ने Step Video के साथ video generation space में प्रवेश किया, Kling, Vidu, और विभिन्न Hunyuan video मॉडलों के साथ-साथ एक crowded लेकिन high-profile दौड़ में शामिल होते हुए। video काम उल्लेखनीय है क्योंकि इसके लिए मौलिक रूप से अलग प्रकार के बुनियादी ढाँचे और विशेषज्ञता की आवश्यकता होती है — temporal एकरूपता, physics-aware generation, और long-form आउटपुट को संभालने की क्षमता। StepFun की अपने core भाषा मॉडल काम के साथ-साथ इस पर निपटने की इच्छा या तो असाधारण आत्मविश्वास या असाधारण महत्वाकांक्षा का सुझाव देती है, संभवतः दोनों।
2023-2025 में चीन के AI startup दृश्य को "हज़ार मॉडल युद्ध" के रूप में वर्णित किया गया है, दर्जनों कंपनियों के साथ अरबों yuan उसी पुरस्कार का पीछा करते हुए जला रहे हैं। StepFun की रणनीति Moonshot AI या Zhipu AI जैसे साथियों की तुलना में दुबले रहते हुए तकनीकी रूप से प्रतिस्पर्धी रहना रही है। कंपनी कुछ प्रतिस्पर्धियों की तुलना में consumer-facing उत्पादों के बारे में कम आक्रामक रही है, इसके बजाय API access और developer tools पर ध्यान केंद्रित कर रही है — एक दाँव कि AI में असली पैसा chatbot subscriptions के बजाय enterprise integration के माध्यम से प्रवाहित होगा। यह Europe में Mistral जैसी कंपनियों के दृष्टिकोण को प्रतिबिंबित करता है, और यह StepFun को flexibility देता है: वे अपनी core तकनीक पर नियंत्रण बनाए रखते हुए वितरण के लिए बड़ी कंपनियों के साथ साझेदारी कर सकते हैं। प्रश्न यह है कि क्या एक अपेक्षाकृत युवा startup फ्रंटियर पर रहने के लिए आवश्यक compute निवेश को बनाए रख सकता है क्योंकि प्रशिक्षण रनों की लागत सैकड़ों मिलियन डॉलर में escalate होती है।