برنامه نویسی پیش بینی سری های زمانی

تحلیل سری زمانی با پایتون مدل های ترکیبی و پیچیده فرادرس مجله‌

این محصول آموزشی در زمینه­ آشنایی با نحوه­ و مراحل ادد کردن داده های اکسل در داخل زبان برنامه نویسی متلب و روش های پیش بینی سری های زمانی در روزها، ماه ها و حتی سال های آینده می باشد. آموزش پیش بینی سری‌های زمانی روشی برای آشنایی با نرم افزارهای پیش بینی سری زمانی است. یادگیری عمیق به زبان ساده نوعی یادگیری برای تجزیه و تحلیل سریع متغیرهای سری زمانی است و داده‌های زمانی را به خوبی تجزیه و تحلیل می‌کند‌. بدین صورت که شبکه‌های عصبی عمیق رابطه بین الگوهای مختلف را تشخیص می‌دهند و از این دانش خود برای پیش بینی آینده استفاده می‌کنند. تحلیل سری زمانی و انتخاب مدل مناسب برای تحلیل آن‌ها یکی از مهم‌ترین بخش‌های تجزیه و تحلیل داده‌های مرتبط با زمان است. انجام محاسبات و رسم نمودارها، از وظایف اصلی «تحلیل‌گر داده» (Data Scientist) محسوب می‌شود.

به منظور بررسی وضعیت باقی‌مانده‌ها نیز نمودارهای tsplot را رسم کرده‌ایم. همانطور که می‌بینید همه نمودارها به شکلی هستند که ایستایی را نشان می‌دهند. بنابراین با استفاده از تابع arch_model از بسته ARCH پارامترها را در کد‌های زیر برآورد می‌کنیم. این مدل را می‌توان توسعه‌ای روی مدل AR(p)AR(p)AR(p)‌ در نظر گرفت که روی واریانس سری زمانی اعمال می‌شود. به بیان دیگر مدل ARCHARCHARCH مدلی برای مشخص کردن واریانس سری در زمان ttt به شرط مشخص بودن وضعیت سری در زمان t−1t-1t−1 است. واضح است که با افزایش درصد اطمینان، طول بازه اطمینان افزایش می‌یابد.

سری زمانی مجموعه‌ای از داده‌هاست که در نقاط زمانی متوالی ثبت می‌شوند و تغییرات یک پدیده را در طول زمان نشان می‌دهند. این داده‌ها معمولاً به صورت منظم (مانند روزانه، ماهانه یا سالانه) جمع‌آوری می‌شوند و ترتیب زمانی در آن‌ها اهمیت زیادی دارد. ایمان تاهباززاده مقدم فارغ‌التحصیل مقطع دکتری در رشته مهندسی مکانیک گرایش دینامیک و کنترل از دانشگاه تهران است. ایشان در حال حاضر در واحد تحقیق و توسعه شرکت خودروسازی Bugatti مشغول به فعالیت است. او برنامه‌نویسی با زبان‌های MATLAB و ++C را از سال 1387 شروع کرد و از علوم برنامه‌نویسی در پروژه‌های متعدد صنعتی و توسعه نرم‌افزار از جمله شبیه‌سازی سیستم‌ها، محاسبات نرم و فین‌تک بهره گرفته است. وی همچنین سابقه کار در شرکت‌های مرکز خودرو برقی مپنا، ایران خودرو، فناور شبیه‌ساز نصیر و سامانه‌های هوشمند درفک را دارد.

یکی از مزایای اصلی R، قابلیت‌های گرافیکی فوق‌العاده‌ی آن است که به کاربران امکان می‌دهد تا نتایج تحلیل‌های خود را به صورت نمودارها و گراف‌های حرفه‌ای نمایش دهند. این ویژگی به ویژه در اکتشاف داده‌ها و ارائه‌ی نتایج به مخاطبان غیرفنی بسیار مفید است. پردازش داده‌های بزرگبا استفاده از کتابخانه‌هایی مانند `dplyr` و `data.table`، R می‌تواند داده‌های بزرگ محیطی (مانند داده‌های ماهواره‌ای یا داده‌های آب‌وهوایی) را به‌طور کارآمد پردازش کند. مقدار متغیر مورد بررسی در طول زمان تغییر می‌کند و این تغییرات ممکن است روندهای مشخصی را نشان دهند. نرمال بودن باقی‌مانده‌ها نیز در نمودارهای مربوطه کاملا واضح است. نمودارهای ACF و PACF که در ادامه قابل مشاهده هستند، به خوبی عدم خودهمبستگی واریانس باقی‌مانده‌ها را نشان می‌دهند.

در مرحله بعد تابعی به نام تعریف می کنیم create_inout_sequences. تابع داده های ورودی خام را می پذیرد و لیستی از تاپل ها را برمی گرداند. در هر تاپل، المان اول شامل فهرستی از 12 آیتم مربوط به تعداد مسافرانی است که در 12 ماه سفر می کنند، المان تاپل دوم شامل یک آیتم یعنی تعداد مسافران در ماه 12+1 خواهد بود. آخرین مرحله پیش پردازش تبدیل داده های آموزشی به دنباله ها و برچسب های مربوطه است. بدین شکل، بر اساس مشاهده در زمان t-1، مشاهده در زمان t+1 پیش‌بینی می‌شود. رایگان و متن‌باز بودنR یک زبان برنامه‌نویسی رایگان و متن‌باز است که دسترسی به آن برای همه فراهم است و این امر آن را برای محققان و سازمان‌های غیرانتفاعی جذاب می‌کند.

برای مثال، یک خرده‌فروش می‌تواند با تحلیل فروش‌های پیشین در زمان‌های مختلف، بهترین زمان‌های سال برای عرضه محصولات خاص را شناسایی کند. این اطلاعات به کسب‌وکارها کمک می‌کند تا منابع خود را بهینه کنند و استراتژی‌های بازاریابی بهتری را طراحی کنند. سری زمانی (Time Series) به مجموعه‌ای از داده‌های گفته می‌شود که به طور منظم در طول زمان جمع‌آوری شده‌اند. این داده‌ها می‌توانند شامل هر نوع اطلاعاتی باشند که در زمان مشخصی ثبت می‌شوند، از جمله قیمت‌های سهام، دما، فروش محصولات، ترافیک وب‌سایت‌ها و غیره. در داده‌کاوی، تحلیل سری زمانی به ما این امکان را می‌دهد که الگوها و روندهای موجود در داده‌های سری زمانی را شناسایی کنیم و پیش‌بینی‌هایی را در مورد آینده بر اساس این الگوها انجام دهیم. سری‌های زمانی، ابزاری قدرتمند برای تحلیل داده‌های وابسته به زمان هستند.

در این نوع سری زمانی، داده‌ها دارای یک جهت کلی هستند که در طول زمان تغییر می‌کند. بررسی میزان تقاضا برای خدمات و محصولات مختلف نیازمند علمی نوین همچون بررسی سری‌های زمانی است. در این علم مدیریت موجودی، برنامه ریزی تولید، سیاست‌های قیمت گذاری و تمام انچه که شما برای مدیریت فروش و تقاضا نیاز دارید، آموزش داده می‌شود. این روش برای سری های زمانی تک متغیره با روند و / یا مولفه های فصلی و متغیرهای برون زای مناسب است. میانگین متحرک خود همبسته فصلی با رگرسورهای برون زا (SARIMAX) پسوند مدل SARIMA است که شامل مدل سازی متغیرهای برون زا نیز می باشد.

با گسترش فناوری‌های دیجیتال و افزایش حجم داده‌های تولید شده در حوزه‌های مختلف، از کسب‌وکارها و صنایع گرفته تا تحقیقات علمی و پزشکی، توانایی تحلیل و تفسیر این داده‌ها به یک مهارت حیاتی تبدیل شده است. داده‌ها نه تنها به سازمان‌ها کمک می‌کنند تا عملکرد خود را بهبود بخشند، بلکه می‌توانند به کشف فرصت‌های جدید، شناسایی چالش‌ها و پیش‌بینی روندهای آینده منجر شوند. در واقع، داده‌ها به عنوان “نفت جدید” شناخته می‌شوند که با استخراج و پالایش صحیح، می‌توانند ارزش افزوده‌ی فوق‌العاده‌ای ایجاد کنند. فرض کنید یک شرکت تولیدکننده لوازم الکترونیکی می‌خواهد فروش یک محصول جدید خود را در ماه‌های آینده پیش‌بینی کند. برای این کار، داده‌های فروش ماهانه محصول در سال گذشته را جمع‌آوری کرده است. این داده‌ها یک سری زمانی تشکیل می‌دهند که در آن متغیر وابسته (فروش) در فواصل زمانی یک ماهه اندازه‌گیری شده است.

برای مثال، قیمت سهام یک شرکت در طول یک سال، دما در هر ساعت یک روز، یا تعداد بازدیدکنندگان یک وبسایت در هر ماه، همگی نمونه‌هایی از سری‌های زمانی هستند. با توجه به نمودارهای Q-Q plot و P-P plot نرمال بودن داده‌ها مشخص است ولی به نظر می رسد که دم‌های توزیع نرمال کمی کشیده‌تر (Heavy Tail) است. از طرفی مقدار ACF و PACF در نقطه‌های (تاخیرات) ۱، ۵، ۱۶ ، ۱۸ و ۲۱ صفر نیستند که مشخص کننده وجود مدل مناسب‌تر برای چنین داده‌هایی است. در ادامه بررسی این داده‌ها و تعیین مدل مناسب‌تر خواهیم پرداخت. برای اینکه نشان دهیم میزان تغییرات سری زمانی در طول‌های مشخصی از زمان نیز مستقل از زمان است، از مفهوم کوواریانس کمک می‌گیریم. در یک سری زمانی ایستا، در بازه‌های زمانی به طول m (یعنی فاصله زمانی i تا i+m) داده‌های سری نباید وابسته به زمان باشند.

اگر داده‌های روزانه داشتیم، طول دنباله بهتر 365 بود، یعنی تعداد روزهای یک سال. تعداد کل مسافران در سال های اولیه در مقایسه با تعداد کل مسافران سال های بعد به مراتب کمتر است. ما مقیاس بندی حداقل/حداکثر را انجام خواهیم داد روی مجموعه داده ای که داده ها را در محدوده معینی از مقادیر حداقل و حداکثر نرمال می کند. ما استفاده خواهیم کرد MinMaxScaler کلاس از sklearn.preprocessing ماژول برای مقیاس بندی داده های ما. برای جزئیات بیشتر در مورد اجرای مقیاس‌کننده حداقل/حداکثر، مراجعه کنید این لینک.

این مدل درست به مانند مدل خطی است با این تفاوت که داده‌ها به صورت یک تابع نمایی هستند بطوری که نرخ تغییرات در هر بازه زمانی ثابت است و لگاریتم آن‌ها بیانگر یک تابع خطی خواهد بود. نمودارهای مربوط به واریانس باقی‌مانده نیز به مانند قبل ترسیم شده و قابل تفسیر هستند. به وضوح عدم خودهمبستگی توسط نمودارهای ACF و PACF دیده می‌شود. نرمال بودن باقی‌مانده‌ها نیز توسط نمودارهای Q-Q plot و P-P plot‌ مورد تایید است. اگر میانگین سری برابر با صفر باشد می‌توان مدل را به صورت زیر در نظر گرفت.

به عنوان مثال، هنگام پرتاب یک سکه، نمی توان گفت که نتیجه پنجمین پرتاب شیر است. این به این دلیل است که یک سکه هیچ حافظه ای ندارد و نتیجه بعدی به نتیجه قبلی بستگی ندارد. در این مثال، ما یک ماه را به عنوان فراوانی داده ها نگه می داریم. در اینجا A ، B ، C ، D مقادیر داده شده هستند و شما باید مقدار E را با استفاده از یک مدل پیش بینی توالی پیش بینی کنید. یکپارچه‌سازی با سایر ابزارهاR می‌تواند با سایر ابزارهای تحلیل داده (مانند پایتون، GIS، و پایگاه‌های داده) یکپارچه شود، که این امر آن را برای تحلیل‌های محیطی چندوجهی ایده‌آل می‌کند. جامعه فعال و پشتیبانیR دارای جامعه‌ای فعال از کاربران و توسعه‌دهندگان است که به اشتراک‌گذاری کدها، حل مشکلات و بهبود مستمر زبان کمک می‌کنند.

وی عاشق یادگیری است و در عین حال برای تکثیر دانش خود با دیگران بسیار مصمم است. در این قسمت مدل‌های یادگیری عمیق و فرآیند مربوط به آن‌ها آموزش داده می‌شوند. این قیمت برخوردار از انتخاب تکنیک‌های آموزش، تعیین پارامترهای آموزش مدل و ارزیابی عملکرد مدل‌های مختلف است. «مجموعه داده فروش شامپو» (Shampoo Sales Dataset)، نشانگر فروش شامپو در طول سه سال گذشته است. نمونه‌ها مربوط به تعداد فروش هستند و ۳۶ مشاهده (نمونه) در آن وجود دارد. مجموعه داده اصلی برای «ماکریداکیس» (Makridakis)، «ویل‌رایت» (Wheelwright) و «هیندمن» (Hyndman) (سال ۱۹۹۸) است.

رابطه‌ای که برای تولید سری زمانی با قدم‌های تصادفی معرفی شد در کدها درون یک حلقه for قرار گرفته است. حال به کمک دستورات زیر یک دنباله از اعداد تصادفی (۱۰۰۰ مشاهده) با توزیع نرمال تولید کرده و به عنوان نویز سفید در نظر می‌گیریم. سپس به کمک تابعی که در قسمت قبل معرفی شد، نمودارهای مربوط به تحلیل سری زمانی نوفه را رسم می‌کنیم. تحلیل سری زمانی، مرتبط با داده‌هایی است که به نحوی با زمان در ارتباط هستند. تشخیص رفتار و بخصوص پیش‌بینی این داده‌ها از مباحث مربوط به سری زمانی است. در این نوشتار به بررسی روش‌های تحلیل سری زمانی با پایتون خواهیم پرداخت.

با سلام خدمت مجموعه مکتب خونه.من بطور همزمان از دوره اموزشی تحلیل سری زمانی ۱ و کتابی در این ضمینه استفاده می کنم. باید بگم این دوره بسیار بسیار دقیق و کامل و دلسوزانه توسط جناب اقای استاد ارجمند دکتر حمید کردبچه تدریس شد. بسیار سپاسگذارم از مجموعه شما و جناب استاد که اینقدر با دقت و جدیدت تدریس فرمودند و مطالب را کامل و با حوصله فراوان ارائه فرمودند. این تحلیل‌ها ابزار بسیار قدرتمندی برای توصیف کمی و تجزیه و تحلیل داده‌هایی هستند که در بستر زمان تعریف شده‌ و متشکل از دو جز سیگنال و نویز هستند. دامنه کاربرد این تحلیل‌ها از حوزه‌های اقتصادی، مالی، کسب و کار تا حوزه‌های پزشکی، علوم پایه و مهندسی گسترده است.

برای مبتدیان، این دوره با آموزش مفاهیم پایه‌ای آمار و معرفی محیط نرم‌افزار R شروع می‌شود. شرکت‌کنندگان یاد خواهند گرفت که چگونه داده‌ها را وارد کنند، آن‌ها را پاک‌سازی و آماده‌سازی کنند، و از روش‌های ساده‌ توصیفی برای خلاصه‌سازی داده‌ها استفاده کنند. این بخش به شرکت‌کنندگان کمک می‌کند تا با اصول اولیه‌ تحلیل داده‌ها آشنا شوند و آمادگی لازم برای انجام تحلیل‌های پیشرفته‌تر را کسب کنند. در دنیای واقعی، تحلیل سری زمانی می‌تواند بسیار پیچیده‌تر باشد و ممکن است نیاز به استفاده از مدل‌های پیچیده‌تر و تکنیک‌های پیشرفته‌تر داشته باشد. سری‌های زمانی، مجموعه‌ای از داده‌ها هستند که در بازه‌های زمانی مشخص جمع‌آوری می‌شوند. تصور کنید نموداری از قیمت سهام یک شرکت را در طول یک سال ترسیم می‌کنید.

این بخش به طور مفصل با تجزیه و تحلیل داده های متوالی با استفاده از مدل پنهان مارکوف (HMM) سروکار دارد. مجموعه داده، گرایش رو به افزایش و احتمالا مولفه‌های فصلی را از خود نشان می‌دهد. توصیه می‌شود که مجموعه داده دانلود [+] و در پوشه کاری جاری با نام فایل «shampoo-sales.csv» قرار داده شود. قطعه کد زیر، مجموعه داده فروش شامپو را بارگذاری و سری زمانی را ترسیم می‌کند. این دوره آموزشی به گونه‌ای طراحی شده است که شرکت‌کنندگان را از مفاهیم پایه‌ای تحلیل داده‌ها تا تکنیک‌های پیشرفته‌ی آماری در نرم‌افزار R همراهی کند.

حال فرض کنید می‌خواهیم برای واریانس خطاها که در کد با eps مشخص شده است، تحلیل سری زمانی انجام دهیم. نمودارهای تحلیل سری زمانی یکی از قسمت‌های خروجی این برنامه است. در سری‌های زمانی چندمتغیره، متغیرهای مختلف ممکن است به شدت به یکدیگر وابسته باشند، که تحلیل و مدل‌سازی را پیچیده‌تر می‌کند. درون forward روش، input_seq به عنوان یک پارامتر ارسال می شود که ابتدا از طریق lstm لایه. خروجی از lstm لایه حالت های مخفی و سلولی در مرحله زمانی فعلی به همراه خروجی است. تعداد مسافران پیش بینی شده در آخرین مورد ذخیره می شود predictions لیست، که به تابع فراخوانی بازگردانده می شود.

روند (Trend)، تغییرات فصلی یا تناوبی (Seasonal/Cyclic) و تغییرات تصادفی. قسمت تصادفی در حقیقت میزان خطای مدل را نشان می‌دهد که توسط اختلاف مقدار واقعی سری با مقدار پیش‌بینی محاسبه می‌شود. ضریب خودهمبستگی میزان ارتباط بین مقدارهای خطا در مدل سری را نشان می‌دهد. از آنجایی که ضریب خودهمبستگی، می‌تواند معیاری برای سنجش صحت مدل سری زمانی محسوب شود، محاسبه آن ضروری به نظر می‌رسد. با توجه به مباحت و مسائل تئوری، می‌دانیم باید مقدارهای خطا مستقل از یکدیگر باشند.

LSTM یکی از پرکاربردترین الگوریتم ها برای حل مسائل توالی است. در این مقاله روش پیش بینی های آینده را با استفاده از داده های سری زمانی با LSTM دیدیم. همچنین روش پیاده‌سازی LSTM با کتابخانه PyTorch و سپس روش رسم نتایج پیش‌بینی‌شده بر اساس مقادیر واقعی را مشاهده کردید تا ببینید الگوریتم آموزش‌دیده چقدر خوب عمل می‌کند. این کار با استفاده از روش اعتبارسنجی «پیش‌رونده» (Walk-Forward) انجام می‌شود. بنابراین، در مجموعه داده تست، یکی یکی بر اساس گام‌های زمانی، پیش‌بینی انجام می‌شود.

به منظور مشاهده مقدار شاخص‌های آماری توزیع این داده‌ها، (مانند میانگین-mean، واریانس-Variance و انحراف استاندارد-Standard Deviation) دستور زیر را اجرا کنید. اگر میانگین سری زمانی وابسته به زمان نباشد، آن را «سری زمانی ایستا» (Stationary Time Series) می‌نامیم. در این صورت تغییرات میانگین سری زمانی برحسب زمان باعث «ناایستایی سری زمانی» (Non-Stationary Time Series) خواهد شد. تغییرات میانگین در طول دوره یا بازه زمانی سری را «روند» (Trend) می‌نامند. ضعف مدل ARMAARMAARMA در این است که قادر به شناسایی و مدل‌سازی اثرات نوسانات خوشه‌ای برای داده‌های سری زمانی مرتبط با داده‌های مالی نیست. مدل اتورگرسیو میانگین متحرک به بیان ریاضی به صورت زیر نوشته می‌شود.

هدف رگرسیون، برآورد مقدار متغیر وابسته بر اساس مقادیر متغیرهای مستقل است. برای مثال، می‌توانیم با استفاده از رگرسیون، رابطه بین مساحت یک خانه و قیمت آن را مدل‌سازی کنیم. از نوسانات بازار سهام گرفته تا تغییرات آب و هوا، همه چیز با گذشت زمان تغییر می‌کند. برای درک این تغییرات و پیش‌بینی آینده، به ابزاری نیاز داریم که بتواند داده‌ها را در طول زمان تحلیل کند. بر همین اساس، برای داده‌های data.SPY که در ابتدا متن توسط کد‌هایی از سایت یاهو بارگذاری شد، عمل تفاضل‌گیری مرتبه اول اجرا و نمودارهای تجزیه و تحلیل سری‌زمان توسط دستور زیر ترسیم می‌شود.

پیش‌بینی داده‌های آینده همیشه با عدم قطعیت همراه است که ممکن است به دلیل نویز، مدل نامناسب یا تغییرات ناگهانی در داده‌ها باشد. در بسیاری از کاربردها (مانند داده‌های حسگرها یا شبکه‌های اجتماعی)، حجم سری‌های زمانی بسیار زیاد است که نیاز به پردازش سریع و مؤثر دارد. پیش‌بینی شامل استفاده از داده‌های تاریخی برای تخمین مقادیر آینده است. این رویکرد برای تصمیم‌گیری‌های مبتنی بر آینده در حوزه‌های مختلف کاربرد دارد. در این نوع سری زمانی، تغییرات غیرقابل پیش‌بینی و تصادفی رخ می‌دهد که ناشی از عوامل غیرقابل کنترل یا پیش‌بینی هستند.

می‌توان الگوریتم مبنا را به عنوان تابعی تعریف کرد که مقدار فراهم شده را به عنوان ورودی باز می‌گرداند. دنیای سری‌های زمانی بسیار گسترده و پیچیده است و ما در این مقاله تنها به بخش کوچکی از آن پرداختیم. اگر شما هم به تحلیل سری‌های زمانی علاقه‌مند هستید، می‌توانید در قسمت نظرات، سوالات خود را مطرح کنید. همانطور که در خطوط انتهایی خروجی مشاهده می‌کنید شاخص‌های آماری محاسبه و نمایش داده شده‌اند. این مقدارها نشان می‌دهند که میانگین نزدیک به صفر و واریانس نیز نزدیک به ۱ بدست آمده‌اند که از خصوصیات اصلی نویز سفید یا نوفه محسوب می‌شود.

به این ترتیب می‌توان برای مدل GARCH(1,1)GARCH(1,1)GARCH(1,1) رابطه‌های زیر را در نظر گرفت. حال به کمک دستورات زیر به تحلیل و برازش مدل مناسب برای این داده‌ها خواهیم پرداخت. در ادامه برای داده‌های واقعی SPY مدل ARMAARMAARMA را برازش می‌دهیم. همانطور که حدس می‌زنید، این مدل به صورت ترکیبی از دو مدل ساده‌ AR(p)AR(p)AR(p) و MA(q)MA(q)MA(q) ساخته می‌شود. به همین دلیل نیز برای نمایش این مدل از نماد ARMA(p,q)ARMA(p,q)ARMA(p,q) استفاده می‌شود.

برنامه‌نویسی R به‌دلیل ابزارهای تخصصی، انعطاف‌پذیری، و توانایی‌های تحلیلی پیشرفته، یکی از بهترین گزینه‌ها برای تحلیل داده‌های محیطی است. این زبان به محققان و تحلیل‌گران کمک می‌کند تا داده‌های پیچیده محیطی را به‌طور مؤثر پردازش، تحلیل و تجسم کنند. تحلیل سری‌های زمانیداده‌های محیطی اغلب به‌صورت سری‌های زمانی جمع‌آوری می‌شوند. R ابزارهای قدرتمندی برای تحلیل سری‌های زمانی (مانند `forecast`, `tseries`) ارائه می‌دهد. برای شرکت‌کنندگان با دانش متوسط و پیشرفته، این دوره به بررسی تکنیک‌های پیچیده‌تر مانند رگرسیون چندگانه، تحلیل واریانس و تحلیل چندمتغیره می‌پردازد.

تحلیل سری زمانی با پایتون به صورت دنباله‌ای از نوشتارها در سه بخش ارائه می‌شود. این محصول آموزشی در ارتباط با نحوه­ پیش بینی با استفاده از روش تهیه ی سری های زمانی با به کارگیری شبکه های عصبی می باشد. نرم افزار متلب، قابلیت های بسار زیادی را در اجرای پروژه های مهندسی به خوبی فراهم کرده است. نرم افزار متلب، امروزه برای کاربردهای مربوط به همه ی علوم مورد استفاده قرار می گیرد. یک حالت از توسعه مدل ARMAARMAARMA به عنوان مدل «اتورگرسیو یکپارچه میانگین متحرک» ARIMAARIMAARIMA معروف است. همانطور که در قبل گفته شد، اگر سری زمانی، ایستا نباشد می‌توان به کمک تبدیل تفاضلی آن را به حالت ایستا درآورد.

در قسمت اول از این نوشتارها به مثالی برخورد کردیم که تفاضل‌گیری مرتبه اول برای قدم‌های تصادفی نرمال باعث ایستا شدن سری زمانی می‌شد. گام بعدی آن است که مجموعه داده به دو دسته «آموزش» (Train) و «آزمون» (Test) تقسیم شود. ٪۶۶ مشاهدات ابتدایی برای آموزش و ٪۳۴ باقیمانده برای آزمون مورد استفاده قرار می‌گیرد. در طول تقسیم‌بندی، باید توجه داشت که سطرهای حاوی مقدار NaN در نظر گرفته نشوند. هر یک از مجموعه‌های آموزش و تست، سپس به متغیرهای ورودی و خروجی شکسته می‌شوند.

متغیرهای برون متغیر نیز نامیده می شوند و می توان آنها را به عنوان توالی ورودی موازی در نظر گرفت که دارای مشاهدات در همان مراحل زمانی با سری اصلی هستند. از سری اولیه می توان به عنوان داده های درون زا یاد کرد تا آن را از توالی (های) برون زا متضاد کند. مشاهدات مربوط به متغیرهای برونزا در هر مرحله به طور مستقیم در مدل گنجانده می شود و به همان روشی که توالی درون زای اولیه (به عنوان مثال به عنوان فرایند AR ،MA و غیره) مدلسازی نمی شود. اگر مدل به کارایی کمتر از مبنا دست پیدا کند، باید از آن صرف‌نظر کرد و یا آن را بهبود بخشید. پیاده‌سازی روشی که برای تولید یک پیش‌بینی برای محاسبه کارایی مبنا مورد استفاده قرار می‌گیرد، باید آسان و دارای جزئیات ویژه مسئله باشد. پیش از آنکه پژوهشگر مبنای کارایی را برای مسئله پیش‌بینی تعیین کند، باید یک «چارچوب تست خودکار» (Automated Test Framework) را توسعه دهد.


برنامه نویسی رباتیک با پایتون