پایان نامه ها

سری های زمانی، قیمت سهام، داده کاوی

دانلود پایان نامه

های زمانی، به شناسایی و به کارگیری سری های زمانی مشابه پرداخته و از آنها به عنوان ورودی شبکه عصبی استفاده می شود.
همانگونه که در فصل دوم توضیح داده شد، تحلیل های تکنیکی و بنیادین با استفاده از ابزارهای متنوعی به پیش بینی می پردازند. به گونه ای که تحلیل تکنیکی برای پیش بینی های کوتاه مدت و تحلیل بنیادین برای پیش بینی های بلند مدت استفاده می شوند. از آنجا که بنا داریم در این تحقیق به پیش بینی قیمت سهام در یک دوره زمانی جلوتر2 بپردازیم، از اندیکاتورهای تحلیل تکنیکی استفاده کرده و آنها را به عنوان ورودی شبکه عصبی انتخاب می کنیم. بنابراین در این تحقیق از دو نوع ورودی، شامل اطلاعات سری های زمانی مشابه و اندیکاتورهای تحلیل تکنیکی استفاده می کنیم.
در ادامه این فصل، در ابتدا به چگونگی استفاده از داده کاوی برای پیش پردازش داده ها و انتخاب داده ها پرداخته و سپس به طراحی شبکه عصبی می پردازیم و در نهایت با معرفی الگوریتم های رقیب و معیارهای سنجش خوبی عملکرد مدل برازش شده توسط شبکه عصبی خواهیم پرداخت. خلاصه مراحل انجام تحقیق به صورت گرافیکی در شکل 3-1 نشان داده شده است.

شکل 3-1 : شمای کلی مراحل انجام تحقیق
3-2- جمع آوری داده ها
داده های مورد نیاز این پژوهش عبارتند از قیمت های بالا3، پایین4، بسته شدن5 و حجم معاملات6؛ با استفاده از این داده ها اندیکاتورهای تحلیل تکنیکال حساب شده و برای پیش بینی مورد استفاده قرار می گیرند. همچنین برای اعتبارسنجی هرچه بهتر مدل، آن را در میان سه صنعت از صنایع حاضر در بورس اوراق بهادار تهران آزمایش می کنیم. برای هر یک از صنایع، یکی از شرکت های حاضر را انتخاب و پژوهش پیش رو را برای آن انجام می دهیم. صنایع و شرکت های منتخب در جدول 3-1 شرح داده شده اند.
جدول 3-1 : صنایع و شرکت های انتخاب شده جهت انجام پژوهش
صنعت
شرکت
نماد
بانک ها و مؤسسات اعتباری
بانک پارسیان
وپارس
محصولات شیمیایی
صنایع شیمیایی فارس
شفارس
فلزات اساسی
فولاد مبارکه اصفهان
فولاد

بنابراین، در هر صنعت، پژوهش، بر روی شرکت معرفی شده انجام می گردد و برای شناسایی سری های زمانی مشابه نیز از شرکت های موجود در همان صنعت استفاده خواهد شد.

3-3- پیش پردازش داده ها
همانگونه که شرح داده شد، برای هر یک از سه شرکت مذکور اندیکاتورهای تکنیکی به دست خواهد آمد و علاوه بر این سری های زمانی مشابه نیز شناسایی خواهند شد. بر طبق متدهای داده کاوی در ابتدا باید پیش پردازشی روی داده ها انجام گیرد و کاهش سطری صورت پذیرد، اطلاعات لازم ساخته شده و متغیرها و پارامترها شناسایی شوند و پس از آن برای جلوگیری از بیش برازش شبکه عصبی باید بر اساس متدهای داده کاوی کاهش ستونی نیز صورت گیرد.

3-3-1- کاهش سطری داده ها
داده های به دست آمده در مورد هر شرکت و سری های زمانی مشابه آن باید در ابتدا مورد بررسی قرار گیرند تا داده های مغشوش7 و داده های پرت8 شناسایی و از میان پایگاه داده حذف گردند. داده های مغشوش شامل داده هایی هستند که اعداد آنها غیرمنطقی بوده و قابل استفاده نیستند و داده های پرت نیز همانگونه که گفته شد، دارای تأثیر به سزایی در کاهش دقت شبکه بوده و آن را دچار بیش برازش می کند. در این راستا همانگونه که در ادامه خواهیم دید، در ابتدا به حذف داده های مغشوش و سپس داده های پرت خواهیم پرداخت.

3-3-1-1- حذف رکوردهای مغشوش
همانگونه که گفته شد، داده های مورد نیاز این پژوهش عبارت از قیمت های بالا، پایین، بسته شدن و حجم معاملات. تعریف داده های مغشوش در یکی از سه حالت زیر رخ خواهند داد :
قیمت بالا کمتر از قیمت پایین باشد
قیمت بالا کمتر از قیمت بسته شدن باشد
قیمت بسته شدن کمتر از قیمت پایین باشد
مشخص است که بر طبق قواعد بالا، داده های با این وضعیت کاملا غیر منطقی بوده و به دلایل خطاهای ثبتی ایجاد شده اند و لذا از میان پایگاه داده حذف خوهند شد. علاوه بر این قسمتی از داده ها نیز اصلا ثبت نشده و یا به صورت غیر منطقی ثبت شده اند، برای مثال به جای اعداد NaN نوشته شده و یا رکورد خالی ثبت شده است. این موارد از داده ها نیز از میان پایگاه داده حذف خواهند شد.

مطلب مشابه :  منبع پایان نامه با موضوععلوم طبیعی، علوم انسانی، فیزیولوژی، جامعه شناسی

3-3-1-2- حذف داده های پرت
برای شناسایی داده های مغشوش از حدود بلینگر9 استفاده می شود. حدود بلینگر در واقع حدود نوسانی10 هستند که بر روی یک میانگین متحرک قیمت زده می شوند. هنگامی که پراکندگی داده ها زیاد می شوند این حدود از هم باز شده و در هنگام کاهش این پراکندگی، حدود به هم نزدیک می شوند. فرمول کلی حدود بالا و پایین بلینگر در این تحقیق به شکل زیر هستند :
Upper Band=20-day SMA+(20-day standard deviation*2)3-1
Lower Band=20-day SMA-(20-day standard deviation*2)3-2
از آنجا که این حدود وابسته به واریانس قیمت های گذشته می باشد، می توان گفت که این اندیکاتور انتظارات سرمایه گذار را برای قیمت آتی با توجه به قیمت بیست دوره گذشته مشخص می کند و لذا در صورتی که داده ای از این حدود خارج شود، می توان گفت که داده پرت بوده و به علت خاصی رخ داده است. داده های پرت تأثیر به سزایی در کاهش دقت مدل و افزایش بیش برازش دارند و علاوه بر این به دلایلی رخ می دهند که قابل تشخیص نبوده و تکرار هم نمی شوند. بنابراین در تحقیقات با دو رویکرد به این داده ها پرداخته می شود؛ برخی آنها را تلطیف11 کرده و برخی آنها را حذف می کنند. در پژوهش حاضر، پس از تشخیص داده های پرت از طریق حدود بلینگر
، این داده ها از پایگاه داده حذف می گردند و لذا رکوردی که شامل این داده است نیز به صورت کلی از میان داده ها پاک می شود.
3-3-2- ساخت اطلاعات مورد نیاز
در این تحقیق، از اندیکاتورهای تحلیل تکنیکال و همچنین سری های زمانی مشابه به عنوان ورودی های شبکه عصبی استفاده می شود. در این بخش در ابتدا اندیکاتورهای بررسی شده در این تحقیق و سپس سری های زمانی مشابه که توسط داده کاوی سری های زمانی12 شناسایی می گردند، شناسایی می شوند. این مرحله به این دلیل پس از کاهش سطری انجام می گیرد که این اطلاعات بر پایه رکوردهای به دست آمده در مرحله اول ساخته شده و یا شناسایی می شوند و لذا در صورتی که داده های مغشوش یا داده های پرت در میان داده های ابتدایی وجود داشته باشند، این اطلاعات و متغیرها را نیز دستخوش تغییر و داده های مغشوش می نمایند.

3-3-2-1- ساخت اندیکاتورهای تحلیل تکنیکال
همانگونه که در فصل دوم شرح داده شد، اندیکاتورهای تحلیل تکنیکال حوزه بسیار وسیع و گوناگونی دارند و علاوه بر این می توانند به دلخواه سرمایه گذاران تغییر کرده و یا با ترکیب با یکدیگر، اندیکاتورهای جدیدی را تشکیل دهند. لذا باید توجه کرد که بررسی تمام اندیکاتورهای در دسترس سرمایه گذاران و جمع آوری آنها کاری تقریبا ناممکن است و علاوه بر این، هیچ سرمایه گذاری از تمام اندیکاتورها استفاده نمی کند. لذا در این تحقیق تعداد مشخصی از اندیکاتورها که در جدول 3-2 معرفی شده اند مورد استفاده قرار خواهند گرفت. لازم به ذکر است که این اندیکاتورها بر اساس اندیکاتورهای پرکاربرد شناسایی شده در ادبیات تحقیق انتخاب شده اند.

جدول 3-2 : اندیکاتورهای به کار رفته در پژوهش
اندیکاتور
شرح و کارکرد
ADL
با ترکیب قیمت و حجم معاملات، تعیین می کند که جریان پولی وارد شونده یا خارج شونده از سهم چقدر است
Aroon
با استفاده از دو اندیکاتور ارون بالا و ارون پایین، وجود روند در قیمت را تأیید یا رد می کند
Aroon oscillator
تفاوت دو اندیکاتور ارون بالا و ارون پایین را مشخص می کند
ADX
نشان می دهد که آیا روند خاصی در قیمت سهام در حال ایجاد شدن است یا خیر
ATR
نوسانات موجود در قیمت سهام را اندازه گیری می کند
Bandwidth
اختلاف درصدی میان حدود بالا و پایین بلینگر را نشان می دهد
%B Indicator
ارتباط میان قیمت و واریانس قیمت سهام را نشان می دهد
CCI
با تعریف قیمتی تحت عنوان typical، پراکندگی قیمت سهم حول این قیمت را نشان می دهد
Coppok Curve
اسیلاتوری که با استفاده از اندیکاتور ROC و میانگین متحرک وزن دار، مومنتوم را اندازه گیری می کند
CMF
با ترکیب قیمت و حجم معاملات، جریان پولی در حال مبادله در سهم خاص را نشان می دهد
Chakin Oscillator
بر پایه اندیکاتور ADL، جریان وارد شونده یا خارج شونده پولی به سهم را نشان می دهد
EMV
با مقایسه قیمت و حجم معاملات، معنادار بودن روند را تأیید یا رد می کند
Force Index
اسیلاتور ساده ای بر پایه قیمت و حجم
Mass Index
زمانی که قیمت سهام دچار نوسان زیادی می شود، نقاط برگشت را پیش بینی می کند
MACD
اسیلاتوری بر مبنای اختلاف دو میانگین موزون متحرک
MACD-Histogram
اسیلاتور نشان دهنده اختلاف اندیکاتور MACD و خط سیگنال آن
MFI
ورژن وزن دار شده اندیکاتور RSI که برای تخمین فشار خرید و فروش به کار می آید
جدول 3-2 : اندیکاتورهای به کار رفته در پژوهش : ادامه جدول
NVI
اندیکاتور تجمعی بر مبنای حجم مبادلات که نقاط بازگشت را پیش بینی می کند
OBV
ترکیب کننده قیمت و حجم مبادلات برای تشخیص جریان پولی وارد شونده یا خارج شونده به سهم مورد نظر
PPO
ورژن بر مبنای درصد اندیکاتور MACD
PVO
همان اندیکاتور PPO که به جای قیمت برای حجم مبادلات به کار گرفته شده است
KST
اسیلاتور بر مبنای ROC تلطیف شده و در چهار چارچوب زمانی مختلف
ROC
نشان دهنده سرعت تغییرات قیمت سهام است
RSI
نشان می دهد که قیمت سهام در روند فعلی با چه قدرتی در حرکت است
Stochastic Oscillator
نشان می دهد که قیمت سهم نسبت به گذشته خود چگونه در حال تغییر است
Volatility
همان واریانس قیمت سهام برای بررسی پراکندگی قیمت حول میانگین متحرک
StochRSI
کمک می کند که تغییرات RSI به صورت شفاف قابل رؤیت باشد
TRIX
یک میانگین متحرک از قیمتی که سه بار نرم (smooth) شده است
TSI
اندیکاتوری برای اندازه گیری جهت تغییرات قیمت سهام و خرید و فروش بیش از اندازه
Ulcer Index
اندیکاتوری برای اندازه گیری نوسانات و ریسک بازار
Ultimate Oscillator
این اندیکاتور میانگین های متحرک کوتاه مدت، میان مدت و بلند مدت را با یکدیگر ترکیب می کند
Vortex Indicator
اندیکاتوری برای تشخیص روندهای جدید و نقاط خرید و فروش بیش از اندازه
Williams %R
با استفاده از احتمالات، نقاط خرید و فروش بیش از اندازه را اندازه می گیرد
DPO
اسیلاتور قیمتی که با حذف روند، چرخه ها را پیش بینی می کند

مطلب مشابه :  پایان نامه ارشد با موضوعسلسله مراتب، دادگاه صالح، احساس حقارت

بنابراین، در این مرحله اندیکاتورهای تکنیکی برای پیش بینی قیمت سهم با استفاده از اطلاعات قیمتی سهم شامل قیمت بالا، پایین، بسته شدن و اطلاعات حجمی شامل حجم معاملات ساخته می شوند.

3-3-2-2- داده کاوی سری های زمانی
همانگونه که گفته شد، اطلاعات دیگری که برای پیش بینی باید به پایگاه داده اضافه گردند شامل سری های زمانی مشابه سری زمانی در دست بررسی می باشند. برای شناسایی شبیه ترین سری ها به سری قیمت های سهم مورد نظر، از داده کاوی سری های زمانی استفا
ده می گردد. برای داده کاوی سری های زمانی روشهای زیادی موجود هستند، در این پژوهش به دلیل حجیم بودن داده ها از روش Cross-Correlation استفاده می گردد. این روش که از روش های تأخیر زمانی13 می باشد، سری های زمانی را دو به دو بررسی می کند؛ در هر بررسی تمام lagهای ممکن بین دو سری زمانی نیز بررسی می شود. برای مثال سری زمانی x(t) و سری زمانی y(t) با یکدیگر مقایسه می شوند. سپس سری زمانی x(t) با سری زمانی y(t-h) بررسی شده، سپس x(t) با y(t-h+1) مقایسه شده و این روند ادامه می یابد تا x(t) با y(t+h) مقایسه می گردد. در این میان بهترین نتیجه انتخاب شده و از آن سری زمانی با آن lag برای پیش بینی استفاده می گردد.
در واقع، در هر بار بررسی دو سری زمانی با یک lag مشخص، correlation میان دو سری مشخص شده و در نهایت پس از مقایسه دو سری در تمام lagها، بهترین correlation مشخص می شود. فرمول زیر نشان دهنده چگونگی محاسبه

دیدگاهتان را بنویسید