عندما كنت أتعلم عن فتس للعمل الفعلي في معالجة الإشارات، منذ سنوات، وجدت R. W. Hamming39s كتاب مرشحات الرقمية و Bracewell39s تحويل فورييه وتطبيقاته مقدمة جيدة للأساسيات. Strang39s مقدمة. إلى الرياضيات التطبيقية. سيكون خطوة جيدة جيدة. القيام فت محددة محددة باليد من إشارة لهجة نقية على مدى بضع فترات للحصول على الشعور لتصفية المتطابقة وعلاقة التدخل البناء والمدمر إلى التعامد. نداش توم كوبلاند مايو 9 12 في 6:29 Here39s وظيفة أنيق كسر تحويل فورييه. نداش حكيم 23 مارس 14 في 15:12 هنا39 الفيديو الذي قدمته منذ فترة وصف سلسلة فورييه وتحويل فورييه. It39s قليلا من نهج القلب الخفيف. youtubewatchvQm84XIoTy0s نداش كارل مار 26 14 في 7:11 كان الإغريق القديمة نظرية أن الشمس والقمر والكواكب تتحرك حول الأرض في الدوائر. وسرعان ما تبين أن هذا خطأ. وكانت المشكلة أنه إذا كنت مشاهدة الكواكب بعناية، وأحيانا تتحرك إلى الوراء في السماء. لذلك طرح بطليموس فكرة جديدة - تتحرك الكواكب في دائرة واحدة كبيرة، ثم تتحرك حول دائرة صغيرة في نفس الوقت. التفكير في عقد عصا طويلة والغزل حولها، وفي الوقت نفسه على نهاية العصا ثيريس عجلة أن الغزل. الكوكب يتحرك مثل نقطة على حافة عجلة القيادة. حسنا، بمجرد أن بدأوا يراقبون عن كثب، أدركوا أنه حتى هذا لم ينجح، لذلك وضعوا دوائر على الدوائر على الدوائر. في نهاية المطاف، كان لديهم خريطة للنظام الشمسي الذي يشبه هذا: هذه فكرة الدراجات الهوائية تبين أن نظرية سيئة. أحد أسبابه السيئ هو أننا نعرف الآن أن الكواكب تدور في الحافات حول الشمس. (إن القصاصات ليست مثالية لأنها مضطربة من تأثير الهيئات الجاذبية الأخرى، والآثار النسبية). ولكن خطأها لسبب أسوأ من ذلك أن، كما هو موضح في هذا الفيديو يوتيوب رائع. في الفيديو، عن طريق إضافة ما يكفي من الدوائر، وجعلوا تتبع كوكب من وجه هوميروس سمبسون. اتضح أننا يمكن أن تجعل أي مدار على الإطلاق عن طريق إضافة ما يكفي من الدوائر، طالما نصل إلى تغيير حجمها وسرعاتها. لذلك نظرية الدراجة الهوائية من المدارات الكوكبية هي سيئة ليس بسبب خطأها، ولكن لأنه لا يقول أي شيء على الإطلاق عن المدارات. الادعاء الكواكب التحرك في الدراجات الهوائية هو ما يعادل رياضيا لقول الكواكب تتحرك في بعدين. حسنا، هذا لا يقول شيئا، ولكن لا يقول الكثير، إما طريقة رياضية بسيطة لتمثيل تتحرك في دائرة هو القول أن المواقف في طائرة ممثلة بأعداد معقدة، لذلك نقطة تتحرك في الطائرة يمثلها وظيفة معقدة من الوقت. في هذه الحالة، يتحرك على دائرة مع دائرة نصف قطرها R والتردد الزاوي أوميجا يمثله الموقف إذا كنت تتحرك في جميع أنحاء على دائرتين، واحدة في نهاية الآخر، موقفكم هو يمكننا بعد ذلك تخيل ثلاثة أو أربعة أو بلا حدود - يتم إضافة العديد من هذه الدوائر. إذا سمحنا لدوائر أن يكون كل تردد الزاوي ممكن، يمكننا الآن كتابة وظيفة R (أوميجا) هو تحويل فورييه من z (t). إذا كنت تبدأ عن طريق تتبع أي مسار تعتمد على الوقت الذي تريد من خلال اثنين من الأبعاد، ومسارك يمكن أن يحاكي تماما من قبل العديد من الدوائر بلا حدود من ترددات مختلفة، وأضاف كل ما يصل، ورادي من تلك الدوائر هو تحويل فورييه من المسار الخاص بك. تحذير: يجب أن نسمح لدوائر أن يكون أشعة معقدة. هذا ليس غريبا، على الرغم من. في نفس الشيء قوله الدوائر لديها شعاع حقيقي، ولكن ليس لديهم كل لبدء في نفس المكان. في الوقت الصفر، يمكنك البدء ولكن بعيدا تريد حول كل دائرة. إذا كان المسار الخاص بك يغلق على نفسه، كما هو الحال في الفيديو، والتحويل فورييه تبين لتبسيط لسلسلة فورييه. معظم الترددات لم تعد ضرورية، ويمكننا أن نكتب حيث omega0 هو التردد الزاوي المرتبطة مع كل شيء تكرار - تردد أبطأ الدائرة. الدوائر الوحيدة التي نحتاج إليها هي أبطأ دائرة، ثم واحدة أسرع مرتين، ثم ثلاثة أضعاف سرعة أبطأ واحد، وما إلى ذلك. لا يزال هناك عدد لا نهائي من الدوائر إذا كنت تريد إعادة إنتاج مسار متكرر تماما، لكنها هي إلى حد ما لا حصر له الآن. إذا كنت تأخذ العشرين الأولى أو نحو ذلك وإسقاط بقية، يجب أن تحصل على مقربة من الجواب المطلوب. وبهذه الطريقة، يمكنك استخدام تحليل فورييه لإنشاء الفيديو الخاص بك الدراجة الهوائية الخاصة بك من شخصية الرسوم المتحركة المفضلة لديك. هذا ما يقوله تحليل فورييه. الأسئلة التي لا تزال هي كيفية القيام بذلك، ما لها، ولماذا يعمل. أعتقد أنني سوف أغادر معظمهم وحدهم. كيفية القيام بذلك - كيفية العثور على R (أوميغا) نظرا z (ر) وجدت في أي علاج تمهيدي، وبديهية إلى حد ما إذا كنت تفهم التعامد. لماذا يعمل هو سؤال عميق نوعا ما. نتيجة لها نظرية طيفية. ما لديها لمجموعة كبيرة. من المفيد في تحليل استجابة الأنظمة المادية الخطية إلى مدخلات خارجية، مثل الدائرة الكهربائية التي تستجيب للإشارة التي تلتقط مع هوائي أو كتلة في الربيع ردا على دفعها. من المفيد في البصريات نمط التدخل من تشتت الضوء من صريف حيود هو تحويل فورييه من صريف، وصورة مصدر في تركيز العدسة هو تحويل فورييه لها. من المفيد في التحليل الطيفي، وفي تحليل أي نوع من الظواهر موجة. وهو يحول بين الموقف وزخم تمثيل وظيفة الموجة في ميكانيكا الكم. تحقق من هذا السؤال على physics. stackexchange للحصول على أمثلة أكثر تفصيلا. تقنيات فورييه مفيدة في تحليل الإشارات ومعالجة الصور والتطبيقات الرقمية الأخرى. وأخيرا، فهي بالطبع مفيدة رياضيا، كما يصف العديد من الوظائف الأخرى هنا. استغرق الأمر بعض الوقت لفهم ما هو المقصود بالضبط تحويل فورييه لأنه يمكن أن تشير إلى خوارزميات مختلفة، والعمليات والنتائج. على الرغم من إم جديدة تماما في هذا الموضوع، سوء محاولة لإعطاء نظرة قصيرة ولكن نأمل بديهية على ما جاء مع (لا تتردد في تصحيح لي): دعونا نقول لديك وظيفة و (ر) أن خرائط بعض قيمة الوقت ر لبعض القيمة f (t). الآن محاولة جيدا لتقريب و كمجموع التذبذبات التوافقي بسيطة، أي موجات جيبية من ترددات معينة أوميغا. وبطبيعة الحال، هناك بعض الترددات التي تناسب بشكل جيد إلى و بعض أن تقارب ذلك بشكل جيد. وبالتالي نحن بحاجة إلى بعض قيمة قبعة (أوميجا) الذي يخبرنا كم من التذبذب معين مع تردد أوميغا موجود في تقريب f. خذ على سبيل المثال وظيفة حمراء من هنا والتي تعرف باسم التذبذب الأخضر مع omega1 له أكبر تأثير على النتيجة، لذلك دعونا نقول قبعة (1) 1 موجة جيبية زرقاء (omega3) لديه على الأقل بعض التأثير، ولكن اتساعه هو أصغر بكثير. وهكذا نقول قبعة (3) 0.13 ترددات أخرى قد لا تكون موجودة في التقريب على الإطلاق، وبالتالي فإننا سوف تكتب قبعة (أوميجا) 0 لهذه. الآن إذا كنا نعرف قبعة (أوميجا) ليس فقط لبعض ولكن كل الترددات الممكنة أوميغا، يمكننا تقريب تماما وظيفتنا و. وهذا ما يفعله تحويل فورييه المستمر. يستغرق بعض وظيفة f (t) من الوقت ويعود بعض وظيفة أخرى قبعة (أوميجا) ماثكال (f)، تحويل فورييه لها. الذي يصف مقدار أي تردد معين موجود في f. فقط تمثيل آخر من f، من المعلومات على قدم المساواة ولكن مع مجال مختلف تماما. في كثير من الأحيان على الرغم من المشاكل يمكن حلها أسهل بكثير في هذا التمثيل الآخر (وهو مثل العثور على نظام الإحداثيات المناسبة). ولكن نظرا لتحويل فورييه، ونحن يمكن أن تدمج على جميع الترددات، ووضع معا موجات جيبية المرجح والحصول على لدينا مرة أخرى، والتي نسميها تحويل فورييه معكوس ماثكال. الآن لماذا ينبغي للمرء أن يريد أن يفعل ذلك الأهم من ذلك، تحويل فورييه لديه العديد من الخصائص الرياضية لطيفة (أي التفاف هو مجرد الضرب). في كثير من الأحيان أسهل بكثير للعمل مع تحويل فورييه من مع وظيفة نفسها. لذلك نحن تحويل، لديها وظيفة سهلة مع تصفية، تحويل والتلاعب موجات جيبية وتحويل مرة أخرى بعد كل شيء. دعونا نقول نريد أن نفعل بعض الحد من الضوضاء على صورة رقمية. بدلا من التلاعب نص وظيفة. النص إلى نص، ونحن تحويل كل شيء والعمل مع ماثكال (النص). النص إلى نص. تلك الأطراف من ارتفاع وتيرة التي تسبب الضوضاء يمكن ببساطة أن تقطع - ماثكال (النص) (أوميجا) 0، أوميغا غ. هرتز. نحن تحويل مرة أخرى و فويل. اسمحوا لي أن سرقة جزئيا من الجواب المقبول على وزارة الخارجية، وتوضيح ذلك مع أمثلة وأنا أفهم: تحويل فورييه هو تمثيل مختلف يجعل من السهل أن تتحلل. أو، للاقتباس مباشرة من هناك: تحويل فورييه هو تغيير وحدوي لوظائف (أو توزيعات) التي قطرية جميع مشغلي التوليف. وهذا غالبا ما ينطوي على التعبير عن وظيفة تعسفية كما تراكب وظائف متماثلة من نوع، ويقول وظائف شكل e إيتكس في تطبيقات معالجة الإشارات المشتركة، يتم تحليل إشارة تعسفية كتراكب من موجات (أو الترددات). مثال 1: الضرب متعدد الحدود هذا هو استخدام تحويل فورييه منفصلة إم الأكثر دراية. لنفترض أنك تريد مضاعفة عددين متعددين من الدرجة n، معطاة بمعاملاتهما (a 0، n) و (b 0.، b n). في معاملها، معامل x k هو c k سوما i b k-i. هذا هو التفاف، والقيام بذلك ساذجة من شأنه أن يأخذ O (ن 2) الوقت. بدلا من ذلك، لنفترض أننا نمثل متعددو الحدود بقيمها عند نقاط 2n. ثم قيمة متعدد الحدود المنتج (واحد نريد) في أي لحظة هو ببساطة نتاج قيم منطقتنا الأصلية اثنين من متعددو الحدود. وهكذا قمنا بتقليص الالتفاف إلى مضاعفة الإشارة. إن تحويل فورييه وعكسه يتوافق مع التقييم متعدد الحدود والاستيفاء على التوالي، لبعض النقاط المختارة بشكل جيد (جذور الوحدة). تحويل فورييه السريع (ففت) هو وسيلة للقيام كل من هذه في O (ن لوغ ن) الوقت. المثال 2: حل التوزيعات الاحتمالية افترض أن لدينا متغيرين عشوائيين (مستمرين) عشوائيين X و Y، بكثافة احتمال f و g على التوالي. وبعبارة أخرى، P (X x) x - f (t) دت و P (Y y) y - f (t) دت. نحن غالبا ما نريد توزيع مجموعها زي، ويعطى ذلك عن طريق التفاف: P (زي z) f (t) g (z-t) دت. قد يكون هذا التكامل صعبا. ولكن بدلا من تمثيل المتغيرات العشوائية بكثافاتها، يمكننا أيضا تمثيلها من خلال وظائفها المميزة في X (t) إي إيتكس و في Y (t) إي إيت. ثم الدالة المميزة لل زي هي فقط: في زي (t) إي إيت (زي) في X (t) في Y (t) لأنها مستقلة. وتتمثل الدالة المميزة في تحويل فورييه المستمر لوظيفة الكثافة وهو تغيير في التمثيل الذي يصبح فيه الالتفاف ضروبا في اتجاه الإشارة. نقول مرة أخرى الجواب على مو، والتحولات كثيرة نريد للدراسة (الترجمة، والتمايز، والتكامل،) هي في الواقع كونفولوتيونس، وبالتالي فإن تحويل فورييه يساعد في عدد كبير من الحالات. فكر في الضوء القادم من النجوم. ضوء له لون أو طيف ولكن بالطبع البيانات تأتي في تيار 1-D. تحويل فورييه يعطيك الطيف من السلاسل الزمنية. يمكنك أيضا التفكير في إق على ستيريو الخاص بك - المنزلق 2kHz، المنزلق 5KHz، الخ هؤلاء المتزلجون وتعديل الثوابت في عالم تشبه فورييه. (انظر محاذير ليونبلويس أدناه) (معكوس فورييه فقط يأخذك مرة أخرى من الطيف للإشارة، لذلك ماذا يعني أن ماثكال ماثكال) للوصول إلى الرياضيات منه، تذكر أن كوس والخطيئة هي مجرد نسخ مرحلة التحول من بعضها البعض. رياضيا، يمكنك إضافة معا كميات مختلفة (الاتساعات) من مختلف موجات المرحلة الخطيئة تحول وحقيقة مدهشة أن القيام بذلك يمكن أن تضيف ما يصل إلى أي وظيفة. (كيف تحصل على خط مستقيم مثل y س على سبيل المثال) ملاحظة: سلسلة تحول لا يجب أن تكون سلسلة زمنية بالضبط. هل يمكن بارامتريز الكثير من المنحنيات التي كتبها ر. على سبيل المثال الكتابة اليدوية أو مخطط أقدام ديناصور. لماذا هو مفيد في الفيزياء استخدام واحد هو للتعبير عن دقة هيسنبرغ عدم اليقين. يمكن أن يكون الموجة الموجية المعطاة (يسي) في الفضاء (الموضع) ماثكال (يسي) إلى الوقت (الزخم). منذ تحويل الفضاء الزمني هو بيجكتيف، موقف زخم أمبير (مكافحة) كوفاري أي كنت غير قادر على زيادة واحدة دون خفض الآخر. فرانك ويلكزيك يجعل استخدام ماثكال في هذا الفيديو شرح قد على سبيل المثال. كيف يتم استخدامه في الهندسة معالجة الإشارات، معالجة الصور (بدف الانتقال إلى الصفحة 5)، ومعالجة الفيديو استخدام أساس فورييه لتمثيل الأشياء. أحد التحذيرات: في معظم الاستخدامات، يقيس الكسبكترومكوت (بما في ذلك مكافئ الترددات الراديوية) إنيري لكل تردد، وهو ما يتعلق بالقيمة المطلقة لتحويل فورييه. هذا هو الحصة جزء من تحويل فورييه (كنت تفتقر إلى كوتفاسيكوت)، وبالتالي، من الطيف لا يمكنك الحصول على إشارة مرة أخرى. (التحذير الثاني يتعلق بحقيقة أن مكافئ يقيس طيف زمني نافذة، والذي يختلف في الوقت المحدد لا يعتمد تحويل فورييه على الوقت). نداش ليونبلوي 14 أكتوبر 11 في 2:02 هنا هو فهمي لتحويل فورييه كما جاء لي. تخيل أن لديك كائن الذي يجعل بعض الصوت عندما يتم هز (على سبيل المثال زجاج الشرب، شوكة ضبط، الصنج، سلسلة الغيتار، سمها ما شئت). أي صوت أدلى بهذه الطريقة هو تكوين عدة ترددات (فقط نصف الكرة الأرضية المثالي الذي يهتز في موجة التوافقي الحقيقية). أريد الآن تحليل الترددات الموجودة في هذا الصوت، وأريد أن أفعل ذلك بالطريقة القديمة. أضع الكائن في مكان ما حيث حر في التذبذب وجعل الصوت. التالي ألعب لهجة نقية في بعض التردد لذلك، وقياس كم يتحرك في انسجام تام. إذا كان يتحرك كثيرا في انسجام، ثم يجب أن يكون هناك الكثير من هذا التردد في الصوت الطبيعي. هذا هو ما يفعله تحويل فورييه، فقط مع الوظائف. بشكل عام، يتم تعريف تحويل فورييه للوظيفة f بواسطة الوصلة f (f) (f) (z) e دز إن المدى الأسي هو حركة دائرية في المستوي المعقد مع تردد أوميغا. فإنه يلعب دور لهجة نقية لعبنا إلى الكائن. والسبب في استخدام مصطلح أسي معقد بدلا من مصطلح المثلثية البحتة هو أنه مع مصطلح الخطيئة يمكن أن نكون محظوظين مع المرحلة. بهذه الطريقة نحصل على نتيجة مع نفس القيمة المطلقة بغض النظر عن المرحلة، إلا أن اتجاه قبعة و (أوميجا) تختلف. إذا كان f لديه الكثير من التذبذب أوميغا التردد في ذلك، فإن الأرقام f (z) ه تميل إلى تصطف في نفس الاتجاه العام في الطائرة المعقدة لمختلف z (بالضبط ما هو الاتجاه الذي يعتمد على المرحلة، كما ذكر أعلاه). كما تتكامل على z، قبعة f (أوميجا) تصبح كبيرة نسبيا. من ناحية أخرى، إذا و ليس لديها الكثير من التذبذب أوميغا التردد في ذلك، ثم إنتيغيراند سوف ينتهي بك الأمر على جميع جوانب المنشأ لمختلف z، وأنت دمج، فإن نتيجة قبعة و (أوميغا) تكون صغيرة. إجابة أكثر تعقيدا (ومع ذلك سيكون غير دقيق، لأنني لم يمس هذا في 15 عاما) هو ما يلي. في مساحة 3-ديمنتيونال (على سبيل المثال) يمكنك تمثيل متجه v بواسطة إحداثيات نقطة النهاية، x، y، z، بطريقة بسيطة جدا. اخترت ثلاثة ناقلات التي هي من طول الوحدة ومتعامدة مع بعضها البعض (قاعدة)، ويقول ط. j و k. وحساب الإحداثيات على هذا النحو: في الفضاء متعدد الاتجاهات، لا تزال المعادلات قائمة. في مساحة لانهائية منفصلة، الإحداثيات والمتجهات الأساسية تصبح تسلسل. المنتج نقطة يصبح مبلغ لانهائي. في الفضاء اللانهائي المستمر (مثل مساحة وظائف جيدة) الإحداثيات والقواعد تصبح وظائف والمنتج نقطة لا يتجزأ لانهائية. الآن، تحويل فورييه هو بالضبط هذا النوع من العملية (على أساس مجموعة من الوظائف الأساسية التي هي في الأساس مجموعة من الجيب وجيب التمام). وبعبارة أخرى، فهو تمثيل مختلف لنفس الوظيفة فيما يتعلق بمجموعة معينة من الوظائف الأساسية. ونتيجة لذلك، على سبيل المثال، وظائف الزمن، الممثلة في وظائف الزمان والمكان (وبعبارة أخرى متكاملة مع مرور الوقت مضروبة في وظائف المكان والزمان)، تصبح وظائف الفضاء، وهلم جرا. وكانت وجهة نظري أن تحويل فورييه هو تغيير الأساس (وهو ما أجد شخصيا للاهتمام به) - والذي بدوره (في رأيي المتواضع) يجيب تماما على السؤال. ولكن بعد ذلك مرة أخرى في نقطة كاملة من هذا الموقع هو أن يقول المرء ما يفكر، ثم رأي الآخرين قيم الجواب. لذلك، عادل بما فيه الكفاية. ) نداش سكليففز 28 يوليو 10 في 21:47 أعتقد أن الأفكار هي الأكثر وضوحا في حالة تحويل فورييه منفصلة، والتي يمكن أن تفهم بشكل جيد جدا مع أي شيء ولكن الجبر الخطي محدود الأبعاد. وفيما يلي ملخص لكيفية اكتشاف المرء تحويل فورييه المنفصل. السماح S يكون مشغل التحول دوري على ماثب ن يعرفها S تبدأ x0 x1 فدوتس x نهاية تبدأ x1 فدوتس x x0 نهاية. A مشغل خطية A: يقال ماثب ن إلى ماثب ن أن يكون ثابت ثابت إذا A (سك) S (أكس) لجميع x في ماثب ن. (لذلك، إذا قمت بتحويل المدخلات، ثم الناتج يحصل يحصل تحول بنفس الطريقة). أكثر إيجازا، A هو تحول ثابت إذا وفقط إذا أس سا. وبعبارة أخرى، المشغل الخطي ثابت التحول هو الذي ينتقل مع المشغل التحول S. لأن مشغلي التحول ثابت مهم جدا في معالجة الإشارات والتحليل العددي، نود أن نفهم لهم وكذلك ممكن. واحدة من أفضل الطرق لفهم المشغل الخطي هو العثور على أساس إيجنفكتورس لذلك. في الجبر الخطي، هناك العديد من نظريات التنظير المتزامن التي تنص على أنه، في ظل افتراضات معينة، يمكن أن تكون مشغلات الخطية التي تنقل في وقت واحد قطري. وهذا يشير إلى استراتيجية ل قطرية عامل خطي ثابت التحول A. لأن A يسافر مع S، يمكننا أن نجد أولا أساس من إيجنفكتورس ل S. ثم، يمكننا (نأمل) استدعاء نظرية قطري قطري في وقت واحد لإظهار أن هذا الأساس من إيجنفكتورس ل S هو أيضا أساس إيجنفكتورس ل A. لاحظ أن S يحفظ المعايير، لذلك هو وحدوي. كل مشغل وحدوي أمر طبيعي. وهكذا، فإن نظرية الطيفية يضمن أن S لديه أساس أورثونورمال من إيجنفكتورس. وعلاوة على ذلك، هل يمكن أن تجد بسهولة إيجنفكتورس من S باليد الآن. بعد حساب قصير (وممتعة)، سوف تكتشف أنه إذا أوميغا هو جذر نث للوحدة ثم فوميغا ناقلات تبدأ 1 أوميغا omega2 فدوتس أوميغا نهاية هو إيجنفكتور من S. وماذا إيجنفالو المضي قدما وتحول فوميغا الآن، وسترى القيمة الذاتية على الفور. أوميغا لها، الحق كان هذا متعة لأن هناك N جذور نث متميزة للوحدة، وجدنا N نونزفاليويس متميزة و إيجنفالكتورس المقابلة ل S. وفي الواقع، هناك نظرية قطري قطري في وقت واحد الذي يقول أنه نظرا للقيم الذاتية لل S متميزة، أي مشغل خطي A الذي يسافر مع S هو قطري قطري من قبل نفس إيغنفكتورس. لقد اكتشفنا الآن كيفية إضفاء الطابع القطري على أي مشغل خطي ثابت التحول. ويطلق على أساس إيجنفكتورس اكتشفنا أساس فورييه منفصلة. إن تحويل فورييه المنفصل هو ببساطة التحول الخطي الذي يتغير أساسا من الأساس المعياري إلى أساس فورييه المنفصل. يستخدم تحويل فورييه السريع في الهندسة للحد من الوقت حساب لحل المعادلات الجبرية مصفوفة والمعادلات الفرق ماتريكس. 2017 ستاك إكسهانج، إنكونتينغ معدل العائد التعريف المحاسبة معدل العائد التعريف المعدل المحاسبي المقبول لتعريف العائد هو نسبة الربح إلى الأصول الرأسمالية المستخدمة المحسوبة قبل الضريبة والفائدة وقياسها لفترة محددة من الزمن. ويفضل العديد من المحللين الماليين معدل العائد المحاسبي على الأساليب الأخرى لأنه يوفر أساسا مفيدا لمقارنة الربحية والمخاطر المتعلقة بخيارات الاستثمار المختلفة. ولھذا السبب، فإن معدل المحاسبة الأکثر براغماتیة لتعرف العائد یشمل الإشارة إلی فائدتھ في المیزانیة الرأسمالیة یستخدم معدل العائد المحاسبي من قبل الشرکات في الغالب لتحدید أي من العدید من المشاریع المتنافسة من المرجح أن تقدم أعلی نسبة للمکافأة إلی المخاطر. معدل العائد المحاسبي في حين يوجد عدد من الاختلافات المختلفة في صيغة العائد المحاسبي الأساسي، عادة ما يتم تعريف الصيغة على النحو التالي: الثور ((إجمالي التدفقات النقدية) نداش (الاستهلاك)) (الاستثمار الأولي) (معدل العائد المحاسبي) يتم تحديد الاستهلاك من خلال صيغة بسيطة أيضا، وعادة الثور ((التكلفة الأولية للمعدات) نداش (قيمة الانقاذ القابلة للاسترداد)) (سنوات من الخدمة المفيدة) (الاستهلاك) ويعبر عن معدل العائد المحاسبي كنسبة مئوية، ويتيح المقارنة المباشرة من هوامش الربحية لالستثمارات أو املشاريع املختلفة. فعلى سبيل المثال، إذا قررت شركة ما بين استثمارين رأسماليين مختلفين، فإنها ستحدد أولا الاستهلاك المحتمل لكل خيار باستخدام صيغة الاستهلاك المبينة أعلاه. وبعد ذلك، من خلال تقدير الأرباح المحتملة التي يمكن استخلاصها من كل استثمار رأس المال، وطرح الاستهلاك المحسوب، وتقسيم الرقم الناتج عن تكلفة الاستثمار الأولي، يمكن للشركة استخلاص معدل محاسبي من العائد العائد لكل خيار الاستثمار. وعلى الرغم من أن الأرقام التنبؤية ليست دقيقة تماما مثل النتائج التاريخية، فإن معدل العائد المحاسبي يوفر طريقة ملائمة لمقارنة خيارات الاستثمار الرأسمالي التي لا يمكن مقارنتها مباشرة ببعضها البعض. معدل العائد المحاسبي مزايا ومساوئ من خلال مقارنة المعدل المحاسبي المتوقع للعائد لكل استثمار قيد النظر، يمكن للشركات تقييم أي من المشتريات المتنافسة سوف توفر أفضل عائد مالي على الاستثمار وهذا يضيف قدرا من القدرة على التنبؤ والسيطرة على عملية صنع القرار . بعد إجراء عملية الشراء، يمكن للشركات استخدام معدل المحاسبة من طريقة العائد لتتبع الربحية وفعالية التكلفة للاستثمار رأس المال. وهذا يمكن أن يساعد الشركات على التخطيط بشكل أكثر فعالية وتحسين القرارات المستقبلية فيما يتعلق بالنفقات الرأسمالية. ونظرا لأن معدل العائد المحاسبي بسيط نسبيا، فإنه يمكن استخدامه لتقديرات سريعة على الفور، مما يسمح للشركات بالاستفادة من الفرص الفورية عند نشوئها. في حين إدراج معدل المحاسبة من مزايا العائد. إترسكوس ضروري للإشارة إلى بعض العيوب لهذه الأداة المحاسبية المفيدة. إن معدل العائد المحاسبي لا يعبر عن القيمة الزمنية للنقود وهذا يعني أنه لا يحسب العائد المحتمل على الأموال المستثمرة من خلال الوسائل العادية، وبالتالي يجعل مستوى عائد مصطنع للاستثمار الرأسمالي أكثر من الاستثمار المالي التقليدي. وباإلضافة إلى ذلك، فإن طريقة معدل العائد المحاسبي تستخدم بيانات الدخل بدال من معلومات التدفقات النقدية العامة، مما يحد من دقتها لالستثمارات الرأسمالية مع تكاليف صيانة وصيانة عالية، من بين أمور أخرى. وفي كثير من الحالات، يوفر معدل العائد المحاسبي مزايا فريدة لأصحاب الأعمال، مما يوفر وسيلة مفيدة لمقارنة النفقات الرأسمالية والسماح لهم بالعمل بسرعة استجابة للفرص مع الاحتفاظ بالمسؤولية المالية. معدل العائد المحاسبي يوفر سهولة الاستخدام وأساس للمقارنة بين الاستثمارات الرأسمالية المتباينة فائدتها وملاءمتها جعلها طريقة المحاسبة السريعة المفضلة لمعظم محللي الشركات وصناع القرار. سلسلة من الخطوات القابلة للتكرار لتنفيذ نوع معين من مهمة مع البيانات. كما هو الحال مع هياكل البيانات، والناس الذين يدرسون علوم الكمبيوتر معرفة خوارزميات مختلفة وملاءمتها لمختلف المهام. وغالبا ما تلعب هياكل البيانات المحددة دورا في كيفية تنفيذ بعض الخوارزميات. انظر أيضا بنية البيانات مكتبة جافا سكريبت مفتوحة المصدر تحتفظ بها غوغل ومجتمع أنغولارجس تتيح للمطورين إنشاء ما يعرف باسم تطبيقات ويب ويب المفردة. أنغولارجس تحظى بشعبية مع علماء البيانات كوسيلة لإظهار نتائج تحليلهم. انظر أيضا جافاسكريبت. D3 أيضا، منظمة العفو الدولية. القدرة على عمل الآلات مع الذكاء الظاهري، على الرغم من أن تعريفات مختلفة من الذكاء تؤدي إلى مجموعة من المعاني لمجموعة متنوعة الاصطناعي. في الأيام الأولى من منظمة العفو الدولية في 1960s، سعى الباحثون إلى مبادئ عامة للاستخبارات لتنفيذ، وغالبا ما تستخدم المنطق الرمزي لأتمتة التفكير. مع انخفاض تكلفة الموارد الحاسوبية، انتقل التركيز أكثر نحو التحليل الإحصائي لكميات كبيرة من البيانات لدفع صنع القرار الذي يعطي مظهر الذكاء. انظر أيضا تعلم الآلة. استخراج البيانات أيضا، باكبروب. خوارزمية لضبط تكراري الأوزان المستخدمة في نظام الشبكة العصبية. وغالبا ما تستخدم باكبروباغاتيون لتنفيذ الانحدار النسب. انظر أيضا الشبكة العصبية. الانحدار النسب أيضا، بايس القاعدة. معادلة لحساب احتمال أن شيئا ما صحيحا إذا كان هناك شيء يحتمل أن يكون له صلة به هو الصحيح. إذا كان P (A) يعني احتمال أن A صحيح و P (أب) يعني احتمال أن A صحيح إذا كان B صحيحا، ثم بايس نظرية يخبرنا أن P (أب) (P (با) P (A)) P (ب). وهذا مفيد للعمل مع ايجابيات كاذبة على سبيل المثال، إذا كان x من الناس لديهم مرض، والاختبار لذلك هو الصحيح y من الوقت، واختبار إيجابية، بايز نظرية يساعد على حساب احتمالات أن لديك فعلا المرض. نظرية أيضا يجعل من الأسهل لتحديث احتمال استنادا إلى بيانات جديدة، مما يجعلها قيمة في العديد من التطبيقات حيث البيانات لا تزال تتراكم. سميت للإحصائي الإنكليزي في القرن الثامن عشر والكاتب المشيخي توماس بايز. انظر أيضا شبكة بايزي. التوزيع السابق أيضا، صافي بايس. شبكات بايزي هي الرسوم البيانية التي تمثل بشكل مضغوط العلاقة بين المتغيرات العشوائية لمشكلة معينة. هذه الرسوم البيانية تساعد في أداء المنطق أو اتخاذ القرار في مواجهة عدم اليقين. ويعتمد هذا المنطق بشكل كبير على حكم بايس. بورغ يتم تمثيل هذه الشبكات عادة كرسوم بيانية يتم فيها تعيين قيمة العلاقة بين أي عقدتين تمثل العلاقة الاحتمالية بين تلك العقد. انظر أيضا نظرية بايس. سلسلة ماركوف في التعلم الآلي، والتحيز هو اتجاه المتعلمين لتعلم باستمرار نفس الشيء الخطأ. التباين هو الميل إلى تعلم أشياء عشوائية بغض النظر عن إشارة حقيقية. من السهل تجنب الإفراط في (التباين) عن طريق الوقوع في الخطأ المعاكس من نقص التحيز (التحيز). تجنب في آن واحد على حد سواء يتطلب تعلم المصنف الكمال، وقصر من معرفة ذلك في وقت مبكر ليس هناك تقنية واحدة من شأنها أن تفعل دائما أفضل (لا الغداء مجانا). دومينغوس انظر أيضا التباين. overfitting. التصنيف حيث أصبحت هذه العبارة عبارة عن طفرة تسويقية شعبية، فقد انتشرت التعريفات، ولكنها تشير بشكل عام إلى القدرة على العمل مع مجموعات من البيانات التي كانت غير عملية من قبل بسبب حجمها وسرعتها وتنوعها (ثلاثة فس). وكان المحرك الرئيسي لهذه القدرة الجديدة توزيع أسهل للتخزين والتجهيز عبر شبكات الأجهزة السلعية الرخيصة باستخدام تكنولوجيا مثل هادوب بدلا من الحاجة إلى أجهزة كمبيوتر فردية أكبر وأكثر قوة. وغالبا ما يعتمد العمل المنجز بهذه الكميات الكبيرة من البيانات على مهارات علوم البيانات. توزيع نتائج الأحداث المستقلة مع اثنين من النتائج المحتملة المتبادلة، وعدد ثابت من التجارب، واحتمال مستمر للنجاح. هذا هو توزيع الاحتمالات المنفصلة، على عكس المثال المستمر، بدلا من الرسم البياني مع خط، يمكنك استخدام الرسم البياني، لأن النتائج المحتملة هي مجموعة منفصلة من القيم. كما عدد من المحاكمات التي يمثلها توزيع الحدين ترتفع، إذا كان احتمال النجاح لا يزال ثابتا، فإن أشرطة الرسم البياني الحصول على أرق، وسوف تبدو أكثر وأكثر مثل الرسم البياني للتوزيع الطبيعي. انظر أيضا توزيع الاحتمالات. المتغير المنفصل. الرسم البياني. توزيع عادي تشي (وضوحا مثل فطيرة ولكن بداية مع ك) هو حرف يوناني، ومربع تشي هو طريقة الإحصائية المستخدمة لاختبار ما إذا كان تصنيف البيانات يمكن أن يعزى إلى الصدفة أو لبعض القانون الأساسي. ويبسترس اختبار تشي مربع هو تقنية التحليل المستخدمة لتقدير ما إذا كان متغيرين في تبويب عبر ترتبط. شين يختلف توزيع مربع تشي من التوزيع الطبيعي استنادا إلى درجات الحرية المستخدمة لحسابه. انظر أيضا التوزيع الطبيعي ويكيبيديا على اختبار تشي مربع وعلى توزيع تشي مربع. تحديد أي من اثنين أو أكثر من فئات البند تقع تحت مهمة تعلم الآلة الكلاسيكية. تحديد ما إذا كانت رسالة بريد إلكتروني غير مرغوب فيها أم لا تصنفها بين فئتين، وتحليل البيانات حول الأفلام قد يؤدي إلى تصنيفها بين عدة أنواع. انظر أيضا التعلم تحت إشراف. كلوستيرينغ أي خوارزمية غير خاضعة للرقابة لتقسيم حالات البيانات إلى مجموعات لا توجد مجموعة محددة سلفا من المجموعات، والتي من شأنها أن تجعل هذا التصنيف، ولكن المجموعات التي حددها تنفيذ الخوارزمية بسبب أوجه التشابه التي وجدت بين الحالات. ويعرف مركز كل كتلة من قبل اسم ممتاز سينترويد. انظر أيضا التصنيف. التعلم تحت الإشراف. تعليم غير مشرف عليه. k-مينز تجميع عدد أو رمز جبري مسبوق كمضاعف إلى كمية متغيرة أو غير معروفة (مثال x في x (يز) 6 في ستيبس 6ab عند رسم بياني لمعادلة مثل y 3x 4. معامل x يحدد الخطوط المنحدرات، وغالبا ما تشير مناقشات الإحصاءات إلى معاملات محددة لمهام محددة مثل معامل الارتباط ومعامل كرامرز ومعامل جيني انظر أيضا الارتباط بمعالجة اللغة الطبيعية نلب فرع علوم الحاسوب لتحليل نص اللغات المنطوقة على سبيل المثال، الإنجليزية أو الماندرين) لتحويله إلى البيانات المنظمة التي يمكنك استخدامها لدفع منطق البرنامج. كما ركزت الجهود المبكرة على ترجمة لغة إلى أخرى أو قبول جمل كاملة مثل الاستعلامات لقواعد البيانات الجهود الحديثة في كثير من الأحيان تحليل الوثائق والبيانات الأخرى (على سبيل المثال، تويت) لاستخراج المعلومات التي يحتمل أن تكون قيمة، انظر أيضا غيت. إيما نطاق محدد حول تقدير يشير إلى هامش الخطأ، مقترنا باحتمال أن ستنخفض قيمة في هذا النطاق. يقدم مجال الإحصاء صيغ رياضية محددة لحساب فترات الثقة. المتغير الذي يمكن أن تكون قيمته أي عدد لا نهائي من القيم، عادة ضمن نطاق معين. على سبيل المثال، إذا كنت تستطيع التعبير عن العمر أو الحجم مع عدد عشري، فهي متغيرات مستمرة. في الرسم البياني، يتم التعبير عن قيمة المتغير المستمر عادة كسطر رسمته الدالة. مقارنة متغير منفصل درجة المراسلات النسبية، بين مجموعتين من البيانات. ويبسترس إذا ارتفعت المبيعات عندما ترتفع ميزانية الإعلان، فإنها ترتبط. معامل الارتباط هو مقياس لكيفية ارتباط مجموعتي البيانات عن كثب. معامل الارتباط 1 هو ارتباط كامل. 9 هو ارتباط قوي، و 0.2 هو ارتباط ضعيف. هذه القيمة يمكن أن تكون سلبية أيضا، كما هو الحال عندما ينخفض حدوث المرض عندما ترتفع التطعيمات. معامل الارتباط -1 هو علاقة سلبية كاملة. تذكر دائما، على الرغم من أن الارتباط لا يعني السببية. انظر أيضا معامل قياس العلاقة بين متغيرين لوحظ قيمهما في نفس الوقت على وجه التحديد، وتقلص متوسط قيمة المتغيرين بمنتج قيمهما المتوسطة. websters Whereas variance measures how a single variable deviates from its mean, covariance measures how two variables vary in tandem from their means. grus See also variance. mean When using data with an algorithm, the name given to a set of techniques that divide up data into training sets and test sets. The training set is given to the algorithm, along with the correct answers. and becomes the set used to make predictions. The algorithm is then asked to make predictions for each item in the test set. The answers it gives are compared to the correct answers, and an overall score for how well the algorithm did is calculated. segaran See also machine learning Data-Driven Documents. A JavaScript library that eases the creation of interactive visualizations embedded in web pages. D3 is popular with data scientists as a way to present the results of their analysis. See also AngularJS. JavaScript A specialist in data wrangling. Data engineers are the ones that take the messy data. and build the infrastructure for real, tangible analysis. They run ETL software, marry data sets, enrich and clean all that data that companies have been storing for years. biewald See also data wrangling. (A Wikipedia search for data engineering redirects to information engineering, an older term that describes a more enterprise-oriented job with greater system architecture responsibility and less hands-on work with the data.) Generally, the use of computers to analyze large data sets to look for patterns that let people make business decisions. While this sounds like much of what data science is about, popular use of the term is much older, dating back at least to the 1990s. See also data science The ability to extract knowledge and insights from large and complex data sets. patil Data science work often requires knowledge of both statistics and software engineering. See also data engineer. machine learning A particular arrangement of units of data such as an array or a tree. People studying computer science learn about different data structures and their suitability for various tasks. See also algorithm Also, data munging . The conversion of data, often through the use of scripting languages, to make it easier to work with. If you have 900,000 birthYear values of the format yyyy-mm-dd and 100,000 of the format mmddyyyy and you write a Perl script to convert the latter to look like the former so that you can use them all together, youre doing data wrangling. Discussions of data science often bemoan the high percentage of time that practitioners must spend doing data wrangling the discussions then recommend the hiring of data engineers to address this. See also Perl. Python. shell. data engineer A decision tree uses a tree structure to represent a number of possible decision paths and an outcome for each path. If you have ever played the game Twenty Questions, then it turns out you are familiar with decision trees. grus See also random forest Typically, a multi-level algorithm that gradually identifies things at higher levels of abstraction. For example, the first level may identify certain lines, then the next level identifies combinations of lines as shapes, and then the next level identifies combinations of shapes as specific objects. As you might guess from this example, deep learning is popular for image classification. See also neural network The value of a dependent value depends on the value of the independent variable. If youre measuring the effect of different sizes of an advertising budget on total sales, then the advertising budget figure is the independent variable and total sales is the dependent variable. Also, dimensionality reduction . We can use a technique called principal component analysis to extract one or more dimensions that capture as much of the variation in the data as possible. Dimensionality reduction is mostly useful when your data set has a large number of dimensions and you want to find a small subset that captures most of the variation. grus Linear algebra can be involved broadly speaking, linear algebra is about translating something residing in an m - dimensional space into a corresponding shape in an n - dimensional space. shin See also linear algebra A variable whose potential values must be one of a specific number of values. If someone rates a movie with between one and five stars, with no partial stars allowed, the rating is a discrete variable. In a graph, the distribution of values for a discrete variable is usually expressed as a histogram. See also continuous variable. histogram The use of mathematical and statistical methods in the field of economics to verify and develop economic theories websters The machine learning expression for a piece of measurable information about something. If you store the age, annual income, and weight of a set of people, youre storing three features about them. In other areas of the IT world, people may use the the terms property, attribute, or field instead of feature. See also feature engineering To obtain a good model, however, often requires more effort and iteration and a process called feature engineering. Features are the models inputs. They can involve basic raw data that you have collected, such as order amount, simple derived variables, such as Is order date on a weekend YesNo, as well as more complex abstract features, such as the similarity score between two movies. Thinking up features is as much an art as a science and can rely on domain knowledge. anderson See also feature General Architecture for Text Engineering, an open source, Java-based framework for natural language processing tasks. The framework lets you pipeline other tools designed to be plugged into it. The project is based at the UKs University of Sheffield. See also computational linguistics. UIMA Gradient boosting is a machine learning technique for regression and classification problems, which produces a prediction model in the form of an ensemble of weak prediction models, typically decision trees. It builds the model in a stage-wise fashion like other boosting methods do, and it generalizes them by allowing optimization of an arbitrary differentiable loss function. wikipediagb An optimization algorithm for finding the input to a function that produces the largest (or smallest) possible value. one approach to maximizing a function is to pick a random starting point, compute the gradient, take a small step in the direction of the gradient (i. e. the direction that causes the function to increase the most), and repeat with the new starting point. Similarly, you can try to minimize a function by taking small steps in the opposite direction. grus See also backpropagation A scripting language (no relation to Java) originally designed in the mid-1990s for embedding logic in web pages, but which later evolved into a more general-purpose development language. JavaScript continues to be very popular for embedding logic in web pages, with many libraries available to enhance the operation and visual presentation of these pages. See also AngularJS. D3 A data mining algorithm to cluster, classify, or group your N objects based on their attributes or features into K number of groups (so-called clusters). parsian See also clustering Also, kNN . A machine learning algorithm that classifies things based on their similarity to nearby neighbors. You tune the algorithms execution by picking how many neighbors to examine ( k ) as well as some notion of distance to indicate how near the neighbors are. For example, in a social network, a friend of your friend could be considered twice the distance away from you as your friend. Similarity would be comparison of feature values in the neighbors being compared. See also classification. feature In statistics, latent variables (from Latin: present participle of lateo (lie hidden),as opposed to observable variables), are variables that are not directly observed but are rather inferred (through a mathematical model) from other variables that are observed (directly measured). Mathematical models that aim to explain observed variables in terms of latent variables are called latent variable models. wikipedialv Lift compares the frequency of an observed pattern with how often youd expect to see that pattern just by chance. If the lift is near 1, then theres a good chance that the pattern you observed is occurring just by chance. The larger the lift, the more likely that the pattern is real. zumel A branch of mathematics dealing with vector spaces and operations on them such as addition and multiplication. Linear algebra is designed to represent systems of linear equations. Linear equations are designed to represent linear relationships, where one entity is written to be a sum of multiples of other entities. In the shorthand of linear algebra, a linear relationship is represented as a linear operatora matrix. zheng See also vector. vector space. matrix. coefficient A technique to look for a linear relationship (that is, one where the relationship between two varying amounts, such as price and sales, can be expressed with an equation that you can represent as a straight line on a graph) by starting with a set of data points that dont necessarily line up nicely. This is done by computing the least squares line: the one that has, on an x-y graph, the smallest possible sum of squared distances to the actual data point y values. Statistical software packages offer automated ways to calculate this. See also regression. logistic regression If y 10 x . then log(y) x . Working with the log of one or more of a models variables, instead of their original values, can make it easier to model relationships with linear functions instead of non-linear ones. Linear functions are typically easier to use in data analysis. (The log(y) x example shown is for log base 10. Natural logarithms, or log base e where e is a specific irrational number a little over 2.7are a bit more complicated but also very useful for related tasks.) See also dependent variable. linear regression A model similar to linear regression but where the potential results are a specific set of categories instead of being continuous. See continuous variable. regression. linear regression The use of data-driven algorithms that perform better as they have more data to work with, learning (that is, refining their models) from this additional data. This often involves cross-validation with training and test data sets. The fundamental goal of machine learning is to generalize beyond the examples in the training set. domingos Studying the practical application of machine learning usually means researching which machine learning algorithms are best for which situations. See also algorithm. cross-validation. artificial intelligence An algorithm for working with a series of events (for example, a system being in particular states) to predict the possibility of a certain event based on which other events have happened. The identification of probabilistic relationships between the different events means that Markov Chains and Bayesian networks often come up in the same discussions. See also Bayesian network. Monte Carlo method A commercial computer language and environment popular for visualization and algorithm development. (Plural: matrices ) An older Websters dictionary with a heavier emphasis on typographical representation gives the mathematical definition as a set of numbers or terms arranged in rows and columns between parentheses or double lines websters. For purposes of manipulating a matrix with software, think of it as a two-dimensional array. As with its one-dimensional equivalent, a vector, this mathematical representation of the two-dimensional array makes it easier to take advantage of software libraries that apply advanced mathematical operations to the dataincluding libraries that can distribute the processing across multiple processors for scalability. See also vector. linear algebra The average value, although technically that is known as the arithmetic mean. (Other means include the geometric and harmonic means.) See also median. mode Mean Absolute Error Mean Squared Error Also, MSE . The average of the squares of all the errors found when comparing predicted values with observed values. Squaring them makes the bigger errors count for more, making Mean Squared Error more popular than Mean Absolute Error when quantifying the success of a set of predictions. See also Mean Absolute Error. Root Mean Squared Error When values are sorted, the value in the middle, or the average of the two in the middle if there are an even number of values. See also mean. mode The value that occurs most often in a sample of data. Like the median, the mode cannot be directly calculated stanton although its easy enough to find with a little scripting. For people who work with statistics, mode can also mean data typefor example, whether a value is an integer, a real number, or a date. See also mean. median. scripting A specification of a mathematical (or probabilistic) relationship that exists between different variables. grus Because modeling can mean so many things, the term statistical modeling is often used to more accurately describe the kind of modeling that data scientists do. Monte Carlo method In general, the use of randomly generated numbers as part of an algorithm. Its use with Markov Chains is so popular that people usually refer to the combination with the acronym MCMC. See also Markov Chain The mean (or average) of time series data (observations equally spaced in time, such as per hour or per day) from several consecutive periods is called the moving average . It is called moving because the average is continually recomputed as new time series data becomes available, and it progresses by dropping the earliest value and adding the most recent. parsian See also mean. time series data The analysis of sequences of n items (typically, words in natural language) to look for patterns. For example, trigram analysis examines three-word phrases in the input to look for patterns such as which pairs of words appear most often in the groups of three. The value of n can be something other than three, depending on your needs. This helps to construct statistical models of documents (for example, when automatically classifying them) and to find positive or negative terms associated with a product name. See also computational linguistics. classification naive Bayes classifier A collection of classification algorithms based on Bayes Theorem. It is not a single algorithm but a family of algorithms that all share a common principle, that every feature being classified is independent of the value of any other feature. So for example, a fruit may be considered to be an apple if it is red, round, and about 3 in diameter. A Naive Bayes classifier considers each of these features (red, round, 3 in diameter) to contribute independently to the probability that the fruit is an apple, regardless of any correlations between features. Features, however, arent always independent which is often seen as a shortcoming of the Naive Bayes algorithm and this is why its labeled naive. aylien This naivet makes it much easier to develop implementations of these algorithms that scale way up. See also Bayes Theorem. classification Also, neural net or artificial neural network to distinguish it from the brain, upon which this algorithm is modeled. A robust function that takes an arbitrary set of inputs and fits it to an arbitrary set of outputs that are binary. In practice, Neural Networks are used in deep learning research to match images to features and much more. What makes Neural Networks special is their use of a hidden layer of weighted functions called neurons, with which you can effectively build a network that maps a lot of other functions. Without a hidden layer of functions, Neural Networks would be just a set of simple weighted functions. kirk See also deep learning. backpropagation. perceptron Also, Gaussian distribution . (Carl Friedrich Gauss was an early nineteenth-century German mathematician.) A probability distribution which, when graphed, is a symmetrical bell curve with the mean value at the center. The standard deviation value affects the height and width of the graph. See also mean. probability distribution. standard deviation. binomial distribution. standard normal distribution A database management system that uses any of several alternatives to the relational, table-oriented model used by SQL databases. While this term originally meant not SQL, it has come to mean something closer to not only SQL because the specialized nature of NoSQL database management systems often have them playing specific roles in a larger system that may also include SQL and additional NoSQL systems. See also SQL If your proposed model for a data set says that the value of x is affecting the value of y . then the null hypothesisthe model youre comparing your proposed model with to check whether x really is affecting y says that the observations are all based on chance and that there is no effect. The smaller the P-value computed from the sample data, the stronger the evidence is against the null hypothesis. shin See also P value When you want to get as much (or as little) of something as possible, and the way youll get it is by changing the values of other quantities, you have an optimization problem. To solve an optimization problem, you need to combine your decision variables, constraints, and the thing you want to maximize together into an objective function. The objective is the thing you want to maximize or minimize, and you use the objective function to find the optimum result. milton See also gradient descent Extreme values that might be errors in measurement and recording, or might be accurate reports of rare events. downey See also overfitting A model of training data that, by taking too many of the datas quirks and outliers into account, is overly complicated and will not be as useful as it could be to find patterns in test data. See also outlier. cross-validation Also, p-value . The probability, under the assumption of no effect or no difference (the null hypothesis), of obtaining a result equal to or more extreme than what was actually observed. goodman Its a measure of how surprised you should be if there is no actual difference between the groups, but you got data suggesting there is. A bigger difference, or one backed up by more data, suggests more surprise and a smaller p value. The p value is a measure of surprise, not a measure of the size of the effect. reinhart A lower p value means that your results are more statistically significant. See also null hypothesis An algorithm that determines the importance of something, typically to rank it in a list of search results. PageRank works by counting the number and quality of links to a page to determine a rough estimate of how important the website is. The underlying assumption is that more important websites are likely to receive more links from other websites. googlearchive PageRank is not named for the pages that it ranks but for its inventor, Google co-founder and CEO Larry Page. A Python library for data manipulation popular with data scientists. See also Python Pretty much the simplest neural network is the perceptron, which approximates a single neuron with n binary inputs. It computes a weighted sum of its inputs and fires if that weighted sum is zero or greater. grus See also neural network An older scripting language with roots in pre-Linux UNIX systems. Perl has always been popular for text processing, especially data cleanup and enhancement tasks. See also scripting. data wrangling Pivot tables quickly summarize long lists of data, without requiring you to write a single formula or copy a single cell. But the most notable feature of pivot tables is that you can arrange them dynamically . Say you create a pivot table summary using raw census data. With the drag of a mouse, you can easily rearrange the pivot table so that it summarizes the data based on gender or age groupings or geographic location. The process of rearranging your table is known as pivoting your data: youre turning the same information around to examine it from different angles. macdonald A distribution of independent events, usually over a period of time or space, used to help predict the probability of an event. Like the binomial distribution, this is a discrete distribution. Named for early 19th century French mathematician Simon Denis Poisson. See also spatiotemporal data. discrete variable. binomial distribution The analysis of data to predict future events, typically to aid in business planning. This incorporates predictive modeling and other techniques. Machine learning might be considered a set of algorithms to help implement predictive analytics. The more business-oriented spin of predictive analytics makes it a popular buzz phrase in marketing literature. See also predictive modeling. machine learning. SPSS principal component analysis This algorithm simply looks at the direction with the most variance and then determines that as the first principal component. This is very similar to how regression works in that it determines the best direction to map data to. kirk See also regression In Bayesian inference, we assume that the unknown quantity to be estimated has many plausible values modeled by whats called a prior distribution. Bayesian inference is then using data (that is considered as unchanging) to build a tighter posterior distribution for the unknown quantity. zumel See also Bayes Theorem A probability distribution for a discrete random variable is a listing of all possible distinct outcomes and their probabilities of occurring. Because all possible outcomes are listed, the sum of the probabilities must add to 1.0. levine See also discrete variable A programming language available since 1994 that is popular with people doing data science. Python is noted for ease of use among beginners and great power when used by advanced users, especially when taking advantage of specialized libraries such as those designed for machine learning and graph generation. See also scripting. Pandas When you divide a set of sorted values into groups that each have the same number of values (for example, if you divide the values into two groups at the median), each group is known as a quantile. If there are four groups, we call them quartiles, which is a common way to divide values for discussion and analysis purposes if there are five, we call them quintiles, and so forth. See also median An open-source programming language and environment for statistical computing and graph generation available for Linux, Windows, and Mac. An algorithm used for regression or classification that uses a collection of tree data structures. To classify a new object from an input vector, put the input vector down each of the trees in the forest. Each tree gives a classification, and we say the tree votes for that class. The forest chooses the classification having the most votes (over all the trees in the forest). breiman The term random forest is actually trademarked by its authors. See also classification. vector. decision trees . the more general problem of fitting any kind of model to any kind of data. This use of the term regression is a historical accident it is only indirectly related to the original meaning of the word. downey See also linear regression. logistic regression. principal component analysis A class of machine learning algorithms in which the process is not given specific goals to meet but, as it makes decisions, is instead given indications of whether its doing well or not. For example, an algorithm for learning to play a video game knows that if its score just went up, it must have done something right. See also supervised learning. unsupervised learning Root Mean Squared Error Also, RMSE . The square root of the Mean Squared Error. This is more popular than Mean Squared Error because taking the square root of a figure built from the squares of the observation value errors gives a number thats easier to understand in the units used to measure the original observations. See also Mean Absolute Error. Mean Squared Error. A scripting language that first appeared in 1996. Ruby is popular in the data science community, but not as popular as Python, which has more specialized libraries available for data science tasks. See also scripting. Python Imagine a graph showing, for each month since smartphones originally became available, how many people in the US bought their first one. The line would rise slowly at first, when only the early adopters got them, then quickly as these phones became more popular, and then level off again once nearly everyone had one. This graphs line would form a stretched-out S shape. The S curve applies to many other phenomena and is often mentioned when someone predicts that a rising value will eventually level off. A commercial statistical software suite that includes a programming language also known as SAS. Designating or of a quantity that has magnitude but no direction in space, as volume or temperature n. a scalar quantity: distinguished from vector websters See also vector Generally, the use of a computer language where your program, or script, can be run directly with no need to first compile it to binary code as with with languages such as Java and C. Scripting languages often have simpler syntax than compiled languages, so the process of writing, running, and tweaking scripts can go faster. See also Python. Perl. Ruby. shell As prices vary from day to day, you might expect to see patterns. If the price is high on Monday, you might expect it to be high for a few more days and if its low, you might expect it to stay low. A pattern like this is called serial correlation, because each value is correlated with the next one in the series. To compute serial correlation, we can shift the time series by an interval called a lag, and then compute the correlation of the shifted series with the original. Autocorrelation is another name for serial correlation, used more often when the lag is not 1. downey See also correlation When you use a computers operating system from the command line, youre using its shell. Along with scripting languages such as Perl and Python, Linux-based shell tools (which are either included with or easily available for Mac and Windows machines) such as grep, diff, split, comm, head, and tail are popular for data wrangling. A series of shell commands stored in a file that lets you execute the series by entering the files name is known as a shell script. See also data wrangling. scripting. Perl. Python Time series data that also includes geographic identifiers such as latitude-longitude pairs. See also time series data A commercial statistical software package, or according to the product home page, predictive analytics software. spss The product has always been popular in the social sciences. The company, founded in 1968, was acquired by IBM in 2009. See also predictive analytics The ISO standard query language for relational databases. Variations of this extremely popular language are often available for data storage systems that arent strictly relational watch for the phrase SQL-like. The square root of the variance, and a common way to indicate just how different a particular measurement is from the mean. An observation more than three standard deviations away from the mean can be considered quite rare, in most applications. zumel Statistical software packages offer automated ways to calculate the standard deviation. See also variance standard normal distribution A normal distribution with a mean of 0 and a standard deviation of 1. When graphed, its a bell-shaped curve centered around the y axis, where x 0. See also normal distribution. mean. standard deviation Also, standard score . normal score . z-score . Transforms a raw score into units of standard deviation above or below the mean. This translates the scores so they can be evaluated in reference to the standard normal distribution. boslaugh Translating two different test sets to use standardized scores makes them easier to compare. See also standard deviation. mean. standard normal distribution A commercial statistical software package, not to be confused with strata. See also strata, stratified sampling strata, stratified sampling Divide the population units into homogeneous groups (strata) and draw a simple random sample from each group. gonick Strata also refers to an OReilly conference on big data, data science, and related technologies. See also Stata A type of machine learning algorithm in which a system is taught to classify input into specific, known classes. The classic example is sorting email into spam versus ham. See also unsupervised learning. reinforcement learning. machine learning support vector machine Also, SVM . Imagine that you want to write a function that draws a line on a two-dimensional x - y graph that separates two different kinds of pointsthat is, it classifies them into two categoriesbut you cant, because on that graph theyre too mixed together. Now imagine that the points are in three dimensions, and you can classify them by writing a function that describes a plane that can be positioned at any angle and position in those three dimensions, giving you more opportunities to find a working mathematical classifier. This plane that is one dimension less than the space around it, such as a two-dimensional plane in a three-dimensional space or a one-dimensional line on a two-dimensional space, is known as a hyperplane. A support vector machine is a supervised learning classification tool that seeks a dividing hyperplane for any number of dimensions. (Keep in mind that dimensions dont have to be x . y . and z position coordinates, but any features you choose to drive the categorization.) SVMs have also been used for regression tasks as well as categorization tasks. See also supervised learning. feature Also, students t distribution . A variation on normal distribution that accounts for the fact that youre only using a sampling of all the possible values instead of all of them. Invented by Guiness Brewery statistician William Gossett (publishing under the pseudonym student) in the early 20th century for his quality assurance work there. See also normal distribution A commercial data visualization package often used in data science projects. time series data Strictly speaking, a time series is a sequence of measurements of some quantity taken at different times, often but not necessarily at equally spaced intervals. boslaugh So, time series data will have measurements of observations (for example, air pressure or stock prices) accompanied by date-time stamps. See also spatiotemporal data. moving average The Unstructured Information Management Architecture was developed at IBM as a framework to analyze unstructured information, especially natural language. OASIS UIMA is a specification that standardizes this framework and Apache UIMA is an open-source implementation of it. The framework lets you pipeline other tools designed to be plugged into it. See also computational linguistics. GATE A class of machine learning algorithms designed to identify groupings of data without knowing in advance what the groups will be. See also supervised learning. reinforcement learning. clustering . How much a list of numbers varies from the mean (average) value. It is frequently used in statistics to measure how large the differences are in a set of numbers. It is calculated by averaging the squared difference of every number from the mean. segaran Any statistical package will offer an automated way to calculate this. See also mean. bias. standard deviation Websters first mathematical definition is a mathematical expression denoting a combination of magnitude and direction, which you may remember from geometry class, but their third definition is closer to how data scientists use the term: an ordered set of real numbers, each denoting a distance on a coordinate axis websters. These numbers may represent a series of details about a single person, movie, product, or whatever entity is being modeled. This mathematical representation of the set of values makes it easier to take advantage of software libraries that apply advanced mathematical operations to the data. See also matrix. linear algebra An open source set of command line and graphical user interface data analysis tools developed at the University of Waikato in New Zealand. References Sarah Boslaugh, Statistics in a Nutshell . 2nd Edition (Sebastopol: OReilly Media, 2012). David M. Bourg and Glenn Seeman AI for Game Developers (Sebastopol: OReilly Media, 2004). Leo Breiman and Adele Cutler, Random Forests. accessed 2015-08-22. Allen B. Downey Think Stats . 2nd Edition (Sebastopol: OReilly Media, 2014). Larry Gonick and Woolcott Smith, The Cartoon Guide to Statistics (New York: HarperCollins, 1993) S. N. Goodman, Toward evidence-based medical statistics. 1: The P value fallacy . Annals of Internal Medicine, 130:9951004, 1999. (quoted in Reinhart ) Mahmoud Parsian, Data Algorithms . (Sebastopol: OReilly Media, 2015). 82. Stanton, J. M. (2012). Introduction to Data Science . Third Edition. iTunes Open Source eBook. Available: itunes. appleusbookintroduction-to-data-scienceid529088127mt11 Victoria Neufeldt, Editor in Chief, Websters New World College Dictionary . Third Edition (New York: Macmillan, 1997). Nina Zumel and John Mount, Practical Data Science with R (Shelter Island: Manning Publications, 2014).
No comments:
Post a Comment