Логарифмическая функция правдоподобия. Метод наибольшего правдоподобия

Из параметрического распределения, рассматриваемое как функция параметра. При этом используется совместная функция плотности (в случае выборки из непрерывного распределения) либо совместная вероятность (в случае выборки из дискретного распределения), вычисленные для данных выборочных значений.

Понятия вероятности и правдоподобия тесно связаны. Сравните два предложения:

  • "Какова вероятность выпадения 12 очков в каждом из ста бросков двух костей?"
  • "Насколько правдоподобно, что кости не шулерские, если из ста бросков в каждом выпало 12 очков?"

Если распределение вероятности зависит от параметра, то с одной стороны можно рассматривать вероятность некоторых событий при заданном параметре, а с другой стороны - вероятность заданного события при различных значениях параметра. Т.е. в первом случае имеем функцию, зависящую от события, а во втором - от параметра при фиксированном событии. Последний вариант является функцией правдоподобия и показывает, насколько правдоподобен выбранный параметр при заданном событии. Неформально: если вероятность позволяет нам предсказывать неизвестные результаты, основанные на известных параметрах, то правдоподобие позволяет нам оценивать неизвестные параметры, основанные на известных результатах.

,

Важно понимать, что по абсолютному значению правдоподобия нельзя делать никаких вероятностных суждений. Правдоподобие позволяет сравнить несколько вероятностных распределений с разными параметрами и оценить в контексте какого из них наблюдаемые события наиболее вероятны.

Определение

Пусть есть параметрическое семейство распределений вероятности . Пусть дана выборка для некоторого . Предположим, что совместное распределение этой выборки задаётся функцией , где является либо плотностью вероятности , либо функцией вероятности случайного вектора .

Для фиксированной реализации выборки функция называется функцией правдоподобия.

Логарифмическая функция правдоподобия

Во многих приложениях необходимо найти максимум функции правдоподобия, что связано с вычислением производной. Логарифм - монотонно возрастающая функция, поэтому логарифм от функции достигнет максимума в той же точке, что и сама функция. С другой стороны, логарифм произведения является суммой, что упрощает дифференцирование. Поэтому для практических вычислений предпочитают использовать логарифм функции правдоподобия.

,

называется логарифми́ческой фу́нкцией правдоподо́бия .

  • Если выборка независима , то
,

где - плотность или функция вероятности распределения . Логарифмическая функция правдоподобия в этом случае имеет вид:

.

Замечания

Функция правдоподобия для оценки вероятности выпадения двух орлов, в зависимости от вероятности выпадения одного

Нельзя путать правдоподобие с вероятностью появления распределения с выбранным параметром. Как минимум, интеграл от функции плотности вероятности по параметру, не обязан быть единицей. Рассмотрим вероятность последовательного выпадания орла в двух бросках одной монеты. Вероятность ОО = . Если , то

.

Правдоподобность того, что вероятность выпадения одного орла равна 0.5, при условии того, что два выпадают с вероятностью 0.25.

Но это не тоже самое, что "вероятность того что , если выпало подряд два орла равна 0.25". Заметьте, правдоподобность утверждения равна единице.

История

Впервые правдоподобие было упомянуто в книге Торвальда Тиле , опубликованной в году .

Полное описание идеи правдоподобия впервые было дано Рональдом Фишером в году в работе «Математические основы теоретической статистики» (англ.) . В этой работе Фишер также использует термин метод максимального правдоподобия . Фишер возражает против использования обратной вероятности как основы статистических заключений и предлагает вместо неё использовать функцию правдоподобия.

См. также

Примечания


Wikimedia Foundation . 2010 .

Метод наибольшего правдоподобия -- метод поиска модели, наилучшим в каком-то смысле образом описывающей обучающую выборку , полученную с некоторым неизвестным распределением.

Описание метода

Пусть на вход подается некоторая величина x , а на выходе имеется величина y . Также существует условная вероятность , описывающая вероятность получить на выходе величину y , если на вход была подана величина x . Если множество величин не дискретно, то условная вероятность заменяется на условную плотность распределения. Считается, что эта условная вероятность нам неизвестна. Пусть имеется некоторое множество моделей, описываемых различными условными вероятностями , где играет роль индекса, приписываемого конкретной модели, и может, вообще говоря, иметь любую природу. Пусть также существует обучающая выборка порождённая с неизвестной условной вероятностью . Причем, считается, что все пары порождаются независимо. Требуется на основании обучающей выборки выделить из множества моделей (то есть выбрать ) ту, что наилучшим образом подходит к обучающей выборке. Функцией правдоподобия называется функция вида . Метод наибольшего правдоподобия состоит в том, что из множества моделей выбирается та, что максимизирует значение функции правдоподобия, т.е. выбирается значение параметра

Обоснование метода

Заметим, что в силу независимости элементов обучающей выборки вероятность получить набор выходных значений при поданных на вход значениях равняется . Из эвристических соображений понятно, что, чем ближе модель к истинной, тем больше должна быть эта величина. Функция правдоподобия является логарифмом этой величины. Можно также показать, что если среди множества моделей есть истинная, то максимум

Пусть мы имеем выборку из наблюдений , которую мы считаем реализацией -мерной случайной величины, для которой известное вероятностное распределение зависит от неизвестного параметра . Вектор мы используем для обозначения общего множества параметров, и, в частности, он может относиться к параметрам модели АРПСС.

До того как появились данные, связывает плотность вероятности с каждым конкретным выходом эксперимента для фиксированного . После того как данные появились, наступает момент для рассмотрения различных возможных значений , которые могли бы привести к заданному множеству фактически полученных наблюдений. Для этих целей подходит функция правдоподобия , которая имеет ту же форму, что и , но в которой теперь зафиксировано, а переменные. Обычно важны только относительные значения , и поэтому функцию правдоподобия часто считают содержащей произвольную мультипликативную константу.

Часто удобнее работать с логарифмической функцией правдоподобия, содержащей произвольную аддитивную константу. Одна из причин, по которым функция правдоподобия имеет фундаментальное значение в теории оценивания, связана с «принципом правдоподобия», выдвинутым с разных позиций Фишером , Бернаром и Бирнбаумом . Этот принцип гласит (при условии правильности предполагаемой модели): все, что данные могут сказать о параметрах модели, содержится в функции правдоподобия, а все другие аспекты данных не имеют отношения к делу. При байесовском подходе функция правдоподобия также важна, так как она является той компонентой апостериорного распределения параметров, которая зависит от данных.

Для полного понимания ситуации с оцениванием необходимо проделать подробное аналитическое и графическое изучение функции правдоподобия; в байесовском подходе мы должны изучить апостериорное распределение параметров, которое в рассматриваемых ситуациях определяется в основном правдоподобием. Во многих примерах с выборками средних и больших размеров логарифмическая функция правдоподобия унимодальна и в достаточно большой окрестности максимума может быть аппроксимирована квадратичной функцией. Значения параметров, максимизирующие функцию правдоподобия или, что эквивалентно, логарифмическую функцию правдоподобия, называются оценками максимального правдоподобия (МП).

Вторые производные логарифмической функции правдоподобия дают меру «растянутости» функции правдоподобия и могут использоваться для вычисления приближенных стандартных ошибок оценок. Предельные свойства оценок максимального правдоподобия обычно доказываются для независимых наблюдений . Но, как показано Уиттлом , они могут быть обобщены на стационарные временные ряды.

В последующем изложении мы будем исходить из того, что читатель знаком с некоторыми фундаментальными понятиями теории оценивания. Приложения П7.1 и П7.2 содержат сводки наиболее существенных результатов теории нормального распределения и линейного метода наименьших квадратов, необходимых в этой главе. Некоторые из важных предшествующих работ по оценке параметров моделей временных рядов можно найти в .



Поделиться