Tables of Contents for Pattern Classification

ISBN.nu

search for books and compare prices

Chapter/Section Title

Page #

Page Count

Preface

xvii

Introduction

Machine Perception

An Example

Related Fields

Pattern Recognition Systems

Sensing

Segmentation and Grouping

Feature Extraction

Classification

Post Processing

The Design Cycle

Data Collection

Feature Choice

Model Choice

Training

Evaluation

Computational Complexity

Learning and Adaptation

Supervised Learning

Unsupervised Learning

Reinforcement Learning

Conclusion

Summary by chapters

Bibliographical and Historical Remarks

Bibliography

Bayesian Decision Theory

Introduction

Bayesian Decison Theory---Continuous Features

Two-Category Classification

Minimum-error-Rate Classification

Minimax Criterion

Neyman-Pearson Criterion

Classifiers, Discriminant Functions, and Decision Surfaces

The Multicategory Case

The Two-Category Case

The Normal Density

Univariate Density

Multivariate Density

Discriminant Functions for the Normal Density

Case 1: Σi = σ2I

Case 2: Σi = Σ

Case 3: Σi = arbitrary

Decision Regions for Two-Dimensional Gaussian Date

Error Probabilities and Integrals

Error Bounds for Normal Densities

Chernoff Bound

Bhattacharyya Bound

Error Bounds for Gaussian Distribution

Signal Detection Theory and Operating Characteristics

Bayes Decision Theory---Discrete Features

Independent Binary Features

Bayesian Decisions for Three-Dimensional Binary Data

Missing and Noisy Features

Missing Features

Noisy Features

Bayesian Belief Network

Belief Network for Fish

Compound Bayesian Decision Theory and Context

Summary

Bibliographical and Historical Remarks

Problems

Computer exercises

Bibliography

Maximum-Likelihood and Bayesian Parameter Estimation

Introduction

Maximum-Likelihood Estimation

The General Principle

The Gaussian Case: Unknown μ

The Gaussian Case: Unknown μ and Σ

Bias

Bayesian Estimation

The Class-Conditional Densities

The Parameter Distribution

Bayesian Parameter Estimation: Gaussian Case

The Univariate Case: p(μ\D)

The Univariate Case: p(x\D)

The Multivariate Case

Bayesian Parameter Estimation: General Theory

Recursive Bayes Learning

When Do Maximum-Likelihood and bayes Methods Differ?

100

Noninformative Priors and Invariance

101

Gibbs Algorithm

102

Sufficient Statistics

102

Sufficient Statistics and the Exponential Family

106

Problems of Dimensionality

107

Accuracy Dimension and Training Sample Size

107

Computational Complexity

111

Overfitting

113

Component Analysis and Discriminants

114

Principal Component Analysis (PCA)

115

Fisher Linear Discriminant

117

Multiple Discriminant Analysis

121

Expectation-Maximization (EM)

124

Expectation-Maximization for a 2D Normal Model

126

Hidden Markov Models

128

First-Order Markov Models

128

First-Order Hidden Markov Models

129

Hidden Markov Model Computation

129

Evaluation

131

Hidden Markov Model

133

Decoding

135

HMM Decoding

136

Learning

137

Summary

139

Bibliographical and Historical Remarks

139

Problems

140

Computer exercises

155

Bibliography

159

Nonparametric Techniques

161

Introduction

161

Density Estimation

161

Parzen Windows

164

Convergence of the Mean

167

Convergence of the Variance

167

Illustrations

168

Classification Example

168

Probabilistic Neural Networks (PNNs)

172

Choosing the Window Function

174

kn-Nearest-Neighbor Estimation

174

kn-Nearest-Neighbor and Parzen-Window Estimation

176

Estimation of A Posteriori Probabilities

177

The Nearest-Neighbor Rule

177

Convergence of the Nearest Neighbor

179

Error Rate for the Nearest-Neighbor Rule

180

Error Bounds

180

The k-Nearest-Neighbor Rule

182

Computational Complexity of the k-Nearest-Neighbor Rule

184

Metrics and Nearest-Neighbor Classification

187

Properties of Metrics

187

Tangent Distance

188

Fuzzy Classification

192

Reduced Coulomb Energy Networks

195

Approximations by Series Expansions

197

Summary

199

Bibliographical and Historical Remarks

200

Problems

201

Computer exercises

209

Bibliography

213

Linear Discriminant Functions

215

Introduction

215

Linear Discriminant Functions and Decision Surfaces

216

The Two-Category Case

216

The Multicategory Case

218

Generalized Linear Discriminant Functions

219

The Two-Category Linearly Separable Case

223

Geometry and Terminology

224

Gradient Descent Procedures

224

Minimizing the Perceptron Criterion Function

227

The Perceptron Criterion Function

227

Convergence Proof for Single-Sample Correction

229

Some Direct Generalizations

232

Relaxation Procedures

235

The Descent Algorithm

235

Convergence Proof

237

Nonseparable Behavior

238

Minimum Squared-Error Procedures

239

Minimum Squared-Error and the Pseudoinverse

240

Constructing a Linear Classifier by Matrix Pseudoinverse

241

Relation to Fisher's Linear Discriminant

242

Asymptotic Approximation to an Optimal Discriminant

243

The Widrow-Hoff or LMS Procedure

245

Stochastic Approximation Methods

246

The Ho-Kashyap Procedures

249

The Descent Procedure

250

Convergence Proof

251

Nonseparable Behavior

253

Some Related Procedures

253

Linear Programming Algorithms

256

Linear Programming

256

The Linearly Separable Case

257

Minimizing the Perceptron Criterion Function

258

Support Vector Machines

259

SVM Training

263

SVM for the XOR Problem

264

Multicategory Generalizations

265

Kesler's Construction

266

Convergence of the Fixed-Increment Rule

266

Generalizations for MSE Procedures

268

Summary

269

Bibliographical and Historical Remarks

270

Problems

271

Computer exercises

278

Bibliography

281

Multilayer Neural Networks

282

Introduction

282

Feedforward Operation and Classification

284

General Feedforward Operation

286

Expressive Power of Multilayer Networks

287

Backpropagation Algorithm

288

Network Learning

289

Training Protocols

293

Learning Curves

295

Error Surfaces

296

Some Small Networks

296

The Exclusive-OR (XOR)

298

Larger Networks

298

How Important Are Multiple Minima?

299

Backpropagation as Feature Mapping

299

Representations at the Hidden Layer-Weights

302

Backpropagation, Bayes Theory and Probability

303

Bayes Discriminants and Neural Networks

303

Outputs as Probabilities

304

Related Statistical Techniques

305

Practical Techniques for Improving Backpropagation

306

Activation Function

307

parameters for the Sigmoid

308

Scaling Input

308

Target Values

309

Training with Noise

310

Manufacturing Data

310

Number of Hidden Units

310

Initializing Weights

311

Learning Rates

312

Momentum

313

Weight Decay

314

Hints

315

On-Line, Stochastic or Batch Training?

316

Stopped Training

316

Number of Hidden Layers

317

Criterion Function

318

Second-Order Methods

318

Hessian Matrix

318

Newton's Method

319

Quickprop

320

Conjugate Gradient Descent

321

Conjugate Gradient Descent

322

Additional Networks and Training Methods

324

Radial Basis Function Networks (RBFs)

324

Special Bases

325

Matched Filters

325

Convolutional Networks

326

Recurrent Networks

328

Cascade-Correlation

329

Regularization, Complexity Adjustment and Pruning

330

Summary

333

Bibliographical and Historical Remarks

333

Problems

335

Computer exercises

343

Bibliography

347

Stochastic Methods

350

Introduction

350

Stochastic Search

351

Simulated Annealing

351

The Boltzmann Factor

352

Deterministic Simulated Annealing

357

Boltzmann Learning

360

Stochastic Boltzmann Learning of Visible States

360

Missing Features and Category Constraints

365

Deterministic Boltzmann Learning

366

Initialization and Setting Parameters

367

Boltzmann Networks and Graphical Models

370

Other Graphical Models

372

Evolutionary Methods

373

Genetic Algorithms

373

Further Heuristics

377

Why Do They Work?

378

Genetic Programming

378

Summary

381

Bibliographical and Historical Remarks

381

Problems

383

Computer exercises

388

Bibliography

391

Nonmetric Methods

394

Introduction

394

Decision Trees

395

CART

396

Number of Splits

397

Query Selection and Node Impurity

398

When to Stop Splitting

402

Pruning

403

Assignment of Leaf Node Labels

404

A Simple Tree

404

Computational Complexity

406

Feature Choice

407

Multivariate Decision Trees

408

Priors and Costs

409

Missing Attributes

409

Surrogate Splits and Missing Attributes

410

Other Tree Methods

411

ID3

411

C4.5

411

Which Tree Classifier Is Best?

412

Recognition with Strings

413

String Matching

415

Edit Distance

418

Computational Complexity

420

String Matching with Errors

420

String Matching with the ``Don't-Care'' Symbol

421

Grammatical Methods

421

Grammars

422

Types of String Grammars

424

A Grammar for Pronouncing Numbers

425

Recognition Using Grammars

426

Grammatical Inference

429

Grammatical Inference

431

Rule-Based Methods

431

Learning Rules

433

Summary

434

Bibliographical and Historical Remarks

435

Problems

437

Computer exercises

446

Bibliography

450

Algorithm-Independent Machine Learning

453

Introduction

453

Lack of Inherent Superiority of Any Classifier

454

No Free Lunch Theorem

454

No Free Lunch for Binary Data

457

Ugly Duckling Theorem

458

Minimum Description Length (MDL)

461

Minimum Description Length Principle

463

Overfitting Avoidance and Occam's Razor

464

Bias and Variance

465

Bias and Variance for Regression

466

Bias and Variance for Classification

468

Resampling for Estimating Statistics

471

Jackknife

472

Jackknife Estimate of Bias and Variance of the Mode

473

Bootstrap

474

Resampling for Classifier Design

475

Bagging

475

Boosting

476

Learning with Queries

480

Arcing, Learning with Queries, Bias and Variance

482

Estimating and Comparing Classifiers

482

Parametric Models

483

Cross-Validation

483

Jackknife and Bootstrap Estimation of Classification Accuracy

485

Maximum-Likelihood Model Comparison

486

Bayesian Model Comparison

487

The Problem-Average Error Rate

489

Predicting Final Performance from Learning Curves

492

The Capacity of a Separating Plane

494

Combining Classifiers

495

Component Classifiers with Discriminant Functions

496

Component Classifiers without Discriminant Functions

498

Summary

499

Bibliographical and Historical Remarks

500

Problems

502

Computer exercises

508

Bibliography

513

Unsupervised Learning and Clustering

517

Introduction

517

Mixture Densities and Identifiability

518

Maximum-Likelihood Estimates

519

Application to Normal Mixtures

521

Case 1: Unknown Mean Vectors

522

Case 2: All Parameters Unknown

524

k-Means Clustering

526

Fuzzy k-Means Clustering

528

Unsupervised Bayesian Learning

530

The Bayes Classifier

530

Learning the Parameter Vector

531

Unsupervised Learning of Gaussian Data

534

Decision-Directed Approximation

536

Data Description and Clustering

537

Similarity Measures

538

Criterion Functions for Clustering

542

The Sum-of-Squared-Error Criterion

542

Related Minimum Variance Criteria

543

Scatter Criteria

544

Clustering Criteria

546

Iterative Optimization

548

Hierarchical Clustering

550

Definitions

551

Agglomerative Hierarchical Clustering

552

Stepwise-Optimal Hierarchical Clustering

555

Hierarchical Clustering and Induced Metrics

556

The Problem of Validity

557

On-line clustering

559

Unknown Number of Clusters

561

Adaptive Resonance

563

Learning with a Critic

565

Graph-Theoretic Methods

566

Component Analysis

568

Principal Component Analysis (PCA)

568

Nonlinear Component Analysis (NLCA)

569

Independent Component Analysis (ICA)

570

Low-Dimensional Representations and Multidimensional Scaling (MDS)

573

Self-Organizing Feature Maps

576

Clustering and Dimensionality Reduction

580

Summary

581

Bibliographical and Historical Remarks

582

Problems

583

Computer exercises

593

Bibliography

598

A MATHEMATICAL FOUNDATIONS

601

A.1 Notation

601

A.2 Linear Algebra

604

A.2.1 Notation and Preliminaries

604

A.2.2 Inner Product

605

A.2.3 Outer Product

606

A.2.4 Derivatives of Matrices

606

A.2.5 Determinant and Trace

608

A.2.6 Matrix Inversion

609

A.2.7 Eigenvectors and Eigenvalues

609

A.3 Lagrange Optimization

610

A.4 Probability Theory

611

A.4.1 Discrete Random Variables

611

A.4.2 Expected Values

611

A.4.3 Pairs of Discrete Random Variables

612

A.4.4 Statistical Independence

613

A.4.5 Expected Values of Functions of Two Variables

613

A.4.6 Conditional Probability

614

A.4.7 The Law of Total Probability and Bayes' Rule

615

A.4.8 Vector Random Variables

616

A.4.9 Expectations, Mean Vectors and Covariance Matrices

617

A.4.10 Continuous Random Variables

618

A.4.11 Distributions of Sums of Independent Random Variables

620

A.4.12 Normal Distributions

621

A.5 Gaussian Derivatives and Integrals

623

A.5.1 Multivariate Normal Densities

624

A.5.2 Bivariate Normal Densities

626

A.6 Hypothesis Testing

628

A.6.1 Chi-Squared Test

629

A.7 Information Theory

630

A.7.1 Entropy and Information

630

A.7.2 Relative Entropy

632

A.7.3 Mutual Information

632

A.8 Computational Complexity

633

Bibliography

635

Index

637